My List

Showing posts with label DataMining. Show all posts
Showing posts with label DataMining. Show all posts

Saturday, June 14, 2008

Association Rules

Data mining在於從大量的資料中找出隱藏的、有用的、未曾被發現的資訊。

關於我接觸Data Mining的濫觴,在於拜讀R. AgrawalR. SrikantFast Algorithms for Mining Association Rules。當時並不知道這篇論文對於Data Mining的影響力,它可是開啟後來十多年無數關連法則探勘相關研究的始祖,並被評選為Computer Science的Database相關研究領域中最具影響力的論文之一(著名的Entity Relationship Model, ER Model亦於榜中),在Google Scholar上,截至目前已被引用5493次!

之前看到一篇文章說,Assocaition Rule被提出來的背後是有一段故事的。1990年代初期,一間大型連鎖賣場的老闆向當時IBM資料處理的專家Rakesh Agrawal請教,說他們蒐集了大量的顧客購買行為的資料,想試著從中看出是否具有隱藏的商機,於是便開始了Agrawal團隊對關連法則的研究,最後於1993年誕生了Data Mining最經典的一篇論文。"We were not even sure we should send it, because we thought people might think it was too simple-minded," said Agrawal. 他當時並不知道這篇論文的影響力。

如上所述,關連法則(association rule)最開始在分析客戶所購買的商品(items)彼此間的關係,進而導出客戶購買行為的關連性。最廣為拿來舉例的,莫過於「尿布與啤酒」這條法則了!著名連鎖店Wal-Mart在應用association rule mining於顧客購物行為後,發現跟尿布一起購買最多的商品竟然是啤酒,後來透過市場調查才得知,原來美國的太太常叮嚀丈夫在下班前幫嬰兒買尿布,而40%的先生在買完尿布後,又會隨手拎兩罐啤酒,在各個賣店把啤酒和尿布擺在一起,結果尿布和啤酒的銷售量雙雙增加三成!