Odd's Blog: Association Rules

Data mining在於從大量的資料中找出隱藏的、有用的、未曾被發現的資訊。

關於我接觸Data Mining的濫觴，在於拜讀R. Agrawal與R. Srikant的Fast Algorithms for Mining Association Rules。當時並不知道這篇論文對於Data Mining的影響力，它可是開啟後來十多年無數關連法則探勘相關研究的始祖，並被評選為Computer Science的Database相關研究領域中最具影響力的論文之一(著名的Entity Relationship Model, ER Model亦於榜中)，在Google Scholar上，截至目前已被引用5493次！

之前看到一篇文章說，Assocaition Rule被提出來的背後是有一段故事的。1990年代初期，一間大型連鎖賣場的老闆向當時IBM資料處理的專家Rakesh Agrawal請教，說他們蒐集了大量的顧客購買行為的資料，想試著從中看出是否具有隱藏的商機，於是便開始了Agrawal團隊對關連法則的研究，最後於1993年誕生了Data Mining最經典的一篇論文。"We were not even sure we should send it, because we thought people might think it was too simple-minded," said Agrawal. 他當時並不知道這篇論文的影響力。

如上所述，關連法則(association rule)最開始在分析客戶所購買的商品(items)彼此間的關係，進而導出客戶購買行為的關連性。最廣為拿來舉例的，莫過於「尿布與啤酒」這條法則了！著名連鎖店Wal-Mart在應用association rule mining於顧客購物行為後，發現跟尿布一起購買最多的商品竟然是啤酒，後來透過市場調查才得知，原來美國的太太常叮嚀丈夫在下班前幫嬰兒買尿布，而40%的先生在買完尿布後，又會隨手拎兩罐啤酒，在各個賣店把啤酒和尿布擺在一起，結果尿布和啤酒的銷售量雙雙增加三成！

Odd's Blog

My List

Saturday, June 14, 2008

Association Rules

No comments:

Post a Comment