Data mining在於從大量的資料中找出隱藏的、有用的、未曾被發現的資訊。
關於我接觸Data Mining的濫觴,在於拜讀R. Agrawal與R. Srikant的Fast Algorithms for Mining Association Rules。當時並不知道這篇論文對於Data Mining的影響力,它可是開啟後來十多年無數關連法則探勘相關研究的始祖,並被評選為Computer Science的Database相關研究領域中最具影響力的論文之一(著名的Entity Relationship Model, ER Model亦於榜中),在Google Scholar上,截至目前已被引用5493次!
之前看到一篇文章說,Assocaition Rule被提出來的背後是有一段故事的。1990年代初期,一間大型連鎖賣場的老闆向當時IBM資料處理的專家Rakesh Agrawal請教,說他們蒐集了大量的顧客購買行為的資料,想試著從中看出是否具有隱藏的商機,於是便開始了Agrawal團隊對關連法則的研究,最後於1993年誕生了Data Mining最經典的一篇論文。"We were not even sure we should send it, because we thought people might think it was too simple-minded," said Agrawal. 他當時並不知道這篇論文的影響力。
如上所述,關連法則(association rule)最開始在分析客戶所購買的商品(items)彼此間的關係,進而導出客戶購買行為的關連性。最廣為拿來舉例的,莫過於「尿布與啤酒」這條法則了!著名連鎖店Wal-Mart在應用association rule mining於顧客購物行為後,發現跟尿布一起購買最多的商品竟然是啤酒,後來透過市場調查才得知,原來美國的太太常叮嚀丈夫在下班前幫嬰兒買尿布,而40%的先生在買完尿布後,又會隨手拎兩罐啤酒,在各個賣店把啤酒和尿布擺在一起,結果尿布和啤酒的銷售量雙雙增加三成!
No comments:
Post a Comment