Odd's Blog: tagging

Showing posts with label tagging. Show all posts

Friday, November 30, 2007

Elastic Tag Maps

Tag cloud是最常用來表示一個resource來源的tags出現頻率，但它並不能呈現該resource所隱含的terms的結構，也就是它忽略了tags彼此間的關係(relation)，最直覺改進tag cloud這種缺點的作法或許是秀出指定的tag的同時也將與該tag相關的tags一併連結秀出來，如此該tags相關性(經常可能被同時使用)就顯而易見，對使用者而言，該resource的結構也就不言而喻了。

想說去找看看這個idea有沒有人做了(在找之前其實就覺得這麼直覺的東西應該有人把它做出來了吧XD)，果然.. Elastic Tag Maps用Flash實作了這個想法，當你滑鼠移到tag cloud上的某一個tag時，它會將與該tag相關的tags同時link起來秀了出來。此外，它也把tag's frequency的histogram畫了出來，相關的tags被點擊後，histogram會同時動態秀出對應的分佈。我在想，del.icio.us的tag prediction或許是用類似的概念做出來的吧~

不過，我覺得這個Elastic Tag Maps還可以進一步改進，譬如說，根據user的興趣在tags加上不同的顏色或明暗度，如該tag是不是最近常被使用的熱門tags，或者根據不同主題將tags作分群(clustering)，又或者tags彼此間的相關程度等等。不過直覺跟我說這應該還是有人做過了XD。

Monday, November 05, 2007

Tagging from System View

再來，整理一些關於目前網路上現有tagging應用的類別。大致上，tagging systems可以依據以下兩類來分析：(1)系統設計上的特色，以及(2)個人使用tag的動機與目的。此二者對於最後所有被annotated的tags可以傳達的意義、資訊如何在使用者間流動與互動、後來使用者tag的意願等都有舉足輕重的影響。這裡主要著重在系統設計上的一些介紹，從使用者的觀點下一篇再寫。

A. Tagging Rights
這或許是影響整個tagging system最大的部份，可再細分為三類：
self tagging: 使用者能夠tag他自己所製造的source，如Technorati。
free-for-all tagging: 任何人都可以tag任何source，如Yahoo! Podcasts。
permission-based tagging: 系統允許不同層級的tagging權限，如系統指定source給使用者tagging(如ESP Game)、使用者具體指明哪些人能夠做tagging(如Flickr: friends, family, contact distinctions)。相對地，系統也可以決定讓哪些人能刪除已標註的tags：任何人都可以刪除tags(如Odeo)，只有創造該tag的人能夠刪除它(如Last.fm)，或者只有source的擁有者能夠刪除(如Flickr)。
由此看來，selg tagging明顯是較能夠採集到更廣泛的tags，也就是同樣一個tag所代表的涵義可能會隨著下tag的人的族群或類型而不同。

B. Tagging Support
tagging的機制對整個tagging系統所呈現的行為也有影響很大。大致可分為三類：
blind tagging: 使用者無法看到其他人對相同source下了哪些tags，如del.icio.us。
viewable tagging: 針對同一source，使用者看得到已經被下過的tags，如Yahoo! Podcasts, mybloglog。不過，此種tagging方式將可能使特定的source被overweighting。
suggestive tagging: 使用這下tags時，系統會自動建議相關的tags，如Yahoo! MyWeb2.0, del.icio.us。
其中suggestive tagging的方式有助於使tagging system趨向於folksonomy，也就是協助整合(或收斂)針對特定source的tags usage。

Folksonomy「群眾分類法」是Thomas Vander Wal所創，由folks與taxonomy所組成，指個人運用自由定義關鍵字的協同分類，其形成通常必須滿足以下幾個特性:

a. 資料量龐大時: 在使用者沒有training任何依據來分類的情況下，下關鍵字或定義必定存在盲點或發生錯誤，但若資料量龐大且具重複性時，相同內容可能被許多不同關鍵字標註，其搜尋結果反而能趨近涵蓋各個面向。

b. 適用非學術/非精確/非嚴謹的領域: 若是特定的專門領域，肯定會存在許多相當嚴謹且精確的術語來對某一概念或事件做描述，但對普羅大眾而言這是難以達到的。

c. 配合indexing使用: 不管用哪一種index方法所做成的系統都得結合關鍵字，以達到關聯分析，譬如某些關鍵字與哪些關鍵字時常同時被標註，如此才能提供使用者較為完整的資訊。

其實社會科學領域早已對"Folk Classifications"(非專業人員如何進行分類)，做了相當程度的研究。可以參考Harold Conklin的《Folk Classification: A Topically Arranged Bibliography of Contemporary and Background References Through 1971》(1972, Amazon)。
而且Folksonomy與圖書資訊學中的「分面分類法」(Faceted Classification)是沒有直接關係的。

C. Aggregation
所指的是對同一source，其tags使用的重複性(multiplicity)，即是否允許不同使用者下相同的tags。
bag model: 允許不同使用者對特定source下相同的tags，如del.icio.us。
set model: 針對同一source，即使是不同使用者下tags，也不允許重複的tags出現，系統會自動將相同的tags識別為單一tags，或要求使用者不能下已標註的tags，如YouTube, Flickr。
對於使用bag model的tagging systems，必須要有能力以統計的方式將特定source、不同使用者集體下的tags呈現出來，如del.icio.us的popular link。甚至要進而能夠從這些被不同使用者下的相同tags中找出sources, tags, users間彼此的關係。

D. Type of Source
被tagged的source的類型也是tagging system所必須考量的，而廣泛來說，目前tagged source不外乎webpages(del.icio.us), bibliographic material(CiteULike), blog posts(Technorati, LiveJournal), images(Flickr, ESP Game), users(LiveJournal), Video(YouTube), audio objects such as songs(Last.fm), podcasts(Yahoo! Podcasts, Odeo), physical locations or events(Upcoming).
當然，針對不同類型的sources，被下的tags的用語與意義也就大不相同了，不過因此也衍生出multimodality correlation的研究議題，也就是能否針對同一tags名稱找出不同type的source彼此間的關係，譬如替multimedia analysis提供了許多現成的training data。

E. Source of Material
Source的來源是由誰來提供呢？是普羅users嗎(如Flickr, YouTube, Technorati, Upcoming)？還是系統提供呢(如ESP Game, Last.fm, Yahoo Podcasts)？甚至，來源是整個web的任何東西哩(如del.icio.us, Yahoo! MyWeb2.0)！

F. Resource Connectivity
在tagging system中sources彼此間是否存在隱含的關係呢？答案是肯定的。在此先不談理所當然地由tags建立起的sources的關係。Sources可以由直接的hyperlinks建立關聯(如webpage)、根據系統區分或使用者指定的group來串聯、藉由相同或接近的時間、地點、立場來建立事件的關連(如Upcoming)。這些不同關聯方式的背後隱含的是，相同關連下的sources，他們的tags很有可能類似，甚至相同，尤其在suggestive tagging與viewable的系統中。

G. Social Connectivity
上面講的關連是針對sources，那麼users彼此間的關係又如何呢？在有些提供social network service(SNS)的tagging system中，會根據使用者的興趣、所在地、教育背景、職業等等來協助建立彼此的關連、或以對稱(symmetric, know each other)或非對稱(asymmetric, A know B, B doesn't know A)的方式(如Flickr就未必是symmetric的)，讓使用者間有機會形成社群，或者說是localized folksonomies。

後記：挫賽... 明天要MMAI期中考，我竟然還在寫這個 = =+

Saturday, November 03, 2007

Tag Visualization and TagOrbitals

Web2.0當紅，social tagging也是其中一環。在目前許多tagging system，一個source可以以一個以上的關鍵字來當作它的tag，也就是這個source可以從許多不同的面向來替它分類。然而，當我們的source種類很多、或者數量很大時，tag的數目隨之成長，甚至類別可能變得相當繁雜。Tag visualization的議題正是由此誕生的，目的是嘗試找出較為人性化的indexing呈現方式，協助個人化管理與搜尋。

傳統呈現關鍵字或類別的方式是階層式的(hierachical)，而web2.0打破這種固定結構化的呈現方式，轉為比較自由的形式。最廣為人知的標籤視覺化有兩種，一種是以graph，或者稱做network的方式，如下圖所示；

另一種是"TagCloud"(標籤雲)，Tag Cloud將使用者所標註的tag以特定的方式排序（通常為字母順序），同時每個tag會根據被使用的頻率而有字體大小的差別，如下圖所示。目前許多Social media網站都使用了Tag Cloud，如Technorati, Flickr, del.icio.us。使用Tag Cloud的好處是輕巧簡潔，然而，這種優點卻是犧牲了一些重要的資訊而換得的，也就是它忽略了tag與tag之間隱含的關係。

最近在survey關於tagging的研究時，發現了一種新的tag visualization方式—TagOrbitals。它是IBM Research的Bernard Kerr在SIGGRAPH 2006 Sketches提出來的。TagOrbitals與TagCloud的呈現概念背道而馳，它犧牲了簡潔輕巧來換取tags之間關係的資訊。TagOrbitals的視覺化呈現如下圖。

由上圖可以很清楚地看到它的結構，是將每個tag放在一個類似原子的中心（也就是原子核的位置），原子核的外面有許多能階軌道(obrits or bands)，跟中心tag相關的所有tags會依據和中心tag共同被標註的頻率來分配所在的軌道，共同出現的次數愈高，愈有可能被放在接近中心tag的軌道，如此便可看出那些tag較常被標註在同一群，tag在語意上的階層種類也一目了然。另一方面，被標註的source的title也同時秀在這個原子結構中，如下圖所示，title會被垂直地放在由內而外所屬的標籤旁，因此有哪些sources是被相同tags所標註的也就得知了。

最後，每一個tag都會有自己的原子結構，tag名稱放在原子中心，而各原子tag的名稱大小也根據出現次數多寡來決定，同時所有tags都是由左下角如泡泡般地生長出來的，如下圖所示。

My List