TheTarPit : Tagging

Tagging

Wczoraj na GUUUI natknąłem się na ciekawy raport dotyczący opisywania treści w Internecie przez użytkowników.

A December 2006 survey by the Pew Internet & American Life Project has found that 28% of internet users have tagged or categorized content online such as photos, news stories or blog posts. On a typical day online, 7% of internet users say they tag or categorize online content.
Lee Rainie, Pew Internet and American Life Project
tagging report

Chodzi oczywiście o wszędobylskie ostatnio „tagowanie” — linków na del.icio.us, zdjęć na Flickr, filmów na YouTube itd. itp. Wszystkie te serwisy mają swoje zastępy klonów i wszędzie fruwają tagi w każdym możliwym kierunku. Jednak nie o samym raporcie chciałem, a raczej o tym, co z tego wszystkiego może się przydać...

tłum taguje

Na zjawisko „tagowania” można spojrzeć niejako na kilku poziomach. Po pierwsze jego podstawowym celem jest oznaczanie informacji (a śmiało możemy użyć języka Sieci Semantycznej — zasobów) w sieci w sposób wygodny i zrozumiały dla samego użytkownika dokonującego takiego etykietowania. To ja nadaję konkretną etykietę w sposób zgodny z moim własnym wyobrażeniem i mając na celu moje własne korzyści przy późniejszej próbie odnalezienia tej informacji. To indywidualne, osobiste podejście do tego procesu jest bardzo ważne i stanowi podstawowy element decydujący o jego sukcesie i popularności. Jest też podstawowym źródłem problemów, ale o tym za chwilę.

Drugi aspekt „tagowania” związany jest z pojęciem folksonomii i zjawiskiem budowania kategorii „od dołu” — wyłaniania ich z „chmury tagów”. W kręgach zainteresowanych tworzeniem systemów kategoryzacji dyskusja o wyższości folksonomii nad hierarchiami ustalonymi od góry lub odwrotnie, trwa już od dawna i nie wydaje mi się, żeby kiedykolwiek ucichła. Istnieją zastosowania, w których podejście „od dołu” się sprawdza (np. zawartość tej strony może być teoretycznie otagowana na wiele różnych, równie dobrych sposobów) ale istnieją takie, w których jest to pomysł zupełnie do bani (np. taksonomia świata zwierzęcego ;-)).

tłum czasem wie lepiej

Fakt, że wielu użytkowników może etykietować te same zasoby sieci powoduje kilka ciekawych i wartych wykorzystania faktów. Przede wszystkim jednak zacząć trzeba od tego, że tworzony w ten sposób zestaw wartości może stanowić nie tylko dodatkowy ale często niemal jedyny opis zawartości danego zasobu czytelny dla maszyny. Ponieważ tagi są najczęściej skojarzone albo wręcz tożsame z linkami, stanowią one gotowe do wykorzystania identyfikatory URI. Stąd jednym płynnym ruchem przechodzę do opisu zasobów w Sieci Semantycznej, w postaci modelu RDF, gdzie sposób wykorzystania tych identyfikatorów może być różnoraki, choćby nawet w wyrażeniach z predykaem dc:subject jak np. robię z wpisami na niniejszym blogu^[1]. Pod tym linkiem można zobaczyć między innymi taki fragment:

<rdf:Description
 rdf:about="http://dezinformacja.org/tarpit/archiwum/tagging">
 <dc:subject
   rdf:resource="http://dezinformacja.org/tarpit/tag/semweb" />
 <dc:subject
   rdf:resource="http://dezinformacja.org/tarpit/tag/web2.0" />
 <dc:subject
   rdf:resource="http://dezinformacja.org/tarpit/tag/folksonomy" />
</rdf:Description>

Tutaj zastosowałem oczywiście identyfikatory stanowiące jednocześnie linki do stron archiwum dla poszczególnych tagów funkcjonujące jedynie w obrębie tego bloga, jednak zasada jest wszędzie ta sama. Program przetwarzający taki model RDF automatycznie i bez większego wysiłku dostaje informacje typu „zasób pod tym adresem jest na temat taki, taki i siaki” oraz, co może nawet ważniejsze, „na ten temat mówią również zasoby takie, takie i takie”. Gdyby opisywany przypadek nie dotyczył jedynie kilku tagów zdefiniowanych dla danego wpisu „na sztywno”, lecz funkcjonowałby tutaj system tagowania przez odwiedzających, to Ty powiedziałbyś owemu programowi na jaki Twoim zdaniem temat jest ten wpis.

Sytuacja taka rzeczywiście występuje już w Sieci — użytkownicy tagujący swoje bookmarki mówią programom korzystającym z API del.icio.us o czym właściwie są dane strony. Użytkownicy tagujący zdjęcia na flickrze mówią programom korzystającym z ich API co przedstawiają poszczególne zdjęcia. Itd., itp.

Co więcej liczba użytkowników etykietujących zasoby w serwisach tego typu powoduje, że nie tylko tagów jest wiele, ale przede wszystkim niektóre z nich pojawiają się więcej razy niż inne. Stosując liczbę identycznych tagowań jako prostą wagę możemy w banalny wręcz sposób doprowadzić do sytuacji, w której „tłum wie lepiej”. Skoro setki użytkowników zdecydowało, że dany zasób dotyczy pewnej tematyki, to widocznie tak jest. Skoro setki użytkowników zdecydowało, że dwa zasoby posiadają taki sam zestaw tagów, to widocznie dotyczą tego samego zjawiska, choćby nawet nic innego na to nie wskazywało. Skoro setki użytkowników w zbiorowym wysiłku tagowania wielu zasobów uznało, że większość zasobów oznaczonych pewnym tagiem t1 jest również oznaczona przez t2, ale nie odwrotnie — t2 praktycznie nie występuje bez t1, to widocznie t2 oznacza jakiś podzbiór lub szczególny przypadek t1. Itd, itp. — podstawowe mechanizmy powstawania folksonomii są proste...

A najciekawsze w tym wszystkim jest to, że powstaje w ten sposób „za darmo” opis, który może być całkiem trafny. Badania dowodzące rosnącej popularności tagowania wszelakiego pozwalają mi sądzić, że ten pomysł ma przed sobą przyszłość...

tłum czasem nie wie nic

Natomiast zapowiedziany problem z indywidualnością procesu tagowania jest dwojakiej natury:

po piewsze, każdy może stworzyć inny opis tego samego zasobu; ani lepszy, ani gorszy, po prostu inny,
po drugie, jeden człowiek może dokonać różnych opisów jednego zasobu w różnych momentach czasu, w zależności od swojego aktualnego stanu wiedzy, sposobu rozumowania, czy nawet humoru.

Słowem — nadawane etykiety oddają jedynie prywatne i chwilowe pojęcie ich autora na temat etykietowanego zasobu, jego zawartości i kontekstu. Zatem są dobre tylko w momencie trwania samego procesu tagowania, i to też dobre jedynie subiektywnie...

Przykładowo, poprzedni wpis na tym blogu, mimo iż oryginalnie został przeze mnie oznaczony jedynie tagiem accessibility śmiało mógłby być opisany jeszcze jako acesskey, keyboard, browsing itp. I to jeszcze jest ok, ponieważ poszerza to potencjalny opis ontologiczny tego zasobu. Gorzej, że mogłyby się pojawić również tagi opera, browser_wars, a nawet flame, które wypaczają moją pierwotną intencję i myśl na temat tego kawałka tekstu.

To powoduje całkiem uzasadnione obawy o to, że zastosowanie folksonomii w opisie zasobów może być obarczone tak dużym błędem, że przydatność tego opisu będzie żadna...

^[1] Więcej na temat tego co widać i dlaczego pod tym linkiem znajdziesz we wpisie Embedded RDF w blogu.

2007.02.02 | 5 komentarzy |

tagi » web2.0, folksonomy, semantic web

Komentarze

#1 | 2007.02.02 18:13 | losamorales

Jakim będem? Nie moge sie z tym zgodzić.

Tu nie chodzi o bląd tylko o różnice postrzegania. To tak jakbyś powiedział, że daltonista widzi blędnie bo nie widzi kolorów. Więcej - tak jak byś powiedział, że ktos kto potrafi nazwać więcej odcieni kolorów widzi lepiej od tego kto potrafi nazwać mniej takich odcieni. To nie jest kwestia błędu rozumianego jako przeciwieństwo obiektywnej prawdy bo taka obiektywna prawda po prostu nie istnieje - obiektywny kolor nie istnieje - kolor wynika z postrzegania - jest pewną jakością rozumianą jako ralacja między podmiotem a przedmiotem a nie częścią składową przedmiotu - już prędzej podmiotu (słowo-obraz, wywołane skojerzenia to elementy treści wąskiej [pojęcia używa J.Fodor]).

Człowiek postrzega inaczej a folksonomia wyróżnia uśrednione spostrzeżenia - rozkład normalany po prostu.

To są dość mętne tereny kognitywistyki.

#2 | 2007.02.02 22:16 | walth

Bardzo ciekawy wpis. Aczkolwiek tak jak napisał losamorales nie można powiedzieć, że ta różnorodność w postrzeganiu świata to błąd. Owszem, z pozycji wyszukiwarki może to być "błąd" ale dla mnie bardziej jest to pewnego rodzaju "szum", bo przecież wiadomo, że większość powtarzających się tagów dla danego zasobu będzie "prawidłowych" a "szum" trzeba chyba po prostu zignorować. No i trzeba by było rozróżnić tagi pisane przez pojedyncze osoby do określenia jakiś prywatnych zasobów (na przykład wpisy na blogu) a tagi tworzone przez wielu ludzi (de.ico.us na przykład). To, co w jednym przypadku jest zaletą bo tworzy obraz twórcy bloga w innym przypadku generuje "szum". Tak mi się wydaje przynajmniej, chyba, że teraz właśnie wygenerowałem kilka linijek "szumu"? :)

#3 | 2007.02.04 11:11 | MiMaS

Losamorales, przykład daltonizmu nie jest chyba dobry — daltonizm to obiektywnie rzecz biorąc jest choroba, a nie jedynie prywatny sposób postrzegania świata. Jakby było tak, jak mówisz, to problemy daltonistów z uzyskaniem prawa jazdy byłyby sprzeczne z prawami człowieka. Jakoś nie słyszałem, żeby ktoś o to walczył...

Natomiast zgadzam się, że opis stworzony na podstawie folksonomii ujawnia jak dany zasób jest rozumiany przez ogół i jako taki opis ten nie może być jednoznacznie nazwany nieprawdziwym. Ok.

Chodziło mi jednak o zagrożenie w postaci „tyranii większości” — większość tagujących, wpływając na kształt folksonomii decyduje o tym, co jest „prawdą”. Podobnie jak w przypadku demokracji, „prawda” ta nie musi być obiektywnym odbiciem rzeczywistości, tylko jest tym, co się większości ludzi wydaje. Faktycznie są to „dość mętne tereny kognitywistyki”, niemniej uważam, że słowo „błąd” nie jest tutaj bezzasadne...

Przy tworzeniu opisu ontologicznego zasobów na podstawie folksonomii trzeba by chyba wyraźnie zaznaczać: „ogół tworzący tę konkretną folksonomię twierdzi, że zasób dotyczy takich zagadnień jak...”. W przeciwieństwie do „autor tego zasobu twierdzi, że...” i np. „analiza treści zasobu metodami NLP ujawnia, że...”.

#4 | 2007.07.26 18:15 | Adam Brodziak

Widzę, że spieracie się o to, o czym filozofowie, zwłaszcza zajmujący się ontologią, spierają się od zarania dziejów.

Sprawa nie jest tak prosta, jak piszesz. Hierarchie stworzone przez człowieka nie są ostateczne i absolutne (w sensie poprawności, zakresu). Powstały na bazie ludzkich doświadczeń i badań. Można powiedzieć, że są dzieckiem cywilizacji, czy nauki. Weżmy na przykład taksonomię zwierząt. Do jakiej kategorii zakwalifikowałbyś dziobaka?

Oczywiście można go zakwalifikować do stokowców, posiadających dziób (jak ptak) i błonę pławną, oraz spłaszczony ogon (jak ryba, choć raczej ssak wodny), za to szkielet ma gadzi. Jednak nie jest to klasyfikacja, a opis zwierzęcia. By rozwiązać paradoks stworzono nową rodzinę - dziobakowate. O tym, czy takie rozszerznie hierarchii jest pożądane to temat na inną dyskusję.

Wszystko jest determinowane przez nasze zmysły i umysł. Pomidor jest(?) czerwony dlatego, że my tak go postrzegamy. Widzimy w paśmie światła widzialnego, a pomidor dzięki biochemicznej strukturze odbija światło czerwone. Czy to znaczy, że jest ona czerwony? W rozumieniu człowieka, a może raczej rasy ludzkiej, tak. Wszystko polega na tworzonej przez tysiące lat umowie. Taką samą umową jest język którym się posługujemy.

Co to ma wspólnego z tagami? Otóż użytkownicy nie klasyfikują, a opisują za pomocą tagów. Przynajmniej tak to powinno wyglądać i takie założenia AFAIR dla tagów były. Nieco później pojawiła się chęć użycia tego do klasyfikacji. I słusznie, gdyż ułatwia to zarządzanie zasobami. Należy jednak pamiętać, że folksonomia jest strukturą płaską, a wiciąganie wniosków jak to przytoczyłeś może być niebezpieczne.

Z drugiej strony podejrzwam, że niedługo tym aspektem zajmą się statystycy i matematycy. Mają, lub rozwijają, narzędzia które mogą pomóc w wyciąganiu takich wniosów. Mam tu na myśli narzędzi statystyki matematycznej, jak np. weryfikacja hipotez. Ciekawe jaki to będzie miało wpływ na CMSy.

Wracając jeszcze do tagów kontra sztywa hierarchia. Każda z góry narzucona hierarchia jest z góry skazana na przegraną. Folksonomia ma tą niebagatelna przewagę, że jest żywa. Ontologia też taka będzie, ale na razie nie zdajemy sobie z tego sprawy. Zgadzam się z Markiem Fawzim, że siła społeczności może być kluczowa: http://evolvingtrends.wordpress.com/2006/06/26/wikipedia-30-the-end-of-google/

Temat mnie interesuje, gdyż piszę pracę magisterską na temat sematycznego wyszukiwania. Właśnie skupiam się na analizie aktualnego stanu, czyli tagowania w Web 2.0. Jeśli pozwolisz, i promotor się zgodzi, chciałbym wykorzystać fragmenty bloga w pracy.

#5 | 2007.12.15 09:46 | stemo

Witam

Ciekawie Panowie piszecie...

Tak jak mój poprzednik zamierzam napisać pracę o folkonomii w odniesieniu do serwisów społecznościowych. Chciałbym też znaleźć powiązania folksonomii z metadanymi zawartymi w plikach zdjęć z racji tej że interesuję sie fotografią. Po krótce chce przedstawić historię, porównać z taksonomią o ile to możliwe
Temat ten będzie na prace licencjacką...

Prosiłbym Was o pomoc

gdzie i jak szukać... materiałów (oczywiście w j. angielskim)

Szczególnie zależy mi na kontakcie do Adama Brodziaka, mojego przedmówcy z racji tego, że ma podobny problem do omówienia w swojej pracy magisterskiej.

Także proszę o jakiś kontakt Adamie do Ciebie?

PS. z góry przepraszam za nieścisłości w terminologii ale dopiero wdrążam się w temat.

Uwaga: Ze względu na bardzo intensywną działalność spambotów komentowanie zostało wyłączone po 60 dniach od opublikowania wpisu. Jeżeli faktycznie chcesz jeszcze skomentować skorzystaj ze strony kontaktowej.