TheTarPit : meta utopia?

meta utopia?

W komentarzach do poprzedniego wpisu pojawiły się dwie interesujące opinie (#8, #9), które zasługują na szerszą odpowiedź...

Oba wspomniane komentarze podważają sens publikowania metadanych z powodu naturalnych ułomności ludzi, którzy te metadane będą produkować. Ja się oczywiście zgadzam, że ludzie są w kwestii podawania prawdy tak samo beznadziejni jak w systematyczności. Jednak opisywana przez Dr Lex'a meta utopia opiera się wg mnie na dwóch założeniach, które skazują ją na klęskę:

istnienie ustalonego słownika metadanych, np. via DTD,
poleganie wyłącznie na dobrych intencjach autora (meta)danych.

Jednak moje marzenie o wyszukiwarce nie opierało się jedynie na rozpowszechnieniu metadanych, lecz na wykorzystaniu Sieci Semantycznej. A w niej oba powyższe założenia z definicji nie istnieją.

jedynie słusznym słownikom mówimy nie

Wiadomo nie od dziś, że ustalony „standard” opisu danych w jakiejś dziedzinie wbrew pozorom nie ułatwia, lecz utrudnia tworzenie dokumentów. Ludzie są na takie rzeczy faktycznie zbyt leniwi i jedynie fanatycy z zacięciem, nazwijmy ich „bibliotekarze”, uzupełniają skrupulatnie wszystkie informacje choćby i dla samej perwersyjnej przyjemności utrzymania porządku w danych. Większość tzw. „normalnych ludzi” się tak nie zachowuje — już raczej jak pisze Dr Lex: kłamią, są leniwi, nie są wykształceni i nie znają siebie. Wszystko prawda.

Jednak dokumenty przeznaczone dla Sieci Semantycznej to nie muszą być metadane w takim rozumieniu jak katalog biblioteczny. Dokument RDF nie posiada DTD. RDF jest grafem(!) dowolnych relacji między zasobami dowolnego rodzaju. Opis ontologii w OWL może zawierać zarówno opis klas obiektów oraz najróżniejszych relacji między nimi jak i opis konkretnych zasobów stanowiących realizację tych klas. W dowolnym momencie opis ten może być rozszerzony lub uściślony przez dowolny inny dokument, o którego istnieniu nie wiemy i wiedzieć nie musimy. Język RDF zapewnia, że dokumenty zapisane przy jego pomocy funkcjonują w świecie otwartym, co skutecznie wyklucza istnienie sztywnych słowników, do których koniecznie trzeba się dostosować.

nieuczciwym autorom mówimy nie

Problem kłamliwych danych jest chyba tak stary jak same dane. Przyznaję, że w tej chwili jest to problem niezupełnie rozwiązany, choć już może niedługo powstaną dla Sieci Semantycznej mechanizmy przekazywania zaufania do danych, ontologii i ich źródeł. Prace trwają ;-)

Myślę jednak, że warto od razu wskazać tutaj pewną bardzo istotną kwestię — wbrew pozorom nasuwająca się od razu analogia do spamu nie jest w przypadku Sieci Semantycznej uzasadniona. Spam (np. e-mail) zawierający kłamliwe informacje służy skłonieniu człowieka do podjęcia pewnych działań, których inaczej by nie podjął (np. do wejścia na stronę, na którą wchodzić nie chciał) w nadziei, że w ten sposób zainteresuje się ofertą spamera. Nadzieja taka opiera się tylko na fakcie ludzkiej ułomności jaką niewątpliwie jest niepohamowana ciekawość. Skłonienie agenta programowego szukającego konkretnej informacji aby porzucił swoje zadanie i zaczął się interesować nagle czymś zupełnie innym nie wydaje mi się szczególnie prawdopodobne.

A poza tym (a może przede wszystkim) — roboty Sieci Semantycznej nie będą opierać się jedynie na ciągach liter w jakichś słowach, lecz na ontologiach czyli wiedzy o danym zasobie. Można faktycznie stworzyć ontologię opisującą rzecz nieistniejącą czy generalnie w jakiś tam sposób kłamliwą, jednak zrobienie jej w sposób wyczerpujący, osadzenie w innych ontologiach dostępnych w Sieci tak, by nie była sprzeczna z „bardziej zaufanymi” źródłami i rozpropagowanie dostatecznie szeroko, aby była faktycznie używana przez agentów jest zadaniem zupełnie innego kalibru niż banalne wstawienie kłamliwych słów kluczowych w <meta name="keywords"> na stronie WWW. Jasne, że się da, ale to gruby szwindel, a nie banalne „wciskanie kitu” na co bezkarnie pozwalają dzisiejsze roboty...

pralkom mówimy tak

W tekście o meta utopii Dr Lex podaje całkiem trafiony przykład na wykorzystanie Sieci Semantycznej (choć może autor nie wiedział, że właśnie tak dobry przykład podaje? ;-)):

Mogą to być na przykład pralki. Zostaje ustalony wspólny słownik dla opisywania pralek: wielkość, pojemność, pobór energii, pobór wody, cena. Zostają utworzone odpowiednie bazy danych zasobów, które następnie są udostępnione w całości lub części robotom różnego rodzaju wyszukiwarek i innym bazom danych, tak by potencjalny klient mógł określić parametry pralki, której poszukuje i odpytać wiele różnych źródeł informacji jednocześnie by uzyskać obszerną listę dostępnych pralek, które spełniają kryteria wyszukiwania.

Faktycznie spełnienie takich wymagań powoduje, że wyszukiwanie informacji na temat pralki staje się banalne. I w Sieci Semantycznej to naprawdę będzie działać, ponieważ wymienione dalej przeszkody nie mają znaczenia:

Ludzie kłamią — nie szkodzi, informacje o danych konkretnej pralki to dane katalogowe publikowane przez producenta. Agenci SW pobierają dane o pralkach z serwerów producentów jako z najbardziej zaufanych źródeł.
Ludzie są leniwi — nie szkodzi, producentom pralek nie przeszkadza konieczność publikowania wszystkich danych katalogowych tak samo jak nie przeszkadza im nabijanie na pralkę tabliczki znamionowej. Ba, nawet mają taki obowiązek.
Ludzie nie są wykształceni — nie szkodzi, producenci pralek wiedza o nich wystarczająco dużo, nawet jeśli nie wiedzą nic o niczym innym. Klienci natomiast nie muszą się znać na pralkach w ogóle — parametry wyszukiwania nie muszą być im znane przed podjęciem szukania jak to się dzieje w dzisiejszej Sieci — agent podpowie na podstawie znanych sobie ontologii pralek jakie w ogóle rzeczy mogą być istotne i interesujące dla klienta.
Ludzie nie znają siebie — nie szkodzi, producenci znają swoje pralki, a potencjalni klienci potrafią określić czego chcą, zwłaszcza jeśli agent z punktu poprzedniego podpowie im czego w ogóle mogą chcieć.
Schematy nie są neutralne — nie szkodzi, producenci pralek mogą się dogadać co do używania jednej ustalonej ontologii, lecz nikt ich do tego nie zmusza. Pralki europejskie mogą być opisywane inaczej niż pralki amerykańskie, a zależności między dwoma różnymi ontologiami mogą być zapisane w dowolnym innym miejscu lub nawet mogą zostać wydedukowane przez agenta samodzielnie.

;-)

patrz również:

Szukajcie a znajdziecie?

2006.02.14 | 3 komentarze |

tagi » semantic web, teorie i przemyślenia

Komentarze

#1 | 2006.02.14 14:02 | Michał Kwiatkowski

Agenty SW pobierają dane o pralkach z serwerów producentów jako z najbardziej zaufanych źródeł.

Kto decyduje o tym które źródła są najbardziej zaufane? I w jaki sposób uniemożliwiamy komuś podszycie się pod producenta pralki? Zmuszanie użytkownika do tego, by wiedział z góry o tym, komu można ufać w danej kwestii mija się z celem całej SW. Zlecenie tego komuś do odgórnej decyzji (np. developerom wyszukiwarek) stwarza ryzyko nieobiektywności. Jeżeli zaś będziemy polegać wyłącznie na danych z sieci, to wrócimy do starego problemu spamu. Stworzenie setek stron opisujących i chwalących wyroby nieistniejącego producenta pralek, linkujących do siebie nawzajem, nie będzie niczym trudnym dla kogoś, kto chce tylko przyciągnąć do siebie internautę. Jeżeli istnieją roboty do przetwarzania tego typu danych, to powstaną również roboty takie dane generujące.

#2 | 2006.02.14 14:28 | MiMaS

Nie przeczę, że to jest problem. W ogóle z całą informacją w Internecie jest dokładnie taki sam problem. Ale jak mówiłem różne prace trwają. ;-) Kilka ciekawych sugestii można znaleźć np. tu.

#3 | 2006.03.10 11:41 | maciej

Piszesz: "Ludzie nie znają siebie — nie szkodzi, producenci znają swoje pralki, a potencjalni klienci potrafią określić czego chcą, zwłaszcza jeśli agent z punktu poprzedniego podpowie im czego w ogóle mogą chcieć.". Jest w tym pewna sprzecznośc, skoro ludzie nie znają siebie, to nie potrafią określić czego chcą, tzn. nie potrafią określić WPROST czego chcą. Jest to prawda często powtarzana przy okazji tematu MODELOWANIA UżYTKOWNIKA. Dlatego istnieje kilka mozliwości: a) albo agent zadaje pytania WPROST, b) albo OBSERWUJE wybory uzytkownika (implicit feedback) c) albo Bog-wie-co.

Uwaga: Ze względu na bardzo intensywną działalność spambotów komentowanie zostało wyłączone po 60 dniach od opublikowania wpisu. Jeżeli faktycznie chcesz jeszcze skomentować skorzystaj ze strony kontaktowej.