Computer haben keine Ahnung
(Rubrik: Informationswissenschaftliches)
Computer sind doof. Ziemlich doof. Die speichern alle Texte, die wir ihnen eingeben, und haben keine Ahnung, worum es überhaupt geht.
Nur weil ein Wort in einem Text auftaucht, heisst es noch lange nicht, daß er auch davon handelt. Bestes Beispiel dafür sind PR-Texte, an deren Ende die Adresse der verbreitenden Agentur samt Ort steht. Eine Volltextsuche nach z.B. "Hamburg" würde einen entsprechenden Artikel mit dem Ort der verfassenden Agentur anzeigen, obwohl er inhaltlich gar nichts damit zu tun hat.
Wie also sorgt man dafür, daß ein Text trotzdem gefunden werden kann? Lange vor den uns bekannten Internetsuchmaschinen wurde bereits an vollautomatischer Indexierung gearbeitet, damit der Computer auch "weiß" wovon ein Text handelt, und bei einer Suche nur passende Treffer liefert.
Hat aber damals nicht geklappt, weil die Rechner zu schwach waren und die menschliche Sprache einfach immer noch zu komplex ist. Also haben weiterhin Menschen festgelegt, welches Schlagworte (Tags) den jeweiligen Artikeln zugeteilt werden sollen. Übriggeblieben vom vollautomatischen Ansatz ist aber die computergestützte Indexierung beliebiger Texte auf Basis einer Volltextanalyse. Dabei werden nicht nur einfach Wörter gezählt, sondern auch im Kontext ausgewertet. Da menschliche Sprache sehr vielfältig ist, sind die bisherigen Ansätze immer nur Hilfsmittel für den menschlichen Indexierer, der letzlich die Entscheidung trifft, welche Wörter dem jeweiligen Text zugeteilt werden. Noch sind die Maschinen schlicht und einfach zu untauglich dafür.
Und wozu erzähle ich das ganze? Bin heute in einem Beitrag bei MFL über das Projekt "tagthe.net" gestolpert, welches im Kern genau diese maschinelle Unterstützung nun auch außerhalb professioneller Anwenderkreise wie Dokumentationstellen und Archiven experimentell bereitstellt.
Man gibt einfach einen Text ein, und das System schlägt Tags vor, die es aufgrund seiner Analyse und einem Abgleich mit Wörterbüchern und ähnlichem identifiziert hat. Dabei kann es diese sogar teilweise kategorisieren nach Orten, Inhalten usw.
Ich habe "tagthe.net" mal an meinem Beitrag "Office-Äffchen" ausprobiert mit folgenden Resultaten:
topic
Informatik Wieder Person Zeit Pflichtfach Schule Unterricht Äffchen Wortschöpfung Schulung
language
german
Was mir förmlich ins Auge sprang, war das Fehlen des Wortes "Office", welches drei Mal in meinem Beitrag vorkommt. Zwar sind die Sprachen Deutsch und Englisch möglich, aber gemischtsprachliche Texte mag das System wohl noch nicht. Ansonsten werden zuviele sehr allgemeine Begriffe angeboten, die entweder zu wenig relevant sind oder zu speziell zum Taggen des Artikels. Würde ich Tags vergeben, so wären es "Informatik", "Schule", "Microsoft Office", "Software". Nach meiner Ansicht liefert das System zwar schon taugliche Vorschläge, aber insgesamt noch zuviel nicht relevanten Ballast. Auf alle Fälle finde ich es gut, daß ein Tag-Vorschlagssystem in der Erprobung ist, auch wenn die Resultate noch sehr diskussionswürdig sind.
Twoday selbst hat darauf aufbauend ein scheinbar vollautomatisches Tagging der twoday-Blogs unter Twoday Tagview eingerichtet. Gemäß der dort sichtbaren Artikel- und Tag-Mengengerüste ist das ganze noch nicht auf das ganze Twoday-System ausgeweitet worden. Die dortigen Resultate kann ich noch nicht ganz beurteilen, da weder die genaue Methode noch eine Ergebnisdiskussion vorhanden ist.
Allerdings bin ich dort schon über inhaltlichen Quark gestolpert wie "h. von" (unter Namen), oder "nein" (unter "Letzte 3 Stunden"). Eine sogenannte Stopwortliste scheint also nicht vorhanden zu sein, genausowenig scheint es Regeln für die Ansetzung von mehrteiligen Namen zu geben.
Fazit: Ein Schritt in die richtige Richtung, aber erstmal nur ein Schritt. Nach meinem Verständnis ist das ganze noch in einem sehr frühen Stadium, was die Vorschlagsqualität angeht. Und die automatische Verschlagwortung zeigt deutliche Lücken, die es zu schließen gilt.
Nur weil ein Wort in einem Text auftaucht, heisst es noch lange nicht, daß er auch davon handelt. Bestes Beispiel dafür sind PR-Texte, an deren Ende die Adresse der verbreitenden Agentur samt Ort steht. Eine Volltextsuche nach z.B. "Hamburg" würde einen entsprechenden Artikel mit dem Ort der verfassenden Agentur anzeigen, obwohl er inhaltlich gar nichts damit zu tun hat.
Wie also sorgt man dafür, daß ein Text trotzdem gefunden werden kann? Lange vor den uns bekannten Internetsuchmaschinen wurde bereits an vollautomatischer Indexierung gearbeitet, damit der Computer auch "weiß" wovon ein Text handelt, und bei einer Suche nur passende Treffer liefert.
Hat aber damals nicht geklappt, weil die Rechner zu schwach waren und die menschliche Sprache einfach immer noch zu komplex ist. Also haben weiterhin Menschen festgelegt, welches Schlagworte (Tags) den jeweiligen Artikeln zugeteilt werden sollen. Übriggeblieben vom vollautomatischen Ansatz ist aber die computergestützte Indexierung beliebiger Texte auf Basis einer Volltextanalyse. Dabei werden nicht nur einfach Wörter gezählt, sondern auch im Kontext ausgewertet. Da menschliche Sprache sehr vielfältig ist, sind die bisherigen Ansätze immer nur Hilfsmittel für den menschlichen Indexierer, der letzlich die Entscheidung trifft, welche Wörter dem jeweiligen Text zugeteilt werden. Noch sind die Maschinen schlicht und einfach zu untauglich dafür.
Und wozu erzähle ich das ganze? Bin heute in einem Beitrag bei MFL über das Projekt "tagthe.net" gestolpert, welches im Kern genau diese maschinelle Unterstützung nun auch außerhalb professioneller Anwenderkreise wie Dokumentationstellen und Archiven experimentell bereitstellt.
Man gibt einfach einen Text ein, und das System schlägt Tags vor, die es aufgrund seiner Analyse und einem Abgleich mit Wörterbüchern und ähnlichem identifiziert hat. Dabei kann es diese sogar teilweise kategorisieren nach Orten, Inhalten usw.
Ich habe "tagthe.net" mal an meinem Beitrag "Office-Äffchen" ausprobiert mit folgenden Resultaten:
topic
Informatik Wieder Person Zeit Pflichtfach Schule Unterricht Äffchen Wortschöpfung Schulung
language
german
Was mir förmlich ins Auge sprang, war das Fehlen des Wortes "Office", welches drei Mal in meinem Beitrag vorkommt. Zwar sind die Sprachen Deutsch und Englisch möglich, aber gemischtsprachliche Texte mag das System wohl noch nicht. Ansonsten werden zuviele sehr allgemeine Begriffe angeboten, die entweder zu wenig relevant sind oder zu speziell zum Taggen des Artikels. Würde ich Tags vergeben, so wären es "Informatik", "Schule", "Microsoft Office", "Software". Nach meiner Ansicht liefert das System zwar schon taugliche Vorschläge, aber insgesamt noch zuviel nicht relevanten Ballast. Auf alle Fälle finde ich es gut, daß ein Tag-Vorschlagssystem in der Erprobung ist, auch wenn die Resultate noch sehr diskussionswürdig sind.
Twoday selbst hat darauf aufbauend ein scheinbar vollautomatisches Tagging der twoday-Blogs unter Twoday Tagview eingerichtet. Gemäß der dort sichtbaren Artikel- und Tag-Mengengerüste ist das ganze noch nicht auf das ganze Twoday-System ausgeweitet worden. Die dortigen Resultate kann ich noch nicht ganz beurteilen, da weder die genaue Methode noch eine Ergebnisdiskussion vorhanden ist.
Allerdings bin ich dort schon über inhaltlichen Quark gestolpert wie "h. von" (unter Namen), oder "nein" (unter "Letzte 3 Stunden"). Eine sogenannte Stopwortliste scheint also nicht vorhanden zu sein, genausowenig scheint es Regeln für die Ansetzung von mehrteiligen Namen zu geben.
Fazit: Ein Schritt in die richtige Richtung, aber erstmal nur ein Schritt. Nach meinem Verständnis ist das ganze noch in einem sehr frühen Stadium, was die Vorschlagsqualität angeht. Und die automatische Verschlagwortung zeigt deutliche Lücken, die es zu schließen gilt.
Macsico - So, 14. Mai 2006, 20:05 - in: Informationswissenschaftliches
0 Kommentare - Kommentar verfassen - 517 Artikelaufrufe


