Informationswissenschaftliches

So
14
Mai
2006

Computer haben keine Ahnung
(Rubrik: Informationswissenschaftliches)

Computer sind doof. Ziemlich doof. Die speichern alle Texte, die wir ihnen eingeben, und haben keine Ahnung, worum es überhaupt geht.

Nur weil ein Wort in einem Text auftaucht, heisst es noch lange nicht, daß er auch davon handelt. Bestes Beispiel dafür sind PR-Texte, an deren Ende die Adresse der verbreitenden Agentur samt Ort steht. Eine Volltextsuche nach z.B. "Hamburg" würde einen entsprechenden Artikel mit dem Ort der verfassenden Agentur anzeigen, obwohl er inhaltlich gar nichts damit zu tun hat.

Wie also sorgt man dafür, daß ein Text trotzdem gefunden werden kann? Lange vor den uns bekannten Internetsuchmaschinen wurde bereits an vollautomatischer Indexierung gearbeitet, damit der Computer auch "weiß" wovon ein Text handelt, und bei einer Suche nur passende Treffer liefert.

Hat aber damals nicht geklappt, weil die Rechner zu schwach waren und die menschliche Sprache einfach immer noch zu komplex ist. Also haben weiterhin Menschen festgelegt, welches Schlagworte (Tags) den jeweiligen Artikeln zugeteilt werden sollen. Übriggeblieben vom vollautomatischen Ansatz ist aber die computergestützte Indexierung beliebiger Texte auf Basis einer Volltextanalyse. Dabei werden nicht nur einfach Wörter gezählt, sondern auch im Kontext ausgewertet. Da menschliche Sprache sehr vielfältig ist, sind die bisherigen Ansätze immer nur Hilfsmittel für den menschlichen Indexierer, der letzlich die Entscheidung trifft, welche Wörter dem jeweiligen Text zugeteilt werden. Noch sind die Maschinen schlicht und einfach zu untauglich dafür.

Und wozu erzähle ich das ganze? Bin heute in einem Beitrag bei MFL über das Projekt "tagthe.net" gestolpert, welches im Kern genau diese maschinelle Unterstützung nun auch außerhalb professioneller Anwenderkreise wie Dokumentationstellen und Archiven experimentell bereitstellt.

Man gibt einfach einen Text ein, und das System schlägt Tags vor, die es aufgrund seiner Analyse und einem Abgleich mit Wörterbüchern und ähnlichem identifiziert hat. Dabei kann es diese sogar teilweise kategorisieren nach Orten, Inhalten usw.

Ich habe "tagthe.net" mal an meinem Beitrag "Office-Äffchen" ausprobiert mit folgenden Resultaten:

topic
Informatik Wieder Person Zeit Pflichtfach Schule Unterricht Äffchen Wortschöpfung Schulung

language
german


Was mir förmlich ins Auge sprang, war das Fehlen des Wortes "Office", welches drei Mal in meinem Beitrag vorkommt. Zwar sind die Sprachen Deutsch und Englisch möglich, aber gemischtsprachliche Texte mag das System wohl noch nicht. Ansonsten werden zuviele sehr allgemeine Begriffe angeboten, die entweder zu wenig relevant sind oder zu speziell zum Taggen des Artikels. Würde ich Tags vergeben, so wären es "Informatik", "Schule", "Microsoft Office", "Software". Nach meiner Ansicht liefert das System zwar schon taugliche Vorschläge, aber insgesamt noch zuviel nicht relevanten Ballast. Auf alle Fälle finde ich es gut, daß ein Tag-Vorschlagssystem in der Erprobung ist, auch wenn die Resultate noch sehr diskussionswürdig sind.

Twoday selbst hat darauf aufbauend ein scheinbar vollautomatisches Tagging der twoday-Blogs unter Twoday Tagview eingerichtet. Gemäß der dort sichtbaren Artikel- und Tag-Mengengerüste ist das ganze noch nicht auf das ganze Twoday-System ausgeweitet worden. Die dortigen Resultate kann ich noch nicht ganz beurteilen, da weder die genaue Methode noch eine Ergebnisdiskussion vorhanden ist.

Allerdings bin ich dort schon über inhaltlichen Quark gestolpert wie "h. von" (unter Namen), oder "nein" (unter "Letzte 3 Stunden"). Eine sogenannte Stopwortliste scheint also nicht vorhanden zu sein, genausowenig scheint es Regeln für die Ansetzung von mehrteiligen Namen zu geben.

Fazit: Ein Schritt in die richtige Richtung, aber erstmal nur ein Schritt. Nach meinem Verständnis ist das ganze noch in einem sehr frühen Stadium, was die Vorschlagsqualität angeht. Und die automatische Verschlagwortung zeigt deutliche Lücken, die es zu schließen gilt.

Do
20
Apr
2006

GfWM-Stammtisch Frankfurt am 20. April 2006
(Rubrik: Informationswissenschaftliches)

Nach dem Webmontagen in Hamburg und Frankfurt habe ich mich durch einen freundlichen Terminhinweis einer guten Freundin heute abend beim Frankfurter Stammtisch der GfWM eingefunden.

Die Gesellschaft für Wissensmanagement e.V. will ich hier nicht näher erläutern, dafür gibts das WWW.

Der sehr lebendige Vortrag von Dr. Jochen Robes stellte die Entwicklungsgeschichte seines Blogs "Weiterbildungsblog" vor, und wie sich sein Umgang damit seit dem Beginn vor drei Jahren entwickelt hat und sich veränderte bis zum heutigen Stand.

Mir zeigte es vor allem, wie ein gutes Fachblog sich auch positiv auf die eigene fachliche Weiterentwicklung auswirken kann. Er wies allerdings auch auf den hohen täglichen Zeitbedarf für die Pflege des Blogs hin, was natürlich Folgen für die Work-Live-Balance hat.

Insgesamt hat mir der Abend sehr gefallen, was auch daran liegen dürfte, daß im Gegensatz zu den Webmontagen hier bereits durch den früheren Gründungszeitpunkt mehr Struktur und Richtung vorhanden ist.

Die Konzentration auf nur einen Vortrag, der dafür länger sein darf, halte ich für geschickter. Die anschließende Diskussion bot Gelegenheit, sich auf genau dieses eine Thema zu konzentrieren. Und die abschließende kurze Vorstellungsrunde (immerhin ca. 25 Leute!) bot die Möglichkeit, die Leute nicht nur zufällig, sondern schon etwas gezielter kennenzulernen beim nachfolgenden Restaurantbesuch. Auch gefallen hat mir der eingangs gehaltene kurze Rückblick über vorherige Stammtische, deren Themen mir vor allem die Praxisnähe der gesamten Veranstaltungsreihe zeigte.

Auf alle Fälle werde ich nun reihum alle einigermaßen einschlägigen Veranstaltungen besuchen und schauen, wie sie sich entwickeln (sofern noch frisch hinter den Ohren), oder wie sie weiterlaufen (sofern schon etabliert).

Mi
19
Apr
2006

Mensch oder Maschine, wer liest besser?
(Rubrik: Informationswissenschaftliches)

Analysieren wir einmal kurz, wie die Infoelite (>100) in einem populären sozialen Lesezeichenangebot, dessen Anhänger überwiegend kontrolliertes Vokabular ablehnen und stattdessen ein Höchstmaß an individuellem Chaos als den allerneuesten Fortschritt bejubeln, auf eine aktuelle, ja geradezu allerneueste Entwicklung, nämlich den Start von Windows Live Academic reagiert. (Quelle: netbib weblog, Hervorhebung durch mich)

Am obigen Zitat gefällt mir, wie der Absolutheitsanspruch einer sogenannten Infoelite auf die Schippe genommen wird. Keiner kann behaupten, daß er das Problem der Inhaltserschließung abschließend gelöst hätte. Bereits bestehende Lösungen habe ich ja bereits in meinem Posting über den 2. Frankfurter Webmontag im Abschnitt über das Nicht-Taggen erwähnt.

Der von Sascha Carlin in den dortigen Kommentaren gemachte Hinweis, daß man sich auch als Informationswissenschaftler mal auf die Tagger zubewegen sollte, werde ich noch verfolgen.

In der aktuellen c't 9/2006 werden im Artikel "Wissensmanagement bringt Ordnung ins Chaos" (S. 178ff.) verschiedene Softwarelösungen zur Darstellung und Nutzung von Wissenseinheiten in Unternehmen vorgestellt. Mein persönliches Highlight war der Satz, in welchem auf die Notwendigkeit von Handarbeit bei der Erstellung von wirklich guten Ontologien verwiesen wurde.

Fachpersonal kann durch Software unterstützt werden, aber bisher nicht ersetzt werden, liebe Technologiegläubige.

Di
11
Apr
2006

Webmontag 2, die Zweite
(Rubrik: Informationswissenschaftliches)

24 Stunden sind herum. Der zweite Frankfurter Webmontag hat stattgefunden. Die Tagungstechnik und das Catering der Brotfabrik waren wie bereits erwähnt sehr gut, wovon sich vor allem angeblich professionelle Tagungsausrichter hier und da mal 'ne Scheibe abschneiden sollten. Rückkopplungsgepfeife, Lautstärkenprobleme, schwere Beamerunverträglichkeiten usw. usf. - all' das blieb gestern abend erfreulicherweise dort, wo der Pfeffer wächst.

Kommen wir zum Eigentlichen - was ist mir nach knapp 24 Stunden noch im Kopf haften geblieben?

Erst einmal möchte ich allen danken, die den 2. Frankfurter Webmontag überhaupt ermöglicht haben. Der Dank gilt den Organisatoren, den vielen Teilnehmern, den Vortragenden und den Berichterstattern. Ohne Euch wäre das alles nicht zustande gekommen. Ich halte nämlich eine quasi sich selbst organisierende Veranstaltung nicht für selbstverständlich, insbesondere, wenn sich die Teilnehmer eigentlich in überwiegender Anzahl nicht real kennen.

Außerdem möchte ich den Mut der Vortragenden hervorheben, sich trotz erkennbarer Lücken ins Rampenlicht zu stellen. Jungs, teilweise war das schwer zu erkennen (hellgrüne Schrift auf weißem Grund), teilweise zu kleine Schrift bei Demos, teilweise seltsam bis gar nicht ausreichend verständlich und hier und da entweder zu lang oder inhaltlich zu dünn. Aber hey! Ihr habt Euch vorne hingestellt! Ihr habt mir was Neues erklärt! Und darauf kam es mir an. Ich wollte was lernen, und ich wollte mich eigentlich mit anderen darüber austauschen.

Damit leite ich zu dem Punkt über, der mich auch im Nachhinein immer noch verwundert - es gab keine Diskussionen nach den Vorträgen. Keine Rückfragen. Nicht mal Anmerkungen. Wollte keiner? Oder war das eine konzeptionelle Lücke, die man künftig in der Organisation ausdrücklich berücksichtigen sollte? Meine bisherigen Tagungserfahrungen beinhalteten immer auch eine Frage & Antwort-Session am Ende des Vortrags oder aller Vorträge, und das fehlt mir hier doch sehr stark. Wie, wenn nicht direkt danach, kann ich angefangene Gedankenstränge vorantreiben, weiter einsteigen in ein Thema, oder auf eventuell bessere Lösungen verweisen?

Die darauf folgende "Kuschelrunde" machte ihrem Namen alles Ehre und bot aus meiner Sicht viele interessante Gespräche, die in meinem Fall bis 1 Uhr gingen. Ich habe viel gelernt und viel begriffen, und das will ich gerne wiederholen.

Insgesamt sehe ich Verbesserungspotential für die nächste Veranstaltung seitens aller Teilnehmer, was den reinen Vortragsanteil angeht. Die einen brauchen hier und da eine bessere Vorbereitung für ihre Präsentation, und die anderen mehr Neugier, mehr Widerspruch, mehr Fragelust.

So, und warum verwende ich nun keine Tags, fragt sich der aufmerksame Leser? Weil twoday kein strukturiertes Datenbanksystem mit inhaltlich genau definierten Feldern ist, wie ich es von professionellen Datenbankanbietern wie LexisNexis, GBI-GENIOS oder Datastar kenne. Wer mag, schaut sich mal ein Datenbanksheet bei Datastar an, am besten das von der Lebensmittelzeitung, und rollt mal runter zu "Paragraphs and Searching". Da sieht man, wie ein professionelles Meta-Daten-System arbeitet. Das TX-Feld entspricht dem, was ihr hier lest: ein einfaches Freitextfeld. Und die anderen 19 Felder sind ausgefüllt mit Meta-Daten, die einem genauen Muster folgen. Damit bin ich in der Lage, sehr sauber alles mögliche in dieser Datenbank zu finden, egal wie herum ich mich dem Thema nähere.

Eine reine Freitext-Verschlagwortung kann immer nur Teile davon abbilden, weil zu oft weder die Sprache noch der Kontext oder gar kontrolliertes Vokabular verwendet wird. Das ist mein Kernproblem mit dem gegenwärtig anzutreffenden Tagging-Wahn: man folgt keinerlei Regeln, und baut somit mit viel Aufwand wieder nur eine Datenmüllhalde ...

Mir geht es darum, daß viele Möglichkeiten zur Inhaltserschließung bereits seit langem existieren, bloß gegenwärtig in jeder mir bekannten Web2.0-Diskussion einfach ignoriert werden und durch eher rudimentäre Ansätze wie Tagging ersetzt werden sollen. Da gerade Tagging vor allem als gemeinschaftliche Lösung die Strukturierung von großen Datenmengen angesehen wird, finde ich es seltsam, daß man diesen Ansatz so stark favorisiert, obwohl er bereits vorhandene Lösungen im großen und ganzen ignoriert.

Für weitergehende Fragen stehe ich gerne zur Verfügung, und wer mehr wissen will, schaut sich an, wo ich das alles gelernt habe.
logo

Macsico. Und sonst nix.

Nicht immer objektiv, nicht immer folgerichtig, teilweise sogar vollkommen subjektiv.

In diesem Weblog suchen / Search this Weblog

 

Letzte Einträge und Kommentare / Recent entries and comments

Verhältnisse und...
Am Sonntagabend hatten 500 Soldaten vor rund 3000 Gästen...
Macsico - 21. Jul, 15:03
Umstieg von twoday auf...
An einen Umstieg Richtung Wordpress denke ich ja schon...
Macsico - 20. Jul, 23:57
Wortspielchen (26)
Einen Wegfall sicherheitsrelevanter Warnschilder werde...
Macsico - 19. Jul, 13:09
Da drück ich Dir...
Da drück ich Dir die Daumen... Ich hab die erste...
Sturznest - 16. Jul, 22:39
Genau. Einfach schnuggelisch....
Genau. Einfach schnuggelisch. Auch wenn ich erstmal...
Macsico - 16. Jul, 21:02

Kontakt / Contact

Email:
2008July.10.Macsico @spamgourmet.com

Ohne uns!

Online seit / Weblog Status

Online seit 1038 Tagen
Zuletzt aktualisiert: 21. Jul, 15:04

Seitenaufruf-Zähler / Visit Counter

kostenloser Counter

Techn. Anbieter / Weblog Provider

Knallgrau New Media Solutions - Web Agentur für neue Medien

powered by Antville powered by Helma


Creative Commons License

xml version of this page (summary)
xml version of this page (with comments)
xml version of this topic

twoday.net AGB


AA_Impressum
Armut
Cartoons_und_Comic_strips
Cat_content
Doofene_Menschen
Essen_und_Trinken
Fotos
Freiheit
Fussgaengerbeobachtungen
Haushalt
Ideen_fuer_eine_Zukunft
Informationswissenschaftliches
Kabarett_und_Comedy
Komische_Ideen
Konsumtraumata
Kunst_und_Kultur
... weitere
Profil
Abmelden
Weblog abonnieren