Auf der Suche nach dem Sinn
Computer können zwar lesen, die Bedeutung von Texten erkennen sie aber
nicht. Mit statistischen Methoden finden sie jetzt immerhin die
wichtigsten Textstellen. Von
George Szpiro
Wie schön wäre es doch, wenn man bloss die Seiten lesen könnte, die die
wichtige Information enthalten, statt sich mühselig durch dicke Bände
durcharbeiten zu müssen! Zwei Wissenschafter haben nun eine Methode
entwickelt, die eines Tages vielleicht tatsächlich dazu beitragen
könnte, die wichtigsten Abschnitte aus einem Text herauszufiltern. Sie
fanden, dass die relevante Information meist in Textabschnitten von
zwei- bis dreitausend Wörtern enthalten ist.
Die geschriebene Sprache übermittelt Information in Form einer
geordneten Sequenz von Buchstaben und Wörtern. Dabei sind verschiedene
Skalen zu unterscheiden. In einem Satz legt die Grammatik die Ordnung
der Wörter fest. Komplexe Gedanken oder ein Roman werden hingegen im
Laufe der manchmal mehreren hunderttausend Wörter eines Buches
ausgebreitet. Zwischen diesen beiden Extremen gibt es Textteile, die
zwar nicht alles wiedergeben, aber doch die für den Gesamttext
wichtigste Information enthalten.
Der Neurowissenschafter Marcelo Montemurro in England und der Physiker
Damian Zanette in Argentinien entwickelten nun ein Verfahren, das
Aufschluss über diese Textstellen gibt. Ihr Ziel war es, festzustellen,
ob in der Verteilung der Wörter in einem Text typische Muster bestehen.
Eine simple Berechnung der Worthäufigkeiten brachte keine Erkenntnis, da
Wörter wie «der», «und», «oder» in jedem Text häufig vorkommen.
Entropie im Text
Die frühesten Versuche, den Informationsgehalt eines Textes zu
berechnen, stammen aus den 1940er Jahren. Damals begründete der
amerikanische Elektroingenieur und Mathematiker Claude Shannon die
Informationstheorie. Unter anderem entwickelte er eine Formel, mit der
der Informationsgehalt eines aus den 26 Buchstaben und der Leertaste
bestehenden Textes berechnet werden kann. Das Werk des in den «Bell
Labs» in New Jersey arbeitenden Ingenieurs war wegweisend. Shannon
adaptierte den aus der Physik stammenden Begriff der Entropie für
geschriebene Texte.
In der Thermodynamik ist die Entropie ein Mass für die Unordnung von
Molekülen in einem Gas. Je grösser die Entropie, desto ungeordneter
fliegen die Gasmoleküle im Raum herum. Auf einen Text bezogen, bedeutet
dies, dass die Entropie tief ist, je weiter die Buchstaben-Sequenz von
einer totalen Unordnung entfernt ist. Eine tiefe Entropie und hohe
Ordnung ist somit gleichbedeutend mit einem hohen Informationsgehalt.
Montemurro und Zanette adaptierten Shannons Methoden für lange Texte
mittels eines Tricks. Als Exempel zogen sie Charles Darwins «Origin of
Species» heran. Sie berechneten unter anderem die Entropie von Darwins
Werk. Dann mischten sie die 155 800 Wörter des Buches durcheinander, so
dass sie völlig zufällig verteilt waren, und berechneten die
Charakteristiken dieses absolut sinnlosen Texts. Ein Vergleich der
Resultate ergab, dass bedeutungsvolle Wörter im ursprünglichen Text dazu
neigen, in relativ engen Textstellen zusammenzuklumpen. Zum Beispiel
erscheint der Begriff «plant» (Pflanze) 335-mal im Text, allerdings sehr
unterschiedlich verteilt. An gewissen Stellen häuft sich das Wort, über
lange Strecken wird es nie benutzt. Das Wort Instinkt kommt 69-mal vor,
aber nur an zwei isolierten Stellen. Dagegen erscheint das Wort «für»
1123-mal, und zwar gleichmässig über den ganzen Text verteilt.
Aussagekräftige Textstellen
Als Nächstes untersuchten Montemurro und Zanette, wie lange die
aussagekräftigsten Textstellen sein müssen. Wörter, die im ganzen Text
vorkommen, tragen wenig, Wörter, die ungleichmässig verteilt sind,
relativ viel zur Aussagekraft einer Textstelle bei. Die Berechnungen
ergaben, dass der Informationsgehalt in Darwins Werk bei Textabschnitten
von etwa 3000 Wörtern am höchsten ist. In Herman Melvilles «Moby Dick»
ist das Maximum bei 1200 Wörtern erreicht, und in Bertrand Russells «Die
Analyse des Geistes» geschieht dies bei 700 Wörtern. Bei der
Untersuchung von über 5000 weiteren Büchern aus Literatur und
Wissenschaft stellten die Wissenschafter fest, dass der
Informationsgehalt sein Maximum jeweils bei Textlängen erreicht, die
etwa 1 Prozent der Gesamttexte entsprechen.
Zurzeit erlaubt die Methode noch keine Identifizierung der relevanten
Textstellen. Aber sie gestattet eine Identifikation der
bedeutungsvollsten Wörter. In Darwins Werk waren dies zum Beispiel die
Begriffe Spezies, hybrid, Form und Insel. In Melvilles' «Moby Dick»
gehören Wal, Ahab und Kapitän dazu. Und in Bertrand Russells Werk sind
Image, Erinnerung, Wort und Glaube besonders wichtig. Einen Nachteil
haben alle Methoden der konzentrierten Informationsvermittlung
allerdings: Die Schönheit der Belles Lettres bleibt auf der Strecke.