GeorgeSzpiro.com
GeorgeSzpiro.com
NZZ am Sonntag

 

NZZ am Sonntag

NZZS.WS.ws

Sonntag, 11.10.2009 / 61


Auf der Suche nach dem Sinn

 

Computer können zwar lesen, die Bedeutung von Texten erkennen sie aber nicht. Mit statistischen Methoden finden sie jetzt immerhin die wichtigsten Textstellen. Von George Szpiro

Wie schön wäre es doch, wenn man bloss die Seiten lesen könnte, die die wichtige Information enthalten, statt sich mühselig durch dicke Bände durcharbeiten zu müssen! Zwei Wissenschafter haben nun eine Methode entwickelt, die eines Tages vielleicht tatsächlich dazu beitragen könnte, die wichtigsten Abschnitte aus einem Text herauszufiltern. Sie fanden, dass die relevante Information meist in Textabschnitten von zwei- bis dreitausend Wörtern enthalten ist.

Die geschriebene Sprache übermittelt Information in Form einer geordneten Sequenz von Buchstaben und Wörtern. Dabei sind verschiedene Skalen zu unterscheiden. In einem Satz legt die Grammatik die Ordnung der Wörter fest. Komplexe Gedanken oder ein Roman werden hingegen im Laufe der manchmal mehreren hunderttausend Wörter eines Buches ausgebreitet. Zwischen diesen beiden Extremen gibt es Textteile, die zwar nicht alles wiedergeben, aber doch die für den Gesamttext wichtigste Information enthalten.

 

Der Neurowissenschafter Marcelo Montemurro in England und der Physiker Damian Zanette in Argentinien entwickelten nun ein Verfahren, das Aufschluss über diese Textstellen gibt. Ihr Ziel war es, festzustellen, ob in der Verteilung der Wörter in einem Text typische Muster bestehen. Eine simple Berechnung der Worthäufigkeiten brachte keine Erkenntnis, da Wörter wie «der», «und», «oder» in jedem Text häufig vorkommen.

Entropie im Text

 

Die frühesten Versuche, den Informationsgehalt eines Textes zu berechnen, stammen aus den 1940er Jahren. Damals begründete der amerikanische Elektroingenieur und Mathematiker Claude Shannon die Informationstheorie. Unter anderem entwickelte er eine Formel, mit der der Informationsgehalt eines aus den 26 Buchstaben und der Leertaste bestehenden Textes berechnet werden kann. Das Werk des in den «Bell Labs» in New Jersey arbeitenden Ingenieurs war wegweisend. Shannon adaptierte den aus der Physik stammenden Begriff der Entropie für geschriebene Texte.

In der Thermodynamik ist die Entropie ein Mass für die Unordnung von Molekülen in einem Gas. Je grösser die Entropie, desto ungeordneter fliegen die Gasmoleküle im Raum herum. Auf einen Text bezogen, bedeutet dies, dass die Entropie tief ist, je weiter die Buchstaben-Sequenz von einer totalen Unordnung entfernt ist. Eine tiefe Entropie und hohe Ordnung ist somit gleichbedeutend mit einem hohen Informationsgehalt.

Montemurro und Zanette adaptierten Shannons Methoden für lange Texte mittels eines Tricks. Als Exempel zogen sie Charles Darwins «Origin of Species» heran. Sie berechneten unter anderem die Entropie von Darwins Werk. Dann mischten sie die 155 800 Wörter des Buches durcheinander, so dass sie völlig zufällig verteilt waren, und berechneten die Charakteristiken dieses absolut sinnlosen Texts. Ein Vergleich der Resultate ergab, dass bedeutungsvolle Wörter im ursprünglichen Text dazu neigen, in relativ engen Textstellen zusammenzuklumpen. Zum Beispiel erscheint der Begriff «plant» (Pflanze) 335-mal im Text, allerdings sehr unterschiedlich verteilt. An gewissen Stellen häuft sich das Wort, über lange Strecken wird es nie benutzt. Das Wort Instinkt kommt 69-mal vor, aber nur an zwei isolierten Stellen. Dagegen erscheint das Wort «für» 1123-mal, und zwar gleichmässig über den ganzen Text verteilt.

 

Aussagekräftige Textstellen

Als Nächstes untersuchten Montemurro und Zanette, wie lange die aussagekräftigsten Textstellen sein müssen. Wörter, die im ganzen Text vorkommen, tragen wenig, Wörter, die ungleichmässig verteilt sind, relativ viel zur Aussagekraft einer Textstelle bei. Die Berechnungen ergaben, dass der Informationsgehalt in Darwins Werk bei Textabschnitten von etwa 3000 Wörtern am höchsten ist. In Herman Melvilles «Moby Dick» ist das Maximum bei 1200 Wörtern erreicht, und in Bertrand Russells «Die Analyse des Geistes» geschieht dies bei 700 Wörtern. Bei der Untersuchung von über 5000 weiteren Büchern aus Literatur und Wissenschaft stellten die Wissenschafter fest, dass der Informationsgehalt sein Maximum jeweils bei Textlängen erreicht, die etwa 1 Prozent der Gesamttexte entsprechen.

Zurzeit erlaubt die Methode noch keine Identifizierung der relevanten Textstellen. Aber sie gestattet eine Identifikation der bedeutungsvollsten Wörter. In Darwins Werk waren dies zum Beispiel die Begriffe Spezies, hybrid, Form und Insel. In Melvilles' «Moby Dick» gehören Wal, Ahab und Kapitän dazu. Und in Bertrand Russells Werk sind Image, Erinnerung, Wort und Glaube besonders wichtig. Einen Nachteil haben alle Methoden der konzentrierten Informationsvermittlung allerdings: Die Schönheit der Belles Lettres bleibt auf der Strecke.


© 2009 NZZ am Sonntag

 

Website Design: Archijob

Back to Top

(c) Copyright George Szpiro - www.GeorgeSzpiro.com