Sequenzsuche

Alchemistische Texte sind keine Beispiele "schöner", abwechslungsreich gestalteter Literatur, sondern im Gegenteil aus sprachlich einförmigen, häufig wiederholten Teilelementen aufgebaut, die im folgenden als Sequenzen bezeichnet werden. So können Anweisungen, die Teil eines Rezepts zur Zubereitung von Quecksilber sind (... - "Q. zerreiben" - "Q. mit Schwefel vermischen" - "Q. und Schwefel erhitzen" - ...), in dieser oder einer leicht abgeänderten Form auch bei der Reinigung von Blei auftauchen (... "Q. zerreiben" - "Q. mit Blei vermischen" - "Q. und Blei erhitzen" - ...). Treten derartige ähnliche Anweisungen häufig auf, liegt die Vermutung nahe, dass sie bestimmte grundlegende Arbeitsschritte der Alchemie beschreiben. Die Suche nach häufigen Sequenzen ist darauf ausgelegt, solche typischen Teilelemente zu idenfizieren.

Möglich wird die Suche nach häufigen Sequenzen durch die Kombination von Sprachmodell und Ontologie. Die Anweisungen eines codierten und katalogisierten Textes sind keine Text-Strings mehr, sondern werden durch das Sprachmodell logisch und zeitlich gegliedert und durch die Verknüpfung mit den "Blättern" des Ontologie-Baums mit Inhalt gefüllt. Diese Transformation des Sanskrit-Texts macht es möglich, Such- und Vergleichsalgorithmen u.a. aus dem Datamining auf die katalogisierten Vorschriften anzuwenden. Identische oder auch nur ähnliche Sequenzen können so schnell und zuverlässig ausfindig gemacht werden.

Besonders interessant ist die Möglichkeit, mithilfe der Ontologie nach ähnlichen (und nicht nur identischen) Sequenzen zu suchen. Ein Maß für die Ähnlichkeit zweier Verben, Valenzen oder anderer vergleichbarer sprachlicher Objekte liefert die Entfernung der mit ihnen verknüpften Blätter im Ontologie-Baum. Mit zunehmender Entfernung der zugehörigen "Blätter" im Baum nimmt auch die Ähnlichkeit der Objekte ab, die mit diesen Blättern verknüpft sind. Das Suchprogramm wird so in die Lage versetzt, zu einem gewissen Grad von einer vorliegenden Vorschrift zu "abstrahieren". Im eingangs angeführten Beispiel würden z.B. Schwefel und Blei als ähnlich identifiziert werden, da beide Stoffe anorganische Substanzen und damit im Ontologie-Baum eng benachbart sind. Teilsequenzen aus ganz unterschiedlichen Kontexten werden so als Variationen eines Grundthemas identifiziert.

Häufige Sequenzen können momentan als Textdatei ausgegeben werden. Abbildung (1) zeigt einen kleinen Ausschnitt aus den Ergebnissen einer Sequenzsuche. In der ersten Zeile ist die Basissequenz, darunter sind ihre Fundstellen abgedruckt. Im Bereich "Ähnliche Sequenzen" sind dann Variationen dieser Sequenz aus anderen Bereichen der Datenbank aufgeführt. Obwohl nur ein sehr kleiner Bereich aller aufgenommenen Rezepte abgedeckt ist, demonstriert das Beispiel doch die Fähigkeit des Programms, strukturell ähnliche oder identische Anweisungen aus ganz verschiedenen Bereichen der Alchemie zu finden und zusammenzustellen. So kann im vorliegenden Fall die Abfolge "Substanz X erhitzen" - "Substanz X in eine Flüssigkeit eintauchen" - "Substanz X wieder erhitzen" als zentraler Bestandteil von alchemistischen Reinigungsprozeduren identifiziert werden. Während die automatisierte Suche nach diesen Sequenzen noch nicht einmal eine Minute gedauert hat, kann einem die manuelle Suche nach ähnlichen Informationen schnell die Lust am Thema verderben.

Vorhergehende Seite - Nächste Seite