Vortrag auf der Tagung: Synergie durch Netze, Universität Magdeburg, 10 '96; veröff. in Telepolis online; Druck: Becker, Barbara; Paetau, Michael (Hg.): Virtualisierung des Sozialen. Frankfurt/NY 1997, S. 185-202; - website creation date: 26. 04. 01, expiration date: 26. 04. 04, 49 KB, url: www.uni-paderborn.de /~winkler/suchm_d.html, language: German, © H. Winkler 1996, home - ( keys: media, theory, search engines, computers, technology, language, knowledge )-

Hartmut Winkler

Suchmaschinen

Metamedien im Internet?

Wir benutzen sie täglich, und wir wissen nicht, was wir tun. Wir wissen nicht, wer sie betreibt und warum, nicht wie sie aufgebaut sind und wenig darüber, wie sie funktionieren; der klassische Fall einer black box; und dennoch sind wir auf Knien dankbar, daß es sie gibt.
Als die ersten Suchmaschinen 1994/95 aufgebaut wurden, reagierten sie auf ein offensichtliches Problem: die Fläche der im Netz verfügbaren Informationen und Texte hatte in exponentiellem Wachstum zugenommen und es war in wenigen Jahren eine riesige, den Globus umspannende Bibliothek entstanden;(1) eine Bibliothek allerdings - man denke sich dergleichen außerhalb der virtuellen Sphäre - ohne Katalog und ohne zentrale Beschaffung, mit willkürlich gewählten Signaturen und ohne jede Möglichkeit, beim Auskunftspersonal Hilfe zu finden; die Assoziationen zu Borges dürften alles andere als zufällig sein.
Die Suchmaschinen traten mit dem Anspruch auf, die riesige Fläche der verfügbaren Texte zu erschließen. Und es gab Beispiele, an denen man sich orientieren konnte. Das System Gopher, unmittelbarer Vorläufer des WWW, verfügte über ein Suchsystem 'Veronica' - dienende Funktionen und Tiefdruckgebiete werden weiblich benannt -, 'Archie' half dabei, Dateien im Netz zu finden, deren Name man kannte, und 'X500' funktionierte als eine Art Telephonbuch für die Useradressen im Netz. Daneben gab es voluminöse Printreader, die häufig schon beim Druck veraltet waren, Yellow Pages für das Datennetz, Netzguides, Verzeichnisse 'wichtiger Netzadressen' usf.

Wenn die Suchmaschinen diese Funktionen nun zusammenfassen, aktualisieren und mit einer einheitlichen Zugriffslogik versehen - wo ist dann das Problem? Kennen nicht auch Bücher Indices und Bibliotheken Schlagwortkataloge? Und ist nicht alles nützlich, was den Zugriff erleichtert, wenn die instantane Verfügbarkeit der Information doch eine der Basis- Utopien des Datenuniversums ist?
All dies ist richtig und ich denke dennoch, daß es lohnt, sich einige grundsätzlichere Gedanken zu machen. Und es sind folgende Punkte, die ich für die Recherche vorschlagen will:&127; Zum einen, eingangs erwähnt, das spezifische Moment von Blindheit, das unseren Umgang mit diesen Maschinen bestimmt. Zum zweiten ist auffällig, eine wie zentrale, ja 'mächtige' Stellung im Netz die Suchmaschinen inzwischen einnehmen; eine relevante Frage, wenn man die Entwicklungstendenzen des Mediums nachzeichnen will. Zum dritten interessieren mich die Strukturannahmen, die den verschiedenen Suchmaschinen zugrundeliegen; und viertens schließlich, dies wird der letzte Punkt sein, ein Bezug auf die Sprache und die Sprachtheorie, der die Maschinen in eine neue Perspektive und eine veränderte Traditionslinie rückt.


1

Eine zentrale Stellung im Netz haben die Suchmaschinen vor allem deshalb, weil sie unendlich oft angesprungen werden; im Fall von AltaVista sind dies 12 Millionen Zugriffe pro Werktag, wenn man den Angaben trauen kann.(2) Der einzelne Nutzer wird seinen Suchbefehl als ein schlichtes Sprungbrett betrachten, tatsächlich aber bedeutet es einen großen Erfolg, so viele Nutzer auf eine einzelne Adresse zu ziehen. Die unmittelbar ökonomische Konsequenz ist, daß man diese Kontakte verkaufen kann, daß die Suchmaschinen sich also hervorragend für die Platzierung von Werbung eignen und deshalb zu den wenigen tatsächlich rentablen Netz-Businesses zählen. Yahoo ist beim Börsen-Einstieg verblüffend hoch bewertet worden, und es wird in Zukunft sicher Firmen geben, die eine Search engine nur deshalb anbieten, um diesen Effekt zu nutzen.
Zum zweiten und wichtiger aber bedeutet die Häufung der Zugriffe einen signifikanten Umbau in der Gesamtarchitektur des Netzes. Man kann das Datennetz als eine gewachsene Struktur begreifen, in der zwei völlig unterschiedliche Ebenen sich überlagern: zum einen, manifest und sichtbar, die Struktur der Angebote und die verzweigten Architekturen der Links, zum zweiten, zunächst unsichtbar und nur an einigen Stellen durch Zugriffsstatistiken sichtbar gemacht, die Nutzerbewegungen, die diesen Links folgen. Da die Nutzerbewegungen sich quantitativ sehr unterschiedlich verteilen, tragen auch sie zur Netzarchitektur bei; sie schreiben, so könnte man sagen, in die Struktur des Netzes zurück und graben die häufig benutzten Links tiefer ein.(3) Wie im Fall des Kinos das Box-office- Ergebnis und beim Fernsehen die Einschaltquote bestimmen die Nutzerbewegungen die Entwicklung und Struktur des Angebots mit.

Für das Netz bedeuten 12 Millionen Zugriffe am Tag einen Schub in Richtung Zentralisierung. Dies müßte all diejenigen hellhörig machen, die gerade den dezentralen und antihierarchischen Charakter des Netzes hervorgehoben haben und seine allgemeine Zugänglichkeit mit weitreichenden basisdemokratischen Hoffnungen verbinden.(4) In einem früheren Text habe ich vertreten, daß es ein antihierarchisches Medium nicht gibt, und daß sich automatisch Hierarchien ('Haupt- und Nebenstrassen') im Netz herausbilden werden;(5) mit den Search Engines hat sich dies sehr schnell und augenfällig bestätigt.

Dennoch, und damit komme ich zum zweiten Punkt, wird die Zentralisierung nicht als solche empfunden. Die Suchmaschinen können nur deshalb eine so zentrale Position einnehmen, weil man ihnen in gewisser Weise Neutralität unterstellt. Weil sie gerade nicht ein inhaltliches Angebot machen, sondern in rein dienender Funktion, als ein Service und ein neutraler Vermittler, auftreten. Aus der Dialektik von Herr und Knecht aber wissen wir, daß sich hinter der Devotion des Knechtes eine um so wirkungsvollere Einflußnahme verbirgt. Es könnte also lohnen, die Neutralität des Vermittlers zu befragen; und gleichzeitig die eigene Naivität, die sich einen neutralen Vermittler, wie es scheint, so sehr wünscht. Aber sind Stichworte oder ist ein Telephonbuch nicht tatsächlich neutral?(6)


2

Die Frage geht zunächst an die Konstruktion der Suchmaschinen selbst. Steve Steinberg,(7) auf den ich mich im folgenden, was die Sachaussagen angeht, hauptsächlich beziehe, hat in einem 'Wired'-Artikel dargestellt, was normale Nutzer über die Suchmaschinen nicht wissen, und, was mehr ist, glauben nicht zu wissen müssen, um sie sinnvoll benutzen zu können. Den genauen Algorithmus ihrer Suche, dies ist das erste Ergebnis bei Steinberg, halten die Anbieter geheim.(8) Da es sich um Privatfirmen handelt und die Algorithmen zum unmittelbaren Produktionskapital zählen, muß vor allem die Konkurrenz auf Abstand gehalten werden; nur sehr allgemeine Informationen werden der Öffentlichkeit zugänglich gemacht, die Details bleiben im black der blackbox verborgen. Wenn wir uns der Suchmaschinen relativ blind bedienen, also hat dies einen guten ökonomischen Grund.

Drei grundsätzliche Typen von Search engines lassen sich unterscheiden. Der erste Typ beruht auf einem System vordefinierter und hierarchisch geordneter Schlagworte. Bei Yahoo etwa sind zwanzig menschliche Codierer damit beschäftigt, neue Webseiten den Kategorien zuzuordnen; die Netzadressen kommen über E-mail-Zuschriften herein oder werden von einem Suchprogramm, einem sogenannten Spider, aufgefunden; auf diese Weise hat die Firma bisher 200.000 Webdokumente erfaßt.
Die Zahl bereits signalisiert, daß eine Codierung mithilfe menschlicher Fachkräfte schnell an quantitative Grenzen stößt. Bei einem geschätzen Gesamtvolumen von 30-50 Millionen verfügbaren Dokumenten im Netz(9) bietet Yahoo etwa 0,4%, und dies mit einer eher ungünstigen Prognose, wenn man sich vergegenwärtigt, daß das Angebot in exponentiellem Maßstab wächst.
Noch ernster aber sind die Probleme des Ordnungssystems selbst. Die 20.000 Begriffe, die Yahoo als Schlagworte ausgewählt hat, werden innerhalb der Firma (verhalten selbstironisch?) 'the ontology' genannt. Was oder wer aber könnte die Einheitlichkeit und innere Stimmigkeit einer solchen Begriffs-Hierarchie garantieren? Wenn pollution etwa unter 'Society and Culture'/'Environment and Nature'/'Pollution' geführt wird, so mag dies noch einigermaßen schlüssig sein; in jedem komplizierteren Fall aber werden Zuordnungskonflikte auftreten, die auch durch ergänzende Kreuzreferenzen nicht mehr zu lösen sind.(10)
Die Konstruktion der Hierarchie erscheint als ein einigermaßen hybrides Projekt, zielt es doch darauf ab, Millionen völlig heterogener Netzbeiträge aus nahezu allen Bereichen der menschlichen Wissensbestände(11) auf ein einheitliches Kategoriensystem zu bringen, ungeachtet ihrer Perspektivität, ihrer Widersprüche und Konkurrenzen.
Yahoos 'ontology' tritt damit das schwere Erbe jener tatsächlichen Ontologien an, deren immer erneutes Scheitern in der Philosophiegeschichte nachvollzogen werden kann. Und allein der pragmatische Kontext macht erklärlich, daß das philosophische Problem im neuen Gewand nicht wiedererkannt und in aller Naivität technisch noch einmal reinstalliert worden ist. Im schlimmsten Fall eben wird ein Gesuchtes nicht gefunden, und daß der Schaden begrenzt ist, trennt Yahoo von den Problemen der Philosophie.

Der zweite Typus von Suchmaschinen kommt ohne ein vordefiniertes Ordnungssystem und vor allem ohne menschliche Codierer aus. Systeme wie 'AltaVista', 'Inktomi' oder 'Lycos' generieren einen 'inverted index', indem sie die gefundenen Texte analysieren; und zwar im Sinne einer Volltextsuche, Wort für Wort, so daß schließlich jeder einzelne Begriff des ursprünglichen Textes im Index enthalten ist und als Suchbegriff zur Verfügung steht. Technisch ist dies weniger aufwendig als man denken würde. In einer riesigen Kreuztabelle wird für jeden analysierten Text eine Zeile angelegt, während die Spalten die Worte des Wortschatzes repräsentieren; kommt ein Wort im Text vor, wird ein einzelnes Bit auf 'Ja' gesetzt;(12) auf diese Weise entsteht ein abstrakter Abzug des Textes, komprimiert auf ca. 4% seiner ursprünglichen Größe. Die Suchanfragen greifen nur noch auf die Tabelle zu.
Da es sich um ein vollautomatisches System handelt, kann der Alta-Vista-Spider täglich 2,5 Millionen Netzdokumente auswerten, und gegenwärtig sind etwa 30 Millionen Texte im System repräsentiert.(13)

Und die Suchresultate sind tatsächlich beeindruckend. AltaVista liefert überaus nützliche Ergebnislisten, geordnet nach einem internen Prioritätensystem. Und wer gefunden hat, was er suchte, wird keinen Anstoß daran nehmen, daß der Algorithmus auch in diesem Fall nicht transparent gemacht wird.
Dennoch gibt es Probleme. So ist zunächst auffällig, daß bereits geringe Veränderungen der Fragestellung zu völlig unterschiedlichen Rückmeldungen führen; wer gezielt verschiedene Abfragen für ein ihm bekanntes Dokument durchtestet, wird feststellen, daß das selbe Dokument manchmal mit hoher Priorität, manchmal mit niedriger und manchmal gar nicht angezeigt wird; und er wird zumindest irritiert sein.
Verallgemeinert bedeutet dies, daß man in vielen Fällen nicht weiß, wie man das Resultat tatsächlich beurteilen soll; weder ist abzuschätzen, welche Dokumente das System nicht liefert, obwohl es sie liefern müßte, welche Angebote es also unterschlägt, entweder weil der Spider sie nicht gefunden hat, oder weil der Auswertungsalgorithmus eben doch anders als vermutet arbeitet. Auch wenn das Programm vollmundig 'searchig the web' anzeigt,(14) so ist dieser Singular selbstverständlich Illusion, insofern selbst 30 Millionen Texte nur einen bestimmten Ausschnitt der Gesamtfläche darstellen. Und es besteht keine Möglichkeit abzuschätzen, wie sich dieser Ausschnitt, was seine Inhalte angeht, zum Rest der Fläche verhält.(15) Für viele pragmatische Anfragen, wie gesagt, mag diese Überlegung luxuriös erscheinen, im Folgenden aber wird klarwerden, daß sie dies keineswegs ist.

Das zweite und hauptsächliche Problem aber liegt bereits in der Grundannahme. Eine mechanische Stichwortsuche setzt voraus, daß nur solche Fragen gestellt werden, die in Stichworten klar formulierbar sind und durch weitere Stichworte differenziert und konkretisiert werden können. Ebenso wird niemand erwarten, daß das System neben dem gefragten auch bedeutungsähnliche Begriffe einbeziehen oder Homonyme ausschließen kann. Suchmaschinen diesen Typs sind vollständig unsensibel für Fragen der Semantik, oder klarer: sie haben ihre Pointe gerade darin, semantische Probleme, wie sie bei Yahoo offensichtlich werden, auszuschließen. Die Probleme selbst aber sind damit nicht aus der Welt. Sie werden dem User aufgelastet in der Zumutung, seine Frage in die Form ein-eindeutiger Signifikantenketten zu bringen und dann mit dem mechanisch selegierten Ergebnis sich zu bescheiden. Alle Fragen, die auf Stichworte nicht zu reduzieren sind, fallen aus dem Raster des Möglichen heraus; technische und naturwissenschaftliche Termini werden sich relativ gut für die Suche eignen, geisteswissenschaftliche Themen weit weniger gut, und diese erscheinen ein weiteres Mal als jene 'weiche' - allzu weiche - Sphäre, die, wer nicht ins Boldenlose geraten will, am besten von vornherein meidet.(16)
Normalerweise wird an dieser Stelle salomonisch eingewandt, erstens sei die Frage trivial, weil man von einem System nicht mehr erwarten dürfe als wofür es gemacht sei - dies wäre Konsens, wenn den Nutzern tatsächlich klar wäre, was die regelhaften Ausschlüsse sind - und zweitens werde an dem Problem gearbeitet.

Daß an dem Problem tatsächlich gearbeitet wird, bringt den dritten Typus von Suchmaschinen in die Welt. Systeme wie 'Excite' von Architext oder 'Smart' beanspruchen, nicht mehr mechanisch mit Signifikantenketten, sondern auf Basis eines tatsächlich semantischen Modells zu arbeiten. Um Artikel zu Ölfilmen und solche zu Kinofilmen sicher unterscheiden zu können, wird der Kontext untersucht, in dem die jeweiligen Begriffe auftreten.
"Die Grundidee ist, den inverted index des Web zu nehmen, mit seinen Zeilen von Dokumenten und seinen Spalten von Stichworten, und ihn statistisch zu komprimieren, so daß Dokumente mit ähnlichem Profil zu Clustern zusammengezogen werden; und dies auch dann, wenn ein Dokument das Wort 'Movie' benutzt und das andere 'Film', einfach weil sie viele andere Wörter gemeinsam haben. Das Ergebnis ist eine Matix, [wo die Spalten nun inhaltliche Begriffe/Konzepte repräsentieren anstatt der Stichworte].
"(17)
Das aufregende an diesem Maschinentyp ist, daß er von mechanischen Stichworten zu inhaltlichen Konzepten übergeht;(18) und zweitens, daß er seine Kategorien allein auf Basis der eingegebenen Texte, einer statistischen Auswertung der Dokumente gewinnt.
"Die Maschine lernt die Kategorien [induktiv] von unten nach oben, anstatt [deduktiv] eine Ordnung von oben überzustülpen. Sie ist ein selbstorganisierendes System. [...] Um Kategorien zu gewinnen, macht Achitext nur eine Grundannahme: daß Worte, die häufig gemeinsam auftreten, in irgendeiner Weise aufeinander bezogen sind. Wenn der Textkorpus sich ändert - wenn neue Verbindungen auftreten, z.B. zwischen O.J. Simpson und Mord - passt sich das Klassifikationsschema automatisch an. Die Kategorien reflektieren den Text selbst"; "dies eliminiert zwei der größten Kritikpunkte an Bibliothekssystematiken: daß jedes Schema eine Perspektive hat und daß jedes Schema ständig gegen sein Veralten ankämpfen muß."(19)

Weitere Entwürfe wie das System 'Context' der Firma Oracle versuchen Analysen der Syntax einzubeziehen, und finden sich damit im Problemfeld der Modellierung der natürlichen Sprache wieder, einem Problem, das die KI seit den sechziger Jahren bearbeitet, ohne bislang überzeugende Ergebnisse vorweisen zu können. Die Evaluierung solcher Systeme ist mehr als schwierig; und noch schwieriger ist es, Prognosen über mögliche Entwicklungschancen zu stellen.
Ich möchte den Fokus der Frage deshalb verschieben von der Funktionsweise, den Implikationen und Grenzen der vorgestellten Systeme auf die kulturwissenschaftliche Frage, was ihre Bedeutung, was ihr eigentliches Projekt in der Konkurrenz der Diskurse und Medien ist.


3

Der Weg von den hierarchischen Ontologien über die Stichwortsuche hin zu den semantischen Systemen nämlich zeigt, daß es jenseits der pragmatischen Nutzungsprozesse um eine sehr grundsätzliche Frage geht. Die Suchmaschinen sind nicht ein beliebiges 'Werkzeug', das die präsentierten Texte ergänzt und den Umgang mit ihnen erleichtert, sondern sie erscheinen als ein systematisches Gegenüber, auf das die Texte im Sinn einer regelhaften Wechselbeziehung angewiesen sind.
Meine Behauptung ist, daß die Suchmaschinen exakt diejenige Position einnehmen, die im Fall nicht maschinen-vermittelter Kommunikation das System der Sprache für sich beanspruchen kann. (Und dies ist der hauptsächliche Grund, warum die Suchmaschinen mich interessieren).

Sprache, dies hat Saussure unmißverständlich gezeigt, zerfällt in zwei Seinsweisen, zwei Aggregatzustände. Den linearen, materialisierten Texten im Außenraum - Äußerungen, Sprachereignissen, Schriftstücken - gegenüber steht das semantische System, das als ein Wissen, eine Sprachkompetenz, seinen räumlich verteilten Sitz in den Köpfen der Sprachbenutzer hat. Es stehen sich also immer Köpfe und Texte gegenüber. Alle sprachlichen Ereignisse bedeuten eine Interaktion: ein Text trifft auf einen Kopf, der ihn versteht oder nicht versteht, und es war ein Kopf, der den Text in den intersubjektiven Raum entlassen hat. Die materialisierten Texte sind nie allein mit sich, sondern immer auf der Suche nach Köpfen, in die sie eingehen können. Und die Köpfe sind ebenfalls nicht allein, insofern sie in der Interaktion mit Texten ihre Form, ihre Struktur erhalten. Das semantische System und das sprachlich verfaßte Wissen sind Resultat dieser Interaktion. Sie sind das Grab, in dem die Texte untergegangen sind, Produkt einer Verdichtung oder Kumulation.(20) Und jeder neue Text arbeitet am sprachlichen System und an den beteiligten Köpfen weiter.
Von hier aus gibt es zwei mögliche Auffassungen, die Position der im Datennetz niedergelegten Texte zu verstehen. Entweder sie zielen wie die Texte des Schriftuniversums allein auf die Köpfe von menschlichen Lesern ab. In diesem Fall würde es sich beim Datennetz - fast trivial - um eine Neuauflage der Schriftkultur handeln, ergänzt vielleicht durch einen schnelleren Zugriff auf die Texte, der am Prinzipiellen aber kaum etwas ändern würde. (Und das mediengeschichtliche Rätsel wäre, warum das Datennetz dem durch die technischen Medien desavouierten Schriftuniversum zu einem Revival verhilft(21)).
Oder aber es geht um mehr, und darauf, denke ich, deuten die Zeichen hin. Wenn der Zugriff selbst über Systeme organisiert wird, die vom Wortschatz ausgehen, und wenn diese Systeme sich in Richtung semantisch-qualifizierender Maschinen weiterentwickeln, so ist dies nur so zu verstehen, daß die Sprache selbst, das semantische System, das Lexikon, aus den Köpfen befreit und im Außenraum technisch implementiert werden soll.(22) Das sprachliche System und eben nicht nur die Texte sollen im Netz der Rechner abgelegt werden. Und die Suchmaschinen mit ihren Defekten und Widersprüchen sind eine Art Abschlagszahlung auf dieses Projekt.
Die Suchmaschinen also vertreten die Sprache im Netz. Und damit haben sich die Gewichte völlig verschoben. Die engines stehen den Texten gegenüber, nicht als ein zusätzliches Werkzeug, sondern als die 'eigentliche' Struktur, der die Texte nur zuarbeiten; eine Maschine der Erschließung, gleichzeitig aber ein Kondensat, das die Fläche der Texte als ganze repräsentiert.(23)


4

Die These, daß es eigentlich um die Sprache geht, läßt eine neue Perspektive auf die innere Organisation der Suchmaschinen zu. Und es wird deutlich, daß die engines prominente Vorläufer in der Geschichte des Wissens und der historischen Sprachauffassungen haben.
Es drängt sich geradezu auf, in der hierarchisch gegliederten Struktur der Yahoo'schen Begriffspyramide jene mittelalterlichen Weltmodelle wiederzuerkennen, die etwa Bolzoni in ihrer Geschichte der Mnemotechnik referiert.(24) Eine große Bildtafel aus dem vierzehnten Jahrhundert zeigt die Gestalt Jesu im Zentrum des Lebensbaumes, dessen Äste und Blätter alle Stationen seines Erdendaseins, seines Leidensweges und seiner Verklärung enthalten; ein zweites Bild aus dem dreizehnten Jahrhundert zeigt einen Ritter zu Pferde, der mit gezogenem Schwert den sieben Todsünden entgegentritt, aufgeteilt in ein Felderschema, das sich Schritt für Schritt in die unendliche Vielfalt der einzelnen Sünden verzweigt.(25) Bolzoni führt aus, daß solche Schemata zunächst mnemotechnisch-didaktischen Zwecken dienten; Ordnung und Visualisierung erleichterten es, sich die komplexen Zusammenhänge einzuprägen. Ihre tatsächliche Bedeutung aber geht darüber hinaus. Der implizite Anspruch dieser Systeme war, die Dinge der Welt in ein konsistentes Schema zu bringen; und zwar in ein notwendig hierarchisches Schema, das ebenso notwendig im Begriff Gottes kulminierte. Nur der Begriff Gottes war in der Lage, alle anderen Begriffe einzuschließen und der pyramidalen Ordnung ein zuverlässiges Zentrum zu geben. Die sprachliche Struktur (der Dom der Begriffe(26)) und die Architektur der Wissensbestände überlagerten sich in dieser 'Ordnung der Dinge', einer metaphysischen Sprachauffassung, die uns heute weitgehend fremd geworden ist. Aber ist sie uns wirklich fremd geworden?

Was die Oberfläche angeht, der Sprung zurück sei erlaubt, kommt Yahoo ohne ein organisierendes Zentrum aus. Der Nutzer sieht sich nicht einer, sondern 14 zentralen Kategorien gegenübergestellt, von denen sich die Unterkategorien verzweigen. Die Pyramide also hat ihre Spitze verloren. Oder sollte man besser fragen, was nun an die Stelle Gottes getreten ist?
In einem Weltmodell Robert Fludds, eines englischen Enzyklopädisten der Renaissance,(27) hat Gott die Mitte bereits geräumt. Erhalten ist ein System streng konzentrischer Kreise, das die Dinge der Welt von den Mineralien über die Pflanzen und Tiere der Natur bis zu den menschlichen Künsten und schließlich den Planetensphären enthält. In die Mitte ist eine schematische Darstellung der Erde getreten, Vorgriff auf jenen blauen Ball, den die Astronauten zur Erde gefunkt haben. Die Darstellung wirkt wie ein Mandala, in das sich der Betracher versenkt, um mit einem kosmischen Ganzen in Kontakt zu treten.
Deutlicher noch wird die neue, säkularisierte Lösung beim Gedächtnistheater des Italieners Camillo, das selbst schon zur Geschichte der technischen Medien gehört. Zu Beginn des 16. Jahrhunderts hatte dieser eine hölzerne Konstruktion gebaut, die einem kleinen Rundtheater ähnelte.(28) Wer den Innenraum betrat, sah sich mit einer Fläche von Bildern konfrontiert, die durch die Architektur des Baus in Geschosse und Segmente gegliedert war; die Bilder hatten hochrangige Maler seiner Zeit angefertigt.(29)
Die horizontale Einteilung des Raums entsprach den sieben Planetensphären, die vertikale sieben Stadien der Entwicklung, von den ersten Prinzipien hin zu den Elementen, zur natürlichen Welt, zum Menschen, zu den Künsten und schließlich zu den Wissenschaften. Auf diese Weise repräsentierte jedes Feld der Matrix einen bestimmten Aspekt des Kosmos.
Die Bilder hatten allein die Aufgabe, den Überblick zu erleichtern. Hinter den Bildern nämlich befanden sich Fächer mit den Texten der großen Schriftsteller und Philosophen, so daß der Benutzer dort die Belegstellen, Begriffe und rhetorischen Mittel finden konnte, die es ihm erlaubten, mit den unterschiedlichen Gegenständen umzugehen.(30) Das ganze war damit vor allem ein Zugriffssystem; und indem Textzugriff und Texte klar getrennt werden, wird die Analogie zu den Suchmaschinen augenfällig.
Im Theater Camillos ist es endgültig der Mensch, der Betrachter, der das Zentrum der Konstruktion okkupiert. Auf seinen Blick ist die Fläche der Bilder ausgerichtet, und allein seine Perspektive schließt die 49 Felder der Matrix zusammen. Exakt dies nun scheint mir die Logik zu sein, die auch Yahoo zugrundeliegt. Gerade daß der Begriffspyramide die Spitze fehlt, definiert die Position, in die der User eintritt. Wie im optischen System der Zentralperspektive ist die 'royal overlooking position' für ihn, den Betrachter reserviert.(31)
Wie Foucault gezeigt hat, steht er dort, wo beim Entwurf des Bildes der Maler gestanden hat, oder im Fall von Yahoo der Konstrukteur der 'Ontologie'; daß er mit diesem um den Platz konkurriert, bleibt ihm unbewußt oder trägt zum Höhenrausch bei.
Yahoo ist tatsächlich eine 'Ontologie', und zwar nicht weil Yahoo und eben auch Ontologien willkürlich sind; viel eher deshalb, weil sie die Dinge an ihrem Platz halten und relativ dazu eine Position für den Nutzer definieren. Die Ontologie offeriert eine geordnete Welt. Und was in der chaotischen Vielfalt der verfügbaren Texte gerade unterzugehen droht, kann sich in die Ordnung der Suchmaschine noch einmal retten.

Die Lösung aber ist historisch überholt und innerhalb der Philosophiegeschichte aufgegeben worden. Weil jede positiv definierte Begriffshierarchie perspektivisch und willkürlich ist, bietet sie schnell jene Reibungspunkte, die der Anfang ihres Endes sind; und der Vorschlag an den Nutzer, sich die Yahoo- Perspektive sozusagen hypothetisch zueigen zu machen,(32) nimmt der Nutzung ihre Selbstverständlichkeit und dem System seine natürliche Transparenz. Haben die Stichwort- und die semantischen Maschinen also eine 'modernere' Lösung&127; gefunden?

Auf den ersten Blick muß es tatsächlich so wirken. Die Strategie, die Suchbegriffe davon abhängig zu machen, was in den Netzdokumenten, den Texten, empirisch vorgefunden wird, imitiert den Mechanismus der Sprache selbst. Oder genauer gesagt: den Mechanismus, mit dem die Sprache zu ihren Begriffen kommt.
Das synchrone System der Sprache entsteht, dies lehrt uns die Sprachtheorie, indem eine unendliche Vielzahl konkreter Äußerungen sich aufstaut und verdichtet. Ort dieser Verdichtung ist das Gedächtnis der Sprachbenutzer, in dem die konkreten Äußerungen untergehen; lineare Texte werden vergessen hinein in die Struktur unseres Sprachvermögens, die Struktur wird anhand konkreter Texte ständig modifiziert und differenziert.&127; Unser Sprachvermögen ist ein abstrakter Abzug des Sprechens, Sprechen und Sprache (Diskurs und System) sind auf regelhafte Weise verschränkt.
Für den einzelnen Begriff bedeutet dies, daß er akkumuliert, was die konkreten Kontexte an Bedeutungen bereitstellen. Nicht ein einmaliger Definitionsakt weist ihm seinen Ort im semantischen System zu, sondern die unübersehbare Kette seiner Verwendungen; Begriffe stehen für Kontexte, typisieren Kontexte, kapseln vergangene Kontexte ein.(33)

Die semantischen Suchmaschinen imitieren dies, indem sie ebenfalls Kontexte typisieren, um zu Begriffen - den Suchbegriffen - zu kommen. Die Tafel der Suchbegriffe entsteht, es wurde gesagt, als ein verdichteter, kumulierter Abzug der Texte. Ein statistischer Algorithmus zieht vergleichbare Kontexte zusammen, typisiert sie und weist sie den Suchbegriffen als Äquivalent ihrer Bedeutung zu.
Ein auf diese Weise dynamisiertes System ist den starr vordefinierten Systemen überlegen, auch wenn der statistische Algorithmus die Mechanismen der natürlichen Sprache nur unvollkommen modelliert. Es ist komplexer, näher an der Intuition und wird entsprechend weniger Reibungspunkte bieten. Ein letztes Mal also: was ist der Einwand?


5

Bei allem Fortschritt, dies ist wichtig zu sehen, ist die eigentliche Grundanordnung konstant geblieben. Exakt wie im Holztheater Camillos haben wir es nicht mit zwei Instanzen zu tun, einer Menge lesend/schreibend/recherchierender Subjekte, die auf eine zweite Menge schriftlich verfaßter Texte zugehen, sondern zusätzlich mit einer dritten Instanz, einem Erschließungssystem, das als ein Gitter oder Raster zwischen beide getreten ist.
Und wenn in Camillos Medienmaschine das Erschließungssystem dazu diente, die unendliche Fläche der Texte auf eine überschaubare Zahl von Kategorien niederzubrechen, um von dort aus - streng zentralperspektivisch - die Position für das beobachtende Subjekt zu entwerfen, so ist auch diese Grundanordnung intakt.

Das Bild macht deutlich, daß es nicht unbedingt besser sein muß, wenn das Gitter nicht zu spüren ist. Fast umgekehrt: je weniger Widerstand das Erschließungssystem bietet, je neutraler, transparenter und schwereloser es erscheint, desto näher liegt der Verdacht, es könne sich nicht um die Natur der Sache, sondern um eine Naturalisierungsstrategie handeln.

Das Kategorienraster muß sich als transparent gerieren, wenn es den Anstoß, den Yahoo erregt, nicht erregen will. Um dem Vorwurf der Willkür und der strukturierenden Einflußnahme auf die erschlossenen Inhalte zu entgehen, muß es bei den Nutzern den Eindruck etablieren, ein 'reines Werkzeug' und allein dem Zweck unterworfen zu sein; ein Schlüssel in der Hand des Kunden, der alle Sesams öffnet, ein dienstfertiger Geist, der keine eigenen Ansprüche stellt.
Daß die Algorithmen geheim gehalten werden, erscheint nun in einem veränderten Licht. Weit wichtiger als die Konkurrenz der beteiligten Firmen ist der Wunsch, tatsächlich über eine neutrale und transparente Erschließungsmaschine zu verfügen, ein Wunsch, den die Macher mit ihren Kunden, und wahrscheinlich mit uns allen, teilen. Am Grund der Anordnung erscheint eine den Diskurs organisierende Illusion.
Da es Algorithmen ohne Eigengewicht nicht gibt, muß ihnen der Metadiskurs beispringen und die Transparenz durch die schlichte Behauptung retten. Im heilsamen Singular: "searchig 'the web'", in der Geheimhaltung der Algorithmen, in der Betonung der Leistung und nicht der Grenzen, die vielleicht definierender wären, und im Routineversprechen der KI, schon bald weitere, noch leistungsfähigere Systeme zu entwickeln.(34) Im nicht Wissen und nicht wissen Wollen der Kunden, und im Primat einer Praxis, die ohnehin meist nicht weiß, was sie tut.

Die Datenverarbeitung - fast ist es zynisch, daran zu erinnern - ist angetreten mit dem Ideal einer ganz anders gearteten Transparenz. Das Versprechen war, gerade im Gegensatz zur natürlichen Sprache, nur prinzipiell nachvollziehbare Strukturen aufzubauen; sich auf die strukturelle Seite der Dinge zu beschränken, diese aber auf eine Weise anzuschreiben, die einer Analyse nicht nur zugänglich wäre, sondern diese bereits zu enthalten schien. Wenn die Programme nun, wie Kittler richtig schreibt, ins Wuchern natürlichsprachlicher Texte übergegangen sind,(35) so liegt das nicht daran, daß die Programme (und schon gar die Suchmaschinen) an den natürlichsprachlichen Texten sich infiziert hätten. Es liegt an unserem Bedürfnis, beides zu haben: beliebige Komplexität und die narzißtischen Freude des Überblicks, die Vielfalt des Sprechens und die Transparenz auf die Gegenstände, eine Sprache ohne metaphysisch-hierarchische Zentrierung, die ihre Kohärenz dennoch souverän aufrechterhält.

Daß inzwischen beliebig viele, unterschiedlich konstruierte Suchmaschinen miteinander konkurrieren, und eine zentrale Suchmaschine nun das Suchen in Suchmaschinen möglich machen soll,(36) macht klar, daß unser Wunsch auch diesmal nicht zum Ziel kommen wird. So hocken wir auf dem verwaisten Thron Gottes, uns gegenüber die unendlichen Textuniversen und in der Hand ein paar glitzernde aber defizitäre Maschinen. Und uns ist unbehaglich.





Anmerkungen:

(1) Die Metapher der Bibliothek ist einigermaßen problematisch und reich an Implikationen, dennoch wird sie immer wieder zur Beschreibung des Datennetzes gebraucht. Ebenso gibt es sehr unterschiedliche Angaben zum Gesamtvolumen der im Netz verfügbaren Texte (s.u.). zurück

(2) Angabe nach AltaVista Home Page: http://www.altavista.digital.com. zurück

(3) Faktisch werden die Nutzerbewegungen nicht protokolliert und hinterlassen insofern - glücklicherweise ? - keine dauerhafte Spur. zurück

(4) - "Aus der alten baumartigen Aufrufhierarchie ist eine Vernetzung von operationalen Einheiten geworden..." (Pflüger, Jörg: Über die Verschiedenheit des maschinellen Sprachbaues. In: Bolz/Kittler/Tholen (Hg.): Computer als Medium. S. 174)
- "An die Stelle eines zentral gesteuerten Output wird ein dezentralisierter Input treten, Gruppenkonversation wird die Massenkommunikation ersetzen, Hierarchien werden sich in Heterarchien verwandeln und eine vertikale wird einer horizontalen Gesellschaftsordnung Platz machen." (Youngblood, Gene: Metadesign. Die neue Allianz und die Avantgarde. In: Rötzer, Florian (Hg.): Digitaler Schein. Ästhetik der elektronischen Medien. Frankfurt/M. 1991, S. 307). Youngblood selbst etikettiert diese Kommunikationsutopie vorsichtig als 'Mythos'. zurück

(5) W., H.: Songlines. Landschaft und Architektur als Modell für den Datenraum. (in Vorber.). preprint: http://www.rz.uni- frankfurt.de/~winkler/songline. zurück

(6) Auf die Tatsache, daß auch Telephonbücher verdeckte Asymmetrien haben, hat mich Heiko Idensen aufmerksam gemacht: "Natürlich sind hier doch meistens die Namen der Männer verzeichnet, die die Anschluesse 'besitzen', auch Wohngemeinschaften etwa fallen durch das Raster des normalen Telefonbuches hindurch". (unveröff. Man.). zurück

(7) Steinberg, Steve G.: Seek and Ye Shall Find (Maybe). In: Wired, Nr. 4.05. Mai 1996, S. 108-114, 174-182, sowie in der Online-Ausgabe: http://www.hotwired.com. zurück

(8) Ebd., S. 175. zurück

(9) Steinberg, a.a.O., S. 113.
Die Schätzungen zur Gesamtzahl der im Netz verfügbaren Texte schwanken stark. Geht man von den genannten 50 Millionen Dokumenten und ca 7000 Zeichen für einen durchschnittlichen Netz-Text aus, ergibt sich eine Gesamtfläche von 330 Gigabytes, was im Druckuniversum (bei 300 Druckzeichen pro Seite und 250 Seiten pro Band) ca. 440.000 Büchern entsprechen würde. Steinberg gibt an, daß das Netz mit ca 20% monatlich wächst; daraus ergibt sich, daß das Gesamtvolumen der Library of Congress (gegenwärtig 29 Terabytes) in zwei Jahren überschritten werden wird. zurück

(10) Steinberg nennt das plastische Beispiel einer jüdischen Sekte, die zunächst unter Judentum gebucht wurde, nach vehementen Protesten aber aus dieser Kategorie wieder entfernt werden mußte: "The story began when the Messianic Jewish Alliance of America submitted its Web page to Yahoo! A classifier quickly reviewed the site; which contains everything from Stars of David to&127; articles about Israel, not to mention the word 'Jewish' in its name; and placed it under Society and Culture:Religion:Judaism. But here's where things got tricky. True, MJAA members are born of Jewish mothers and are hence, by definition, Jews. But they also believe that Jesus Christ is the messiah. In the eyes of most Jews, that makes the MJAA a bunch of heretics. Or at least Christians. So when a few vocal and Net-savvy Jews saw the MJAA listed under Judaism, they let loose a salvo of email demanding that Yahoo! remove MJAA's listing. A bit taken aback by the protesters' virulence ('threats of boycotts,' Yang said with amazement), Yahoo! yielded and reclassified MJAA under Christianity with a cross-reference from Judaism. Of course, this caused the MJAA to protest that they were now being incorrectly labeled. After a modern-day Solomonic compromise, the MJAA and a few similar groups can now be found listed under Society and Culture:Religion: Christianity:Messianic Judaism; which is linked by a cross-reference from Judaism.
Yang [der interviewte Yahoo-Vertreter] looked at me sheepishly when telling this story. After all, he believes in truth, justice, and the Internet way. Hell, he even gave me a mini-sermon that morning about how the Net is egalitarian; the little guy can publish just as easily as the big guy. Yet, he knows the MJAA was pushed around because it didn't have mainstream Judaism's clout.
But the MJAA story is interesting not just for exposing the realpolitik of classification. It's proof that no ontology is objective; all have their own biases and proclivities. Yang was quick to admit this: in fact, he referred to Yahoo!'s ontology as the company's editorial. 'Organizing the Web is sometimes like being a newspaper editor and inciting riots,' he said with a touch of exasperation. 'If we put hate crimes in a higher level of the topic hierarchy, well, it's our editorial right to do so, but it's also a very heavy responsibility.'" (Ebd., S. 111ff (Erg. H.W.)). zurück

(11) "At some point, our scheme will become relatively stable. We will have captured the breadth of human knowledge." (Yahoo, zit. nach Steinberg, ebd.). zurück

(12) Bei einigen Suchmaschinen wird statt eines Ja/Nein-Bits offensichtlich eingetragen, wie häufig der Begriff im Text vorkommt. Dies macht eine Gewichtung der Texte in der Ausgabeliste möglich. zurück

(13) Angabe nach AltaVista Home Page. Steinberg nennt dagegen 21 Millionen Texte für&127; AltaVista. zurück

(14) "Searchig 'the web'" ist die Formulierung bei AltaVista. Sie meint zunächst, daß im WWW und nicht z.B. im Usenet gesucht wird; die Ambiguität aber dürfte zumindest den Machern bewußt sein... zurück

(15) "I could usually find what I was looking for, but I felt as if I was poking around in the dark." (Steinberg, a.a.O., S. 174). zurück

(16) Es wird damit die Grenze zwischen zwei Sprachen verfestigt, die für beide Seiten einigermaßen konsequenzenreich ist. zurück

(17) Steinberg, a.a.O., S. 175 (eigene Übersetzung).
Der Originaltext verwechselt in seinem zweiten Teil die Zeilen und Spalten der Tabelle; wenn tatsächlich die Zeilen ersetzt würden, wäre ein Zugriff auf die Dokument-Adressen - der eigentliche Zweck der Tabelle - versperrt: "The idea is to take the inverted index of the Web, with its rows of documents and columns of keywords, and compress it so that documents with roughly similar profiles are clustered together - even if one uses the word 'movie' and one uses 'film' - because they have many other words in common. The result is a matrix where the rows now represent concepts instead of actual documents." zurück

(18) Die Konzeption erinnert an die Theorie der Wortfelder, die zuerst von Trier/Weißgerber vertreten wurde (siehe z.B.: Lyons, John: Semantik. Bd. 1, München 1980, S. 261ff (OA., am.: 1977)). zurück

(19) Ebd.
"It learns about subject categories from the bottom up, instead of imposing an order from the top down. It is a self- organizing system. [...] To come up with subject categories, Architext makes only one assumption: words that frequently occur together are somehow related. As the corpus changes - as new connections emerge between, say O. J. Simpson and murder - the classification scheme automatically adjusts. The subject categories reflect the text itself"; "this eliminates two of the biggest criticisms of library classification: that every scheme has a point of view, and that every scheme will be constantly struggling against obsolescence." zurück

(20) Die Überlegungen zur Sprache, die hier nur kurz skizziert werden können, habe ich ausgeführt in: W.H.: Docuverse. Zur Medientheorie der Computer. (Monographie in Vorber.) München 1997. Das Sprachmodell findet sich im ersten, die Überlegung zu Kumulation und Verdichtung im vierten Kapitel. zurück

(21) Ebd., Kapitel 5. zurück

(22) Die These einer 'Externalisierung' der Sprache ist ebenfalls Gegenstand meines Buches. Dort werden auch die problematischen Implikationen dieser Innen/Außen-Vorstellung diskutiert. zurück

(23) Zur Erinnerung: AltaVista beansprucht, tatsächlich das gesamte Netz in seiner Suchtabelle abzubilden. Zwar in abstrahierter Form und auf 4% kondensiert, ansonsten aber komplett, Text für Text, Wort für Wort. zurück

(24) Bolzoni, Lina: The Play of Images. The Art of Memory from Its Origins to the Seventeenth Century. In: Corsi, Pietro (Hg.): The Enchanted Loom. Chapters in the History of Neuroscience. New York/Oxford 1991, S. 16-65. zurück

(25) Ebd., S. 27-29. zurück
(26) "Im Bereich jener Schemata nämlich ist etwas möglich, was niemals unter den anschaulichen ersten Eindrücken gelingen möchte: eine pyramidale Ordnung nach Kasten und Graden aufzubauen, eine neue Welt von Gesetzen, Privilegien, Unterordnungen, Grenzbestimmungen zu schaffen, die nun der anderen anschaulichen Welt der ersten Eindrücke gegenübertritt als das Festere, Allgemeinere, Bekanntere, Menschlichere [...]. Der große Bau der Begriffe [zeigt] die starre Regelmäßigkeit eines römischen Kolumbariums [...]. Man darf hier den Menschen wohl bewundern als ein gewaltiges Baugenie, dem auf beweglichen Fundamenten und gleichsam auf fließendem Wasser das Auftürmen eines unendlich komplizierten Begriffsdomes gelingt [...]." (Nietzsche, Friedrich: Über Wahrheit und Lüge im außermoralischen Sinn. In: Werke Bd. 5, München/Wien 1980, S. 314f (Erg. H.W.) (OA.: 1873)). zurück

(27) Darstellung 'Integrae Naturae speculum artisque imago' (1617) in: Körber-Stiftung (Hg.): Kosmoi. Jahreskalender Deutscher Studienpreis 1996 (Das Original des Blattes wird in der British Library, London aufbewahrt). zurück

(28) Eine ausführliche Rekonstruktion des Theaters findet sich in: Yates, Frances A.: Gedächtnis und Erinnern. Mnemonik von Aristoteles bis Shakespeare. Weinheim 1991, S. 123ff (OA., engl.: 1966). zurück

(29) Bolzoni, Lina: Gedächtniskunst und allegorische Bilder. Theorie und Praxis der ars memorativa in Literatur und Bildender Kunst Italiens zwischen dem 14. und 16. Jahrhundert. In: Assmann/Harth, Mnemosyne, a.a.O., S. 147-176. zurück

(30) "1532 schrieb Wigle von Aytta (Viglius Zuichemus), damals in Padua [...]: 'Man sagt, dieser Mann habe ein gewisses Amphitheater errichtet, ein Werk mit der wunderbaren Fähigkeit, daß jeder, der als Zuschauer eingelassen wird, über jedes Thema nicht weniger gewandt disputieren kann als Cicero. Ich hielt dies zunächst für eine Mär, doch dann habe ich mehr über diesen Gegenstand [...] erfahren...'" (Yates, Gedächtnis und Erinnern, a.a.O., S. 123). zurück

(31) Die Bedeutung der Zentralperspektive für die Geschichte der technischen Medien habe ich referiert in: W.H.: Der filmische Raum. Heidelberg 1992. zurück

(32) Steinberg zitiert einen Yahoo-Vertreter, a.a.O., S. 112. zurück

(33) "It is indeed a characteristic of language - and another aspect of the 'problem of the word' - that it has this constant but never fully realised tendency to encapsulate a kind of complete (but concentrated, compressed) 'argument' in every word: a tendency which is also intrinsically condensatory. Even the most ordinary word, lamp for instance, is the meeting-point for several 'ideas' [...] each of which, if it were unravelled, or decondensed, would require a whole sentence". "Past condensations meet in each word of the language [...] this is to definde the lexicon itself as the product of an enormous condensation". (Metz, Christian: The Imaginary Signifier. Bloomington 1982, S. 225, 239 (OA., frz.: 1973-76, in Buchform: 1977). zurück

(34) Der vorläufig letzte Stand der Debatte sind Systeme wie PointCast, ein Agentenprogramm,&127; das im Auftrag einzelner Nutzer und ausgerüstet mit seinen Prioritäten das Netz durchsucht (www.pointcast.com), oder NetSum, ein Programm der British Telecom Natural Language Labs, das automatisch und auf sprachstatistischer Basis Abstracts generiert. zurück

(35) Kittler, Friedrich: Protected Mode. In: Bolz, Norbert; Kittler, Friedrich; Tholen, Christoph (Hg.): Computer als Medium. München 1994, S. 219. zurück

(36) So bietet www.nln.com einen Metaindex für Suchmaschinen an. zurück