Vortrag auf der Tagung: Synergie durch Netze, Universität Magdeburg, 10 '96; veröff. in Telepolis online; Druck: Becker, Barbara; Paetau, Michael (Hg.): Virtualisierung des Sozialen. Frankfurt/NY 1997, S. 185-202; - website creation date: 26. 04. 01, expiration date: 26. 04. 04, 49 KB, url: www.uni-paderborn.de /~winkler/suchm_d.html, language: German, © H. Winkler 1996, home - ( keys: media, theory, search engines, computers, technology, language, knowledge )-
Wir benutzen sie täglich, und wir wissen nicht, was wir tun. Wir wissen nicht, wer sie
betreibt und warum, nicht wie sie aufgebaut sind und wenig darüber, wie sie
funktionieren; der klassische Fall einer black box; und dennoch sind wir auf Knien
dankbar, daß es sie gibt.
Als die ersten Suchmaschinen 1994/95 aufgebaut wurden, reagierten sie auf ein
offensichtliches Problem: die Fläche der im Netz verfügbaren Informationen und Texte
hatte in exponentiellem Wachstum zugenommen und es war in wenigen Jahren eine riesige, den
Globus umspannende Bibliothek entstanden;(1) eine
Bibliothek allerdings - man denke sich dergleichen außerhalb der virtuellen Sphäre -
ohne Katalog und ohne zentrale Beschaffung, mit willkürlich gewählten Signaturen und
ohne jede Möglichkeit, beim Auskunftspersonal Hilfe zu finden; die Assoziationen zu
Borges dürften alles andere als zufällig sein.
Die Suchmaschinen traten mit dem Anspruch auf, die riesige Fläche der verfügbaren Texte
zu erschließen. Und es gab Beispiele, an denen man sich orientieren konnte. Das System
Gopher, unmittelbarer Vorläufer des WWW, verfügte über ein Suchsystem 'Veronica' -
dienende Funktionen und Tiefdruckgebiete werden weiblich benannt -, 'Archie' half dabei,
Dateien im Netz zu finden, deren Name man kannte, und 'X500' funktionierte als eine Art
Telephonbuch für die Useradressen im Netz. Daneben gab es voluminöse Printreader, die
häufig schon beim Druck veraltet waren, Yellow Pages für das Datennetz, Netzguides,
Verzeichnisse 'wichtiger Netzadressen' usf.
Wenn die Suchmaschinen diese Funktionen nun zusammenfassen, aktualisieren und mit einer
einheitlichen Zugriffslogik versehen - wo ist dann das Problem? Kennen nicht auch Bücher
Indices und Bibliotheken Schlagwortkataloge? Und ist nicht alles nützlich, was den
Zugriff erleichtert, wenn die instantane Verfügbarkeit der Information doch eine der
Basis- Utopien des Datenuniversums ist?
All dies ist richtig und ich denke dennoch, daß es lohnt, sich einige grundsätzlichere
Gedanken zu machen. Und es sind folgende Punkte, die ich für die Recherche vorschlagen
will:&127; Zum einen, eingangs erwähnt, das spezifische Moment von Blindheit, das unseren
Umgang mit diesen Maschinen bestimmt. Zum zweiten ist auffällig, eine wie zentrale, ja
'mächtige' Stellung im Netz die Suchmaschinen inzwischen einnehmen; eine relevante Frage,
wenn man die Entwicklungstendenzen des Mediums nachzeichnen will. Zum dritten
interessieren mich die Strukturannahmen, die den verschiedenen Suchmaschinen
zugrundeliegen; und viertens schließlich, dies wird der letzte Punkt sein, ein Bezug auf
die Sprache und die Sprachtheorie, der die Maschinen in eine neue Perspektive und eine
veränderte Traditionslinie rückt.
1
Eine zentrale Stellung im Netz haben die Suchmaschinen vor allem deshalb, weil sie
unendlich oft angesprungen werden; im Fall von AltaVista sind dies 12 Millionen Zugriffe
pro Werktag, wenn man den Angaben trauen kann.(2)
Der einzelne Nutzer wird seinen Suchbefehl als ein schlichtes Sprungbrett betrachten,
tatsächlich aber bedeutet es einen großen Erfolg, so viele Nutzer auf eine einzelne
Adresse zu ziehen. Die unmittelbar ökonomische Konsequenz ist, daß man diese Kontakte
verkaufen kann, daß die Suchmaschinen sich also hervorragend für die Platzierung von
Werbung eignen und deshalb zu den wenigen tatsächlich rentablen Netz-Businesses zählen.
Yahoo ist beim Börsen-Einstieg verblüffend hoch bewertet worden, und es wird in Zukunft
sicher Firmen geben, die eine Search engine nur deshalb anbieten, um diesen Effekt zu
nutzen.
Zum zweiten und wichtiger aber bedeutet die Häufung der Zugriffe einen signifikanten
Umbau in der Gesamtarchitektur des Netzes. Man kann das Datennetz als eine gewachsene
Struktur begreifen, in der zwei völlig unterschiedliche Ebenen sich überlagern: zum
einen, manifest und sichtbar, die Struktur der Angebote und die verzweigten Architekturen
der Links, zum zweiten, zunächst unsichtbar und nur an einigen Stellen durch
Zugriffsstatistiken sichtbar gemacht, die Nutzerbewegungen, die diesen Links folgen. Da
die Nutzerbewegungen sich quantitativ sehr unterschiedlich verteilen, tragen auch sie zur
Netzarchitektur bei; sie schreiben, so könnte man sagen, in die Struktur des Netzes
zurück und graben die häufig benutzten Links tiefer ein.(3) Wie im Fall des Kinos das Box-office- Ergebnis und beim Fernsehen die
Einschaltquote bestimmen die Nutzerbewegungen die Entwicklung und Struktur des Angebots
mit.
Für das Netz bedeuten 12 Millionen Zugriffe am Tag einen Schub in Richtung
Zentralisierung. Dies müßte all diejenigen hellhörig machen, die gerade den dezentralen
und antihierarchischen Charakter des Netzes hervorgehoben haben und seine allgemeine
Zugänglichkeit mit weitreichenden basisdemokratischen Hoffnungen verbinden.(4) In einem früheren Text habe ich vertreten, daß
es ein antihierarchisches Medium nicht gibt, und daß sich automatisch Hierarchien
('Haupt- und Nebenstrassen') im Netz herausbilden werden;(5) mit den Search Engines hat sich dies sehr schnell und augenfällig
bestätigt.
Dennoch, und damit komme ich zum zweiten Punkt, wird die Zentralisierung nicht als solche
empfunden. Die Suchmaschinen können nur deshalb eine so zentrale Position einnehmen, weil
man ihnen in gewisser Weise Neutralität unterstellt. Weil sie gerade nicht ein
inhaltliches Angebot machen, sondern in rein dienender Funktion, als ein Service und ein
neutraler Vermittler, auftreten. Aus der Dialektik von Herr und Knecht aber wissen wir,
daß sich hinter der Devotion des Knechtes eine um so wirkungsvollere Einflußnahme
verbirgt. Es könnte also lohnen, die Neutralität des Vermittlers zu befragen; und
gleichzeitig die eigene Naivität, die sich einen neutralen Vermittler, wie es scheint, so
sehr wünscht. Aber sind Stichworte oder ist ein Telephonbuch nicht tatsächlich neutral?(6)
2
Die Frage geht zunächst an die Konstruktion der Suchmaschinen selbst. Steve Steinberg,(7) auf den ich mich im folgenden, was die
Sachaussagen angeht, hauptsächlich beziehe, hat in einem 'Wired'-Artikel dargestellt, was
normale Nutzer über die Suchmaschinen nicht wissen, und, was mehr ist, glauben nicht zu
wissen müssen, um sie sinnvoll benutzen zu können. Den genauen Algorithmus ihrer Suche,
dies ist das erste Ergebnis bei Steinberg, halten die Anbieter geheim.(8) Da es sich um Privatfirmen handelt und die Algorithmen zum
unmittelbaren Produktionskapital zählen, muß vor allem die Konkurrenz auf Abstand
gehalten werden; nur sehr allgemeine Informationen werden der Öffentlichkeit zugänglich
gemacht, die Details bleiben im black der blackbox verborgen. Wenn wir uns der
Suchmaschinen relativ blind bedienen, also hat dies einen guten ökonomischen Grund.
Drei grundsätzliche Typen von Search engines lassen sich unterscheiden. Der erste Typ
beruht auf einem System vordefinierter und hierarchisch geordneter Schlagworte. Bei Yahoo
etwa sind zwanzig menschliche Codierer damit beschäftigt, neue Webseiten den Kategorien
zuzuordnen; die Netzadressen kommen über E-mail-Zuschriften herein oder werden von einem
Suchprogramm, einem sogenannten Spider, aufgefunden; auf diese Weise hat die Firma bisher
200.000 Webdokumente erfaßt.
Die Zahl bereits signalisiert, daß eine Codierung mithilfe menschlicher Fachkräfte
schnell an quantitative Grenzen stößt. Bei einem geschätzen Gesamtvolumen von 30-50
Millionen verfügbaren Dokumenten im Netz(9) bietet
Yahoo etwa 0,4%, und dies mit einer eher ungünstigen Prognose, wenn man sich
vergegenwärtigt, daß das Angebot in exponentiellem Maßstab wächst.
Noch ernster aber sind die Probleme des Ordnungssystems selbst. Die 20.000 Begriffe, die
Yahoo als Schlagworte ausgewählt hat, werden innerhalb der Firma (verhalten
selbstironisch?) 'the ontology' genannt. Was oder wer aber könnte die Einheitlichkeit und
innere Stimmigkeit einer solchen Begriffs-Hierarchie garantieren? Wenn pollution etwa
unter 'Society and Culture'/'Environment and Nature'/'Pollution' geführt wird, so mag
dies noch einigermaßen schlüssig sein; in jedem komplizierteren Fall aber werden
Zuordnungskonflikte auftreten, die auch durch ergänzende Kreuzreferenzen nicht mehr zu
lösen sind.(10)
Die Konstruktion der Hierarchie erscheint als ein einigermaßen hybrides Projekt, zielt es
doch darauf ab, Millionen völlig heterogener Netzbeiträge aus nahezu allen Bereichen der
menschlichen Wissensbestände(11) auf ein
einheitliches Kategoriensystem zu bringen, ungeachtet ihrer Perspektivität, ihrer
Widersprüche und Konkurrenzen.
Yahoos 'ontology' tritt damit das schwere Erbe jener tatsächlichen Ontologien an, deren
immer erneutes Scheitern in der Philosophiegeschichte nachvollzogen werden kann. Und
allein der pragmatische Kontext macht erklärlich, daß das philosophische Problem im
neuen Gewand nicht wiedererkannt und in aller Naivität technisch noch einmal
reinstalliert worden ist. Im schlimmsten Fall eben wird ein Gesuchtes nicht gefunden, und
daß der Schaden begrenzt ist, trennt Yahoo von den Problemen der Philosophie.
Der zweite Typus von Suchmaschinen kommt ohne ein vordefiniertes Ordnungssystem und vor
allem ohne menschliche Codierer aus. Systeme wie 'AltaVista', 'Inktomi' oder 'Lycos'
generieren einen 'inverted index', indem sie die gefundenen Texte analysieren; und zwar im
Sinne einer Volltextsuche, Wort für Wort, so daß schließlich jeder einzelne Begriff des
ursprünglichen Textes im Index enthalten ist und als Suchbegriff zur Verfügung steht.
Technisch ist dies weniger aufwendig als man denken würde. In einer riesigen Kreuztabelle
wird für jeden analysierten Text eine Zeile angelegt, während die Spalten die Worte des
Wortschatzes repräsentieren; kommt ein Wort im Text vor, wird ein einzelnes Bit auf 'Ja'
gesetzt;(12) auf diese Weise entsteht ein
abstrakter Abzug des Textes, komprimiert auf ca. 4% seiner ursprünglichen Größe. Die
Suchanfragen greifen nur noch auf die Tabelle zu.
Da es sich um ein vollautomatisches System handelt, kann der Alta-Vista-Spider täglich
2,5 Millionen Netzdokumente auswerten, und gegenwärtig sind etwa 30 Millionen Texte im
System repräsentiert.(13)
Und die Suchresultate sind tatsächlich beeindruckend. AltaVista liefert überaus
nützliche Ergebnislisten, geordnet nach einem internen Prioritätensystem. Und wer
gefunden hat, was er suchte, wird keinen Anstoß daran nehmen, daß der Algorithmus auch
in diesem Fall nicht transparent gemacht wird.
Dennoch gibt es Probleme. So ist zunächst auffällig, daß bereits geringe Veränderungen
der Fragestellung zu völlig unterschiedlichen Rückmeldungen führen; wer gezielt
verschiedene Abfragen für ein ihm bekanntes Dokument durchtestet, wird feststellen, daß
das selbe Dokument manchmal mit hoher Priorität, manchmal mit niedriger und manchmal gar
nicht angezeigt wird; und er wird zumindest irritiert sein.
Verallgemeinert bedeutet dies, daß man in vielen Fällen nicht weiß, wie man das
Resultat tatsächlich beurteilen soll; weder ist abzuschätzen, welche Dokumente das
System nicht liefert, obwohl es sie liefern müßte, welche Angebote es also
unterschlägt, entweder weil der Spider sie nicht gefunden hat, oder weil der
Auswertungsalgorithmus eben doch anders als vermutet arbeitet. Auch wenn das Programm
vollmundig 'searchig the web' anzeigt,(14)
so ist dieser Singular selbstverständlich Illusion, insofern selbst 30 Millionen Texte
nur einen bestimmten Ausschnitt der Gesamtfläche darstellen. Und es besteht keine
Möglichkeit abzuschätzen, wie sich dieser Ausschnitt, was seine Inhalte angeht, zum Rest
der Fläche verhält.(15) Für viele pragmatische
Anfragen, wie gesagt, mag diese Überlegung luxuriös erscheinen, im Folgenden aber wird
klarwerden, daß sie dies keineswegs ist.
Das zweite und hauptsächliche Problem aber liegt bereits in der Grundannahme. Eine
mechanische Stichwortsuche setzt voraus, daß nur solche Fragen gestellt werden, die in
Stichworten klar formulierbar sind und durch weitere Stichworte differenziert und
konkretisiert werden können. Ebenso wird niemand erwarten, daß das System neben dem
gefragten auch bedeutungsähnliche Begriffe einbeziehen oder Homonyme ausschließen kann.
Suchmaschinen diesen Typs sind vollständig unsensibel für Fragen der Semantik, oder
klarer: sie haben ihre Pointe gerade darin, semantische Probleme, wie sie bei Yahoo
offensichtlich werden, auszuschließen. Die Probleme selbst aber sind damit nicht aus der
Welt. Sie werden dem User aufgelastet in der Zumutung, seine Frage in die Form
ein-eindeutiger Signifikantenketten zu bringen und dann mit dem mechanisch selegierten
Ergebnis sich zu bescheiden. Alle Fragen, die auf Stichworte nicht zu reduzieren sind,
fallen aus dem Raster des Möglichen heraus; technische und naturwissenschaftliche Termini
werden sich relativ gut für die Suche eignen, geisteswissenschaftliche Themen weit
weniger gut, und diese erscheinen ein weiteres Mal als jene 'weiche' - allzu weiche -
Sphäre, die, wer nicht ins Boldenlose geraten will, am besten von vornherein meidet.(16)
Normalerweise wird an dieser Stelle salomonisch eingewandt, erstens sei die Frage trivial,
weil man von einem System nicht mehr erwarten dürfe als wofür es gemacht sei - dies
wäre Konsens, wenn den Nutzern tatsächlich klar wäre, was die regelhaften Ausschlüsse
sind - und zweitens werde an dem Problem gearbeitet.
Daß an dem Problem tatsächlich gearbeitet wird, bringt den dritten Typus von
Suchmaschinen in die Welt. Systeme wie 'Excite' von Architext oder 'Smart' beanspruchen,
nicht mehr mechanisch mit Signifikantenketten, sondern auf Basis eines tatsächlich
semantischen Modells zu arbeiten. Um Artikel zu Ölfilmen und solche zu Kinofilmen sicher
unterscheiden zu können, wird der Kontext untersucht, in dem die jeweiligen Begriffe
auftreten.
"Die Grundidee ist, den inverted index des Web zu nehmen, mit seinen Zeilen von
Dokumenten und seinen Spalten von Stichworten, und ihn statistisch zu komprimieren, so
daß Dokumente mit ähnlichem Profil zu Clustern zusammengezogen werden; und dies auch
dann, wenn ein Dokument das Wort 'Movie' benutzt und das andere 'Film', einfach weil sie
viele andere Wörter gemeinsam haben. Das Ergebnis ist eine Matix, [wo die Spalten nun
inhaltliche Begriffe/Konzepte repräsentieren anstatt der Stichworte]."(17)
Das aufregende an diesem Maschinentyp ist, daß er von mechanischen Stichworten zu
inhaltlichen Konzepten übergeht;(18) und
zweitens, daß er seine Kategorien allein auf Basis der eingegebenen Texte, einer
statistischen Auswertung der Dokumente gewinnt.
"Die Maschine lernt die Kategorien [induktiv] von unten nach oben, anstatt
[deduktiv] eine Ordnung von oben überzustülpen. Sie ist ein selbstorganisierendes
System. [...] Um Kategorien zu gewinnen, macht Achitext nur eine Grundannahme: daß Worte,
die häufig gemeinsam auftreten, in irgendeiner Weise aufeinander bezogen sind. Wenn der
Textkorpus sich ändert - wenn neue Verbindungen auftreten, z.B. zwischen O.J. Simpson und
Mord - passt sich das Klassifikationsschema automatisch an. Die Kategorien reflektieren
den Text selbst"; "dies eliminiert zwei der größten Kritikpunkte an
Bibliothekssystematiken: daß jedes Schema eine Perspektive hat und daß jedes Schema
ständig gegen sein Veralten ankämpfen muß."(19)
Weitere Entwürfe wie das System 'Context' der Firma Oracle versuchen Analysen der Syntax
einzubeziehen, und finden sich damit im Problemfeld der Modellierung der natürlichen
Sprache wieder, einem Problem, das die KI seit den sechziger Jahren bearbeitet, ohne
bislang überzeugende Ergebnisse vorweisen zu können. Die Evaluierung solcher Systeme ist
mehr als schwierig; und noch schwieriger ist es, Prognosen über mögliche
Entwicklungschancen zu stellen.
Ich möchte den Fokus der Frage deshalb verschieben von der Funktionsweise, den
Implikationen und Grenzen der vorgestellten Systeme auf die kulturwissenschaftliche Frage,
was ihre Bedeutung, was ihr eigentliches Projekt in der Konkurrenz der Diskurse und Medien
ist.
3
Der Weg von den hierarchischen Ontologien über die Stichwortsuche hin zu den semantischen
Systemen nämlich zeigt, daß es jenseits der pragmatischen Nutzungsprozesse um eine sehr
grundsätzliche Frage geht. Die Suchmaschinen sind nicht ein beliebiges 'Werkzeug', das
die präsentierten Texte ergänzt und den Umgang mit ihnen erleichtert, sondern sie
erscheinen als ein systematisches Gegenüber, auf das die Texte im Sinn einer regelhaften
Wechselbeziehung angewiesen sind.
Meine Behauptung ist, daß die Suchmaschinen exakt diejenige Position einnehmen, die im
Fall nicht maschinen-vermittelter Kommunikation das System der Sprache für sich
beanspruchen kann. (Und dies ist der hauptsächliche Grund, warum die Suchmaschinen mich
interessieren).
Sprache, dies hat Saussure unmißverständlich gezeigt, zerfällt in zwei Seinsweisen,
zwei Aggregatzustände. Den linearen, materialisierten Texten im Außenraum -
Äußerungen, Sprachereignissen, Schriftstücken - gegenüber steht das semantische
System, das als ein Wissen, eine Sprachkompetenz, seinen räumlich verteilten Sitz in den
Köpfen der Sprachbenutzer hat. Es stehen sich also immer Köpfe und Texte gegenüber.
Alle sprachlichen Ereignisse bedeuten eine Interaktion: ein Text trifft auf einen Kopf,
der ihn versteht oder nicht versteht, und es war ein Kopf, der den Text in den
intersubjektiven Raum entlassen hat. Die materialisierten Texte sind nie allein mit sich,
sondern immer auf der Suche nach Köpfen, in die sie eingehen können. Und die Köpfe sind
ebenfalls nicht allein, insofern sie in der Interaktion mit Texten ihre Form, ihre
Struktur erhalten. Das semantische System und das sprachlich verfaßte Wissen sind
Resultat dieser Interaktion. Sie sind das Grab, in dem die Texte untergegangen sind,
Produkt einer Verdichtung oder Kumulation.(20)
Und jeder neue Text arbeitet am sprachlichen System und an den beteiligten Köpfen weiter.
Von hier aus gibt es zwei mögliche Auffassungen, die Position der im Datennetz
niedergelegten Texte zu verstehen. Entweder sie zielen wie die Texte des Schriftuniversums
allein auf die Köpfe von menschlichen Lesern ab. In diesem Fall würde es sich beim
Datennetz - fast trivial - um eine Neuauflage der Schriftkultur handeln, ergänzt
vielleicht durch einen schnelleren Zugriff auf die Texte, der am Prinzipiellen aber kaum
etwas ändern würde. (Und das mediengeschichtliche Rätsel wäre, warum das Datennetz dem
durch die technischen Medien desavouierten Schriftuniversum zu einem Revival verhilft(21)).
Oder aber es geht um mehr, und darauf, denke ich, deuten die Zeichen hin. Wenn der Zugriff
selbst über Systeme organisiert wird, die vom Wortschatz ausgehen, und wenn diese Systeme
sich in Richtung semantisch-qualifizierender Maschinen weiterentwickeln, so ist dies nur
so zu verstehen, daß die Sprache selbst, das semantische System, das Lexikon, aus den
Köpfen befreit und im Außenraum technisch implementiert werden soll.(22) Das sprachliche System und eben nicht nur die Texte sollen im Netz
der Rechner abgelegt werden. Und die Suchmaschinen mit ihren Defekten und Widersprüchen
sind eine Art Abschlagszahlung auf dieses Projekt.
Die Suchmaschinen also vertreten die Sprache im Netz. Und damit haben sich die Gewichte
völlig verschoben. Die engines stehen den Texten gegenüber, nicht als ein zusätzliches
Werkzeug, sondern als die 'eigentliche' Struktur, der die Texte nur zuarbeiten; eine
Maschine der Erschließung, gleichzeitig aber ein Kondensat, das die Fläche der Texte als
ganze repräsentiert.(23)
4
Die These, daß es eigentlich um die Sprache geht, läßt eine neue Perspektive auf die
innere Organisation der Suchmaschinen zu. Und es wird deutlich, daß die engines
prominente Vorläufer in der Geschichte des Wissens und der historischen
Sprachauffassungen haben.
Es drängt sich geradezu auf, in der hierarchisch gegliederten Struktur der Yahoo'schen
Begriffspyramide jene mittelalterlichen Weltmodelle wiederzuerkennen, die etwa Bolzoni in
ihrer Geschichte der Mnemotechnik referiert.(24)
Eine große Bildtafel aus dem vierzehnten Jahrhundert zeigt die Gestalt Jesu im Zentrum
des Lebensbaumes, dessen Äste und Blätter alle Stationen seines Erdendaseins, seines
Leidensweges und seiner Verklärung enthalten; ein zweites Bild aus dem dreizehnten
Jahrhundert zeigt einen Ritter zu Pferde, der mit gezogenem Schwert den sieben Todsünden
entgegentritt, aufgeteilt in ein Felderschema, das sich Schritt für Schritt in die
unendliche Vielfalt der einzelnen Sünden verzweigt.(25)
Bolzoni führt aus, daß solche Schemata zunächst mnemotechnisch-didaktischen
Zwecken
dienten; Ordnung und Visualisierung erleichterten es, sich die komplexen Zusammenhänge
einzuprägen. Ihre tatsächliche Bedeutung aber geht darüber hinaus. Der implizite
Anspruch dieser Systeme war, die Dinge der Welt in ein konsistentes Schema zu bringen; und
zwar in ein notwendig hierarchisches Schema, das ebenso notwendig im Begriff Gottes
kulminierte. Nur der Begriff Gottes war in der Lage, alle anderen Begriffe einzuschließen
und der pyramidalen Ordnung ein zuverlässiges Zentrum zu geben. Die sprachliche Struktur
(der Dom der Begriffe(26)) und die Architektur
der Wissensbestände überlagerten sich in dieser 'Ordnung der Dinge', einer
metaphysischen Sprachauffassung, die uns heute weitgehend fremd geworden ist. Aber ist sie
uns wirklich fremd geworden?
Was die Oberfläche angeht, der Sprung zurück sei erlaubt, kommt Yahoo ohne ein
organisierendes Zentrum aus. Der Nutzer sieht sich nicht einer, sondern 14 zentralen
Kategorien gegenübergestellt, von denen sich die Unterkategorien verzweigen. Die Pyramide
also hat ihre Spitze verloren. Oder sollte man besser fragen, was nun an die Stelle Gottes
getreten ist?
In einem Weltmodell Robert Fludds, eines englischen Enzyklopädisten der Renaissance,(27) hat Gott die Mitte bereits geräumt. Erhalten
ist ein System streng konzentrischer Kreise, das die Dinge der Welt von den Mineralien
über die Pflanzen und Tiere der Natur bis zu den menschlichen Künsten und schließlich
den Planetensphären enthält. In die Mitte ist eine schematische Darstellung der Erde
getreten, Vorgriff auf jenen blauen Ball, den die Astronauten zur Erde gefunkt haben. Die
Darstellung wirkt wie ein Mandala, in das sich der Betracher versenkt, um mit einem
kosmischen Ganzen in Kontakt zu treten.
Deutlicher noch wird die neue, säkularisierte Lösung beim Gedächtnistheater des
Italieners Camillo, das selbst schon zur Geschichte der technischen Medien gehört. Zu
Beginn des 16. Jahrhunderts hatte dieser eine hölzerne Konstruktion gebaut, die einem
kleinen Rundtheater ähnelte.(28) Wer den
Innenraum betrat, sah sich mit einer Fläche von Bildern konfrontiert, die durch die
Architektur des Baus in Geschosse und Segmente gegliedert war; die Bilder hatten
hochrangige Maler seiner Zeit angefertigt.(29)
Die horizontale Einteilung des Raums entsprach den sieben Planetensphären, die vertikale
sieben Stadien der Entwicklung, von den ersten Prinzipien hin zu den Elementen, zur
natürlichen Welt, zum Menschen, zu den Künsten und schließlich zu den Wissenschaften.
Auf diese Weise repräsentierte jedes Feld der Matrix einen bestimmten Aspekt des Kosmos.
Die Bilder hatten allein die Aufgabe, den Überblick zu erleichtern. Hinter den Bildern
nämlich befanden sich Fächer mit den Texten der großen Schriftsteller und Philosophen,
so daß der Benutzer dort die Belegstellen, Begriffe und rhetorischen Mittel finden
konnte, die es ihm erlaubten, mit den unterschiedlichen Gegenständen umzugehen.(30) Das ganze war damit vor allem ein
Zugriffssystem; und indem Textzugriff und Texte klar getrennt werden, wird die Analogie zu
den Suchmaschinen augenfällig.
Im Theater Camillos ist es endgültig der Mensch, der Betrachter, der das Zentrum der
Konstruktion okkupiert. Auf seinen Blick ist die Fläche der Bilder ausgerichtet, und
allein seine Perspektive schließt die 49 Felder der Matrix zusammen. Exakt dies nun
scheint mir die Logik zu sein, die auch Yahoo zugrundeliegt. Gerade daß der
Begriffspyramide die Spitze fehlt, definiert die Position, in die der User eintritt. Wie
im optischen System der Zentralperspektive ist die 'royal overlooking position' für ihn,
den Betrachter reserviert.(31)
Wie Foucault gezeigt hat, steht er dort, wo beim Entwurf des Bildes der Maler gestanden
hat, oder im Fall von Yahoo der Konstrukteur der 'Ontologie'; daß er mit diesem um den
Platz konkurriert, bleibt ihm unbewußt oder trägt zum Höhenrausch bei.
Yahoo ist tatsächlich eine 'Ontologie', und zwar nicht weil Yahoo und eben auch
Ontologien willkürlich sind; viel eher deshalb, weil sie die Dinge an ihrem Platz halten
und relativ dazu eine Position für den Nutzer definieren. Die Ontologie offeriert eine
geordnete Welt. Und was in der chaotischen Vielfalt der verfügbaren Texte gerade
unterzugehen droht, kann sich in die Ordnung der Suchmaschine noch einmal retten.
Die Lösung aber ist historisch überholt und innerhalb der Philosophiegeschichte
aufgegeben worden. Weil jede positiv definierte Begriffshierarchie perspektivisch und
willkürlich ist, bietet sie schnell jene Reibungspunkte, die der Anfang ihres Endes sind;
und der Vorschlag an den Nutzer, sich die Yahoo- Perspektive sozusagen hypothetisch
zueigen zu machen,(32) nimmt der Nutzung ihre
Selbstverständlichkeit und dem System seine natürliche Transparenz. Haben die Stichwort-
und die semantischen Maschinen also eine 'modernere' Lösung&127; gefunden?
Auf den ersten Blick muß es tatsächlich so wirken. Die Strategie, die Suchbegriffe davon
abhängig zu machen, was in den Netzdokumenten, den Texten, empirisch vorgefunden wird,
imitiert den Mechanismus der Sprache selbst. Oder genauer gesagt: den Mechanismus, mit dem
die Sprache zu ihren Begriffen kommt.
Das synchrone System der Sprache entsteht, dies lehrt uns die Sprachtheorie, indem eine
unendliche Vielzahl konkreter Äußerungen sich aufstaut und verdichtet. Ort dieser
Verdichtung ist das Gedächtnis der Sprachbenutzer, in dem die konkreten Äußerungen
untergehen; lineare Texte werden vergessen hinein in die Struktur unseres
Sprachvermögens, die Struktur wird anhand konkreter Texte ständig modifiziert und
differenziert.&127; Unser Sprachvermögen ist ein abstrakter Abzug des Sprechens, Sprechen
und Sprache (Diskurs und System) sind auf regelhafte Weise verschränkt.
Für den einzelnen Begriff bedeutet dies, daß er akkumuliert, was die konkreten Kontexte
an Bedeutungen bereitstellen. Nicht ein einmaliger Definitionsakt weist ihm seinen Ort im
semantischen System zu, sondern die unübersehbare Kette seiner Verwendungen; Begriffe
stehen für Kontexte, typisieren Kontexte, kapseln vergangene Kontexte ein.(33)
Die semantischen Suchmaschinen imitieren dies, indem sie ebenfalls Kontexte typisieren, um
zu Begriffen - den Suchbegriffen - zu kommen. Die Tafel der Suchbegriffe entsteht, es wurde
gesagt, als ein verdichteter, kumulierter Abzug der Texte. Ein statistischer Algorithmus
zieht vergleichbare Kontexte zusammen, typisiert sie und weist sie den Suchbegriffen als
Äquivalent ihrer Bedeutung zu.
Ein auf diese Weise dynamisiertes System ist den starr vordefinierten Systemen überlegen,
auch wenn der statistische Algorithmus die Mechanismen der natürlichen Sprache nur
unvollkommen modelliert. Es ist komplexer, näher an der Intuition und wird entsprechend
weniger Reibungspunkte bieten. Ein letztes Mal also: was ist der Einwand?
5
Bei allem Fortschritt, dies ist wichtig zu sehen, ist die eigentliche Grundanordnung
konstant geblieben. Exakt wie im Holztheater Camillos haben wir es nicht mit zwei
Instanzen zu tun, einer Menge lesend/schreibend/recherchierender Subjekte, die auf eine
zweite Menge schriftlich verfaßter Texte zugehen, sondern zusätzlich mit einer dritten
Instanz, einem Erschließungssystem, das als ein Gitter oder Raster zwischen beide
getreten ist.
Und wenn in Camillos Medienmaschine das Erschließungssystem dazu diente, die unendliche
Fläche der Texte auf eine überschaubare Zahl von Kategorien niederzubrechen, um von dort
aus - streng zentralperspektivisch - die Position für das beobachtende Subjekt zu
entwerfen, so ist auch diese Grundanordnung intakt.
Das Bild macht deutlich, daß es nicht unbedingt besser sein muß, wenn das Gitter nicht
zu spüren ist. Fast umgekehrt: je weniger Widerstand das Erschließungssystem bietet, je
neutraler, transparenter und schwereloser es erscheint, desto näher liegt der Verdacht,
es könne sich nicht um die Natur der Sache, sondern um eine Naturalisierungsstrategie
handeln.
Das Kategorienraster muß sich als transparent gerieren, wenn es den Anstoß, den
Yahoo erregt, nicht erregen will. Um dem Vorwurf der Willkür und der strukturierenden
Einflußnahme auf die erschlossenen Inhalte zu entgehen, muß es bei den Nutzern den
Eindruck etablieren, ein 'reines Werkzeug' und allein dem Zweck unterworfen zu sein; ein
Schlüssel in der Hand des Kunden, der alle Sesams öffnet, ein dienstfertiger Geist, der
keine eigenen Ansprüche stellt.
Daß die Algorithmen geheim gehalten werden, erscheint nun in einem veränderten Licht.
Weit wichtiger als die Konkurrenz der beteiligten Firmen ist der Wunsch, tatsächlich
über eine neutrale und transparente Erschließungsmaschine zu verfügen, ein Wunsch, den
die Macher mit ihren Kunden, und wahrscheinlich mit uns allen, teilen. Am Grund der
Anordnung erscheint eine den Diskurs organisierende Illusion.
Da es Algorithmen ohne Eigengewicht nicht gibt, muß ihnen der Metadiskurs beispringen und
die Transparenz durch die schlichte Behauptung retten. Im heilsamen Singular:
"searchig 'the web'", in der Geheimhaltung der Algorithmen, in der Betonung der
Leistung und nicht der Grenzen, die vielleicht definierender wären, und im
Routineversprechen der KI, schon bald weitere, noch leistungsfähigere Systeme zu
entwickeln.(34) Im nicht Wissen und nicht wissen
Wollen der Kunden, und im Primat einer Praxis, die ohnehin meist nicht weiß, was sie tut.
Die Datenverarbeitung - fast ist es zynisch, daran zu erinnern - ist angetreten mit dem
Ideal einer ganz anders gearteten Transparenz. Das Versprechen war, gerade im Gegensatz
zur natürlichen Sprache, nur prinzipiell nachvollziehbare Strukturen aufzubauen; sich auf
die strukturelle Seite der Dinge zu beschränken, diese aber auf eine Weise anzuschreiben,
die einer Analyse nicht nur zugänglich wäre, sondern diese bereits zu enthalten schien.
Wenn die Programme nun, wie Kittler richtig schreibt, ins Wuchern natürlichsprachlicher
Texte übergegangen sind,(35) so liegt das nicht
daran, daß die Programme (und schon gar die Suchmaschinen) an den natürlichsprachlichen
Texten sich infiziert hätten. Es liegt an unserem Bedürfnis, beides zu haben: beliebige
Komplexität und die narzißtischen Freude des Überblicks, die Vielfalt des Sprechens und
die Transparenz auf die Gegenstände, eine Sprache ohne metaphysisch-hierarchische
Zentrierung, die ihre Kohärenz dennoch souverän aufrechterhält.
Daß inzwischen beliebig viele, unterschiedlich konstruierte Suchmaschinen miteinander
konkurrieren, und eine zentrale Suchmaschine nun das Suchen in Suchmaschinen möglich
machen soll,(36) macht klar, daß unser Wunsch
auch diesmal nicht zum Ziel kommen wird. So hocken wir auf dem verwaisten Thron Gottes,
uns gegenüber die unendlichen Textuniversen und in der Hand ein paar glitzernde aber
defizitäre Maschinen. Und uns ist unbehaglich.
Anmerkungen:
(1) Die Metapher der Bibliothek ist einigermaßen problematisch und
reich an Implikationen, dennoch wird sie immer wieder zur Beschreibung des Datennetzes
gebraucht. Ebenso gibt es sehr unterschiedliche Angaben zum Gesamtvolumen der im Netz
verfügbaren Texte (s.u.). zurück
(2) Angabe nach AltaVista Home Page: http://www.altavista.digital.com. zurück
(3) Faktisch werden die Nutzerbewegungen nicht protokolliert und
hinterlassen insofern - glücklicherweise ? - keine dauerhafte Spur. zurück
(4) - "Aus der alten baumartigen Aufrufhierarchie ist eine
Vernetzung von operationalen Einheiten geworden..." (Pflüger, Jörg: Über die
Verschiedenheit des maschinellen Sprachbaues. In: Bolz/Kittler/Tholen (Hg.): Computer als
Medium. S. 174)
- "An die Stelle eines zentral gesteuerten Output wird ein dezentralisierter
Input treten, Gruppenkonversation wird die Massenkommunikation ersetzen, Hierarchien
werden sich in Heterarchien verwandeln und eine vertikale wird einer horizontalen
Gesellschaftsordnung Platz machen." (Youngblood, Gene: Metadesign. Die neue Allianz
und die Avantgarde. In: Rötzer, Florian (Hg.): Digitaler Schein. Ästhetik der
elektronischen Medien. Frankfurt/M. 1991, S. 307). Youngblood selbst etikettiert diese
Kommunikationsutopie vorsichtig als 'Mythos'. zurück
(5) W., H.: Songlines. Landschaft und Architektur als Modell für den
Datenraum. (in Vorber.). preprint: http://www.rz.uni- frankfurt.de/~winkler/songline. zurück
(6) Auf die Tatsache, daß auch Telephonbücher verdeckte Asymmetrien
haben, hat mich Heiko Idensen aufmerksam gemacht: "Natürlich sind hier doch
meistens die Namen der Männer verzeichnet, die die Anschluesse 'besitzen', auch
Wohngemeinschaften etwa fallen durch das Raster des normalen Telefonbuches hindurch".
(unveröff. Man.). zurück
(7) Steinberg, Steve G.: Seek and Ye Shall Find (Maybe). In: Wired, Nr.
4.05. Mai 1996, S. 108-114, 174-182, sowie in der Online-Ausgabe: http://www.hotwired.com.
zurück
(8) Ebd., S. 175. zurück
(9) Steinberg, a.a.O., S. 113.
Die Schätzungen zur Gesamtzahl der im Netz verfügbaren Texte schwanken stark. Geht man
von den genannten 50 Millionen Dokumenten und ca 7000 Zeichen für einen
durchschnittlichen Netz-Text aus, ergibt sich eine Gesamtfläche von 330 Gigabytes, was im
Druckuniversum (bei 300 Druckzeichen pro Seite und 250 Seiten pro Band) ca. 440.000
Büchern entsprechen würde. Steinberg gibt an, daß das Netz mit ca 20% monatlich
wächst; daraus ergibt sich, daß das Gesamtvolumen der Library of Congress (gegenwärtig
29 Terabytes) in zwei Jahren überschritten werden wird. zurück
(10) Steinberg nennt das plastische Beispiel einer jüdischen Sekte,
die zunächst unter Judentum gebucht wurde, nach vehementen Protesten aber aus dieser
Kategorie wieder entfernt werden mußte: "The story began when the Messianic
Jewish Alliance of America submitted its Web page to Yahoo! A classifier quickly reviewed
the site; which contains everything from Stars of David to&127; articles about Israel, not
to mention the word 'Jewish' in its name; and placed it under Society and
Culture:Religion:Judaism. But here's where things got tricky. True, MJAA members are born
of Jewish mothers and are hence, by definition, Jews. But they also believe that Jesus
Christ is the messiah. In the eyes of most Jews, that makes the MJAA a bunch of heretics.
Or at least Christians. So when a few vocal and Net-savvy Jews saw the MJAA listed under
Judaism, they let loose a salvo of email demanding that Yahoo! remove MJAA's listing. A
bit taken aback by the protesters' virulence ('threats of boycotts,' Yang said with
amazement), Yahoo! yielded and reclassified MJAA under Christianity with a cross-reference
from Judaism. Of course, this caused the MJAA to protest that they were now being
incorrectly labeled. After a modern-day Solomonic compromise, the MJAA and a few similar
groups can now be found listed under Society and Culture:Religion: Christianity:Messianic
Judaism; which is linked by a cross-reference from Judaism.
Yang [der interviewte Yahoo-Vertreter] looked at me sheepishly when telling this story.
After all, he believes in truth, justice, and the Internet way. Hell, he even gave me a
mini-sermon that morning about how the Net is egalitarian; the little guy can publish just
as easily as the big guy. Yet, he knows the MJAA was pushed around because it didn't have
mainstream Judaism's clout.
But the MJAA story is interesting not just for exposing the realpolitik of classification.
It's proof that no ontology is objective; all have their own biases and proclivities. Yang
was quick to admit this: in fact, he referred to Yahoo!'s ontology as the company's
editorial. 'Organizing the Web is sometimes like being a newspaper editor and inciting
riots,' he said with a touch of exasperation. 'If we put hate crimes in a higher level of
the topic hierarchy, well, it's our editorial right to do so, but it's also a very heavy
responsibility.'" (Ebd., S. 111ff (Erg. H.W.)). zurück
(11) "At some point, our scheme will become relatively
stable. We will have captured the breadth of human knowledge." (Yahoo, zit. nach
Steinberg, ebd.). zurück
(12) Bei einigen Suchmaschinen wird statt eines Ja/Nein-Bits
offensichtlich eingetragen, wie häufig der Begriff im Text vorkommt. Dies macht eine
Gewichtung der Texte in der Ausgabeliste möglich. zurück
(13) Angabe nach AltaVista Home Page. Steinberg nennt dagegen 21
Millionen Texte für&127; AltaVista. zurück
(14) "Searchig 'the web'" ist die Formulierung bei
AltaVista. Sie meint zunächst, daß im WWW und nicht z.B. im Usenet gesucht wird; die
Ambiguität aber dürfte zumindest den Machern bewußt sein... zurück
(15) "I could usually find what I was looking for, but I
felt as if I was poking around in the dark." (Steinberg, a.a.O., S. 174). zurück
(16) Es wird damit die Grenze zwischen zwei Sprachen verfestigt, die
für beide Seiten einigermaßen konsequenzenreich ist. zurück
(17) Steinberg, a.a.O., S. 175 (eigene Übersetzung).
Der Originaltext verwechselt in seinem zweiten Teil die Zeilen und Spalten der Tabelle;
wenn tatsächlich die Zeilen ersetzt würden, wäre ein Zugriff auf die Dokument-Adressen
- der eigentliche Zweck der Tabelle - versperrt: "The idea is to take the
inverted index of the Web, with its rows of documents and columns of keywords, and
compress it so that documents with roughly similar profiles are clustered together - even
if one uses the word 'movie' and one uses 'film' - because they have many other words in
common. The result is a matrix where the rows now represent concepts instead of actual
documents." zurück
(18) Die Konzeption erinnert an die Theorie der Wortfelder, die zuerst
von Trier/Weißgerber vertreten wurde (siehe z.B.: Lyons, John: Semantik. Bd. 1, München
1980, S. 261ff (OA., am.: 1977)). zurück
(19) Ebd.
"It learns about subject categories from the bottom up, instead of imposing an
order from the top down. It is a self- organizing system. [...] To come up with subject
categories, Architext makes only one assumption: words that frequently occur together are
somehow related. As the corpus changes - as new connections emerge between, say O. J.
Simpson and murder - the classification scheme automatically adjusts. The subject
categories reflect the text itself"; "this eliminates two of the biggest
criticisms of library classification: that every scheme has a point of view, and that
every scheme will be constantly struggling against obsolescence." zurück
(20) Die Überlegungen zur Sprache, die hier nur kurz skizziert werden
können, habe ich ausgeführt in: W.H.: Docuverse. Zur Medientheorie der Computer.
(Monographie in Vorber.) München 1997. Das Sprachmodell findet sich im ersten, die
Überlegung zu Kumulation und Verdichtung im vierten Kapitel. zurück
(21) Ebd., Kapitel 5. zurück
(22) Die These einer 'Externalisierung' der Sprache ist ebenfalls
Gegenstand meines Buches. Dort werden auch die problematischen Implikationen dieser
Innen/Außen-Vorstellung diskutiert. zurück
(23) Zur Erinnerung: AltaVista beansprucht, tatsächlich das gesamte
Netz in seiner Suchtabelle abzubilden. Zwar in abstrahierter Form und auf 4% kondensiert,
ansonsten aber komplett, Text für Text, Wort für Wort. zurück
(24) Bolzoni, Lina: The Play of Images. The Art of Memory from Its
Origins to the Seventeenth Century. In: Corsi, Pietro (Hg.): The Enchanted Loom. Chapters
in the History of Neuroscience. New York/Oxford 1991, S. 16-65. zurück
(25) Ebd., S. 27-29. zurück
(26) "Im Bereich jener Schemata nämlich ist etwas
möglich, was niemals unter den anschaulichen ersten Eindrücken gelingen möchte: eine
pyramidale Ordnung nach Kasten und Graden aufzubauen, eine neue Welt von Gesetzen,
Privilegien, Unterordnungen, Grenzbestimmungen zu schaffen, die nun der anderen
anschaulichen Welt der ersten Eindrücke gegenübertritt als das Festere, Allgemeinere,
Bekanntere, Menschlichere [...]. Der große Bau der Begriffe [zeigt] die starre
Regelmäßigkeit eines römischen Kolumbariums [...]. Man darf hier den Menschen wohl
bewundern als ein gewaltiges Baugenie, dem auf beweglichen Fundamenten und gleichsam auf
fließendem Wasser das Auftürmen eines unendlich komplizierten Begriffsdomes gelingt
[...]." (Nietzsche, Friedrich: Über Wahrheit und Lüge im außermoralischen Sinn.
In: Werke Bd. 5, München/Wien 1980, S. 314f (Erg. H.W.) (OA.: 1873)). zurück
(27) Darstellung 'Integrae Naturae speculum artisque imago' (1617) in:
Körber-Stiftung (Hg.): Kosmoi. Jahreskalender Deutscher Studienpreis 1996 (Das Original
des Blattes wird in der British Library, London aufbewahrt). zurück
(28) Eine ausführliche Rekonstruktion des Theaters findet sich in:
Yates, Frances A.: Gedächtnis und Erinnern. Mnemonik von Aristoteles bis Shakespeare.
Weinheim 1991, S. 123ff (OA., engl.: 1966). zurück
(29) Bolzoni, Lina: Gedächtniskunst und allegorische Bilder. Theorie
und Praxis der ars memorativa in Literatur und Bildender Kunst Italiens zwischen dem 14.
und 16. Jahrhundert. In: Assmann/Harth, Mnemosyne, a.a.O., S. 147-176. zurück
(30) "1532 schrieb Wigle von Aytta (Viglius Zuichemus),
damals in Padua [...]: 'Man sagt, dieser Mann habe ein gewisses Amphitheater errichtet,
ein Werk mit der wunderbaren Fähigkeit, daß jeder, der als Zuschauer eingelassen wird,
über jedes Thema nicht weniger gewandt disputieren kann als Cicero. Ich hielt dies
zunächst für eine Mär, doch dann habe ich mehr über diesen Gegenstand [...]
erfahren...'" (Yates, Gedächtnis und Erinnern, a.a.O., S. 123). zurück
(31) Die Bedeutung der Zentralperspektive für die Geschichte der
technischen Medien habe ich referiert in: W.H.: Der filmische Raum. Heidelberg 1992. zurück
(32) Steinberg zitiert einen Yahoo-Vertreter, a.a.O., S. 112. zurück
(33) "It is indeed a characteristic of language - and
another aspect of the 'problem of the word' - that it has this constant but never fully
realised tendency to encapsulate a kind of complete (but concentrated, compressed)
'argument' in every word: a tendency which is also intrinsically condensatory. Even the
most ordinary word, lamp for instance, is the meeting-point for several 'ideas' [...] each
of which, if it were unravelled, or decondensed, would require a whole sentence". "Past
condensations meet in each word of the language [...] this is to definde the lexicon
itself as the product of an enormous condensation". (Metz, Christian: The Imaginary
Signifier. Bloomington 1982, S. 225, 239 (OA., frz.: 1973-76, in Buchform: 1977). zurück
(34) Der vorläufig letzte Stand der Debatte sind Systeme wie
PointCast, ein Agentenprogramm,&127; das im Auftrag einzelner Nutzer und ausgerüstet mit
seinen Prioritäten das Netz durchsucht (www.pointcast.com), oder NetSum, ein Programm der
British Telecom Natural Language Labs, das automatisch und auf sprachstatistischer Basis
Abstracts generiert. zurück
(35) Kittler, Friedrich: Protected Mode. In: Bolz, Norbert; Kittler,
Friedrich; Tholen, Christoph (Hg.): Computer als Medium. München 1994, S. 219. zurück
(36) So bietet www.nln.com einen Metaindex für Suchmaschinen an. zurück