IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 012-117_G
Division Number: IV
Professional Group: Classification and Indexing
Joint Meeting with: -
Meeting Number: 117
Simultaneous Interpretation:   No

Ansätze zur systematischen und multilingualen Erschließung im WWW

Lois Mai Chan
School of Library and Information Science, University of Kentucky
Lexington, Kentucky, USA

Xia Lin

College of Information Science and Technology, Drexel University,
Philadelphia, Pennsylvania, USA

Marcia Zeng

School of Library and Information Science, Kent State University
Kent, Ohio, USA


Paper

Einleitung

Zu den großen Herausforderungen einer sinnvollen Suche im World Wide Web gehören die riesige Menge des Verfügbaren und die Sprachbarrieren. Verfahren, die die Web-Ressourcen im Hinblick auf ein effizienteres und effektiveres Retrieval inhaltlich strukturieren, werden daher ebenso dringend benötigt wie Programme, die mit der Sprachenvielfalt umgehen können. Im folgenden Vortrag, der in drei Abschnitte gegliedert ist, werden wir einige Ansätze diskutieren, die zur Bewältigung der beiden Probleme derzeit unternommen werden.

Teil I: Verfahren zur Systematisierung von Web-Ressourcen (Lois Mai Chan)

Zur inhaltlichen Erschließung von von Web-Ressourcen wurden schon eine ganze Anzahl von Systematisierungsmöglichkeiten entwickelt, die als systematische Inhaltsverzeichnisse unter verschiedenen Bezeichnungen wie subject guides, web guides, subject categories, subject directories, subject hierarchies usw. bekannt sind. Viele dieser Systeme berücksichtigen die traditionellen Klassifikationsprinzipien mit der hierarchischen Struktur, der Klassenbildung, der Subsumierung des Besonderen unter das Allgemeine und der Reihung verwandter Begriffe. Ein Überblick über die zur Zeit verwendeten Ordnungsverfahren zeigt aber auch, daß sie sich hinsichtlich ihrer Komplexität und Differenziertheit, ihrer Erschließungsbreite und -tiefe und in der Anzahl der erschlossenen Themenbereiche nicht unbeträchtlich unterscheiden. Ebenso legen sie unterschiedliche Klassifikationssysteme zugrunde. In einigen Fällen wurde versucht, bestehende Klassifikationen wie die DDC, die LCC oder die UDC auf die Webumgebung anzuwenden. Wie Diane Vizine-Goetz gezeigt hat, können solche Systeme, entsprechend weiterentwickelt, das inhaltliche Retrieval im WWW deutlich verbessern (Vizine-Goetz). Zu den Systemen, die den Inhalt von Web-Ressourcen hierarchisch strukturieren, gehören:

  1. systematische Inhaltsverzeichnisse, wie sie von bekannten Suchdiensten, z.B. Yahoo!, Lycos, Infoseek, Excite etc. angeboten werden;
  2. Eigenentwicklungen einzelner Bibliotheken, die den inhaltlichen Zugriff auf die von ihnen ausgewählten Web-Ressourcen erleichtern sollen; und
  3. WWW-Verzeichnisse, die auf vorhandenen Klassifikationen aufbauen, z.B. OCLC's Netfirst auf der DDC, Cyberstacks und SignPost auf der LCC.

Die Vorteile einer Nutzung hierachischer bzw. klassifikationsgestützter Formate zur Erschließung von Web-Ressourcen können u.a. in einer Verbesserung der Browsingfunktionalität, der Möglichkeit eines multilingualen Zugriffs und der verbesserten Interoperabilität mit anderen Suchdiensten bestehen (Koch und Day). Die hierarchische Struktur kann man sich dabei wie eine konzeptuelle Landkarte des gesamten Wissensuniversums oder eines bestimmten Teiles davon vorstellen. Diese Landkarte bildet die jeweiligen Wissensinhalte nach Gruppen (und ihren Untergruppen) geordnet ab und erlaubt damit die Konzentration der Suche auf Regionen, in denen ähnliche Inhalte zusammengefaßt sind.

Strukturiertes Wissen läßt sich leichter aufnehmen und dann auch verstehen. Schon von daher ist eine hierarchische Struktur ein sinnvoller Weg, um im Rahmen einer inhaltlichen Suche an die gewünschten Informationen zu gelangen. Darüber hinaus wird auf diese Weise die Qualität des Suchergebnisses verbessert, indem die Wissensgebiete definiert und damit die jeweils abzusuchenden Klassen abgegrenzt werden. Dieser Vorteil zeigt sich bereits bei Systemen, die nur eine sehr grobe Systematik verwenden, denn selbst dort erfüllt die Hierarchisierung zwei wesentliche Funktionen einer Klassifikation: Zusammenfassung (Einbeziehung) und Trennung (Ausschluß). Je besser eine Systematik diese beiden wesentlichen Funktionen einer Klassifikation erfüllt, desto hilfreicher ist sie auch für das Retrieval. Dabei gewährleistet die Zusammenfassungsfunktion, daß thematisch ähnliche Objekte oder Ideen in einer Abteilung erfaßt werden. Bei großen Datenbeständen ist es aber genauso wichtig, die nicht in einen Suchzusammenhang gehörenden Themen systematisch auszuschließen. Die Ausschlußfunktion soll deshalb dazu dienen, große Datenbestände thematisch so in kleinere Bereiche aufzuteilen, daß die für eine Suche relevanten Themengebiete isoliert werden können (Chan 1995). Je umfangreicher der absuchbare Datenbestand ist, desto wichtiger sind auch effektive und effiziente Methoden der Klassenbildung. Z.B. sind Homonyme, d.h. Wörter mit gleicher Buchstabenfolge, aber unterschiedlicher Bedeutung, eine der Hauptursachen irrelevanter Suchergebnisse. Eine Klassifikation ermöglicht hier die getrennte Suche nach solchen Homonymen, die in verschiedenen Disziplinen jeweils unterschiedliches bedeuten.

Vorteile der Anwendung von Klassifikationen im WWW ergeben sich auch aus den Unterschieden zwischen Web- und Printumgebungen. So sind in der traditionellen Umgebung die Sacherschließungsdaten (Notationen und Schlagwörter) i.d.R. mit ihren Quellen verbunden, d.h. befinden sich entweder direkt am Dokument selbst (z.B. als CIP-Aufnahme auf dem Buchdeckel), oder sind Teil einer Dokumentationseinheit (z.B. von Katalogisaten oder Metadaten wie dem Dublin Core). Im Gegensatz dazu sind die Sacherschließungsdaten in einer Webumgebung oft getrennt von den Dokumenten selbst und können in Webverzeichnissen gesondert verwaltet werden, wobei die Daten über entsprechende Schnittstellen zwar mit den Dokumenten verlinkt sein können, diese aber sonst nicht weiter beeinflussen; individuelle Links zwischen den Sacherschließungsdaten und den Dokumenten werden über die urls hergestellt. Der Vorteil einer 'Verlinkung' gegenüber einer dauernden Verbundenheit liegt in der Flexibilität. In einem verlinkten System kann die Systematik oder Klassifikation oder eine andere sachliche Anordnung geändert werden, indem nur die links angepaßt werden: die Webdokumente und die Websites selbst bleiben davon völlig unberührt. Re-Klassifikation ist dann kein Problem. Darüber hinaus kann die Erschließungstiefe oder -breite je nach Literaturanfall variiert werden. So finden sich in eher populäreren Inhaltsverzeichnissen Kategorien wie Autos, Unterhaltung, Familie, Sport und Reisen, wohingegen eher wissenschaftliche Verzeichnisse Kategorien wie Geistes-, Natur-, Sozialwissenschaften, Technologie und Recht aufweisen. Die Verzeichnisse können weiterhin auch leicht an spezielle lokale oder regionale Bedürfnisse oder spezielle Benutzergruppen angepaßt werden.

Die Anwendung hierarchischer oder klassifikatorischer Ordnungsverfahren im WWW ist immer noch relativ neu. Mit der Zunahme verfügbarer Webdokumente dürfte allerdings ein entsprechender Bedarf an differenzierten Ordnungssystemen einher gehen, so daß es vielleicht nicht verfrüht ist, einige der Anforderungen an solche Systeme zu betrachten. Eine Ordnungssystematik für WWW-Dokumente sollte, kurz zusammengefaßt, folgende Eigenschaften haben: (a) intuitiv, logisch und leicht benutzbar, mit übersichtlich angezeigten Hierarchien und Verweisungen und mit aktuellen und aussagekräftigen Überschriften; (b) flexibel, anpassungsfähig und erweiterbar im Hinblick auf rasche Veränderungen und wechselnde Nutzungsbedürfnisse; (c) weitgehend kompatibel mit verschiedenen technischen Umgebungen und sites; (d) relativ leicht zu unterhalten und zu revidieren.

Es stellt sich nun zunächst die Frage, ob es besser ist, eine bereits bestehende Klassifikation zu verwenden oder eine neue zu entwickeln. Gegenwärtig ist es offensichtlich so, daß die Anbieter systematischer Verzeichnisse sich an ihrem eigenen Verständnis von den Bedürfnissen und Suchstrategien der Nutzer orientieren. Es kommt letztlich darauf an, zwei Ordnungsmethoden für die Organisation von Sachinhalten zu unterscheiden. Die bekannten Klassifikationen basieren i.d.R. auf einem top-down-Ansatz, d.h. sie beginnen mit dem ganzen Wissensuniversum oder zumindest einer ganzen Disziplin und teilen diese nach theoretischen Erkenntnissen zunächst in Hauptklassen, dann in immer spezifischere Unterklassen auf. Dieser Ansatz wurde ebenso für sehr spezielle wie für ganz allgemeine Bedürfnisse verwendet. Der bottom-up-Ansatz hingegen beginnt mit ganz spezifischen Begriffen oder Gegebenheiten (in dem hier behandelten Zusammenhang mit einzelnen Webseiten), die dann zu Gruppen und Mikrokosmen zusammengeführt werden und schließlich einen Makrokosmos ergeben. In der Webumgebung, wo die meisten Verzeichnisse für den Allgemeinbedarf konzipiert wurden, wurde i.d.R. nach dem bottom-up-Verfahren vorgegangen.

Die Frage nach dem angemessenen und effizienteren Ansatz im WWW kann allerdings nicht eindeutig beantwortet werden, zumal beide Verfahren letztlich zu einem System führen, in dem die wichtigsten Eigenschaften für eine effektive Suche in großen Datenbeständen gegeben sind, insbesondere Klassenbildung, Unterordnung des Besonderen unter das Allgemeine und die Ordnung verwandter Begriffe. Sehr wahrscheinlich wird sich zukünftig zeigen, daß top-down-Verfahren sich besonders für gut strukturierte und ausgebaute Themengebiete eignen, während für sehr heterogenes Material, wie es im WWW größtenteils zu finden ist, bottom-up-Ansätze besser anwendbar sind. Bottom-up-Verfahren dürften sich auch besonders für stark individualisierte Dienste eigenen, wie sie in letzter Zeit entstanden sind. Ein Beispiel dafür sind Northern Light's 'Custom Search Folders', die individuelle Suchergebnisse in breiten Kategorien einordnen.

Der zweite Teil dieses Vortrages berichtet über ein Projekt zur Entwicklung eines individualisierten Sacherschließungs- und Zugriffsverfahrens.

Teil II: Knowledge Class (Xia Lin und Lois Mai Chan)

Zielsetzung und Besonderheiten von Knowledge Class

Ziel dieses Forschungsprojektes ist, ein individualisiertes Sacherschließungsverfahren namens 'Knowledge Class' zur Unterstützung und Ergänzung bestehender Verfahren der Erschließung im WWW zu entwickeln und zu testen. In seiner oft zitierten Arbeit im Scientific American (März 1997) schlägt Clifford Lynch vor: 'Combining the skills of the librarian and the computer scientist may help organize the anarchy of the Internet.' In unserem Projekt untersuchen wir die Möglichkeiten der Kombination bestehender Sacherschließungssysteme und fortschrittlicher Webtechnologie zur Erstellung eines leicht handhabbaren Verfahrens für die individuelle WWW-Suche. Vorläufige Ergebnisse wurden bereits publiziert (Lin und Chan 1997). In diesem Vortrag werden wir kurz die wichtigsten Charakteristika zusammenfassen und über den Stand des Projektes berichten.

Knowledge Class besteht im wesentlichen aus zwei Komponenten: dem Erschließungssystem und der Retrievalschnittstelle. Das Erschließungssystem ist ein Mini-Thesaurus, der eine geordnete Sammlung von Begriffen des jeweils gerade individuell interessierenden Themenbereiches enthält. Die Schnittstelle wiederum ermöglicht die Interaktion zwischen Nutzer und Thesaurus und zwischen Nutzer und Webdokument. Für ein Retrieval können entweder einzelne Begriffe des Thesaurus oder vorformulierte Suchstrategien verwendet werden, die oft auch Synonyme berücksichtigen, es können aber auch einzelne Sites durch Anklicken der gespeicherten urls direkt angewählt werden.

Mit Knowledge Class versuchen wir einige der Vorteile traditioneller Methoden effizienter und effektiver Erschließungssysteme auf die Webumgebung anzuwenden. Insbesondere wurden drei Aspekte berücksichtigt:

  1. die Prinzipien der Klassifikation für die Ordnung und Darstellung von Inhalten
  2. die terminologische Kontrolle, insbesondere von Synonymen und Homonymen, zur Verbesserung von precision und recall;
  3. die Verwendung vorformulierter Suchstrategien für die Optimierung und laufende Aktualisierung eines Retrievalergebnisses.

Knowledge Class soll:

  • Konzepte und Begriffe eines bestimmten Themengebietes logisch strukturieren und die Beziehungen zwischen den Begriffen darstellen;
  • das Browsing nach Inhalten und ihren Beziehungen erleichtern;
  • nützliche Suchbegriffe und Suchstrategien für zukünftige Wiederverwendung speichern;
  • Synonym- und Homonymkontrolle gewährleisten;
  • die Suche mit vorformulierten Begriffen und Strategien in ausgewählten Suchmaschinen ermöglichen; und
  • urls ausgewählter Sites für zukünftige Verwendung speichern

Mit anderen Worten, wir hoffen das Angebot an Informationsdienstleistungen über das bisher Verfügbare hinaus zu verbessern. Bisher standen beim Online-Retrieval die Suchergebnisse im Vordergrund, und das ist gut so. Aber trotzdem besteht nach dem Retrieval auch ein Bedarf zur Ordnung und 'Archivierung' der Suchergebnisse im Hinblick auf eine spätere, erneute Nutzung. Dies kann durch ein System geschehen, das es erlaubt, die gefundenen Sites wieder aufzusuchen und, was genauso wichtig ist, auch den Weg nachzuvollziehen, auf dem man zu einem bestimmten Dokument gelangt war.

Unsere beiden Hauptziele waren die Verbesserung sachlicher Suche und die precision des Retrievals. Am Beginn unserer Arbeit (Lin und Chan 1997) stand die Einführung des Mini-Thesaurus-Verfahrens. Wir stellten uns vor, daß: (1) eine Wissensordnung auf den Prinzipien der Klassifikation und bibliographischen Ordnung aufgebaut werden kann; (2) diese Wissensordnung nahtlos in eine Suchmaschine integriert werden kann; und, (3) eine leicht benutzbare graphische Schnittstelle konstruiert werden kann, die eine Interaktion zwischen Nutzer und Ordnungssystem ebenso erlaubt wie zwischen Nutzer und Webdokument.

Systemdesign für Knowledge Class

Ein Vorteil der Websuche ist, daß Prototypen eines Systems schrittweise in der realen Umgebung entwickelt und getestet werden können. So begannen wir mit einer einfachen HTML-Programmierung von Knowledge Class, wie wir es uns ursprünglich vorgestellt hatten und differenzierten das System während der Implementation und den Tests immer weiter und fügten neue Funktionen ein. Schließlich implementierten wir es in intelligenteren und robusteren Umgebungen wie JavaScript und Java. Es war letztlich dieser learning-by-doing-Prozess, der entscheidend zur Entwicklung von Knowledge Class beitrug.

Design-Prinzipien

Gleich von Beginn an setzten wir uns bestimmte Ziele für das Design von Knowledge Class. Das Projekt begann mit der Suche nach einem System, das ein optimales Gleichgewicht von automatischer und intellektueller Indexierung gewährleisten sollte. Unser erstes Design-Prinzip war daher die Maximierung der Vorteile beider Indexierungsverfahren. Zweitens wollten wir eine nutzerfreundliche Schnittstelle für Knowledge Class entwickeln. Das System sollte auch für einen großen Nutzerkreis geeignet sein. Bibliothekare und Dokumentare möchten vielleicht spezielle 'Wissensklassen' für ihre Kunden erstellen. Endnutzer möchten vielleicht einfach die bookmark-Funktion ihres Browsers durch Knowledge class ersetzen. Lehrer möchten vielleicht 'Wissensklassen' für ihre Unterrichtsfächer erstellen, die dann wiederum von den Lernenden für die Websuche genutzt oder aber auch weiterentwickelt werden können. Unser Ziel ist es, allen diesen Nutzern die Anwendung des Systems mit möglichst geringem Einarbeitungsaufwand zu ermöglichen. Drittens wollten wir die Nutzer davon befreien, erst eine komplexe Abfragesprache erlernen, sich an die Webadressen von Suchmaschinen erinnern oder schwierige Suchstrategien formulieren zu müssen. Knowledge Class bietet einen Mini-Thesaurus an; wirklich sinnvoll wird dieser aber erst durch die Verbindung zu den Suchmaschinen. Das System soll dabei soviel wie möglich im Hintergrund arbeiten, soll direkt zu den Suchmaschinen weiterverbinden, automatisch Synonyme zu einem Suchbegriff hinzufügen und unterschiedliche Suchen für unterschiedliche Begriffe durchführen. Schließlich soll das System alle diese Vorgänge für die Nutzer so transparent machen, daß diese sich voll auf die inhaltlichen Aspekte ihrer Suche konzentrieren können.

Schrittweise Entwicklung des Design

Die Entwicklung von Knowledge Class erfolgte in drei Schritten. Zuerst wurde ein Rahmen-programm in HTML entwickelt, das vier Fenster enthält. Das erste Fenster zeigt alle Verzwei-gungen einer 'Wissensklasse'. Das zweite Fenster ist für die einzelnen Verzweigungen in einer expandierbaren oder einengbaren Baumstruktur bestimmt, wobei jeweils nur ein Zweig zu sehen ist. Das dritte Fenster ist das Hauptfenster zur Anzeige der Ergebnisse. Das vierte Fenster ist für die Anzeige und den Wechsel von Suchmaschinen bestimmt. Die vier Fenster sind auf einer HTML-Seite und können leicht in Web-Browser geladen werden.

Im zweiten Arbeitsschritt arbeiteten wir mit einer Gruppe von Studenten der Bibliothekswissen-schaft an der Universität von Kentucky die jeweils ein Sachgebiet innerhalb des zur Verfügung gestellten Rahmens bearbeiteten. In dieser Phase fanden wir heraus, daß für verschiedene Suchtypen auch unterschiedliche Suchstrategien entwickelt werden müssen. So mußten zum Beispiel einige Begriffe als Einzelwörter gesucht werden, andere konnten viel besser als Phrase gesucht werden und wieder andere mußten mit kontextkennzeichnenden Zusätzen, die aus höheren Hierarchieebenen der Wissensklasse stammten, kombiniert werden. Mittels vieler Versuche und Tests wurde ein Kodierungssystem entwickelt, das die Anpassung der speziellen Suchstrategie an jeden Suchbegriff erleichtert. Ein typischer Eintrag in einer Wissensklasse lautet wie folgt:

--, mutual funds, mutual-funds Investment-trusts Unit-trusts, http://www.brill.com, 1

Jeder Eintrag besteht aus fünf Teilen, die durch Komma getrennt sind. Als erstes wird die Hierarchieebene des Begriffs durch Striche angezeigt. Als zweites kommt der Anzeige-Begriff (der in der Baumstruktur angezeigt wird), als drittes der Suchbegriff, der in vielen Fällen ein Synonym zu dem Anzeige-Begriff oder ein anderweitig in Beziehung mit ihm stehender ist. Als viertes folgt der direkte Link; soweit vorhanden, wird ein Link-Symbol angezeigt, das es dem Benutzer erlaubt, durch Anklicken direkt auf die entsprechende Seite zu kommen. Als letzte Eintragung folgt eine Kodierung zur Kennzeichnung der Suchstrategie. Alle verwendeten und kodierten Suchstrategien wurden bei Lin und Chan (1997) dargestellt.

Im dritten Arbeitsabschnitt verbesserten wir das Ganze durch Implementierung einer Java-Version von Knowledge Class. In dieser Version wurde die Fensterstruktur verbessert, um den Wechsel von einem Zweig zum anderen zu erleichtern, ohne daß die ganze Seite neu geladen werden muß. Unter Ausnutzung der graphischen Möglichkeiten von Java konnten wir in einem einheitlichen Rahmen anzeigen, was vorher auf drei Fenster verteilt war: alle Verzweigungen einer Wissensklasse, die Baumstruktur jedes Zweigs und die Suchmaschinen von Knowledge Class. Durch den gesparten Platz auf dem Bildschirm konnten wir eine andere Ebene zusätzlich anzeigen - eine Liste aller Wissensklassen, die bis jetzt entwickelt worden waren. Eine andere erhebliche Verbesserung in dieser Version ist die Trennung von Programmdateien und Infor-mationsdateien. In den früheren Versionen waren JavaScript und die Einträge des Mini-Thesaurus auf derselben HTML-Seite, was es für einen Benutzer ohne gute Kenntnisse von JavaScript schwer machte, den Mini-Thesaurus zu manipulieren. Durch Java werden die Daten des Programmteils völlig von denen des Mini-Thesaurus getrennt. Der Benutzer kann in der Datei für letzteren neue Eintragungen aufnehmen und Inhalt und Datenstruktur verändern, ohne das Programm zu kennen.

Mehrsprachige Unterstützung

Während wir die Datenstruktur entwarfen, entdeckten wir einen anderen Vorteil der Trennung von Anzeige- und Suchbegriffen. Unsere ursprüngliche Überlegung war es, die Verbindung zu den Suchmaschinen flexibler zu gestalten und die Suche zu vereinfachen. Wir stellten fest, daß dies besonders bei der Entwicklung mehrsprachiger Wissensklassen nützlich war.

Während der Konstruktion einer Wissensklasse zu Wales entwickelte eine unserer Studentinnen einen zweisprachigen, klassifizierten Mini-Thesaurus mit Begriffen in Englisch und Walisisch. Für Seiten mit walisischen Begriffen wollte sie die Suche in beiden Sprachen ermöglichen. Durch die Trennung von Anzeige- und Suchbegriffen ist das leicht zu bewerkstelligen - sie führte einfach die englischen und die walisischen Begriffe in die Wissensklasse ein, und die Suchmaschinen konnten dann Web-Seiten in beiden Sprachen suchen. Unser Test zeigte, daß dies eine sehr effektive Methode für die mehrsprachige Unterstützung bei der Suche ist. Ein Beispiel für eine mehrsprachige Wissensklasse ist Complementary & Alternative Medicine (CAM), wo der Teil für chinesische Medizin auf Chinesisch erscheint. Wir entwickelten diesen Zweig auf Englisch und Chinesisch (Guobiao) und boten Links vom einen zum anderen an. In der chinesischen Version umfaßt jeder Suchbegriff englische und chinesische Äquivalente. So zeigen Suchmaschinen, die Chinesisch (Guobiao) akzeptieren, Resultate von englischen und chinesischen Web-Seiten an. Wir stellten fest, daß diese Wissensklasse besonders hilfreich für Nutzer war, deren Kenntnis einer bestimmten Sprache begrenzt ist, die aber Material in dieser Sprache finden wollen. So können zum Beispiel Amerikaner, die sich mit traditioneller chinesischer Medizin befassen, häufig etwas Chinesisch, sind aber vielleicht nicht sicher genug bei der Eingabe von Suchfragen in Chinesisch oder beim Browsen. Wenn sie diese Wissensklasse benutzen, können sie in der englischen Version blättern und für das Retrieval auf die chinesische übergehen oder die englischen Begriffe anklicken und trotzdem relevante Nachweise in Chinesisch finden. Damit wird ein mehrsprachiger Zugang zu Web-Quellen möglich und effizient.

Knowledge Class ist ein laufendes Projekt, das wir noch verbessern wollen, um es zu einem nützlichen Instrument für den sachlichen Zugriff auf Web-Ressourcen zu machen. Für ein effektives Retrieval müssen Web-Ressourcen unserer Meinung nach in 'Informationseinheiten', nicht in individuellen physischen Seiten organisiert werden. Das läßt sich mit der Katalogisierung in Bibliotheken vergleichen: aus Gründen der Machbarkeit und Effizienz katalogisiert man auf der Ebene der Monographie oder Zeitschrift, nicht auf der des einzelnen Kapitels oder Zeitschriften-aufsatzes. Knowledge Class wird konstruiert, um solche Informationseinheiten zu beschreiben. In Zukunft wird eine Mega-Suchmaschine dann nur auf der Ebene dieser 'Informationseinheiten' indexieren müssen. Damit werden Benutzer dann erst die relevanten Informationseinheiten finden und von da Zugriff auf einzelne Web-Seiten bekommen.

Plans for the near future include:

1. Wir hoffen, mehr Mitarbeiter für die Entwicklung von Wissensklassen zu einer großen Menge von Themen zu bekommen. Um die Mitarbeit zu fördern, bieten wir freien Zugang zur Software an. Vor allem hoffen wir auf Spezialisten aus dem wissenschaftlichen Informations-wesen und möchten Bibliothekare, Informationswissenschaftler, Studenten der Bibliotheks-wissenschaft und Wissenschaftler an den Universitäten für die Mitarbeit gewinnen. Wenn eine größere Zahl von Mitarbeitern zusammenkommt, wird es ein Beratungsgremium geben, das für die Leitung, Beobachtung und Qualitätssicherung bei der Entwicklung der Wissensklassen zuständig ist.

2. Wir planen die Formulierung schriftlicher Richtlinien für Informationsspezialisten und Endnutzer, die an der Verwendung von Wissensklassen interessiert sind. Für die Spezialisten wird der Schwerpunkt bei der Anwendung von Prinzipien und Techniken von Klassifikation und Information Retrieval bei der Entwicklung von Wissensklassen liegen und bei der Darstellung der Methoden für unterschiedliche Suchstrategien bei verschiedenen Fragestel-lungen. Für die Endnutzer geht es mehr darum, wie die vorhandenen Wissensklassen ihren persönlichen Bedürfnissen angepaßt werden können.

3. Wir planen eine weitere Verbesserung der Software. Zur Zeit müssen die Daten in einem Textverarbeitungsprogramm ediert werden und Benutzer können ihre Suchstrategien nicht online verändern. In der nächsten Version erhält der Benutzer Möglichkeiten für das Hinzufügen von Begriffen in die Hierarchiestruktur, die Aufnahme von Synonymen in die Liste der Suchbegriffe, die Veränderung der Suchstrategie, usw. Auch ein Autoren-Tool für die Entwicklung und das Testen einer Wissensklasse in einer graphischen Umgebung wird zur Verfügung stehen.

Teil III: Mehrsprachigkeit für den Sachzugriff (Marcia Lei Zeng)

Das Phänomen der Mehrsprachigkeit bei der Darstellung von Daten im Web verlangt nach Wegen zur Lösung der Probleme, die Benutzer beim Umgang mit ihnen bekannten oder unbekannten Sprachen haben. In der Vergangenheit waren die meisten Suchmaschinen auf die Indexierung von Seiten in westeuropäischen Sprachen ausgerichtet. Fast alle Schnittstellen für die Recherche waren englischsprachig und hoben häufig Neuigkeiten oder Informationen hervor, die für ein US-amerikanisches Publikum von Interesse waren. Mit dem weltumspannenden Charakter des Internet und der Durchdringung der Firmen-Netzwerke mit Intranet wächst die Reichweite der zugänglichen Daten enorm an. Seit 1998 sind die Suchmaschinen des World Wide Web in den Wettbewerb zwischen Globalisierung und Regionalisierung einbezogen. Mehrsprachigkeit ist zu einer Schlüsselfunktion bei der Entwicklung der Technologie für Suchmaschinen geworden.

Mehrsprachig orientierte Dienste der wichtigsten Suchmaschinen

Um die vielsprachige und multikulturelle Bevölkerung überall auf der Welt zu erreichen, haben die wichtigsten Suchmaschinen wie AltaVista, Excite, HotBot, InfoSeek und Yahoo! neue Dienstleistungen entwickelt, die als regionale Unterstützung bei der Recherche fungieren:

Domänenfilter. Normalerweise hat jedes Land seine Domäne auf oberster Ebene im Internet, z.B. .uk für Großbritannien. Der einfachste Weg zur Schaffung eines regionalen Führers mit regionalem Inhalt ist ein Filter durch die Domänenkennzeichnung. Die aus den Haupteinträgen gewonnenen Suchergebnisse werden mit Hilfe der Domäne gefiltert. Typische Dienste sind Global Excite (enthält Australien, China, Frankreich, Deutschland, Italien, Japan, die Niederlande, Schweden und Großbritannien), InfoSeek (das Brasilien, Dänemark, Deutschland, Spanien, Frankreich, Italien, Japan, Mexiko, die Niederlande, Schweden und Großbritannien umfaßt), und Lycos in: (für Deutschland, Großbritannien, Frankreich, die Niederlande, Italien, die Schweiz, Belgien, Schweden, Spanien, Japan und Korea).

Domänen-Identifizierung. In diesem Fall identifiziert die Suchmaschine das Land, aus dem der Besucher kommt, und bietet eine Titelseite, die mit einigen speziellen Informationen darauf zugeschnitten ist.

Mirror Sites. Mirror Sites sind Sites der Suchmaschinen, die außerhalb der USA angesiedelt sind. Sie können im Antwortverhalten besser sein, weil sie von dem intensiven Verkehr innerhalb der USA unabhängig sind und die Probleme beim Überqueren von Ozeanen und langen Entfernungen entfallen.

Sprachspezifische Suche. Einige Dienste überschreiten nationale Grenzen und sind auf die Sprecher innerhalb einer Sprachgemeinschaft ausgerichtet. AltaVista und Northern Light bieten beide solche Dienste bei der Suche nach Dokumenten in einer Sprache an. Diese unterscheide sich vom Domänenfilter (der Suche, die durch einen Domänenfilter wie .uk begrenzt wird) dadurch, daß sie ausschließlich inhaltsbezogen sind. AltaVista speichert Informationen aus Seiten in verschiedenen Sprachen in einem Register, unabhängig von der Art der Schriftzeichen, in denen sie geschrieben sind.

Mehrsprachige Suche. AltaVista bietet auch mehrsprachige Suche mittels seiner 'Eine Welt'-Technologie an, die besonders auf die Sprecher asiatischer Sprachen ausgerichtet ist. AltaVista übersetzt jede gefundene Seite in Unicode, in dem Schriftzeichen aus allen Sprachen gespeichert werden können. Der Suchende kann die Übersetzung seiner Suchfrage oder eine ganze Web-Seite anfordern, aus der Sprache oder in die Sprache, in der er suchen oder lesen möchte.

Regionale Schnittstellen. Die Schaffung einer regionalen Schnittstelle kann genau so einfach sein wie eine benutzerfreundliche Gestaltung von Oberfläche und Handling in der für ein bestimmtes Land passenden Sprache. Es gibt verschiedene Wege, einen solchen Dienst anzubieten. Bei den Fach-Verzeichnissen kann der Benutzer manchmal eine komplett aus dem Englischen übersetzte Seite sehen, ohne daß Inhalt oder Reihenfolge der Kategorien verändert sind. In anderen Fällen sieht er eine zweisprachige Ausgabe des Verzeichnisses, z.B. in Englisch und Japanisch. Ein textbasiertes japanisches Verzeichnis zu präsentieren würde es nötig machen, einen lokalen Schriftzeichensatz in einen klientenorientierten lokalen Browser zu laden. Um diese Anforderung zu umgehen, bieten manche Verzeichnisse ein bild-/graphikbasiertes Display an. Regionale Schnittstellen können auch unterschiedliche inhaltliche Schwerpunkte oder Displays haben.

Fach-Verzeichnisse mit regionalem Bezug. Statt eine Anzahl regionaler Schnittstellen, die das Produkt transliterierter oder übersetzter Versionen der globalen oder der US-amerikanischen Version eines Fach-Verzeichnisses sind, anzubieten, stellen Fach-Verzeichnisse mit regionalem Bezug eine auf die örtlichen Interessen zugeschnittene Version dar. Erreicht wird dies durch Verwendung der ortsüblichen Sprache für das ganze Verzeichnis, Definierung und Benennung von Kategorien, die auf lokalen Konventionen beruhen und Berücksichtigung von Kategorien von lokalem Interesse. WorldYahoo! bietet 19 Versionen seiner Verzeichnisse an und deckt damit Amerika, die Pazifikregion und Europa ab.

Web-Fach-Verzeichnisse in einer multilingualen Umgebung

In der Einleitung zu diesem Aufsatz beschreibt Lois Mai Chan die Hauptgesichtspunkte bei der Entwicklung einer nützlichen Web-Organisation. Dazu gehören: Begrenzung des Fachgebietes und der Hierarchietiefe, Definition und Benennung von Kategorien, logische Struktur, klar definierte Facetten, Festlegung der Zitier-Reihenfolge, Kreuzklassifikation, alphabetisches Register, Terminologie der Überschriften und Notationen. Unter den bekannten Suchmaschinen und Fach-Verzeichnisse im Web ist Yahoo! führend, was seine Organisation betrifft, und hat mit Erfolg seinen gesamten Dienstleistungen eine Klassifikationsstruktur zugrunde gelegt. Seit etwa einem Jahr haben auch die anderen großen Suchmaschinen die Methode der Fach-Verzeichnisse übernommen und ihre Klassifikation verwendet. Eine Analyse dieser Dienste, die auf den von Lois Mai Chan definierten Kriterien beruht, zeigt verschiedene Vorgehensweisen. Im Folgenden sollen die Eigenschaften einiger Suchmaschinen im Hinblick auf ihre multilingualen Dienstleistungen untersucht werden. Die meisten Beispiele stammen von World Yahoo! und wurden am 12. Februar 1999 geprüft. Viele der beschriebenen Erscheinungsformen finden sich auch in anderen Suchmaschinen wie in Northern Light und in den ersten Kategorien von InfoSeek.

1. Alphabetische Anordnung der Kategorien

World Yahoo! bietet weltweit beinahe 20 Versionen seines einzigartigen Verzeichnises der verschiedenen Länder und Regionen weltweit an. Dieses Verzeichnis unterteilt alle Web-Ressourcen in 14 Hauptkategorien und umfaßt alle Sachgebiete. Einige Namen/Überschriften und Geltungsbereiche der Hauptverzeichnisse in den nicht-englischsprachigen Versionen (z.B. Yahoo! France) können sich von der weltweiten, auch als US-Version bekannten globalen Ausgabe unterscheiden. Da in der Yahoo!-Klassifikation keine Notationen verwendet werden, ist die alphabetische Anordnung das natürliche und einzige Einteilungkriterium für alle Kategorien und ihre Untergliederungen. Es wird keine systematische Übersicht oder logische Gliederung der Kategorien angeboten. Wenn man ein bestimmtes Thema in Yahoo! finden will, muß man jedes Mal das komplette Verzeichnis durchblättern. Dies führt unvermeidlich zu Inkonsistenz in der Anordnung der nicht-englischen Versionen der Jahoo!-Verzeichnisse. Mit anderen Worten: obwohl alle regionalen Verzeichnisse dieselben 14 Haupt-Sachgebiete haben, unterscheiden sich die spanische, französische, italienische und deutsche Version in der Reihenfolge, die jeweils ihrem eigenen Alphabet folgt. Für Sprachen mit nicht-lateinischer Schrift wie das Chinesische gibt es eine andere Reihenfolge, weder alphabetisch noch systematisch.

2. Implementierung des Prinzips der Gliederung nach Literaturanfall

Fach-Verzeichnisse im Web folgen dem Prinzip der Gliederung nach Literaturanfall. Die Gliederungstiefe der Hierarchien in einem Web-Verzeichnis hängt von der Menge der Informa-tionsquellen zu einem bestimmten Thema im Web ab. Yahoo! kann Untergliederungen auf drei Hierarchieebenen anbieten (z.B. Arts: Design Arts: Color Theory) oder auf neun (z.B. Business and Economy: Companies: Computers: Software: Internet: World Wide Web: HTML: Editors: MS Windows: HTML Assistant). Das Prinzip der Gliederung nach Literaturanfall bedingt auch Entscheidungen im Hinblick auf Ein- oder Ausschließen von Untergruppen innerhalb eines Fachgebietes. Bei der Benutzung der regionalen Verzeichnisse von Yahoo! hat der Benutzer nur die Möglichkeit, die Ergebnisse durch Auswahl einer bestimmten Region einzuengen. Wenn er zum Beispiel das regionale Verzeichnis Yahoo! UK&Ireland benutzt, kann er die Suche auf Großbritannien allein einengen. Es ist an dieser Stelle allgemein üblich, beim Endergebnis eine unterschiedliche Tiefe der Hierarchien und eine unterschiedliche Zahl der Unter-Kategorien zu bekommen, weil dies von der praktischen Situation der Web Sites in der Region bestimmt wird. (Man kann dies an der Stelle 'Religions: Faiths and Practices' in den verschiedenen regionalen Yahoo-Verzeichnissen überprüfen.) Sachgebiete wie Kultur, Gesellschaft, politisches System, Rechtsprechung, Wirtschaft, Gesundheitswesen, usw. sind diejenigen, die das Prinzip der Gliederung nach Literaturanfall am dynamischsten widerspiegeln.

3. Flexibilität in der Wiedergabe lokaler Interessen

Auch wenn sie versuchen, eine einheitliche und standardisierte Klassifikationsstruktur zu erhalten, zeigen Fach-Verzeichnisse im Web doch auch viele verschiedenen Wege zur Berücksichtigung lokaler Interessen. Erstens können bestimmte Hauptkategorien an hervorgehobener Stelle erscheinen, wenn dies nötig ist. Normalerweise sind alle Hauptkategorien in alphabetischer, nicht in logischer Anordnung aufgeführt. Es war aber keine Überraschung, daß während der Fußball-Weltmeisterschaft Yahoo! France die Kategorie Sport nach vorn gestellt hat, mit der Fußball-Weltmeisterschaft an herausgehobener Stelle.

Zweitens variieren die Untergruppen zu jeder Kategorie von Land zu Land und von Zeit zu Zeit (Man vergleiche die unterschiedlichen Untergruppen bei Arts and Humanities in den verschie-denen regionalen Verzeichnissen) So bieten regionale Verzeichnisse bevorzugte Untergruppen, die aus Dutzenden innerhalb der Klassifikation ausgewählt wurden, innerhalb der Hauptkategorie Arts and Humanities an bevorzugter Stelle an. Die Auswahl variiert in den verschiedenen regionalen Diensten erheblich. Dabei ist es wichtig zu beachten, daß diese Untergruppen nicht die unmittelbar den Hauptkategorien untergeordneten sein müssen. (Beispiele lassen sich bei Mode, Literatur und Photographie in den regionalen Yahoo!-Verzeichnissen finden.) Die Priorität, die diesen Untergruppen auf der dritten Ebene gegeben wird, reflektiert die Betonung lokaler Interessen und zeigt die Flexibilität der hierarchischen Ebenen und systematischen Zusammen-hänge, die durchbrochen werden können, wenn ein Thema wichtiger ist, als es seine logische Position in einem Klassifikationsschema vermuten läßt. Ein anderes interessantes Phänomen ist die Behandlung von Namen /Überschriften einer Kategorie. (Das läßt sich an den Untergruppen zu Business and Economy in den verschiedenen regionalen Yahoo!-Verzeichnissen überprüfen.) Innerhalb der Übersicht der Kategorie Business & Economy wird Employment statt Jobs und Finance and Investment statt Finance oder Investing verwendet. Eine Überprüfung des Verzeichnisses liefert viele ähnliche Beispiele. Dies bedeutet, daß die Liste der ausgewählten Untergruppen auf der Hauptseite nicht der Regel folgt, sie entsprechend ihrem offiziellen Namen, bzw. ihrer offiziellen Überschrift zu verzeichnen.

Drittens gibt es in den Fach-Verzeichnissen im Web viele Mehrfacheintragungen. So wird z.B. das Thema Steuern unter 93 Kategorien in all Yahoo! aufgeführt, unter 122 auf den Sites von Canada only, unter fünf bei UK only, unter zwei bei Australia only, unter einer bei Singapore only und unter keiner bei HongKong only. Ob Steuern ein wichtiges Thema von lokalem Interesse sind, läßt sich an der Verzeichnung unter den Hauptkategorien erkennen. Im obigen Beispiel hat Taxes einen herausgehobenen Platz unter Business & Economy im Verzeichnis von Yahoo! UK&Ireland. Im USA-orientierten Verzeichnis von Yahoo! wird es beim Thema Government verzeichnet, zusammen mit Militär, Politik und Recht, was die Bedeutung dieses Themas in den gegenwärtigen amerikanischen Regierungsaktivitäten zeigt.

4. Grenzen der sprachabhängigen Suchmöglichkeiten

Mit Ausnahme von Yahoo!, das sich den Anweisungen der Schöpfer der Webseiten unterwirft und Personal für die intellektuelle Bearbeitung der Web Sites zur Verfügung hat, verwenden die meisten Suchmaschinen sprachabhängige automatische Verfahren zum Ranking und Clustering, die auf Metadaten (wie Schlagwörtern, Stichwörtern oder Abstracts im -Element) basieren, auf den Titelseiten und auf Worthäufigkeit. Die Grenzen solcher automatischen Ranking- und Clustering-Verfahren in einer nicht-englischsprachigen Umgebung sind offensichtlich. Nicht-englische Webseiten mögen Metadaten und Titel in Englisch enthalten, aber Suche und Wiedergabe , die darauf basieren, vermischen Ergebnisse aus nicht-englischen mit solchen aus englischsprachigen Dokumenten. In den meisten Fällen wird ein Web Browser ohne Installation eines Schriftzeichen-Erkennungsprogramms nicht in der Lage sein, z.B. ostasiatische Schriftzeichen zu lesen. Deshalb ist eine solche Vermischung von Sprachen für den Benutzer Zeitverschwendung, da der Inhalt der gezeigten Links nicht gelesen oder verstanden werden kann.

Darüber hinaus verwenden viele Suchmaschinen Worthäufigkeit als Hauptparameter für die autmatische Identifizierung und Klassifizierung des Inhalts von Webseiten. AltaVista benutzt ein auf dem gemeinsamen Vorkommen von Wörtern basierte automatische Cluster-Analyse in seinem Refine-Modus. Indem Wörter, die mit den Suchbegriffen zusammen vorkommen, analysiert werden, kommt man zu einem automatischen Clustering von Dokumenten. Die Ergebnisse werden in Form einer Liste, die die zusammen vorkommenden Wörter verzeichnet, oder als Übersicht über die Suchbegriffe und ihre Beziehungen präsentiert. Der Benutzer kann seine Suchstrategie durch Ein- oder Ausschließen bestimmter Gruppen von Wörtern verfeinern und so eine höhere Präzision bei der Suche erreichen. Allerdings ist diese Möglichkeit auf Dokumente in Englisch und wenigen westlichen Sprachen begrenzt; für Chinesisch zum Beispiel gibt es, obwohl AltaVista eine sprachspezifische Suche anbietet, nur die Möglichkeit, einfache Anfragen zu stellen, nicht aber die nächsten Schritte im Refine-Modus.

Northern Light bietet mit "Custom Search Folders" eine Möglichkeit zur Verfeinerung von Suchstrategien an. Das Unternehmen gibt an, daß diese kundenorientierten Verzeichnisse nicht vorgefertigt und in einem Einheitsmaß für alle angelegt sind wie andere Web-Verzeichnisse. Bei jedem Suchvorgang in Northern Light wird eine Reihe von Verzeichnissen angelegt, die auf der individuellen Suche beruhen. Der Benutzer kann Themen, Dokumenttypen, Quellen und Sprachen aussuchen. Basierend auf der Zahl der Dokumente in jedem Verzeichnis und ihrer Relevanz für die Fragestellung entscheidet die Suchmaschine und macht Vorschläge für die den Nutzerinteressen am meisten entsprechenden Custom Search Folders. Nichtsdestoweniger sind bisher nur fünf westliche Sprachen integriert.

Zusammenfassung

Der Weg zu einem gut funktionierenden sprachübergreifenden Sachzugriff ist vielversprechend und anspruchsvoll. Viele weitere technische wie auch soziale und kulturelle Aspekte müssen berücksichtigt werden; dazu gehören Hilfe beim Entschlüsseln von Schriftzeichen, Übersetzungs-angebote bei der Benutzeroberfläche, Unterstützung bei der Behandlung kulturspezifischer Datenformate (Datumsangaben, Währungen, usw.), graphische Modifikationen der Benutzer-oberfläche (Farben, Bilder), Unterstützung durch ausländische Produkte (wie Datenbanken) und Kompatibilität der Betriebssysteme. Zusammenfassend läßt sich sagen, daß der Bedarf an effektiven Instrumenten für die Organisation von Web-Ressourcen im Bereich Recherche und Retrieval steigt. Mehrsprachige sachliche Zugriffsmöglichkeiten, wie sie durch die wichtigsten Suchmaschinen und die Fach-Verzeichnisse im Web angeboten werden, haben verschiedene Arten von hierarchischen und klassifikatorischen Strukturen entwickelt. Diese neuen Dienste sind über die Konventionen traditioneller Klassifikationen hinausgegangen. Da sie den Vorteil haben, eine Klassifikation anzubieten, die jenseits der Ressourcen oder ihrer Surrogate angesiedelt ist, können diese web-basierten Dienste sehr flexibel in der Anordnung der Kategorien und ihrer Beziehungen untereinander sein und den lokalen Interessen in einem Fach-Verzeichnis Rechnung tragen. Das Prinzip der Gliederung nach Literaturanfall ist in der Praxis der Web-Verzeichnisse voll wirksam. Es gibt immer noch viele Einschränkungen, wenn sachliche Klassifikationsstrukturen und automatische Clustering-Methoden in einer vielsprachigen Umgebung benutzt werden. Wie kann man Globalisierung und Regionalisierung in einer vielsprachigen und multikulturellen Umgebung gleichzeitig realisieren? Diese Frage bleibt mit den derzeitigen Technologien und Theorien unbeantwortet.

Literaturhinweise

Batty, David. (1998) WWW -- wealth, weariness or waste: controlled vocabulary and thesauri in support of online information access. D-Lib Magazine (http://www.dlib.org/dlib/november98/11batty.html).

Chan, Lois Mai. (1995). Classification, present and future. Cataloging & Classification Quarterly, 21(2), 5-17.

Koch, Traugott, Michael Day, and others. The role of classification schemes in Internet resource description and discovery. ({hyperlink http://www.ukoln.ac.uk/metadata/desire/classification/)}

Lester, Dan. (December 1995). Profile of a Web database," Database 46-50

Lin, X. & Chan, L. M. (1997). Knowledge Class - A dynamic structure for subject access on the web. Proceedings of the 8th ASIS SIG/CR Classification Research Workshop. (November 1, Washington, D.C.). pp. 31-40.

Lynch, Clifford Lynch. (1997). Searching the Internet. Scientific American 276(3), 52-56.

Search engine watch. Compiled by Danny Sullivan. Retrieved February 12, 1999 from the World Wide Web: {hyperlink http://searchenginewatch.com/ }

Vizine-Goetz, Diane. Using library classification schemes for Internet resources

(http://www.oclc.org/oclc/man/colloq/v-g.htm)

*    

Latest Revision: July 7, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org