IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library 
Associations and InstitutionsAnnual 
ConferenceSearchContacts

64th IFLA Conference Logo

   64th IFLA General Conference
   August 16 - August 21, 1998

 


Code Number: 058-86-G
Division Number: 0
Professional Group: Contributed Paper Session II
Joint Meeting with: -
Meeting Number: 86.
Simultaneous Interpretation:   Yes

Multiscript-Informationsverarbeitung am Scheideweg:
Anforderungen an den Übergang von verschiedenen Zeichensätzen zum Unicode-Standard in Bibliotheksanwendungen

Foster J. Zhang
The Dialog Corporation , USA

and

Marcia Lei Zeng,

Kent State University, USA


Zusammenfassung:

Wesentlicher Bestandteil jeder Bibliotheksanwendung ist eine Codierungsmethode, die es Computern erlaubt, Zeichen und Symbole zu verarbeiten, die verwendet werden, um sprachliche Information in geschriebener Form zu verarbeiten. Über Jahre hinweg wurde das Codierungsverfahren nicht unter einem einheitlichen Mantel entwickelt und erreichte unterschiedliche Sprachen nicht gleichermaßen. Ohne einen vereinheitlichten Standard-Zeichensatz müssen Benutzer verschiedenartige Software und Ausgabegeräte verwenden, um Daten in verschiedenen Sprachen anzuzeigen oder einzugeben, besonders wenn sie mit mehr als nur einigen wenigen Schriften zu tun haben.

Die Entwicklung des Unicode-Standard ist ein Meilenstein in der internationalen Informatik, da er die Entwicklung globaler Software unterstützt, die leicht örtlichen Bedürfnissen angepaßt werden kann. Das sind gute Nachrichten für Bibliothekare. Wie aber die Autoren bemerken, hat die Einführung des Unicode-Standards bei manchen bibliothekarischen Gruppen keine volle Aufmerksamkeit oder starke Unterstützung erfahren, wie z.B. bei den chinesischen Bibliothekaren in Asien (Kontinent, Hongkong, Taiwan und andere mehrsprachige Regionen und Länder in Asien), die die Multiscript-Informationsverarbeitung vor spezielle und einzigartige Probleme stellen. Es ist Ziel dieses Vortrags, diese Probleme zu analysieren und sie sowohl Bibliothekaren als auch den Unicode-Entwicklern zu erklären, um so dazu zu ermutigen, von verschiedenen Zeichensätzen in bibliothekarischen Anwendungen zum Unicode-Standard zu wechseln.

Die Verfasser dieses Vortrags werden sich auf das konzentrieren, was sie als hinderlich für die Anwendung des Unicode-Standard in Bibliotheken ansehen. Auch wenn die Beispiele aus der gegenwärtigen Informationsverarbeitung auf CJK (Chinesisch, Japanisch, Koreanisch) stammen, finden vielleicht auch Bibliothekare aus anderen Regionen, vor allem Ländern der Dritten Welt, sie interessant. Die Autoren sind der Überzeugung, daß Unicode die beste Lösung für echte Multiscript-Verarbeitung für bibliothekarische Anwendungen ist; Bibliothekare auf der ganzen Welt müssen aber bei der weiteren Entwicklung und Implementierung eines solchen vereinheitlichten Zeichensatzes mit dem Unicode-Consortium und ISO zusammenarbeiten.


Paper:

Bibliotheken als Informationsvermittlungs-Zentren blicken auf eine lange Geschichte bei der Verarbeitung mehrsprachiger Daten und der Dienstleistung für Benutzer, die verschiedene Sprachen sprechen, zurück. In den vergangenen zwei Jahrzehnten haben bibliothekarische Anwendungen wie integrierte Bibliothekssysteme und bibliographische Datenbanken online beträchtlich dazu beigetragen, daß Ressourcen global genutzt werden und Bibliotheksdienstleistungen verbessert werden, um multikulturellen und mehrsprachigen Bevölkerungskreisen zu dienen.

Wesentlicher Bestandteil jeder Bibliotheksanwendung ist eine Codierungsmethode, die es Computern erlaubt, Zeichen und Symbole zu verarbeiten, die verwendet werden, um sprachliche Information in geschriebener Form zu verarbeiten. Über Jahre hinweg wurde das Codierungsverfahren nicht unter einem einheitlichen Mantel entwickelt und erreichte unterschiedliche Sprachen nicht gleichermaßen. Die Computerindustrie unterstützte Bibliotheken nicht voll, die verschiedenen mehrsprachigen Bevölkerungsgruppen dienen. In der Vergangenheit konzentrierten sich Softwareentwickler auf Büro-Automatisierung oder andere Computeranwendungen, die gleichzeitig nur mit einer oder zwei Sprachen arbeiteten. Das Plädoyer der Bibliothekare für Systeme, die mehrsprachige Daten zur gleichen Zeit verarbeiten, fand wenig Unterstützung, und Bibliotheken wurden gezwungen, ihre eigenen Multiscript-Anwendungen zu entwickeln, weil kommerzielle Software die Vielfalt der benötigten Schriften nicht unterstützt hat. Obwohl verschiedene Standards für einzelne Schriften entwickelt wurden, mangelte es darüber hinaus an internationalen Standards für eine vereinheitlichte Zeichensatztabelle für Sprachen, die Standardsoftware und Betriebssysteme unterstützen würde. Bibliothekare können solche Probleme nicht selbst lösen; doch für viele Firmen ist die Bibliothek kein profitabler Markt.

Die Internet- und WWW-Anwendungen revolutionierten die Welt des Informationsaustauschs. Netz-Clientsoftware und Netzsuchmaschinen, die mehrsprachige Daten verarbeiten, haben die Anforderungen nach Unterstützung durch Betriebssysteme und internationalen Standards für einen einzigen und umfassenden Zeichensatz für alle Sprachen auf einen neuen Höhepunkt steigen lassen. Eine beträchtliche Anstrengung, internationale Standards zu entwickeln, um solche Anforderungen zu erfüllen, begann schon 1991, als das Unicode-Consortium gegründet wurde, unter dessen Mitgliedern viele große Computer- und High-Tech-Firmen wie Apple Computer, Xerox, HP, IBM usw. waren. Der Unicode weltweite Zeichensatz-Standard ist ein Codierungssystem, das darauf angelegt ist, den Austausch, die Verarbeitung und die Ausgabe von geschriebenen Texten in den verschiedenen Sprachen der modernen Welt zu unterstützen. Darüber hinaus unterstützt er klassische und historische Texte vieler geschriebener Sprachen. Er deckt die wichtigsten geschriebenen Sprachen der Welt ab als auch technische Symbole, die allgemein gebräuchlich sind. Der Unicode-Standard ist der internationale Standard, der dafür verwendet wird, Texte für die Weiterverarbeitung im Computer zu codieren. Er ist ein Subset des Internationalen Standard ISO/IEC 10646, Universal Multiple-Octet Coded Character Set (Fußnote 1).

Diese Entwicklung ist ein Meilenstein in der internationalen Informatik, da er die Entwicklung globaler Software unterstützt, die leicht örtlichen Bedürfnissen angepaßt werden kann. Das sind gute Nachrichten für Bibliothekare. Wie aber die Autoren bemerken, hat die Einführung des Unicode-Standards bei manchen bibliothekarischen Gruppen keine volle Aufmerksamkeit oder starke Unterstützung erfahren, wie z.B. bei den chinesischen Bibliothekaren in Asien (Kontinent, Hongkong, Taiwan und andere mehrsprachige Regionen und Länder in Asien), die die Multiscript-Informationsverarbeitung vor spezielle und einzigartige Probleme stellen. Es ist Ziel dieses Vortrags, diese Probleme zu analysieren und sie sowohl Bibliothekaren als auch den Unicode-Entwicklern zu erklären, um so dazu zu ermutigen, von verschiedenen Zeichensätzen in bibliothekarischen Anwendungen zum Unicode-Standard zu wechseln.

Die Verfasser dieses Vortrags werden sich auf das konzentrieren, was sie als hinderlich für die Anwendung des Unicode-Standard in Bibliotheken ansehen. Auch wenn die Beispiele aus der gegenwärtigen Informationsverarbeitung auf CJK (Chinesisch, Japanisch, Koreanisch) stammen, finden vielleicht auch Bibliothekare aus anderen Regionen, vor allem Ländern der Dritten Welt, sie interessant. Inzwischen kommen die Bemühungen, Standards zu verbessern, nie zu einem Ende, und neuere und verbesserte Standards haben vielleicht zu dem Zeitpunkt, zu dem dieser Vortrag bei der IFLA-Tagung gehalten wird, schon Lösungen für die Probleme entwickelt, die im folgenden beschrieben werden.

Wichtigere Gründe für die lauwarme Aufnahme des Unicode-Standard in Teilen von Ostasien liegen in den folgenden technologischen Aspekten, und die fehlende Vertrautheit der meisten Bibliothekare mit dem Inhalt des Unicode-Standards ist wohl ein wichtigerer Grund hinter verschiedenen dieser Hindernisse:

1. Keine bibliographischen Daten oder MARC-Datenbank, die Unicode verwendet

Im Augenblick verwenden die wichtigeren MARC-Datenbanken entweder ASCII (einschließlich erweitertem ASCII) oder einen lokalen Zeichensatz. So verwendet USMARC bei der Bearbeitung von CJK-Schriften EACC (Fußnote 2) und CNMARC GB (chinesische Nationalstandards). Es gibt kein nationales oder regionales bibliographisches Hilfsmittel, das MARC-Datenbanken in eine Datenbank auf der Grundlage von Unicode konvertieren oder Aufnahmen in Unicode erstellen könnte. Die bibliographischen Dateien bei RLIN und OCLC enthalten z.B. beide über 30 Mio. Titel in über 360 Sprachen. Mehr als 1,5 Mio. Aufnahmen in der RLIN-Datenbank enthalten CJK, kyrillische, hebräische und/oder arabische Schriften (Fußnote 3). Im OLUC (Online Library Union Catalogue) von OCLC beliefen sich Aufnahmen in 45 Sprachen auf über 14,000 Einträge (Fußnote 4). Aber Pläne, eine dieser Sprachen in das Unicode-Format zu überführen, erschienen angesichts des ungeheuren Arbeitsaufwands unmöglich.

Heute können bibliographische Datenbanken auf dem Unicode-Standard angelegt werden, wie es Produkte von DRA, VTLS und CGI (um nur 3 Firmen zu nennen) und ein Textlauf von Carl/UnCover zeigen. Was jedoch noch fehlt, ist vermutlich die Möglichkeit, MARC-Aufnahmen, die Unicode-Werte enthalten, auszutauschen. Für den Austausch müssen die internen Unicode-Daten in Aufnahmen umgewandelt werden, die den 8-bit USMARC- oder UNIMARC-Formaten entsprechen.

2. Keine bibliographischen Standards haben bis vor kurzem Unicode übernommen

Wir können bibliographischen Hilfsmitteln keine Vorwürfe dafür machen, daß sie keine Daten im Unicode-Format produzieren, weil gegenwärtig keine MARC-Standards Unicode unterstützen. Das am weitesten verbreitete USMARC definierte nur einige konventionelle Sprach-Zeichensätze - z.B. EACC - als Teil seines Standards. Es hat den Anschein, daß jetzt sowohl amerikanische als auch europäische Organisationen daran arbeiten, die Spezifikationen zu aktualisieren. Für USMARC hat MARBI den ersten Vorschlag akzeptiert, der von einem seiner Unterkommissionen vorgelegt wurde, Unicode hinzuzufügen; und für UNIMARC hat die CHASE-Gruppe ihre Empfehlungen in bezug auf einen Formatwechsel zu UNIMARC mit Unicode veröffentlicht. Die Verfasser stellen jedoch fest, daß es keinen Bericht darüber gibt, wie Unicode-Daten in diese MARC-Formate eingegeben werden sollten. Wir möchten Bibliothekare in den ostasiatischen Regionen dringend ermutigen, an den Diskussionen über diese Problematik teilzunehmen.

Wenige Bibliothekssysteme auf dem Markt unterstützen Unicode vollständig

Manche der Anbieter von Bibliothekssystemen, die sich an der Entwicklung der Technologie beteiligen, entwickelt im Augenblick Unicode-Versionen ihrer Systeme (z.B. DRA, VTLS, CGI), während andere mit einem solchen Vorgehen experimentieren (z.B. Carl/UnCover und die Sirsi-Gruppe). Es ist jedoch auch zutreffend, daß einige andere Systemanbieter, die CJK-Systeme auf der Basis von EACC/CCCII entwickelt haben, es versucht haben, ihre existierende Software zu verkaufen. Tatsächlich verwendet keines der vorliegenden CJK-Systeme den Unicode. Das hat bei Bibliothekaren in Ostasien zu Verwirrung darüber geführt, ob es praktikabel ist, auf den Unicode-CJK umzusteigen, und hat ein nebulöses Verständnis über das Verhältnis zwischen dem Unicode-CJK-Subset und EACC hervorgerufen.

Anforderungen an ein ideographisches Repertorium, das den Bedürfnissen von Bibliotheken entspricht

Die größte Sorge, die Bibliothekare in Asien in bezug auf Unicode haben, ist, daß die Anzahl von Han-Zeichen für die Bearbeitung von Bibliotheksmaterialien bei weitem nicht ausreicht. Diese Sorge bezieht sich auf alle CJK-Standards, die die Zeichenzahl auf die größtmögliche Zahl erhöhen müssen, die in einem Standard-Wörterbuch wie dem Kang-Xi Zi Dian (Kang Xi Wörterbuch) verzeichnet ist. Unified Repertoire and Ordering (URO), auch als vereinheitlichtes Han bekannt, das sowohl dem Unicode-Standard als auch ISO/IEC 10646 entspricht, enthält etwa 20,000 Ideographen (Fußnote 5). Im Vergleich enthalten einige chinesische Sofware-Pakete bereits über 60,000 Zeichen. Ein kleiner Satz, der die am häufigsten verwendeten Zeichen enthält, mag gut genug sein für Büro-Software, aber ist weit von der Zahl von Zeichen entfernt, die Bibliotheken benötigen, um seltene Bücher und Volltextdokumente zu bearbeiten. Für viele Bibliothekare sieht es so aus, als ob eine Revision eines lokalen Standards viel leichter ist, als die Erweiterung eines internationalen Standards wie dem Unicode-Standard zu beantragen. Tatsächlich sind ISO/IEC JTC1/SC2/WG2 dabei, 6000 weitere Zeichen in ISO/IEC 10646 einzubringen, und diese werden ebenfalls Teil des Unicode-Standard werden; viele Bibliothekare wissen davon aber nicht.

Darüber hinaus sind in asiatischen Ländern die Einschätzungen der Bibliothekare in bezug auf ihre Bedürfnisse nicht stark genug, um wichtige Mitteilungen an die ISO/ SC2/WG2 Ideographische Berichtsgruppe (IRG) weiterzuleiten, die das Vereinheitlichte Han erfolgreich entwickelt hat und die fortdauernde Aufgabe hat, zusätzliche ideographische Zeichen zu identifizieren und zu vergleichen (Fußnote 6). Die Bedürfnisse von Bibliothekaren können anhand von zwei Beispielen gezeigt werden. Zuerst die Zahl der Zeichen: viele chinesische Personennamen enthalten Zeichen, die in Texten selten verwendet werden; deswegen sind sie nicht im Vereinheitlichten Han enthalten. Das zweite sind die verschiedenen Gestalten des gleichen Zeichens: für das Katalogisieren seltener Bücher und um die Information auf dem Titelblatt exakt wiederzugeben, benötigt der Bibliothekar häufig eine Variante eines Zeichens, das nicht als ein standardisiertes abstraktes Format angesehen wird und daher nicht im Unicode-Standard oder ISO/IEC 10646 enthalten ist, weil die Regeln, die den Inhalt des URO bestimmen, das verbieten. (Wir sprechen hier nicht über das Problem von Glyph/Font.) Die Verfasser wünschen, daß ein Zeichen-Thesaurus verfügbar gemacht wird, damit ein Standardzeichen dafür verwendet werden kann, alle Materialien aufzufinden, die verschiedene Formen dieses Zeichens verwendet haben. Inzwischen kann das Zeichen in der gewünschten Form angezeigt werden, die seinem Vorkommen auf Titelseiten oder im Volltext seltener Bücher entspricht.

Spezielle Schriftprobleme wie dieses können nur dann gelöst werden, wenn CJK-Bibliotheksgruppen sich an der Untersuchung und Entwicklung des Vereinheitlichen Han-Repertoriums aktiv beteiligen. Die Version 2.0 des Unicode-Standards bietet einen Erweiterungsmechanismus an, mit dem man Ersatz-Codepaare verwendet kann, um extrem seltene Zeichen zu codieren, und andere Codierungstechniken können entwickelt werden. „Die Aufgabe, Ideographen zu identifizieren, zu vergleichen und zu prüfen, wird immer schwieriger, je mehr Aufmerksamkeit historischen und selten verwendeten Zeichen geschenkt wird" (Fußnote 7). Bibliothekare sollten bei dieser Aufgabe eine wichtige Rolle spielen. Bibliothekare können verschiedene Schritte unternehmen, z.B. mit der passenden Gruppe innerhalb ihres nationalen Standardisierungsgremiums zusammenzuarbeiten oder über ISO TC 46 oder direkt mit ISO/IEC JTC1/SC2/WG2 und dem IRG zu kommunizieren, um ihre Bedürfnisse zu artikulieren.

Die Anordnung von CJK-Zeichen bei der Anzeige bleibt ein Problem

Der Unicode-Standard zeigt, daß es im allgemeinen für ein kulturell erwartetes Ergebnis unzureichend ist, sich auf die Reihenfolge von Zeichen in einem Zeichensatz für die Sortierung zu verlassen. Bei den chinesischen Zeichen (die in C, J und K vorkommen) ist die Sortierung schwieriger, weil der Zeichensatz mehrere verschiedene nationale/regionale Standards und ihre verschiedenen Versionen kombiniert. In den meisten Fällen braucht man eine Sortiertabelle. In Unicode werden die Vereinheitlichten Ideographen vorwiegend nach der Anzahl der (Grund-)Striche angeordnet. Wenn eine andere Sortierung gewünscht wird, benötigt die Anwendung (oder das System) eine separate „Ordnungsgewicht-„Tabelle, die es erlaubt, jeden vereinheitlichten Ideograph einem „Ordnungsgewicht" zuzuordnen (Fußnote 8). Anbieter von Bibliothekssystemen müßten Methoden entwickeln, die eine Sortiertabelle dazu verwenden, die Anzeige z.B. gemäß Pinyin- oder Strichordnung für das Chinesische zu sortieren. Das bedeutet auch, daß die Systeme, die CJK-Ideographen verwenden, einen speziellen Sortiervorgang benötigen.

Mangelnde Kenntnis von Computer-Software und Betriebssystemen, die Unicode unterstützen

Einer der wichtigsten Anlässe für CJK-Bibliothekare, über die Verwendung von Unicode nachzudenken, ist Netzanwendungen und die Unterstützung der Anwendungen von Microsoft Windows und verbreiteter Internet-Browser. Gegenwärtig unterstützen sowohl Netscape als auch Internet Explorer die Unicode/UTF8-Ausgabe, wie auch MS Office 97 und Windows NT.Wenn man Unicode verwendet, können alle Informationen auf einer Bibliotheks-Homepage von allen Benutzern in CJK-Regionen ohne Vorab-Installation spezifischer Software gesehen werden, solange eine Schriftart oder Schriftarten mit dem entsprechenden Zeichen-Repertorium installiert sind. Ohne Unicode-Unterstützung benötigt man eine spezifische Schriftart für jeden Codierungs-Satz; vor nicht allzu langer Zeit hätte man z.B. Twinbridge gebraucht, um big5-codierte Webseiten zu lesen, und Richwin für Webseiten, die den GB-Code verwenden. Der Text, den eine Software erzeugt, konnte von einer anderen nicht gelesen werden; die Konversion scheiterte oft oder war unvollständig; und nach der Konversion waren Format und Schriftart verloren. Man muß festhalten, daß manche der mehrsprachigen „Add-on enabler"-Software wegen ihrer eigenen Qualitätsprobleme auf Windows-Betriebssystemen oder Internet-Browsern häufig abstürzt, wegen Probleme wie dem unkorrekten Gebrauch von Prüfzeichen in der Code-Sequenz und Mangel and Kompatibilität. Es besteht kein Zweifel daran, daß Unicode-unterstützende Eigenschaften bei Betriebssystemen, Datenbanken und allgemeinen Anwendungen, die von der Computerindustrie bereitgestellt werden, es Firmen erleichtern wird, Systeme für Bibliotheken zu schaffen, die Multiscript-Unterstützung benötigen.

Keine Worttrennung implementiert in Bibliothekssystemen

Dieses Problem betrifft eine Rehe von Sprachen, z.B. Thailändisch und Chinesisch, wo Wörter nicht getrennt geschrieben werden. Bei chinesischen Daten gibt es keinen natürliches Anzeichen für einen Computer, das Ende einer Phrase oder eines Wortes festzustellen. Mehrsprachige Rechnersysteme müssen eine intelligente Methode entwickeln, um automatisch ein Wort von einem Abschnitt zu segmentieren, so daß ein Stichwortverzeichnis erstellt werden kann und bessere Suchmechanismen durchgeführt werden können. Bisher gibt es kein CJK-Bibliothekssystem, das diese sehr grundlegende Anforderung erfüllt.

Zusammenfassend kann man sagen, daß Benutzer ohne Unicode verschiedene Software und Ausgabegeräte verwenden, um Daten in verschiedenen Sprachen anzuzeigen oder einzugeben, besonders wenn sie mit mehr als nur einigen wenigen Schriften, v.a. nichtlateinischen Schriften, zu tun haben. Dies mag für einige Computeranwendungen akzeptabel sein, aber ist es sicher nicht für Bibliotheksbenutzer. Wir könnten damit fortfahren, eine Schrift nach der anderen hinzuzufügen, aber ein besserer Weg ist es, eine globale Software zu entwickeln, die in der Lage ist, alle Schriften zu verarbeiten. Information und menschliches Wissen sollte durch Sprachen nicht getrennt werden; Bibliothekssysteme sollten Benutzer dabei unterstützen, Information über Sprachgrenzen hinweg aufzufinden, und Benutzer sollten in der Lage sein, auf solche Informationen online von jedem beliebigen Ort auf der Welt zugreifen zu können.

Es ist für Bibliothekare an der Zeit, weltweit mit dem Unicode-Consortium und der ISO für die bessere Implementierung eines vereinheitlichten Sprach-Zeichensatzes zusammenzuarbeiten. Die Anbieter von Bibliothekssystemen sollten Systeme entwickeln oder mit ihrer Entwicklung fortfahren, die auf dem echten Unicode-Standard basieren. Die Anbieter müssen auch die Datenverarbeitung in Spezialschriften verbessern, darunter die Sortierung und Worttrennung.

Gegenwärtig ist die neueste und umfassendste Codierung für textliche Informationen der Unicode-Standard. Unicode ist die beste Lösung für echte Verarbeitung vieler Schriften in Bibliotheksanwendungen, aber er benötigt die Mitarbeit von Bibliothekaren bei der Entwicklung eines besseren Zeichensatzes. (Vgl. Fußnote 9 mit der Liste wissenschaftlicher und bibliothekarischer Mitglieder des Unicode-Consortiums.)

Dieser Vortrag gibt nur die persönlichen Meinungen der Verfasser wieder und hat keinen Bezug zu den Organisationen, denen die Verfasser angehören.

Fußnoten:

  1. Unicode ist ein Warenzeichen von Unicode, Inc. und kann in manchen Rechtsbereichen eingetragen werden. Der Unicode-Standard, Version 2.0, entspricht für jeden Codewert ISO/IEC 19646. Als UCS-2 subset von ISO 10646 sind die 65536 Codewerte des Unicode-Standard die ersten 65536 Codewerte von ISO 10646. Diese Codewerte enthalten alle Zeichen, die im Augenblick durch ISO 10646 definiert sind. Alle anderen ISO 10646-Codewerte sind für zukünftige Erweiterung vorbehalten. Das komplette Code-Set von ISO 10646 heißt Universal Character Set, four octets form (UCS-4). (Quelle: http://www.unicode.org/unicode/standard/principles.html).

  2. EACC (East Asian Character Code) ist ein amerikanischer Nationalstandard, den RLG in Zusammenarbeit mit der Library of Congress entwickelte. Er enthält traditionelle und vereinfachte chinesische Zeichen ebenso wie japanische Varianten, die japanischen hiragana- und katakana-Zeichen und die koreanischen hangul-Zeichen. Der Grundstandard, von dem RLG ausging - CCCII, Chinese Character Code for Information Interchange - ist ein 3 byte-Standard, der in Taiwan erstellt wurde. RLG paßte CCCII an und erweiterte ihn um Zeichen von anderen Standards:

  3. Acht Dateien, die nach dem Typ des bibliographischen Materials angelegt sind, sind über das RLIN-Bibliotheks- und Archivhilfssystem zugänglich und können als eine kombinierte „BIB"-Datei durch Eureka und Zephyr durchsucht werden. Die Dateien enthalten Millionen von Aufnahmen in mehr als 365 Sprachen. RLIN ist der einzige online-Katalog, der alle Schriften unterstützt, die in den von der LC als „JACKPHY"-Sprachen bezeichneten Sprachen (japanisch, arabisch, chinesisch, koreanisch, persisch, hebräisch und jiddisch) sowie im Kyrillischen verwendet werden. (Quelle: http://www.rlg.org./databases.html)

  4. Der WorldCat von OCLC bietet mehr als 36 Mio. bibliographischer Aufnahmen an, die 370 Sprachen vertreten. Am 30.6.1997 beliefen sich die Aufnahmen in 45 Sprachen im OLUC (Online Library Union Catalog) von OCLC auf über 14000 Einträge. Aufnahmen in drei Sprachen (französisch, deutsch und spanisch) überstiegen bereits 1,5 Mio. Aufnahmen in 12 Sprachen beliefen sich auf 100000-680000 Einträge; Aufnahmen in weiteren 24 Sprachen auf 14000-90000. (Quelle: OCLC Annual Report, 1997:10)

  5. URO 2.0 (Unified Repertoire and Ordering) ist ein Ergebnis vereinheitlichter Han-Zeichen aus verschiedenen Zeichenstandards. Es gibt alle Standard-Han-Ideographen erfolgreich wieder mit nur etwas mehr als 21000 einzigartigen Zeichen anstelle der 121000 Code-Punkte, die man erhält, wenn man existierende Standards für ideographische Zeichen kombiniert, die von verschiedenen Ländern und Regionen erstellt wurden. Der Unicode-Standard benutzt diesen Zeichensatz, um Han-Zeichen im Unicode-Coderaum darzustellen. Der URO erscheint auch in ISO/IEC 10646-1:1993 als der Satz vereinheitlichter CJK-Ideographen. (Quelle: Han Unification. http://www.unicode.org/faq/cjk/unification.html)

  6. ISO SC2/WG2 IRG (Ideographic Rapporteur Group) - früher als Chinese/Japanese/Korean Joint Research Group (CJK-JRG) bezeichnet - ist eine internationale Expertenkommission, die von der ISO eingerichtet wurde. Sie besteht aus Vertretern aus China, Japan, Korea, den USA, Vietnam, Hongkong und Taiwan, die zusammengearbeitet haben, um die Han-basierten Ideographen zu identifizieren, kategorisieren und zu ordnen, und URO 2.0 (Unified Repertoire and Ordering) entwickelt haben, das sowohl im Unicode-Standard als auch in ISO/IEC 10646-1:1993 verwendet wird. (Quelle: vgl. Anm. 5.)

  7. (Quelle: vgl. Anm. 5.)

  8. (Quelle: vgl. Anm. 5.) Man sollte festhalten, daß die verschiedenen kulturellen Verwendungen von Han-ideographischen Zeichen verschiedene Konventionen für die Sortierung von Zeichen entwickelt haben.

  9. Die wissenschaftlichen und bibliothekarischen Mitglieder des Unicode-Consortiums sind:

Danksagung:

Die Verfasser möchten einer anonymen Rechercheurin für die äußerst aktuellen Literaturhinweise und ihre sehr konstruktiven Hinweise zur Verbesserung des Gegenstands dieses Artikels danken, sowie für ihre große Hilfe bei der Bearbeitung unserer vielen handschriftlichen Fassungen.