IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 079-155(WS)-G
Division Number: IV
Professional Group: Cataloguing: Workshop
Joint Meeting with: -
Meeting Number:
Simultaneous Interpretation:   No

Katalogisierung in der Universellen Zeichensatz-Umgebung : Was sind die Grenzen?

Joan M. Aliprand
Senior Analyst, The Research Libraries Group
Mountain View, California, USA


Abstract

Es beginnt eine neue Zeit für mehrsprachige Datenverarbeitung mit umfassenden Zeichensätzen, dank der Entwicklung des Unicode-Standards und der Internationalen Norm ISO/IEC 10646. Der Inhalt dieser zwei Dokumente wird sorgfältig synchron gehalten. Ein größerer Meilenstein wurde jetzt erreicht: Nachdem Äthiopisch, Mongolisch und Sinhalesisch eingebracht wurden, sind nun alle größeren Schriftsysteme der Welt abgedeckt.

Katalogisierer erwarten vermutlich, daß ein so umfangreiches Zeichenrepertoire den gesamten Bedarf für die exakte Transkription bibliographischer Daten decken kann. Dieses Papier untersucht das Thema der exakten Transkription, und Situationen, wo sie gegenwärtig nicht angewendet wird. Das eigentliche Konzept des Zeichensatzes von Unicode und ISO/IEC 10646 wird erläutert, gefolgt von einer Diskussion, ob man mit schlichten Zeichenketten wirklich alle Anforderungen der exakten Transkription erfüllen kann.

Anm. d. Übers.: Mit "Transkription" ist das Verfahren der Übernahme von Daten aus der Vorlage gemeint, was ja weitaus mehr ist als ein bloßes Abschreiben


Paper

Meine berufliche Laufbahn begann in der Katalogisierung, und obwohl ich jetzt in der Systemanalyse arbeite, habe ich ein aktives Interesse an jenem Gebiet bewahrt. Als ich in der Ausbildung war, kam gerade die erste Ausgabe der Anglo-American Cataloguing Rules heraus, die ersten Regeln, die auf internationalen Katalogisierungsprinzipien beruhten. Ich dachte damals, das müsse nun das letzte Wort über Katalogisierung sein, und nicht viel mehr könne darüber noch gesagt werden. Was für ein Irrtum das war! Und wie wenig ich daon träumte, selber eines Tages zu dem fortlaufenden Dialog beizutragen.

Meine Darstellung konzentriert sich auf die bibliographische Beschreibung; hauptsächlich auf die Elemente, die früher als "Korpus" der Titelaufnahme bezeichnet wurden. Auch wenn das mein eigentliches Thema ist, so dürfte doch manches von dem, was ich sage, allgemein anwendbar sein, d.h. auf alle Teile eines bibliographischen Datensatzes, und sogar auf andere Bibliotheksdaten.

Ich werde hier über die AACR2 sprechen.1 Mir ist bekannt, daß dieses Regelwerk nicht überall angewendet wird. Da ich jedoch aus einer englischsprachigen Umgebung komme, ist dies das Regelwerk, mit dem ich vertraut bin. Außerdem haben die AACR2 einen ungewöhnlich großen Einfluß gehabt: direkt und indirekt. Direkt durch Übersetzungen in andere Sprachen, die dann als Grundlage für andere Regelwerke dienten. Indirekt immer dann, wenn einer der sehr vielen Datensätze aus der englischsprachigen Welt zu Erstellung eines neuen Datensatzes kopiert wurde.Auch wenn die Sprache der Katalogisierung nicht Englisch ist, kann die auf der Vorlage beruhende bibliographische Beschreibung dennoch nützlich sein und Zeit sparen.

Regel 1.0E der AACR2, Sprache und Schrift der Beschreibung, sagt unter anderem:

    Für die folgenden Bereiche sind die Angaben, die aus der Vorlage übernommen werden, in der Sprache und Schrift der Vorlage (wenn möglich) darzustellen:

      Titel und Verfasserangabe
      Ausgabebezeichnung
      Veröffentlichungsvermerk
      Gesamttitelangabe

    Symbole oder andere mit den technischen Mitteln der Erfassung nicht darstellbare Angaben sind in eckigen Klammern zu umschreiben. Wo es notwendig ist, macht man eine erläuternde Fußnote.

Als Hauptthema untersuche ich die Transkription in der neuen Verarbeitungsumgebung, die durch den Unicode Standard2 und die Norm ISO/IEC 10646.3 Realität geworden ist. Diese Publikationen umfassen nicht nur die Schriftsysteme aller bedeutenden Sprachen der Welt, sondern auch Sammlungen on Symbolen und anderen Textelementen, wie z.B. mathematische Operatoren, Blindenschrift, Interpunktionszeichen, "dingbats", usw. Mit großer Sorgfalt werden diese Zeichensätze synchron gehalten.

Ich möchte auch die Frage der bibliographisch getreuen Transkription behandeln, was ich einmal die "Genauigkeit" der Katalogisierung nenne. Immer wieder werde ich die Wirkungen auf das Retrieval ansprechen, insbesondere auf das systemübergreifende Suchen, die wir uns verdeutlichen müssen, wenn wir Katalogisierungsentscheidungen treffen.

Es war ja schon vor Unicode und ISO/IEC 10646 möglich, mehrere Schriftsysteme zu unterstützen. RLIN hat 1983 mit CJK angefangen (Chinese-Japanese-Korean),4 und Ostasiatische Normen haben immer mehrere Schriften umfaßt - die Implementierung einer Schriftenvielfalt wird aber einfacher, sobald Unicode-Softwareprodukte verfügbar werden.

Der Unicode Standard und ISO/IEC 10646 stellen ein viel größeres Repertoire von Schriften und Zeichen zur Verfügung als momentan irgendeine bibliothekarische Anwendung, einschließlich USMARC5 und UNIMARC.6 Die Erweiterung des Schriftenrepertoires bedeutet nicht nur die Bereitstellung von Schriften, die man bisher nie hatte, sondern auch mehr Zeichen in den bisher schon verwendeten Schriften. Hier ein Vergleich für den Umfang der Zeichensätze in mehreren Schriften:

Schrift Zeichenart USMARC/ UNIMARC JIS X 0208 7 Unicode Standard Version 3.0
Kyrillisch Buchstaben 102 66 237
Latein Zusätzl. Nichtakzentuierte Buchstaben 21 0 163
Arabic Buchstaben 124 none 141
Asiatische Ideogramme Ideogramme 13,469 (86% of EACC 8) 6,353 27,484

Erwarten Sie aber dennoch bitte nicht, daß Unicode und ISO/IEC 10646 für die Transkription nun schlichtweg alles leisten können:

  1. Nicht alles, was man in einer Informationsquelle sieht, ist auch im Repertoire.
  2. Nicht alles, was Sie für die Transkription zu brauchen meinen, kann im Repertoire sein.
  3. Einige Schriften erfordern zusätzlichen Implementierungsaufwand und erweiterte Fonts für ihre korrekte Darstellung.

Sie sollten die Standards nicht aus diesen Gründen ablehnen - ich möchte nur keine unrealistischen Erwartungen wecken.

Was es nicht gibt

Die gute Nachricht: mit der Ergänzung von Sinhalesisch, Äthiopisch und Mongolisch sind nun alle bedeutenden Schriften der Welt codiert. Version 3.0 von Unicode soll noch in diesem Jahr veröffentlicht werden, die zweite Ausgabe von ISO/IEC 10646 ist für nächstes Jahr geplant.

Das Repertoire hat nicht aufgehört zu wachsen: verschiedene Schriften von Minderheitensprachen stehen noch aus, noch mehr Symbole könnten aufgenommen werden, und bedeutende ausgestorbene Schriften, wie Hieroglyphen und Keilschrift, sind noch in Bearbeitung. (Es mag nur wenige Bibliotheken geben, die Papyri und tontäfelchen sammeln und katalogisieren, aber die ausgestorbenen Schriften sind allgemein bedeutsam für die Wissenschaft und speziell für gewisse Museen.

Ein umfassender Font auch nur für den momentanen Unicode Zeichensatz wäre sehr groß, und es ist praktischer, nur Fonts zu verwenden für die Schriften, die im Bestand Ihrer Bibliothek vertreten sind. Sie werden wahrscheinlich nicht das Fehlen einer bestimmten Schrift bemerken, sondern eher eines bestimmten Zeichens, so z.B. wenn im Titel eines Mathematikbuches ein Symbol vorkommt, das im Block für mathematische Operatoren nicht vertreten ist. Gelegentlich werden Sie also immer noch nicht alles 100%ig transkribieren können, was in der Informationsquelle steht.

Aber, protestieren Sie jetzt, ich dachte, Unicode hätte alles, was ich jemals brauchen würde!

Aus mehreren Gründen ist die Antwort Nein:

  • Was Sie in der Informationsquelel sehen, ist ein extrem seltenes Zeichen und daher einfach nicht erfaßt worden;
  • Was Sie sehen, ist zwar bekannt, wird aber zur Aufnahme in Unicode noch diskutiert;
  • Was Sie sehen, ist zwar bekannt, wird aber nach den Unicode Designprinzipien nicht als ein separat zu codierendes Zeichen angesehen.

Zwei Unicode-Designprinzipien sind besonders wichtig für die Entscheidung, ob etwas als Zeichen codiert werden sollte: Zeichen, nicht Zeichenformen und Sprachunabhängige Vereinheitlichung. In diesem Zusammenhang ist zu erwähnen: Die Ideographic Rapporteur Group hat ein Unified Repertoire and Ordering of Han Ideographs ("Unified Han") entwickelt. Darin gibt es Regeln zur Bestimmung der Eindeutigkeit eines Ideogramms.

Zeichen, nicht Zeichenformen bedeutet, daß einige typographische Aspekte höherer Ebene unbedeutsam sind, wenn der Umfang des Zeichensatzes festzulegen ist.

Beispiele für typographisches Aspekte sind:

  • Der nashki-Stil der arabischen Schrift gegenüber dem nastaliq-Stil;
  • Unterschiedliche Schreibweisen eines asiatischen Ideogramms;
  • Unterschiedliche Schreibweisen eines kyrillischen Buchstabens in einzelnen Sprachen;
  • Kontraktionen, typographische Digramme, etc. [z.b. fi, fl, ffl etc.]

Sprachunabhängige Vereinheitlichung bedeutet, daß:

  • Die Grapheme, in denen eine bestimmte Sprache geschrieben wird (z.B. ein Alphabet) werden nicht separat codiert;
  • Sprachabhängige Unterschiede in der Schreibweise eines Buchstabens oder Ideogramms werden nicht als unterschiedliche Zeichen codiert.

Diese Designprinzipien und -regeln legen fest, was eindeutig codiert werden muß. Im Ergebnis gibt es nicht für alles, was in einer Informationsquelle erscheint, eine direkte Codierung als definiertes Zeichen. Diese Einschränkung der direkt codierbaren Zeichen ist kein Fehler des Unicode Systems.

Sie beruht auf einer andersartigen, doch wohlüberlegten Sichtweise dessen, was in einem Zeichensatz codiert sein sollte.

Der ursprüngliche Ansatz zur Darstellung von Text in maschinenlesbarer Form war, jedem unterscheidbaren Zeichen auf dem Papier einen eigenen Code zu geben, obwohl man einige allgemein akzeptierte Fälle vereinheitlichte (z.B. die unterschiedlichen Formen der Kleinbuchstaben a und g).

Zeichensätze für asiatische Sprachen verwendeten manchmal individuelle Codes für unterschiedliche Schreibweisen desselben Symbols.Bibliothekarische Zeichensätze haben nicht selten auch diesen Ansatz des "Codiere was du siehst", abgesehen von dem Gebrauch von nicht-vorrückenden Zeichen zur Codierung akzentuierter lateinischer Buchstaben, wobei ein Buchstabe mit Diakritikum durch zwei Zeichen dargestellt wird. (Kritiker würden sagen, daß der Buchstabe "auseinandergebrochen" wird.)

Der Unicode-Standard führte einen mehrschichtigen Ansatz zur Darstellung von Text ein. "Das Design einer Zeichensatz-Codierung muß genau diejenigen Codeelemente bereitstellen, die es Programmierern ermöglichen, Anwendungen zu entwerfen, die eine Vielzahl von Textoperationen in den gewünschten Sprachen umfassen können."9 Das hat u.a. zur Folge, daß die codierten Zeichen des Textes nicht unbedingt 1:1 mit den Zeichen korrespondieren, die das Auge wahrnimmt.

Die einfachste Art der Textdarstellung ist schlichter Text, eine bloße Folge von Zeichencodes. Unicode Daten sind schlichter Text. Um aber exakt das hervorbringen zu können, was gewünscht wrd, müssen manchmal höhrere Protokolle verwendet werden, wie z.B. eine Identifizierung der Sprache oder explizite Layout-Anweisungen, damit man "hübschen" Text oder angereicherten Text erhält. USMARC und UNIMARC verwenden auch nur schlichten Text, die Zeichensätze halten aber möglicherweise separate Codierungen bereit für Dinge, die in Unicode/ISO 10646 vereinheitlicht sind.

Wir müssen daher die folgenden Fragen betrachten:

  • Wie genau müssen wir bei der Transkription sein?
  • WENN wir extrem genau sein müssen, wie vereinbaren wir das mit Unicode?

Bewertung der Genauigkeit in der Transkription

Somit müssen wir uns mit der Frage der Genauigkeit der Transkription befassen. Wie genau muß die Transkription wirklich sein? Und warum? Was für Ausnahmen machen wir (vielleicht ohne daß es und imemr bewußt wird)? Was für "Ersatzmethoden" wenden wir an, wenn uns die nötigen typographischen Mittel fehlen?

Exaktheit der Ttranskription ist nötig, um die zu beschreibende Vorlage eindeutig zu beschreiben und dadurch zuverlässig zugänglich zu machen. Allerdings transkribieren wir die Angaben der Vorlage nicht in jedem Fall 100% getreu.

Ein Grund dafür ist, daß die Katalogisierungsregeln oder ihre Interpretation durch die katalogisierende Institution nicht immer verlangen, manchmal sogar nicht gestatten, daß bestimmte Daten transkribiert werden. Hier ein Beispiel: Die hebräische Sprache wird normalerweise unvokalisiert geschrieben, d.h. ohne Vokalpunkte und andere Aussprachezeichen. Manchmal sind diese Aussprachehilfen aber in der Vorlage vorhanden; z.B. wenn der Verfasser oder Verleger anzeigen möchte, daß ein Wort in ungewöhnlicher Weise ausgesprochen wird. Die Library of Congress jedoch, in ihren Richtlinien für hebräische Katalogisierung ,10 stützt sich auf AACR-Regel 1.0G, Akzente und andere Diakritika, und interpretiert diese (wie ich meine, inkorrekt) so, daß sie die Übernahme von Vokalisierungszeichen ausdrücklich verbietet.

Eine Ausnahme von der Genauigkeit wird notwendig, wenn die typographischen Mittel dafür fehlen; ein Problem, das durch Regel 1.0E ausdrücklich anerkannt wird. Diese Regel bietet als Lösung an, das nicht verfügbare Textelement zu beschreiben. Dies erzeugt ein Problem für das systemübergeifende Suchen - sollte die eingefügte Beschreibung beim Suchen ignoriert werden, sollte man sie als "Joker"-Zeichen behandeln, das mit allem übereinstimmt, oder ...? Unmöglich kann der Endnutzer erraten, welche Umschreibung der katalogisierer gewählt hat.

Es gibt auch ungeschriebene Regeln für Ausnahmen von der Genauigkeit. Außer bei sehr alten und anderen wertvollen Büchern ignorieren wir routinemäßig den Schriftschnitt, kalligraphische Besonderheiten usw., wenn wir Angaben aus der Vorlage übernehmen, ohne solche Eigenheiten in irgendeiner Weise zu notieren. Das geschieht aus pragmatischen Gründen, da für die meisten Werke die Unterscheidung der genannten Eigenheiten nicht gebraucht wird.

[Anm. d. Übers.: Hierher gehören wohl auch Spielereien auf dem Titelblatt wie seitenverkehrte oder kopfstehende Buchstaben, z.B. ein umgedrehtes 'R', um dem Titel einen russischen Touch zu geben. Auch wenn man kyrillische Zeichen hätte, würde man an dieser Stelle dennoch das korrekte R einsetzen, und keinesfalls würde man den pseudo-kyrillischen Buchstaben als "Ja" transliterieren.]

Wenn eine ganze Schrift nicht dargestellt werden kann, gibt es verschiedene Möglichkeiten. Wird in lateinischer Schrift katalogisiert, ist die Lösung meistens "Romanisierung": Transliteration oder Transkription des Originaltextes in lateinische Schrift. Wellisch11 fand 1976, daß die "romanization tables" der LC (jetzt ALA/LC) am meisten verbreitet waren, gefolgt von denen der ISO. Ist Russisch oder eine andere kyrillisch geschriebene Sprache die Katalogisierungssprache, wird manchmal der Fremdtext "kyrillisiert". Aber nicht alle Sprachen benutzen ein Alphabet oder eine Silbenschrift, und andere Lösungen sind, die Angaben in die lokale Sprache zu übersetzen, oder einen handgeschriebenen Zettelkatalog zu führen.

Alle diese Alternativen erschweren den Zugriff. Wird mit Romanisierung oder Kyrillisierung gearbeitet, muß der Nutzer dieses wissen und das für eine bestimmte Sprache angewendete Schema kennen und dieses Schema anwenden können, um einen korrekten Suchbegriff bilden zu können.

Ein Nutzer weiß oftmals nichts von der Praxis der Bibliothek und wendet ein ganz anderes Schema an. Im Falle von Übersetzungen stimmt womöglich die des Nutzers nicht mit der des Katalogisierers überein. Zettelkataloge, falls nicht in Buchform veröffentlicht, können nicht mit Fernzugriff durchsucht werden.

Mangel an codierten Zeichen?

Diese Probleme werden durch die Einführung von Unicode/ISO 10646 in USMARC und UNIMARC beträchtlich entschärft. Doch der Gebrauch eines erheblich erweiterten Zeichenrepertoires bedeutet nicht, daß nun alles vorlagengetreu dargestellt werden kann.

Ich möchte nun Situationen betrachten, wo sogar Unicode/ISO 10646 keine 100%ige Vorlagentreue bringen wird.

Historisch gesehen war ein Hauptgrund für exakte Transkription der, daß man ein Surrogat für die bibliograpische Einheit erstellen mußte, mit soviel Detailtreue wie möglich. Man hatte keine andere Möglichkeit, die Vorlage in einem Zettel- oder Bandkatalog zu repräsentieren.

Als problematisch für exakte Transkription wird meistens auf Ideogramme hingewiesen, jedoch ist das nicht das einzige. Wenn man Tonträger katalogisiert, was macht man mit dem Namenssymbol, das von dem "früher als Prince bekannten Künstler" benutzt wird?

Ein weiterer Problembereich ist die Mathematik, wo man 2dimensionale Formeln in eine eindimensionale Zeichenfolge bringen muß. Sargent hat beschrieben, wie man mathematische Formeln mit Unicode wiedergeben kann.

Probleme mit Ideogrammen entstehen entweder, weil das Ideogramm noch keinen Code besitzt, oder wenn unterschiedliche Formen des Ideogramms durch nur einen Code repräsentiert werden (wie von Zhang & Zhen festgestellt).12 Zu den nicht verfügbaren Ideogrammen gehören sowohl die wirklich einmaligen Ideogramme (für persönliche Namen) und solche, die in einer bestimmten Umgebung allgemein gebräuchlich sind, aber noch nicht im Vereinheitlichten Han (z.B. einige der offiziell sanktionierten Ideogramme in Hong Kong, oder Ideogramme, die in geographischen Namen vorkommen.) In solcher Situation kann man folgendes tun:

  • Das geta-Symbol kann für das nichtverfügbare Ideogramm eingesetzt werden. Das geta komme aus der japanischen Typographie und ist ein Platzhalter für ein später einzufügendes Ideogramm. Diese Technik wird in USMARC-Daten benutzt.
  • Ideographische Beschreibungszeichen sollen dem Nutzer helfen, sich das nicht verfügbare Zeichen vorzustellen. Version 3.0 des Unicode Standard und die zweite Ausgabe der ISO/IEC 10646 enthalten solche Zeichen.

Wenn eine bestimmte typographische Form mit anderen vereinheitlicht wurde, der Katalogisierer aber diese besondere Form benutzen möchte, gibt ees diese Lösungen:

  • Man benutzt ein höheres Protokoll, z.B. in SGML13 um darauf zu bestehen, daß dieses Zeichen in einem besonderen Schriftstil dargestellt wird. (Weil sowohl USMARC als auch UNIMARC schlichten Text benutzen, können sie derzeit solcheTechniken nicht anwenden.)
  • Man stellt die ideographischen Daten dar, indem man eine Schriftart benutzt, die durch den Sprach- oder Ländercode des Datensatzes bestimmt wird. Wenn z.B. der Sprachcode chi ist und das Veröffentlichungsland cc, wäre die Schriftart ein vereinfachter Stil des Chinesischen.Wäre der Sprachcode jpn, sollte die Schriftart eine mit typischen kanji-Zeichen sein. (Diese Alternative wird nur funktionieren, wenn der Inhalt des Satzes eindeutig ist, und wenn die Ideogramme, die auf der Vorlage erscheinen, konsistent sind mit der Sprachform des Werkes und des Erscheinungsortes.)
  • Das Unicode Technical Committee hat sich mit einem Vorschlag beschäftigt, der ideographische Varianten durch schlichten Text andeutet. Vielleicht wird das die Lösung sein.
Regional bevorzugte Formen beschränken sich nicht auf Ideogramme. Wenn die Urdu-Sprache in arabischer Schrift geschrieben wird, dann wird gewohnheitsmäßig der nastaliq-Stil benutzt. Die arabische Sprache wird aber normalerweise im nashki-Stil gedruckt. (Nashki ist der Stil der Schriftart, die in RLINs Implementierung der Arabischen Schrift verwendet wird.) Weil alle Angaben zu einer Vorlage für gewöhnlich im selben typographischen Stil gehalten sind, kann es durch eine Fußnote hervorgehoben werden, wenn der typographische Stil der Vorlage nicht derjenige des Systems ist. Diese Situation ist ähnlich der mit gotischer oder Frakturschrift bei europäischen Drucken.

Eine denkbare allgemeine Lösung des Problems der ungenauen Transkription in bibliographischen Daten ist der Gebrauch von Hyperlinks. In einem WWW-Katalog können wir zu einem eingescannten Bild der Informationsquelle verzweigen. Der Nachteil eines gescannten Bildes ist, daß keine Suche möglich ist nach dem Vorkommen einer speziellen Zeichenform, doch eine solche Operation wird wohl eher von einer Volltextsuche erwartet als von der Katalogisierung.

Schlußfolgerungen

Die Bearbeiter von Katalogisierungsregeln sollten die Transkriptionsregeln daraufhin überdenken, ob wegen der neuen technischen Möglichkeiten Änderungen nötig sind. Die neue technische Umgebung umfaßt nicht nur den Einsatz von Unicode/ISO 10646 sondern auch die Fähigkeit, in entfernten Kataloge über Z39.50 zu suchen.

Die Verantwortlichen für die verschiedenen MARC-Formate müssen mit Katalogisierern zusammenarbeiten, um herauszufinden, ob man das Konzept des "schlichten Textes" der gegenwärtigen Formate revidieren sollte. Es geht nicht einfach darum, Unicode/ISO 10646 als zulässigen Zeichensatz zu erklären (wie man es für UNIMARC 14) gemacht hat) oder die notwendigen Änderungen im Detail zu spezifizieren (Was sowohl für USMARC 15 und UNIMARC im Gange ist). Das ist ein erster und notwendiger Schritt, aber die Erfordernisse der Katalogisierung verlangen vielleicht doch etwas jenseits des "schlichten Textes" der Unicode/ISO/IEC 10646 Normen. Wenn das so ist, müssen die verschiedenen MARC-Formate eine Verfahrensweise entwickeln, um das zu ermöglichen.

Zu beantworten ist die Frage: Sind Katalogdaten "schlichter Text", oder müssen sie etwas mehr sein?

Literatur

1 Anglo-American Cataloguing Rules, prepared under the direction of the Joint Steering Committee for Revision of AACR2; edited by Michael Gorman and Paul W. Winkler. 2nd ed., 1988 revision. (Chicago: American Library Association, 1988).

2 The Unicode Standard, Version 2.1 consists of:

  • The Unicode Consortium, The Unicode Standard, Version 2.0, Addison-Wesley, Reading, MA, 1996. (ISBN 0-201-48345-9)
  • The Unicode Standard, Version 2.1. (Unicode Technical Report # 8) Published on the Web at http://www.unicode.org/unicode/reports/tr8.html

Unicode is a trademark of Unicode, Inc. and may be registered in some jurisdictions.

3 International Organization for Standardization. Information Technology -- Universal Multiple-Octet Coded Character Set (UCS), Part 1: Architecture and Basic Multilingual Plane, Geneva, 1993. (ISO/IEC 10646-1:1993).

    This International Standard is augmented by Technical Corrigendum 1:1996, Technical Corrigendum 2:1998, and nineteen Amendments (published between 1996 and 1999).

4 RLG East Asian Studies Community. http://www.rlg.org/eas/index.html

5 USMARC Specifications for Record Structure, Character Sets, and Exchange Media, prepared by Network Development and MARC Standards Office, 1994 ed., Cataloging Distribution Service, Library of Congress, Washington, D.C, 1994.

USMARC Format for Bibliographic Data, including Guidelines for Content Designation, prepared by Network Development and MARC Standards Office, 1994 ed., Cataloging Distribution Service, Library of Congress, Washington, D.C, 1994 -

USMARC Format for Authority Data, including Guidelines for Content Designation, prepared by Network Development and MARC Standards Office, 1993 ed., Cataloging Distribution Service, Library of Congress, Washington, D.C, 1993 -

For additional USMARC documentation see the Library of Congress' Web site.

6 UNIMARC Manual: Bibliographic Format, B. P. Holt and S. H. McCallum, eds., 2d ed., Saur, Munich, 1994.

UNIMARC/Authorities: Universal Format for Authorities, Saur, Munchen, 1991. (ISBN 3-598-10986-5)

7 Japanese Standards Association. Code of the Japanese Graphic Character Set for Information Interchange. [English translation of JIS X 0208-1983] Tokyo, 1987. (JIS X 0208-1983)

8 American National Standards Institute, East Asian Character Code for Bibliographic Use, Transaction, New Brunswick, NJ, 1990. (ANSI Z39.64-1989).

9 The Unicode Standard, Version 2.0, p. 2-2.

10 Library of Congress. Descriptive Cataloging Division. Hebraica Cataloging: a guide to ALA/LC Romanization and Descriptive Cataloging, prepared by Paul Maher (Descriptive Cataloging Division). Cataloging Distribution Service, Library of Congress, Washington, D.C, 1987.

11 Wellisch, Hans H., "Script Conversion Practices in the World's Libraries," International Library Review 8:55-84 (1976).

12 Zhang, Foster J. and Zeng, Marcia Lei , Multiscript information processing on crossroads: demands for shifting from diverse character code sets to the Unicode Standard in library applications (Paper at 64th IFLA General Conference, 1998) http://archive.ifla.org/IV/ifla64/058-86e.htm

13 International Organization for Standardization. Information processing -- Text and office systems -- Standard Generalized Markup Language (SGML), Geneva, 1986. (ISO 8879:1986)

    This International Standard is augmented by Technical Corrigendum 1:1996 and Amendment 1:1988.

14 UNIMARC Manual: Bibliographic Format, 2d. ed., Update 2 (1998).

15 Unicode Identification and Encoding in USMARC Records, submitted by MARBI Unicode Encoding and Recognition Technical Issues Task Force, 1998. (MARBI Proposal No: 98-18) http://lcweb.loc.gov/marc/marbi/1998/98-18.html

*    

Latest Revision: July 13, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org