IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 079-155-F
Division Number: IV
Professional Group: Cataloguing: Workshop
Joint Meeting with: -
Meeting Number: 155
Simultaneous Interpretation:   No

Le catalogage dans un univers à plusieurs écritures : les limites

Joan M. Aliprand
Senior Analyst, The Research Libraries Group
Mountain View, California, USA


Abstract

Une nouvelle ère commence pour le traitement informatisé de l'information dans un contexte multi-lingue et multi-écritures avec le développement du standard UNICODE et de la norme internationale ISO/IEC 10646. Les listes de caractères recensés dans ces publications sont harmonisés avec attention en parallèle. Un grand pas a été franchi avec l'introduction des écritures éthiopiennes, mongoles et sinhala : toutes les écritures importantes du monde sont désormais traitées. Les catalogueurs peuvent donc attendre qu'un tel répertoire de caractères réponde à tous leurs besoins dans le domaine de la transcription exacte des données bibliographiques. Cette communication examine les problématiques de l'exactitude de la transcription, et des situations où cette exactitude n'est pas atteinte. La structure conceptuelle sur laquelle repose le standard UNICODE et la norme internationale ISO/IEC 10646 y est exposée, suivie d'une réflexion sur la possibilité pour de simples chaînes de caractères de répondre à tous les besoins liés à la transcription.


Paper

J'ai commencé ma carrière comme catalogueur, et bien que je sois à présent analyste, j'ai conservé un intérêt certain pour ce domaine. Quand j'apprenais le catalogage à l'école des bibliothécaires, la première édition des Règles de catalogage anglo-américaine (Anglo-American Cataloguing Rules), les premières règles à reposer sur les principes internationaux de catalogage, allait paraître. Je croyais que ce texte était définitif sur le catalogage et qu'il n'était guère possible d'en dire beaucoup plus. Comme j'avais tort ! Et j'étais bien loin de croire que je pourrai contribuer aux réflexions en cours.

Le catalogage descriptif, c'est-à-dire les éléments qu'on avait coutume de considérer comme le corps de la notice, constitue le centre de mon intervention. Bien que je me concentre sur les éléments descriptifs, ce que je vais dire peut s'appliquer en général à tout ce qui constitue une notice bibliographique, et même à d'autres types de notices qu'on peut rencontrer dans les bibliothèques.

Dans ma présentation, je ferai référence aux AACR21. Bien entendu, je sais que les AACR2 ne sont pas utilisées partout. Cependant, comme je proviens d'un environnement anglophone, ce sont les règles que je maîtrise. De plus, les AACR2 ont eu une influence peu commune, aussi bien directement qu'indirectement. Leur traduction en d'autres langues a servi de base à d'autre règles de catalogage. De plus, à chaque fois qu'une notice, issue du très grand nombre de notices produites dans le monde anglophone, est récupérée, l'influence des AACR2 est confortée. Même quand l'anglais n'est pas la langue de catalogage, il peut en effet être utile d'utiliser ces information transcrites à partir de la source d'information, ne serait-ce que pour gagner du temps.

La règle 1.0E des AACR2 "Langue et écriture de la description", préconise :

"Dans les zones suivantes, il convient de donner l'information transcrite à partir du document dans la langue et l'écriture (si c'est possible) dans laquelle l'information y apparaît :

  • Titre et mention de responsabilité
  • Edition
  • Adresse
  • Collection

Il convient de remplacer les symboles et autres signes qui ne peuvent être retranscrits par les caractères typographiques dont dispose le catalogueur par une description entre crochets, avec éventuellement une note d'explication."

Le sujet principal que je souhaite examiner est la transcription dans un nouvel environnement informatique dû au standard UNICODE2 et à la norme internationale ISO/IEC 106463. Ces deux textes ne recensent pas simplement les systèmes d'écritures des langues les plus importantes, mais aussi tout un ensemble de symboles et d'autres éléments textuels, tels que les opérateurs mathématiques, les signes du braille, la ponctuation, les "dingbats", etc. Il est fait très attention à garder l'évolution de ces deux répertoires synchronisés. Je souhaite aussi examiner la question de l'exactitude de la transcription, ce que j'appelle l'exactitude du catalogage. Je parlerai aussi des questions de récupération, en particulier entre systèmes, question que nous devons garder à l'esprit quand nous prenons des décisions en catalogage.

Il était quand même possible avant le standard UNICODE et la norme ISO/IEC 10646 d'avoir un appui informatique pour les écritures multiples - RLIN a commencé avec le CJK en 19834, et les normes de l'Asie de l'Est prévoient toujours plusieurs écritures - , mais avec les logiciels qui reposent sur UNICODE, l'implémentation de plusieurs écritures s'avère plus facile.

Le standard UNICODE et la norme ISO/IEC 10646 fournissent un répertoire d'écritures et de signes bien plus grand que ceux prévus par les systèmes de bibliothèques, que ce soient ceux qui utilisent USMARC5 ou UNIMARC6. L'extension du répertoire d'écritures ne signifie pas simplement un accès à des écritures dont vous ne disposiez pas, mais un nombre plus important de signes pour les écritures déjà disponibles. Voici un tableau permettant des comparaisons :

ECRITURE TYPE DE CARACTERE USMARC / UNIMARC JIS X 02087 Standard UNICODE Version 3.0
Cyrillique Lettres 102 66 237
Latin Autres lettres non accentuées 21 0 163
Arabe Lettres 124 0 141
Idéogrammes de l'Asie de l'est Idéogrammes 13 469 (soit 86 % de EACC8) 6 353 27 484

Mais ne croyez pas pour autant que le standard UNICODE et la norme ISO/IEC 10646 permettront toute transcription.

  1. Tout ce que vous rencontrez sur vos sources d'informations n'est pas forcément dans leurs répertoires
  2. Tout ce dont vous pensez avoir besoin de transcrire ne peut pas être dans leurs répertoires.
  3. Certaines écritures demandent des implémentation supplémentaires de caractères pour une présentation correcte

Ce qui ne signifie pas pour autant qu'il ne faille pas adopter ces normes. Je voulais juste rappeler la réalité.

Ce qu'on n'y trouve pas

La bonne nouvelle est que, avec l'introduction des écritures éthiopiennes, mongoles et sinhala, toutes les grandes écritures du monde sont encodées. La version 3.0 du standard UNICODE doit être publiée dans le courant de l'année, et la deuxième édition de la norme ISO/IEC 10646 est prévue pour l'année prochaine.

L'extension du répertoire n'est pas terminée : plusieurs écritures de langues minoritaires sont encore en attente, plus de symboles pourraient être ajoutés, et des écritures anciennes très importantes, telles que les écritures hiéroglyphiques et cunéiformes ne sont pas encore prises en compte (il n'y a peut-être pas beaucoup de bibliothèques qui conservent et cataloguent des papyrus et des tablettes d'argile, cependant, les écritures disparues sont essentielles pour la recherche en général et certains musées en particulier.)

Implémenter ne serait-ce que les caractères courant du répertoire UNICODE est déjà lourd, et il semble plus commode d'implémenter les caractères pour les écritures présentes dans les collections de la bibliothèque. Ce qui est susceptible d'arriver en cours de catalogage n'est en effet pas un manque d'écriture, mais le manque d'un caractère particulier, par exemple pour un titre en mathématiques qui inclut un caractère qui n'est pas dans le bloc des opérateurs mathématiques. C'est pourquoi, il peut arriver que vous ne puissiez transcrire 100 % de ce qui se trouve sur le source d'information.

Mais, protestez-vous, je croyais que le répertoire universel de caractères recenserait tout ce dont je pourrais avoir besoin. La réponse est "non", pour plusieurs raisons :

  • ce que vous voyez sur la source d'information est un caractère extrêmement rare, aussi n'a-til pas été pris en compte
  • ce que vous voyez est connu, et une étude est en cours pour une éventuelle addition au répertoire
  • ce que vous voyez est connu, mais n'est pas considéré comme un caractère selon les règles d'UNICODE.

Deux principes d'UNICODE sont particulièrement significatifs pour déterminer ce qui peut être codé : "des caractères et non des glyphes" et "unification entre les langues".

De plus, le répertoire unifié et classé des idéogrammes Han ("Han unifié"), conçu par le groupe de travail sur les idéogrammes, a défini des règles pour déterminer qu'un idéogramme est unique.

"Des caractères et non des glyphes" : certains aspects typographiques ne sont pas significatifs pour définir des caractères dans le répertoire. Voici quelques exemples :

  • le style nashki de l'écriture arabe par rapport au style nastaliq
  • les diverses manières d'écrire un idéogramme de l'Asie de l'Est
  • les diverses manières d'écrire un caractère cyrillique dans des langues données
  • les contractions, les digraphes, etc...

Les graphèmes particuliers à une langue ne sont pas encodés séparément : les différentes façons d'écrire une lettre ou un idéogramme selon la langue ne sont pas codées comme des caractères spécifiques.

Ces règles et principes servent à déterminer ce qui doit être codé de manière univoque. C'est pourquoi, tout ce qui apparaît sur une source d'information n'est pas forcément destiné à être encodé comme un caractère particulier. Cette limitation dans la définition de ce qui peut être encodé comme des caractères n'est pas un échec du standard UNICODE. Elle résulte d'une vision précise et nouvelle de ce qui doit être encodé dans un répertoire de caractères.

L'approche d'origine de la représentation de texte sous une forme qui puisse être gérée par l'informatique consistait à donner un code unique à chaque signe transcrit sur le papier, même s'il y avait des unifications généralement acceptées dans certains cas. Les répertoires de caractères pour les langues de l'Asie de l'Est attribuaient des codes spécifiques aux différentes façons d'écrire ce qui est fondamentalement le même idéogramme. Les répertoires de caractères pour les bibliothèques sont aussi généralement conçus selon l'approche "encodez ce que vous voyez", si ce n'est pour l'encodage des lettres latines accentuées, où une lettre avec un signe diacritique est encodée comme deux caractères (les critiques diraient que la lettre est "brisée".)

Le standard UNICODE a introduit une approche à niveaux à la représentation du texte. "La définition du codage pour un répertoire de caractères doit fournir précisément l'ensemble des éléments de code permettant aux programmeurs de construire des applications capables d'implémenter l'ensemble des actions possibles dans le texte d'une langue donnée."9 Ce qui fait que les caractères dans le texte encodé ne correspondent pas forcément à 100 % aux éléments de ce texte sous forme lisible.

La plus simple sorte de représentation d'un texte est du texte brut, une simple chaîne de codes de caractères. UNICODE code du texte brut. Mais, si on veut réellement rendre compte de ce qui apparaît, il peut être nécessaire d'employer des protocoles de plus haut niveau, comme des langages d'identification ou des programmes structurant. USMARC et UNIMARC n'utilisent aussi que le texte plein, mais leurs répertoires de caractères définissent parfois des encodages propres pour des éléments qui sont unifiés dans UNICODE / ISO 10646.

C'est pourquoi, il est nécessaire de se pencher sur les questions suivantes :

  • Jusqu'à quel point une transcription doit-elle être exacte ?
  • S'il est nécessaire d'être très exact, comment atteindre ce but en employant UNICODE / 10646?

Evaluation de l'exactitude de la transcription

Ceci nous amène donc à nous pencher sur la question de l'exactitude de la transcription. Jusqu'à quel point une transcription doit-elle être exacte ? Pourquoi? Quelles exceptions fait-on (peut-être sans même s'en apercevoir)? Quels expédients utilise-t'on quand on ne dispose pas des signes typographiques nécessaires ?

L'exactitude est nécessaire quand on veut représenter un document afin de pouvoir l'identifier de manière univoque, et par là d'en permettre l'accès. On peut remarquer cependant que l'information obtenue du document n'est pas toujours transcrite avec une fidélité totale.

Le fait que les règles de catalogage ou leur interprétation par une agence bibliographique n'obligent pas, et parfois, ne permettent pas à des données spécifiques d'être transcrites est une des raisons pour ce manque de fidélité.

En voici un exemple. L'hébreu est généralement écrit sans marques de vocalisation, c'est-à-dire sans points vocaliques et autres signes de prononciation. Toutefois, il arrive que ces signes soient imprimés sur la source d'information, par exemple quand l'auteur ou l'éditeur souhaite que le mot soit prononcé de manière inhabituelle. La Bibliothèque du Congrès, dans ses recommandations pour cataloguer l'hébreu10, se fonde sur la règle 1.0 G "Accents et autres signes diacritiques" en l'interprétant (à tort ,selon moi) comme interdisant le transcription des marques de vocalisation qui apparaissent sur la source d'information.

La règle 1. 0E reconnaît au bibliothécaire le droit de n'être pas exact , lorsqu'il ne dispose pas des caractères typographiques nécessaires. La règle autorise donc à décrire textuellement l'élément indisponible. Ce qui pose un problème pour la recherche, le traitement de cette interpolation n'étant pas clair : doit-on l'ignorer dans le processus de recherche ? Doit-on la considérer comme un caractère "joker" ? Doit-on... ? L'usager ne peut donc forcément accéder à la description exacte réalisée par le bibliothécaire.

Il y a aussi des règles non écrites autorisant des exceptions à la transcription exacte. Sauf pour les livres anciens et précieux, on ignore généralement les ornements typographiques, la calligraphie, etc... sans essayer aucunement de rendre compte de tels éléments. Il s'agit là d'un choix pragmatique puisque, pour la plupart des livres contemporains, il n'y a pas lieu de les distinguer au niveau le plus fin.

Quand on ne dispose pas de l'ensemble des caractères typographiques pour une écriture, on a le choix entre plusieurs options. Quand le catalogueur emploie l'alphabet latin, la solution la plus courante est la romanisation : translittération ou transcription dans l'écriture latine du texte d'origine. Wellisch11 soulignait en 1976 que les tables de romanisation de la Bibliothèque du Congrès étaient les plus employées, suivies par celles de l'ISO. Quand la langue de catalogage est le russe ou une autre langue écrite en caractères cyrilliques, une cyrillisation est parfois entreprise. Mais, toutes les langues n'emploient pas un alphabet ou un syllabaire, et l'information est parfois traduite dans la langue, avec souvent l'alimentation en parallèle d'un catalogue papier.

L'accès est entravé par toutes ces exceptions. Quand une bibliothèque romanise ou cyrillise, le chercheur doit le savoir, doit connaître le schéma de conversion employé et doit être capable de l'utiliser pour définir sa clé de recherche. Un chercheur peut ne pas être au courant des pratiques de la bibliothèque et utiliser un schéma tout à fait différent. Pour ce qui concerne les traductions, la traduction du chercheur peut ne pas correspondre à celle du catalogueur. Les cartes manuelles ou imprimées, sauf à avoir été publié dans un catalogue édité, ne sont pas accessibles en dehors de la bibliothèque.

Insuffisance du nombre de caractères codés ?

Ces problèmes seront considérablement allégés par l'introduction de UNICODE / ISO 10646 dans les formats USMARC et UNIMARC. Mais, l'emploi de répertoires élargis d'écritures ne signifie pas que tout pourra être transcrit avec exactitude. Je souhaiterais à présent m'arrêter à des situations où même UNICODE / ISO 10646 n'apportera pas une fidélité à 100 %.

Historiquement, une des raisons premières de la nécessité de transcrire exactement était de fournir une représentation de l'entité bibliographique avec le plus de détails possibles. Il fallait des détails car nous n'avions pas d'autres moyens de représenter le document sur une carte d'un catalogue imprimé ou sur fiches.

On considère généralement que les questions de l'exactitude de la transcription concernent principalement les idéogrammes, mais ce n'est pas exclusivement le cas. Si vous cataloguez un document sonore, que faites-vous du symbole que l'"artiste qui s'appelait autrefois Prince" utilise comme nom ?

Les mathématiques constituent une source de difficulté, quand des formules à deux dimensions doivent être réduites à une dimension. Sargent a décrit comment représenter des formules mathématiques en utilisant UNICODE.

Les difficultés avec les idéogrammes surgissent soit quand l'idéogramme n'est pas encore codé, soit quand différentes formes du même idéogramme sont représentées par une seule valeur de code (comme le font remarquer Zhang et Zeng12). Les idéogrammes qui ne sont pas disponibles peuvent être des idéogrammes uniques (pour les noms de personnes) ou des idéogrammes en usage quotidien dans un environnement donné, mais qui ne sont pas encore recensés dans le Han unifié (par exemple, quelques-uns des idéogrammes préconisés par le gouvernement à Hong Kong, ou des idéogrammes employés en géographie).

Dans ces cas :

  • le symbole "geta" peut être substitué à l'idéogramme manquant. Le "geta" provient de la typographie japonaise ; c'est un signe qui indique qu'un idéogramme occupera cet espace. Cette technique est utilisée dans les notices en USMARC
  • des caractères de description des idéogrammes sont prévus pour aider le chercheur à visualiser l'idéogramme manquant. La version 3.0 du standard UNICODE et la seconde édition de la norme ISO/IEC 10646 prévoient ces caractères.

Quand une forme typographique a été unifié à d'autres, et que pourtant, le catalogueur souhaite employer uniquement cette forme-là, il y a des solutions :

  • employer un protocole de niveau plus élevé, comme un marqueur SGML13, pour indiquer que le caractère doit être présenté dans un style particulier (comme à la fois l'USMARC et l'UNIMARC sont conçus en ISO 2709, cette option dépasse leurs possibilités actuelles)
  • présenter les données idéographiques de la notice en utilisant une police déterminée par les codes de langues ou de pays. Par exemple, si le code de langue est "chi" et le code de pays "cc", la police serait un style chinois simplifié, alors que si le code de langue est "jpn", la police serait du kanji classique (cette option ne peut fonctionner que si l'information codée est univoque, et lorsque la forme des idéogrammes qui apparaissent sur le document, correspondent à la forme généralement employée dans le lieu de publication).

Le comité technique en charge d'UNICODE étudie une proposition sui permettrait d'indiquer textuellement les variantes : peut-être, s'agit-il là d'une solution.

Des formes plus utilisées selon les régions ou les langues ne concernent pas uniquement les idéogrammes. Quand la langue ourdou est écrite en alphabet arabe, elle est traditionnellement imprimée en style nastaliq, alors que la langue arabe est généralement imprimée en style nashki (le nashki est le style de la police employée pour l'implémentation de l'arabe dans RLIN). Comme toute l'information sur le document sera dans le même style typographique, une note pourra indiquer que le style typographique sur le document n'est pas le même que celui du système. Il s'agit d'une situation similaire à celle des différentes typographies de l'imprimerie européenne.

Une solution générale au problème des inexactitudes de transcription dans les notices bibliographiques consiste à utiliser des liens hypertexte. Dans un catalogue conçu pour le WEB, il est possible d'avoir un lien à une image (image numérisée) de la source d'information. Une image numérisée ne permet toutefois pas de rechercher une occurrence spécifique d'un glyphe donné, mais il s'agit là d'une opération qui concerne plutôt les recherches en texte intégral que sur le catalogue.

Conclusion

Les groupes de travail qui rédigent les règles de catalogage auraient intérêt à examiner les règles de transcription afin de définir si des changements sont nécessaires face au nouvel environnement technique. Le nouvel environnement technique inclut non seulement l'utilisation d'UNOCODE / ISO 10646, mais aussi la possibilité d'effectuer des recherches dans des catalogues informatisés grâce au protocole Z39.50.

Les responsables des divers formats MARC doivent travailler avec les catalogueurs pour déterminer s'il est nécessaire de ré-evaluer la structure "texte simple" des formats actuels. Il ne s'agit pas de rendre officiel comme répertoire de caractères (ce qui a déjà été fait pour l'UNIMARC) l' UNICODE / ISO 10646 ou de définir des changements de détail nécessaires (ce qui est en cours aussi bien pour l'UNIMARC14 que pour l'USMARC15). Ces actions constituent les premiers pas, mais les recommandations pour le catalogage doivent dépasser la question du "texte simple" du standard UNICODE et de la norme ISO/IEC 10646. Si leur implémentation est requise, les formats MARC devront définir une méthode pour cette implémentation. Cependant, la véritable question est "la catalogage se résume-t'il à du texte simple ou peut-il être plus créatif ?"

Notes:

1 Anglo-American Cataloguing Rules / prepared under the direction of the Joint Steering Committee for Revision of AACR2; edited by Michael Gorman and Paul W. Winkler. - 2nd ed., 1988 revision. - Chicago : American Library Association, 1988

2 Par standard Unicode, version 2.1, on entend :
The Unicode Standard / The Unicode Consortium. - Version 2.0. - Addison-Wesley : Reading, MA, 1996. - ISBN 0-201-48345-9
The Unicode Standard. - Version 2.1. - (Unicode Technical Report ; 8)
Disponible sur le Web à l'adresse suivante :
http://www.unicode.org/unicode/reports/tr8.html
Pour une version imprimée de la version 2.1, il convient de contacter le Consortium Unicode
La version 2.0 peut être commandée en ligne auprès du Consortium Unicode à l'adresse suivante : http://www.unicode.org/unicode/uni2book/u2ord.html, ou auprès d'une librairie.
Unicode est une marque de Unicode, Inc. Elle est protégée dans plusieurs pays.

3 ISO/IEC 10646-1:1993 : Technologies de l'information : Jeu universel de caractères codés à plusieurs octets : Partie 1: Architecture et table multilingue / Organisation internationale de normalisation. - Genève : ISO, 1993.
Publiée actuellement en anglais seulement
Cette norme internationale est complétée par par plusieurs amendements et rectificatifs techniques.

4 RLG East Asian Studies Community. http://www.rlg.org/eas/index.html

5 USMARC Specifications for Record Structure, Character Sets, and Exchange Media / prepared by Network Development and MARC Standards Office. - 1994 ed. - Washington, D.C : Cataloging Distribution Service, Library of Congress, 1994.
USMARC Format for Bibliographic Data, including Guidelines for Content Designation / prepared by Network Development and MARC Standards Office. - 1994 ed. USMARC Format for Authority Data, including Guidelines for Content Designation / prepared by Network Development and MARC Standards Office. - 1993 ed. - Washington, D.C : Cataloging Distribution Service, Library of Congress, 1993 -
Pour plus de documentation, il convient de consulter le site de la Bibliothèques du Congrès.

6 UNIMARC Manual : Bibliographic Format / B. P. Holt and S. H. McCallum, eds. - 2d ed. - Munich : Saur, 1994.
UNIMARC Authorities : Universal Format for Authorities. - Munchen : Saur, 1991. - ISBN 3-598-10986-5

7 . JIS X 0208-1983 : Code of the Japanese Graphic Character Set for Information Interchange. - Tokyo : Japanese Standards Association, 1987.

8 ANSI Z39.64-1989 : East Asian Character Code for Bibliographic Use / American National Standards Institute. - New Brunswick, NJ : Transaction, 1990.

9 Standard Unicode, Version 2.0, p. 2-2

10 Hebraica Cataloging: a guide to ALA-LC Romanization and Descriptive Cataloging / Library of Congress, Descriptive Cataloging Division ; prepared by Paul Maher. - Washington, D.C : Cataloging Distribution Service, Library of Congress, 1987.

11 Wellisch, Hans H., "Script Conversion Practices in the World's Libraries," International Library Review 8:55-84 (1976)

12 Zhang, Foster J. et Zeng, Marcia Lei , Multiscript information processing on crossroads : demands for shifting from diverse character code sets to the Unicode Standard in library applications
Communication à la 64e conférence générale de l'IFLA de 1998, disponible à : http://archive.ifla.org/IV/ifla64/058-86e.htm

13 ISO 8879:1986 : Traitement de l'information -- Systèmes bureautiques -- Langage normalisé de balisage généralisé (SGML). - Genève : ISO, 1988
Incorpore l'Amendement 1:1988
complétée du rectificatif technique 1 de 1996.

14 UNIMARC Manual : Bibliographic Format - 2d. ed., Update 2 (1998).

15 Unicode Identification and Encoding in USMARC Records / submitted by MARBI Unicode Encoding and Recognition Technical Issues Task Force. - 1998. - (MARBI Proposal No: 98-18)
disponible à l'adresse suivante : http://lcweb.loc.gov/marc/marbi/1998/98-18.html

*    

Latest Revision: August 10, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org