As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites
This old website and all of its content will stay on as archive – http://archive.ifla.org
| |||||||||||||||||||||||||||
65th IFLA Council and General |
ECRITURE | TYPE DE CARACTERE | USMARC / UNIMARC | JIS X 02087 | Standard UNICODE Version 3.0 |
---|---|---|---|---|
Cyrillique | Lettres | 102 | 66 | 237 |
Latin | Autres lettres non accentuées | 21 | 0 | 163 |
Arabe | Lettres | 124 | 0 | 141 |
Idéogrammes de l'Asie de l'est | Idéogrammes | 13 469 (soit 86 % de EACC8) | 6 353 | 27 484 |
Mais ne croyez pas pour autant que le standard UNICODE et la norme ISO/IEC 10646 permettront toute transcription.
Ce qui ne signifie pas pour autant qu'il ne faille pas adopter ces normes. Je voulais juste rappeler la réalité.
La bonne nouvelle est que, avec l'introduction des écritures éthiopiennes, mongoles et sinhala, toutes les grandes écritures du monde sont encodées. La version 3.0 du standard UNICODE doit être publiée dans le courant de l'année, et la deuxième édition de la norme ISO/IEC 10646 est prévue pour l'année prochaine.
L'extension du répertoire n'est pas terminée : plusieurs écritures de langues minoritaires sont encore en attente, plus de symboles pourraient être ajoutés, et des écritures anciennes très importantes, telles que les écritures hiéroglyphiques et cunéiformes ne sont pas encore prises en compte (il n'y a peut-être pas beaucoup de bibliothèques qui conservent et cataloguent des papyrus et des tablettes d'argile, cependant, les écritures disparues sont essentielles pour la recherche en général et certains musées en particulier.)
Implémenter ne serait-ce que les caractères courant du répertoire UNICODE est déjà lourd, et il semble plus commode d'implémenter les caractères pour les écritures présentes dans les collections de la bibliothèque. Ce qui est susceptible d'arriver en cours de catalogage n'est en effet pas un manque d'écriture, mais le manque d'un caractère particulier, par exemple pour un titre en mathématiques qui inclut un caractère qui n'est pas dans le bloc des opérateurs mathématiques. C'est pourquoi, il peut arriver que vous ne puissiez transcrire 100 % de ce qui se trouve sur le source d'information.
Mais, protestez-vous, je croyais que le répertoire universel de caractères recenserait tout ce dont je pourrais avoir besoin. La réponse est "non", pour plusieurs raisons :
Deux principes d'UNICODE sont particulièrement significatifs pour déterminer ce qui peut être codé : "des caractères et non des glyphes" et "unification entre les langues".
De plus, le répertoire unifié et classé des idéogrammes Han ("Han unifié"), conçu par le groupe de travail sur les idéogrammes, a défini des règles pour déterminer qu'un idéogramme est unique.
"Des caractères et non des glyphes" : certains aspects typographiques ne sont pas significatifs pour définir des caractères dans le répertoire. Voici quelques exemples :
Les graphèmes particuliers à une langue ne sont pas encodés séparément : les différentes façons d'écrire une lettre ou un idéogramme selon la langue ne sont pas codées comme des caractères spécifiques.
Ces règles et principes servent à déterminer ce qui doit être codé de manière univoque. C'est pourquoi, tout ce qui apparaît sur une source d'information n'est pas forcément destiné à être encodé comme un caractère particulier. Cette limitation dans la définition de ce qui peut être encodé comme des caractères n'est pas un échec du standard UNICODE. Elle résulte d'une vision précise et nouvelle de ce qui doit être encodé dans un répertoire de caractères.
L'approche d'origine de la représentation de texte sous une forme qui puisse être gérée par l'informatique consistait à donner un code unique à chaque signe transcrit sur le papier, même s'il y avait des unifications généralement acceptées dans certains cas. Les répertoires de caractères pour les langues de l'Asie de l'Est attribuaient des codes spécifiques aux différentes façons d'écrire ce qui est fondamentalement le même idéogramme. Les répertoires de caractères pour les bibliothèques sont aussi généralement conçus selon l'approche "encodez ce que vous voyez", si ce n'est pour l'encodage des lettres latines accentuées, où une lettre avec un signe diacritique est encodée comme deux caractères (les critiques diraient que la lettre est "brisée".)
Le standard UNICODE a introduit une approche à niveaux à la représentation du texte. "La définition du codage pour un répertoire de caractères doit fournir précisément l'ensemble des éléments de code permettant aux programmeurs de construire des applications capables d'implémenter l'ensemble des actions possibles dans le texte d'une langue donnée."9 Ce qui fait que les caractères dans le texte encodé ne correspondent pas forcément à 100 % aux éléments de ce texte sous forme lisible.
La plus simple sorte de représentation d'un texte est du texte brut, une simple chaîne de codes de caractères. UNICODE code du texte brut. Mais, si on veut réellement rendre compte de ce qui apparaît, il peut être nécessaire d'employer des protocoles de plus haut niveau, comme des langages d'identification ou des programmes structurant. USMARC et UNIMARC n'utilisent aussi que le texte plein, mais leurs répertoires de caractères définissent parfois des encodages propres pour des éléments qui sont unifiés dans UNICODE / ISO 10646.
C'est pourquoi, il est nécessaire de se pencher sur les questions suivantes :
Ceci nous amène donc à nous pencher sur la question de l'exactitude de la transcription. Jusqu'à quel point une transcription doit-elle être exacte ? Pourquoi? Quelles exceptions fait-on (peut-être sans même s'en apercevoir)? Quels expédients utilise-t'on quand on ne dispose pas des signes typographiques nécessaires ?
L'exactitude est nécessaire quand on veut représenter un document afin de pouvoir l'identifier de manière univoque, et par là d'en permettre l'accès. On peut remarquer cependant que l'information obtenue du document n'est pas toujours transcrite avec une fidélité totale.
Le fait que les règles de catalogage ou leur interprétation par une agence bibliographique n'obligent pas, et parfois, ne permettent pas à des données spécifiques d'être transcrites est une des raisons pour ce manque de fidélité.
En voici un exemple. L'hébreu est généralement écrit sans marques de vocalisation, c'est-à-dire sans points vocaliques et autres signes de prononciation. Toutefois, il arrive que ces signes soient imprimés sur la source d'information, par exemple quand l'auteur ou l'éditeur souhaite que le mot soit prononcé de manière inhabituelle. La Bibliothèque du Congrès, dans ses recommandations pour cataloguer l'hébreu10, se fonde sur la règle 1.0 G "Accents et autres signes diacritiques" en l'interprétant (à tort ,selon moi) comme interdisant le transcription des marques de vocalisation qui apparaissent sur la source d'information.
La règle 1. 0E reconnaît au bibliothécaire le droit de n'être pas exact , lorsqu'il ne dispose pas des caractères typographiques nécessaires. La règle autorise donc à décrire textuellement l'élément indisponible. Ce qui pose un problème pour la recherche, le traitement de cette interpolation n'étant pas clair : doit-on l'ignorer dans le processus de recherche ? Doit-on la considérer comme un caractère "joker" ? Doit-on... ? L'usager ne peut donc forcément accéder à la description exacte réalisée par le bibliothécaire.
Il y a aussi des règles non écrites autorisant des exceptions à la transcription exacte. Sauf pour les livres anciens et précieux, on ignore généralement les ornements typographiques, la calligraphie, etc... sans essayer aucunement de rendre compte de tels éléments. Il s'agit là d'un choix pragmatique puisque, pour la plupart des livres contemporains, il n'y a pas lieu de les distinguer au niveau le plus fin.
Quand on ne dispose pas de l'ensemble des caractères typographiques pour une écriture, on a le choix entre plusieurs options. Quand le catalogueur emploie l'alphabet latin, la solution la plus courante est la romanisation : translittération ou transcription dans l'écriture latine du texte d'origine. Wellisch11 soulignait en 1976 que les tables de romanisation de la Bibliothèque du Congrès étaient les plus employées, suivies par celles de l'ISO. Quand la langue de catalogage est le russe ou une autre langue écrite en caractères cyrilliques, une cyrillisation est parfois entreprise. Mais, toutes les langues n'emploient pas un alphabet ou un syllabaire, et l'information est parfois traduite dans la langue, avec souvent l'alimentation en parallèle d'un catalogue papier.
L'accès est entravé par toutes ces exceptions. Quand une bibliothèque romanise ou cyrillise, le chercheur doit le savoir, doit connaître le schéma de conversion employé et doit être capable de l'utiliser pour définir sa clé de recherche. Un chercheur peut ne pas être au courant des pratiques de la bibliothèque et utiliser un schéma tout à fait différent. Pour ce qui concerne les traductions, la traduction du chercheur peut ne pas correspondre à celle du catalogueur. Les cartes manuelles ou imprimées, sauf à avoir été publié dans un catalogue édité, ne sont pas accessibles en dehors de la bibliothèque.
Ces problèmes seront considérablement allégés par l'introduction de UNICODE / ISO 10646 dans les formats USMARC et UNIMARC. Mais, l'emploi de répertoires élargis d'écritures ne signifie pas que tout pourra être transcrit avec exactitude. Je souhaiterais à présent m'arrêter à des situations où même UNICODE / ISO 10646 n'apportera pas une fidélité à 100 %.
Historiquement, une des raisons premières de la nécessité de transcrire exactement était de fournir une représentation de l'entité bibliographique avec le plus de détails possibles. Il fallait des détails car nous n'avions pas d'autres moyens de représenter le document sur une carte d'un catalogue imprimé ou sur fiches.
On considère généralement que les questions de l'exactitude de la transcription concernent principalement les idéogrammes, mais ce n'est pas exclusivement le cas. Si vous cataloguez un document sonore, que faites-vous du symbole que l'"artiste qui s'appelait autrefois Prince" utilise comme nom ?
Les mathématiques constituent une source de difficulté, quand des formules à deux dimensions doivent être réduites à une dimension. Sargent a décrit comment représenter des formules mathématiques en utilisant UNICODE.
Les difficultés avec les idéogrammes surgissent soit quand l'idéogramme n'est pas encore codé, soit quand différentes formes du même idéogramme sont représentées par une seule valeur de code (comme le font remarquer Zhang et Zeng12). Les idéogrammes qui ne sont pas disponibles peuvent être des idéogrammes uniques (pour les noms de personnes) ou des idéogrammes en usage quotidien dans un environnement donné, mais qui ne sont pas encore recensés dans le Han unifié (par exemple, quelques-uns des idéogrammes préconisés par le gouvernement à Hong Kong, ou des idéogrammes employés en géographie).
Dans ces cas :
Quand une forme typographique a été unifié à d'autres, et que pourtant, le catalogueur souhaite employer uniquement cette forme-là, il y a des solutions :
Le comité technique en charge d'UNICODE étudie une proposition sui permettrait d'indiquer textuellement les variantes : peut-être, s'agit-il là d'une solution.
Des formes plus utilisées selon les régions ou les langues ne concernent pas uniquement les idéogrammes. Quand la langue ourdou est écrite en alphabet arabe, elle est traditionnellement imprimée en style nastaliq, alors que la langue arabe est généralement imprimée en style nashki (le nashki est le style de la police employée pour l'implémentation de l'arabe dans RLIN). Comme toute l'information sur le document sera dans le même style typographique, une note pourra indiquer que le style typographique sur le document n'est pas le même que celui du système. Il s'agit d'une situation similaire à celle des différentes typographies de l'imprimerie européenne.
Une solution générale au problème des inexactitudes de transcription dans les notices bibliographiques consiste à utiliser des liens hypertexte. Dans un catalogue conçu pour le WEB, il est possible d'avoir un lien à une image (image numérisée) de la source d'information. Une image numérisée ne permet toutefois pas de rechercher une occurrence spécifique d'un glyphe donné, mais il s'agit là d'une opération qui concerne plutôt les recherches en texte intégral que sur le catalogue.
Les groupes de travail qui rédigent les règles de catalogage auraient intérêt à examiner les règles de transcription afin de définir si des changements sont nécessaires face au nouvel environnement technique. Le nouvel environnement technique inclut non seulement l'utilisation d'UNOCODE / ISO 10646, mais aussi la possibilité d'effectuer des recherches dans des catalogues informatisés grâce au protocole Z39.50.
Les responsables des divers formats MARC doivent travailler avec les catalogueurs pour déterminer s'il est nécessaire de ré-evaluer la structure "texte simple" des formats actuels. Il ne s'agit pas de rendre officiel comme répertoire de caractères (ce qui a déjà été fait pour l'UNIMARC) l' UNICODE / ISO 10646 ou de définir des changements de détail nécessaires (ce qui est en cours aussi bien pour l'UNIMARC14 que pour l'USMARC15). Ces actions constituent les premiers pas, mais les recommandations pour le catalogage doivent dépasser la question du "texte simple" du standard UNICODE et de la norme ISO/IEC 10646. Si leur implémentation est requise, les formats MARC devront définir une méthode pour cette implémentation. Cependant, la véritable question est "la catalogage se résume-t'il à du texte simple ou peut-il être plus créatif ?"
1 Anglo-American Cataloguing Rules / prepared under the direction of the Joint Steering Committee for Revision of AACR2; edited by Michael Gorman and Paul W. Winkler. - 2nd ed., 1988 revision. - Chicago : American Library Association, 1988
2 Par standard Unicode, version 2.1, on entend :
The Unicode Standard / The Unicode Consortium. - Version 2.0. - Addison-Wesley : Reading, MA, 1996. - ISBN 0-201-48345-9
The Unicode Standard. - Version 2.1. - (Unicode Technical Report ; 8)
Disponible sur le Web à l'adresse suivante :
http://www.unicode.org/unicode/reports/tr8.html
Pour une version imprimée de la version 2.1, il convient de contacter le Consortium Unicode
La version 2.0 peut être commandée en ligne auprès du Consortium Unicode à l'adresse suivante : http://www.unicode.org/unicode/uni2book/u2ord.html, ou auprès d'une librairie.
Unicode est une marque de Unicode, Inc. Elle est protégée dans plusieurs pays.
3 ISO/IEC 10646-1:1993 : Technologies de l'information : Jeu universel de caractères codés à plusieurs octets : Partie 1: Architecture et table multilingue / Organisation internationale de normalisation. - Genève : ISO, 1993.
Publiée actuellement en anglais seulement
Cette norme internationale est complétée par par plusieurs amendements et rectificatifs techniques.
4 RLG East Asian Studies Community. http://www.rlg.org/eas/index.html
5 USMARC Specifications for Record Structure, Character Sets, and Exchange Media / prepared by Network Development and MARC Standards Office. - 1994 ed. - Washington, D.C : Cataloging Distribution Service, Library of Congress, 1994.
USMARC Format for Bibliographic Data, including Guidelines for Content Designation / prepared by Network Development and MARC Standards Office. - 1994 ed. USMARC Format for Authority Data, including Guidelines for Content Designation / prepared by Network Development and MARC Standards Office. - 1993 ed. - Washington, D.C : Cataloging Distribution Service, Library of Congress, 1993 -
Pour plus de documentation, il convient de consulter le site de la Bibliothèques du Congrès.
6 UNIMARC Manual : Bibliographic Format / B. P. Holt and S. H. McCallum, eds. - 2d ed. - Munich : Saur, 1994.
UNIMARC Authorities : Universal Format for Authorities. - Munchen : Saur, 1991. - ISBN 3-598-10986-5
7 . JIS X 0208-1983 : Code of the Japanese Graphic Character Set for Information Interchange. - Tokyo : Japanese Standards Association, 1987.
8 ANSI Z39.64-1989 : East Asian Character Code for Bibliographic Use / American National Standards Institute. - New Brunswick, NJ : Transaction, 1990.
9 Standard Unicode, Version 2.0, p. 2-2
10 Hebraica Cataloging: a guide to ALA-LC Romanization and Descriptive Cataloging / Library of Congress, Descriptive Cataloging Division ; prepared by Paul Maher. - Washington, D.C : Cataloging Distribution Service, Library of Congress, 1987.
11 Wellisch, Hans H., "Script Conversion Practices in the World's Libraries," International Library Review 8:55-84 (1976)
12 Zhang, Foster J. et Zeng, Marcia Lei , Multiscript information processing on crossroads : demands for shifting from diverse character code sets to the Unicode Standard in library applications
Communication à la 64e conférence générale de l'IFLA de 1998, disponible à : http://archive.ifla.org/IV/ifla64/058-86e.htm
13 ISO 8879:1986 : Traitement de l'information -- Systèmes bureautiques -- Langage normalisé de balisage généralisé (SGML). - Genève : ISO, 1988
Incorpore l'Amendement 1:1988
complétée du rectificatif technique 1 de 1996.
14 UNIMARC Manual : Bibliographic Format - 2d. ed., Update 2 (1998).
15 Unicode Identification and Encoding in USMARC Records / submitted by MARBI Unicode Encoding and Recognition Technical Issues Task Force. - 1998. - (MARBI Proposal No: 98-18)
disponible à l'adresse suivante : http://lcweb.loc.gov/marc/marbi/1998/98-18.html