IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 099-155(WS)-F
Division Number: IV
Professional Group: Cataloguing: Workshop
Joint Meeting with: -
Meeting Number: 155
Simultaneous Interpretation:   No

ISO 639-1 et ISO 639-2 : Normes internationales de codes de langues. ISO 15924: Norme internationale pour les noms d'écriture

John D. Byrum
Bibliothèque du Congrès
Washington DC, USA


Abstract

L'auteur présente deux normes internationales pour la représentation des noms de langues. La première (ISO 639-1), publiée en 1988 fournit un code sur deux caractères pour 136 langues. Cette norme a d'abord été conçue pour répondre à des besoins de terminologie. La deuxième (ISO 639-2) a été publiée à la fin de 1998 et propose un code sur trois caractères pour 460 langues. Cette liste répond à des besoins terminologiques, mais aussi à des applications bibliographiques. C'est pourquoi, la présentation de la norme 639-2 est très développée. Ses caractéristiques sont présentées, ainsi que les principes, les règles et les circuits qui permettent la mise à jour de cette norme. Un bref résumé d'un projet en cours, de codage des noms d'écriture, qui devrait amener à la publication de la norme ISO 15924 est présenté. La communication conclut que "l'émergence d'une norme internationale pour le codage des noms de langues et la définition d'une norme internationale pour le codage des noms d'écriture constituent des contributions importantes pour le contrôle bibliographique universel, en ce que ces codes permettent à de l'information importante sur le nature de l'information fournie par des notices d'être communiquée et partagée efficacement et sans ambiguïté au niveau international.


Paper

L'Organisation internationale de normalisation (ISO) est impliquée depuis longtemps dans la définition de listes de codes pour la représentation des noms des langues. Des travaux dans le cadre d'un projet pour préparer une norme définissant une liste de codes sur deux caractères (qu'on nommera parfois ici code "alpha 2") ont débuté il y a plusieurs dizaines d'années, bien que la publication de la norme ISO 639 (devenue par la suite ISO 639-1) ne soit intervenue qu'en 19881. La même année, des travaux ont commencé pour produire une norme définissant une liste de codes sur trois caractères (on la nommera parfois ici code "alpha 3") qui ont demandé une autre décennie avant la publication de la norme ISO 639-2 : Codes pour la représentation des noms de langue -- Partie 2: Code alpha-32. Entre-temps, au milieu des années 90, des efforts furent consacrés à la révision de la norme ISO 639-1 : cette révision devrait atteindre le stade de projet de norme internationale (DIS).

C'est sous la responsabilité du sous-comité 2 (Présentation des vocabulaires) du comité technique 37 de l'ISO (Terminologie) que la norme ISO 639-1 a été rédigée. C'est pourquoi, cette liste de codes a d'abord été conçue pour des utilisations en terminologie, lexicographie et linguistique. ISO 639-1 propose 136 codes pour autant de langues. Le code alpha-2 a été conçu en vue d'un usage facile pour la plupart des grandes langues qui sont le plus représentées dans l'ensemble de la littérature mondiale. Des codes supplémentaires sont introduits quand un ensemble significatif de textes semblent se constituer dans une langue donnée. La construction des codes repose sur le nom original de la langue, si elle s'écrit en alphabet latin, ou sur le nom original converti en alphabet latin. On rencontre quelques exceptions lorsqu'une organisation nationale de normalisation demande que le code repose sur la forme anglaise du nom de la langue. Par exemple, le code pour le japonais en ISO 639-1 est "ja".

D'après l'introduction de la norme des codes de langues sur deux caractères, les utilisations terminologiques et linguistiques les plus courantes pour cette liste sont :

  1. d'indiquer la langue employée, par exemple dans l'en-tête des documents ou dans des bibliographies
  2. d'indiquer la langue à laquelle un mot appartient, par exemple, dans les documents sur la terminologie des vocabulaires ou dictionnaires, ou dans des listes multilingues de mots, classées par ordre alphabétique.

La norme ne fait pas directement mention à des applications bibliographiques pour les codes de langues.

La norme ISO 639-2 est le résultat d'un travail en commun, le TC37/SC 2 ayant invité des représentants du sous-comité 4 (Applications informatiques en information et documentation) du TC 46 (Information and Documentation). C'est pourquoi, la norme ne vise pas, avec un panel plus large de langues, les mêmes applications linguistiques que la norme ISO 639-1. La norme ISO 639-2 vise aussi les utilisations des codes de langues par les bibliothèques, les éditeurs et les centres de ressources documentaires, en particulier pour indiquer la langue dans le cadre d'échange d'informations entre systèmes informatisés.

Dans l'introduction de la norme ISO 639-2, ses utilisations possibles ont été notablement élargies. Outre la prise en compte des usages terminologiques et linguistiques de la norme ISO 639-1, la liste des codes sur trois caractères est conçue pour la communication d'information bibliographique. Il s'agit notamment d'indiquer la langue dans laquelle le document a été écrit ou enregistré - par exemple dans le format UNIMARC, c'est le champ 101 qui permet de désigner la langue du document - et la langue des notices (d'acquisition, bibliographiques ou autres) - par exemple dans le format UNIMARC, cette indication est précisée dans le champ 100, positions 22-24 "Langue de catalogage".

Etant donnée la problématique de cet atelier - le contrôle bibliographique universel dans un environnement multilingue - la norme ISO 639-2 est plus susceptible de répondre aux besoins de ceux qui produisent et consomment des notices bibliographiques que la norme ISO 639-1. En effet, elle est centrée sur les applications bibliographiques et offre un plus grand panel de langues. C'est pourquoi, cette contribution mettra principalement l'accent sur la liste alpha-3.

La norme ISO 639-2 code toutes les langues de la norme ISO 639-1, ainsi que beaucoup d'autres et plusieurs groupes de langues en plus des quelques codes crées pour des raisons particulières. De fait, les langues recensées dans la norme ISO 639-1 sont un sous-ensemble de celles figurant dans la norme ISO 639-2 ; toute langue codée dans la liste alpha-2 a un code correspondant dans la liste à trois caractères, le contraire se vérifiant aussi. Il y a plus de 460 codes dans la norme ISO 639-2. (Les langages conçus uniquement pour des machines, comme des langages de programmation d'ordinateurs ne sont inclus dans aucune des deux listes).

Le groupe de travail commun qui a rédigé la norme ISO 639-2 a décidé dés le début du projet de conserver une cohérence entre les codes dans ISO 639-2 et dans ISO 639-1, dans la mesure où c'était possible. Cependant, au cours de la rédaction de la norme, le groupe a rencontré des difficultés considérables dans le choix des codes : en effet, la communauté bibliographique utilisait une liste déjà reconnue (issue de la liste des codes de langues du MARC 213) qui n'est pas totalement compatible avec la norme ISO 639-1. Dans l'obligation du compromis entre la communauté terminologique et la communauté bibliographique (qui a utilisé ces codes depuis de nombreuses années dans des centaines de millions de notices bibliographiques), le groupe de travail a accepté de définir deux ensembles de codes : l'un pour les applications bibliographiques (ISO 639-2/B), l'autre pour les applications terminologiques (ISO 639-2/T). Les différences entre les deux ensembles concernent 23 langues.

La liste de codes bibliographique est conçue pour les applications bibliographiques qui demandent généralement l'identification univoque d'une langue ou d'un groupe de langues données, les codes ne devant pas forcément dériver du nom de la langue puisqu'il ne s'agit pas d'abréviations. Etant donnée la large utilisation de la liste du MARC 21dans les notices bibliographiques, les présupposés de cette liste ont été généralement adoptés pour le code bibliographique. Aussi, dans la définition du code bibliographique, le groupe de travail a-t-il établi les critères suivants - généralement, mais pas nécessairement, dans cet ordre - pour sélectionner la forme du code :

  • les choix des pays ayant la langue en usage
  • les usages de codes dans les bases de données nationales ou internationales
  • la forme vernaculaire ou la forme anglaise du nom de la langue.

Comme la norme ISO 639-2 a aussi pour objectifs de répondre aussi aux besoins terminologiques, le code terminologique repose sur :

  • la forme vernaculaire du nom de la langue ou
  • les choix des pays ayant la langue en usage.

En dépit des différences de critères pour l'élaboration des listes bibliographiques et terminologiques, il convient d'insister sur le fait qu'il n'y a que 23 langues parmi plus de 460 dont le code diffère dans les deux listes. De plus, le groupe de travail a convenu que la construction des futurs codes reposerait autant que possible sur la forme vernaculaire du nom de la langue, sauf si le pays ou les pays ayant cette langue en usage demandaient un autre code. La réduction des différences entre les deux listes a pris près de 10 ans, consacrées à la rédaction de la norme ISO 639-2. A plusieurs reprises, il a été nécessaire de rappeler au groupe de travail que le but de listes normalisées de noms de langues n'était pas de normaliser le nom des langues, mais de normaliser les symboles qui les représentaient. Il est important de reconnaître que les représentants de la communauté bibliographique dans le groupe de travail commun ont accepté de nombreux compromis dans le but de terminer le projet avec succès. C'est pourquoi, quelques 25 codes de la liste du MARC 21 devront être modifiés. 33 nouveaux codes seront rajoutés, et un supprimé. L'impact de changements si nombreux dans les grandes base bibliographiques est une source de souci, même si les codes à changer représentent des langues qu'on peut considérer comme relativement mineures (appréciation qui dépend cependant des fonds de la bibliothèque). Toutefois, pour l'avenir, il est prévu que la liste MARC et la norme ISO 639-2 demeureront compatibles.

Etant donné la coexistence des deux listes sur trois caractères, il convient donc d'utiliser entièrement celle qu'on choisit quelle qu'elle soit et d'annoncer clairement son choix à ses partenaires avant d'échanger des informations. Il n'est évidemment pas prévu d'utiliser un ou quelques codes d'une liste tout en utilisant les codes de l'autre liste. Le groupe de travail a aussi prévu que les changements de codes ne pourront se faire que pour des raisons importantes et que, une fois le changement effectué, le code supprimé ne pourra être re-attribué avant une période de cinq ans. Un autre principe qui s'applique spécifiquement à la liste bibliographique afin de faciliter la gestion des bases de données est de ne pas modifier les codes de la norme ISO 639-2/B, si le nom de la langue venait à changer, comme dans le cas du gallégien changé en galicien, ou de la langue d'oc changée en occitan.

Quelques éléments spécifiques à la norme ISO 639-2 ne se retrouvent pas dans la liste sur deux caractères. Parmi eux, l'utilisation de « codes communs (collectifs) pour plusieurs langues », qui sont employés dans les cas où la littérature est relativement peu importante. Pour se voir attribuer son propre code de langue, il est nécessaire qu'au moins cinquante titres différents soient conservés par une seule institution ou cinq institutions. Parmi ces cinquante titres, tous les supports peuvent être représentés sans qu'il s'agisse forcément de documents imprimés. Le groupe de travail a aussi décidé que les langues spécifiques qui sont représentées par un code collectif ne seraient pas énumérées dans la norme ISO 639-2, comme elles le sont dans la liste du MARC 21. D'autres éléments spécifiques à la liste alpha-3 sont l'utilisation d'un code (mul) destiné aux notices qui décrivent des documents comprenant des parties dans des langues différentes et d'un code (und) à employer dans les cas où il est nécessaire de fournir un code de langue alors que le nom de la langue est inconnu de ceux qui rédigent la notice.

Un seul code de langue est généralement attribué à une langue même si cette langue peut être transcrite en plusieurs écritures. C'est le cas, par exemple, du sindhi, qui peut se transcrire en écriture arabe, gurmuque, ou devanagari, ou du somali, qui peut s'écrire en alphabet arabe ou latin. La seule exception concerne le croate et le serbe qui ont chacun un code propre. Pourtant, la plupart des spécialistes estiment qu'il s'agit de la même langue transcrite par certains en alphabet latin et par d'autres en alphabet cyrillique.

En général, les dialectes d'une langue sont représentés par le code de la langue, mais dans quelques cas, pour des raisons historiques plutôt que de principes, des codes sont attribués à des dialectes, comme par exemple dans le cas de l'awadhi qui est un dialecte de l'hindi. La norme ISO 639-2 permet , dans certains cas, aux institutions responsables , la création des codes pour des dialectes absents de la norme: ainsi , les codes «qaa» jusqu'à «qtx» ont été réservés pour l'usage local. Les codes locaux pourront aussi éventuellement s'avérer nécessaires pour des langues mortes qui ne sont pas recensées dans la norme ISO 639-2. Comme le souligne la norme, les notices contenant des codes réservées à l'usage local ne doivent être échangées internationalement, puisque ces codes ne représentent pas les mêmes langues selon les institutions.

Le suivi constant d'une norme internationale est bien entendu une activité essentielle pour que la norme puisse suivre les évolutions et les besoins.nouveaux. Pour ce qui concerne la norme ISO 639, deux autorités de maintenance ont été nommées. L'autorité de maintenance pour la liste alpha-2 est l'Infoterm, situé à Vienne en Autriche, tandis que pour la liste alpha-3, il s'agit de la Bibliothèque du Congrès. Ces deux agences sont responsables de la collecte et de l'évaluation des propositions de changements ou d'introduction de nouveaux codes de langues. Comme il a été souligné plus haut, dans le cas des langues qui ne sont pas encore recensées dans la norme ISO 639-2, il est nécessaire de fournir les notices de cinquante documents pour les demandes de nouveaux codes. Quand une demande d'un nouveau code est refusée, le code proposé peut être réservé à l'usage local du demandeur et d'autres utilisateurs possibles. Dans tous les cas, l'autorité de maintenance propose les recommandations à un conseil (Joint Advisory Committee : JAC) qui supervise la norme dans son entier. Ce conseil est composé à égalité de représentants des comités techniques (TC) 37 et 46 : la présidence tournante en est assurée pour deux ans par les représentants d'Infoterm et de la Bibliothèque du Congrès. Le conseil doit être unanime pour qu'une proposition soit adoptée dès le premier tour de vote. Si cette unanimité n'est pas possible, un deuxième tour est nécessaire pour lequel cinq votes positifs sont nécessaires. L'équilibre de représentation et exigence de consensus devraient aider aider de s'assurer que les développements de la norme ISO 639-1 vont dans le bon sens.

Le conseil devrait se réunir en octobre 1999 afin de débattre de questions techniques qui se sont dégagées lors de l'enquête pendant que le projet 639-2 a abouti au stade de projet de norme internationale DIS (Draft international standard) . Une question plus générale doit être débattue concerne les relations futures entre la liste sur trois caractères et la liste sur deux caractères - une révision de la norme ISO 639-1 étant en cours .

Un autre projet de l'ISO qui correspond au thème de cet atelier est la tentative de la production d'une liste de codes pour la représentation des noms d'écritures4. C'est un travail actuellement en progrès au sein du sous-comité 2 (Conversion des langues écrites) du TC46. Ces codes, comme les codes de langues décrits plus haut, sont destinés à être utilisés en terminologie, lexicographie et linguistique, ainsi que dans toute application nécessitant l'expression des écritures sous forme codée, y compris bien entendu le traitement informatique des informations bibliographiques. Ce projet de norme propose non pas un mais trois codes pour chaque écriture :

  1. un code sur deux lettres
  2. un code sur trois lettres, créé généralement à partir du nom d'origine de l'écriture dans la langue majeure, translittéré ou transcrit en alphabet latin, ainsi que
  3. une version numérique fournissant une aide mnémotechnique pour l'emploi des codes".

En effet, des tranches numériques ont été définies selon et cunéiformes, 100-199 pour les écritures de droite à gauche, 200-299 pour les écritures la nature de l'écriture : par exemple, la tranche 000-099 est employée pour les écritures hiéroglyphiques de gauche à droite, etc. La tranche 700-899 n'est pas attribuée, tandis que la tranche 900-999 est conservée "pour l'usage privé de codes pour des documents en plusieurs écritures et pour des codes spécifiques". Les codes des écritures alphabétique sont dérivés des normes ISO 639-1 et ISO 639-2, sans que la préférence soit donnée à l'une ou l'autre alternative, de l'origine bibliographique ou terminologique. Dans le document actuel de travail, 95 à 100 écritures sont recensées. Une fois qu'il sera devenu une norme internationale, le projet ISO 15924 devra être suivi par une autorité de maintenance, qui est encore à nommer.

Pour conclure, l'émergence d'une norme internationale pour le codage des noms de langues et la définition d'une norme internationale pour le codage des noms d'écriture constituent des contributions importantes pour le contrôle bibliographique universel, en ce que ces codes permettent à de l'information importante sur le nature de l'information fournie par des notices d'être communiquée et partagée efficacement et sans ambiguïté au niveau international.

Notes:

1 ISO 639: Codes pour la représentation des noms de langues. 1ere Edition. Genève : Organisation Internationale de normalisation, 1988. 17 p.

2 ISO 639-2: Codes pour la représentation des noms de langues. Alpha-3. 1ere Edition. Genève : Organisation Internationale de normalisation, 1998. 66 p.

3 MARC 21 est le nom de l'édition récente, publiée en 1999, des formats USMARC et CAN/MARC harmonisés.

4 CD for ISO 15924: Code for the Representation of Names of Scripts. Projet de comité daté du 9 juillet 1998. 18 p.

*    

Latest Revision: August 12, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org