IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 099-155(WS)-S
Division Number: IV
Professional Group: Cataloguing: Workshop
Joint Meeting with: -
Meeting Number: 155
Simultaneous Interpretation:   No

ISO 639-1 e ISO 639-2: normas internacionales de códigos de lengua. ISO 15924: norma internacional de nombres de escrituras

John D. Byrum
Library of Congress
Washington DC, USA


Abstract

El autor describe dos normas internacionales para la representación de los nombres de lenguas. La primera (ISO-639-[1]), publicada en 1988, proporciona códigos de dos letras para 136 lenguas; su objetivo principal son las necesidades terminológicas. La segunda (ISO 639-2), se publicó a finales de 1998 e incluye códigos de tres letras para un total de 460 lenguas. Esta última lista está, asimismo, pensada para las necesidades terminológicas, pero también se dirige a aplicaciones bibliográficas. Es por este motivo que ISO 639-2 se contempla con detalle. Se explican sus características y se presentan los principios y las políticas utilizados para el desarrollo de esta lista de códigos. El autor explica, además, los mecanismos de gobierno desarrollados para mantener ISO 639-[1] e ISO 639-2. También se presenta un breve resumen de un proyecto iniciado para proporcionar códigos de nombres de escrituras que, una vez acabado, se publicará como ISO 15924. El presente trabajo concluye con las palabras siguientes: "el desarrollo de una norma internacional de códigos de lengua y de una norma internacional de códigos de escritura es una gran contribución de cara el Control Bibliográfico Universal, ya que estas listas de códigos permiten comunicar y compartir internacionalmente y de manera eficiente y sin ambigüedades una información importante relativa a la naturaleza de las publicaciones representadas por medio de registros."


Paper

Desde hace mucho tiempo la Organización Internacional de Normalización (ISO) está interesada en el desarrollo de códigos para la representación de nombres de lenguas. Hace diversas décadas que ya se inició un proyecto para preparar una norma de códigos de dos letras (a la que algunas veces llamaremos códigos "alpha-2"); sin embargo, la publicación de ISO 639 (a la que en adelante mencionaremos como ISO 639-1) no tuvo lugar hasta 1988 (1). Este mismo año se iniciaron los trabajos para la producción de una norma con códigos de tres letras (a la que en adelante nos referiremos a veces como códigos "alpha-2"); pero ha sido necesaria otra década de trabajos para llegar a la publicación de ISO 639-2: Codes for the representation of names of languages: alpha-3 codes (2). A mitad de la década de los años noventa se inició un proyecto para revisar ISO 639-1; de todas formas, el proyecto todavía no tiene un Draft International Standard (DIS).

El Comité Técnico 37 de ISO (Terminología) / Subcomité 3 (Presentación de Vocabularios) (TC37/SC3) fue el responsable de ISO 639-1. Como resultado, esta lista de códigos se diseñó principalmente para ser utilizada en terminología, lexicografía y lingüística. ISO 639-1 enumera 136 códigos para otros tantos nombres de lenguas. El conjunto de códigos alpha-2 fue diseñado para ser usado de forma práctica para la mayoría de las lenguas del mundo que están representadas con más frecuencia en el corpus bibliográfico mundial. Se crean códigos adicionales de lenguas cuando se considera que existe un corpus bibliográfico importante en una lengua concreta. Los códigos individuales se basan en el nombre original de la lengua si está en ortografía latina o convertido a la escritura latina, excepto en aquellos casos en los que las organizaciones nacionales de normalización han pedido códigos basados en la forma inglesa del nombre de la lengua. Por ejemplo, el código del japonés en ISO 639-1 es "ja".

De acuerdo con la introducción de la norma de códigos de lengua alpha-2, los usos terminológicos y lingüísticos más frecuentes para estos códigos son: (1) indicar la lengua utilizada, por ejemplo, en la cabecera de documentos o en bibliografías y (2) indicar la lengua a la cual pertenece un término en, por ejemplo, documentos sobre terminología, vocabularios, diccionarios o en listas multilingües de palabras ordenadas alfabéticamente. Esta norma no menciona explícitamente aplicaciones bibliográficas de los códigos de lengua.

ISO 639-2 fue el resultado de un proyecto conjunto en el que TC37/SC2 invitó a participar al Comité Técnico 46 (Información y Documentación) Subcomité 4 (Aplicaciones Informáticas en Información y Documentación) (TC46/SC4). En consecuencia, esta norma no sólo va dirigida a las aplicaciones lingüísticas ya mencionadas, sino también a un contexto mucho más amplio de nombres de lenguas; ISO 639-2 también reconoce los usos de los códigos de lenguas en bibliotecas, servicios de información y editores con la finalidad de indicar la lengua en el intercambio de información, especialmente en los sistemas automatizados.

En la Introducción de ISO 639-2, se han ampliado substancialmente los usos concretos de los códigos. Además de reconocer que pueden usarse con los objetivos terminológicos y lingüísticos citados en ISO 639-1, la lista alpha-3 subraya que los códigos de lengua también sirven para comunicar información bibliográfica. Estos usos incluyen la indicación de las lenguas en las cuales están escritos o registrados los documentos -por ejemplo, en el formato UNIMARC, el campo 101 sirve para indicar la lengua del documento- y para indicar las lenguas en que se han creado los registros para gestionar los documentos (registros de adquisiciones, bibliográficos, etc.) -por ejemplo, en el formato UNIMARC, las posiciones 22-24 del campo 100 contienen la Lengua de catalogación.

Desde el punto de vista del tema de este Seminario de trabajo -el Control Bibliográfico Universal en un entorno multilingüe-, ISO 639-2, con su énfasis bibliográfico y muchos más códigos de lengua, está más próxima a satisfacer las necesidades de aquéllos que crean y consumen descripciones de documentos de todo tipo que ISO 639-1. Por ello, el resto de esta presentación se centrará en la lista de códigos alpha-3.

ISO 639-2 representa todas las lenguas contempladas en ISO 639-1 y muchas otras, así como grupos de lenguas y algunos códigos que tienen objetivos especiales. Actualmente, las lenguas enumeradas en ISO 639-1 son un subconjunto de las que se enumeran en ISO 639-2; cada código de lengua del conjunto de códigos de dos letras tiene un código de lengua paralelo en la lista alpha-3, pero no ocurre así viceversa. Hay más de 460 códigos en ISO 639-2. (Las lenguas diseñadas exclusivamente para uso informático, como los lenguajes de programación, no se incluyen en ninguna de estas listas de códigos.)

El Joint Working Group (JWG) que creó ISO 639-2 decidió al inicio del proyecto que los códigos de ISO 639-2 tenían que ser consistentes con los de ISO 639-1, ya que era práctico hacerlo así. Sin embargo, en el desarrollo de la norma la elección de códigos supuso bastantes dificultades porque la comunidad bibliográfica tenía una lista muy bien establecida (basada en la lista de códigos de lengua de MARC 21 (3)) que no siempre era compatible con ISO 639-1. Como compromiso necesario entre la comunidad lingüística y la comunidad bibliográfica (que había usado sus propios códigos de lengua durante muchos años y en millones de registros bibliográficos), el JWG acordó normalizar los dos conjuntos de códigos, uno destinado a aplicaciones bibliográficas (ISO 639-2/B) y el otro para aplicaciones de terminología (ISO 639-2/T). Los dos conjuntos difieren en 23 códigos de lengua.

El conjunto B de códigos está pensado para aplicaciones bibliográficas que en general requieren el reconocimiento unívoco de lenguas individuales y de grupos de lenguas y no dependen necesariamente de los nombres de las lenguas, ya que no están pensadas para ser una abreviación de la lengua. Dado el amplio uso de los códigos de lengua de MARC 21 en registros bibliográficos, el enfoque representado por esta lista MARC se adoptó ampliamente en el conjunto B de códigos. Así pues, para la lista bibliográfica el JWG estableció los criterios siguientes para seleccionar la forma de un código de lengua -en general (aunque no sin variaciones) en este orden:

  • preferencia de los países que usan la lengua
  • uso establecido de los códigos en bases de datos nacionales e internacionales y
  • la forma vernácula o inglesa de la lengua

Como ISO 639-2 también pretende ser utilizada en terminología, el conjunto T de códigos se basó en:

  • la forma vernácula de la lengua o
  • la preferencia de los países que utilizan la lengua

A pesar de las diferencias de criterios entre el conjunto de códigos B y el conjunto de códigos T, sólo hay 23 códigos de lenguas, entre los más de 460 incluidos, que no son idénticos en los dos conjuntos. Además, el JWG acordó que el desarrollo futuro de los códigos de lengua debería basarse, siempre que fuera posible, en la forma vernácula de la lengua, a no ser que el país o países que la usen pidan un código distinto. La eliminación de diferencias entre los conjuntos de códigos B y T consumió gran parte de los diez años dedicados a la producción de ISO 639-2 y en muchos aspectos fue necesario recordar al JWG que el objetivo de las listas normalizadas de códigos de lenguas no es el de normalizar el nombre de la lengua representada por el código, sino el de normalizar los símbolos. Hay que reconocer que los representantes de la comunidad bibliográfica en el JWG hicieron muchas concesiones en aras del compromiso de que el proyecto concluyera con éxito. Como resultado, habrá que cambiar unos 25 códigos de lengua de MARC 21, habrá que añadir 33 nuevos códigos de lengua y habrá que retirar uno. El impacto de tantos cambios en las grandes bases de datos bibliográficos es preocupante y lo es incluso si se tiene en cuenta que los códigos que hay que cambiar representan lenguas que pueden considerarse relativamente poco importantes según el contenido de la colección bibliotecaria en cuestión. Sin embargo, se espera que en el futuro la lista MARC y ISO 639-2 se mantengan compatibles.

Dada la coexistencia de los dos conjuntos de códigos alpha-3, aquel que se elija debe ser usado íntegramente, y la elección del conjunto utilizado debe quedar clara entre los socios de un programa de intercambio incluso antes de iniciar el intercambio mismo de información. No ha de ser posible mezclar códigos provenientes de los dos conjuntos. El JWG también acordó incluir una declaración de política según la cual sólo es posible cambiar códigos cuando hay razones poderosas para hacerlo y los códigos anteriores no se podrán reutilizar por lo menos durante cinco años. Otro principio que se aplica específicamente al conjunto bibliográfico es que los códigos de ISO 639-2/B no cambiarán para evitar el trabajo de mantenimiento de las bases de datos cuando cambie el nombre de la lengua, por ejemplo, como cuando "Gallegan" cambió por "Galician" o lengua de oc por occitano.

Hay algunas características especiales incorporadas en ISO 639-2 que no se encuentran en la lista de códigos alpha-2. Una es la provisión de "códigos colectivos de lengua" que se usan cuando la literatura está relativamente dispersa. Para que un corpus bibliográfico pueda tener su propio código de lengua debe haber al menos 50 títulos distintivos en una institución o repartidos entre cinco centros; el total puede incluir títulos en cualquier formato y no sólo aquellos títulos publicados en formato impreso. Como resultado de una decisión del Joint Working Group, ISO 639-2 no especifica las lenguas concretas incluidas en cada código colectivo como sí que se especifican en MARC 21. Otra característica de la lista alpha-3 es la inclusión de un código (mul) que se usa en aquellos registros de obras que incluyen partes que están en múltiples lenguas y un código (und) que se usa en aquellos casos en los que es necesario proporcionar un código de lengua, pero la persona que crea el registro no conoce el nombre de la lengua.

En general, cada lengua tiene un solo código incluso en aquellos casos en los que la lengua se escribe en más de una escritura -por ejemplo, en el caso del sindhi que se escribe en escrituras árabe, gurmukhi y devanagari, o del somalí escrito en escrituras árabe y latina. Como única excepción, el croata y el serbio tienen códigos separados, aunque la mayoría de expertos creen que se trata de la misma lengua que algunos usuarios escriben en el alfabeto latino y otros en el cirílico.

Normalmente, el código de una lengua representa todos sus dialectos, pero en unos pocos casos -y como resultado de circunstancias históricas más que de principio-, hay códigos de dialectos -por ejemplo, este es el caso del awadhi que es un dialecto del hindi. ISO 639-2 reconoce que, en algunos casos, los centros pueden querer proporcionar códigos para dialectos que no están presentes en la norma; es por ello que los códigos desde qaa hasta qtx se han reservado para uso local. Otro caso de códigos locales puede ser el de lenguas antiguas que no tienen un código propio en ISO 639-2. Sin embargo, la norma advierte que los registros que contienen códigos de los reservados para uso local no deben ser objeto de intercambio internacional, ya que los códigos locales diferirán de una institución a otra.

El mantenimiento de una norma internacional es una actividad esencial que permite asegurar que se tendrán en cuenta los cambios de circunstancias y de requerimientos. En el caso de ISO 639 se han nombrado dos Registration Authorities (autoridades de registro). Infoterm, en Viena (Austria), es la autoridad que se encarga de la lista alpha-2; la Library of Congress, en Washington, D.C. (EUA), es la autoridad de la lista alpha-3. Ambas autoridades tienen la responsabilidad de recibir y evaluar las propuestas de nuevos códigos de lengua o de su modificación. Como ya se ha dicho, las peticiones de códigos adicionales que todavía no están representados en ISO 639-2 se han de informar con 50 títulos. Cuando se rechaza la petición de un nuevo código, se puede reservar el código rechazado para que lo usen el solicitante y otros posibles usuarios. En cada caso, las Registration Authorities hacen recomendaciones a un Joint Advisory Committee (JAC), o comité asesor conjunto, que vigila la totalidad de la norma. El JAC tiene una representación igualitaria del TC 37 y del TC 46; su presidencia se alterna cada dos años entre Infoterm y la Library of Congress. Para aprobar una propuesta, el voto ha de ser unánime en la primera votación; cuando no hay unanimidad, es necesaria una segunda votación en la que las propuestas pueden ser aprobadas con un mínimo de cinco votos a favor. La representación igualitaria y el requerimiento riguroso de un consenso aseguran el futuro desarrollo de ISO 639-1.

El Joint Advisory Comittee se reunirá en octubre de 1999 para tratar las cuestiones técnicas que se suscitaron durante el período de comentarios en el que 629-2 pasó al estado de Draft International Standard. También se ha de tratar otro tema más general, la futura relación entre los códigos de lengua alpha-3 y los incluidos en la lista alpha-2 que comprende ISO 639-1; esta norma experimenta actualmente una revisión independiente.

Otro proyecto ISO de interés para el tema de este seminario es el trabajo en marcha de TC46/SC2 (Conversión de lenguas escritas) que tiene el objetivo de desarrollar una lista de códigos de nombres de escrituras (4). Estos códigos, al igual que los de lengua descritos anteriormente, están pensados par su utilización en terminología, lexicografía y lingüística, así como para cualquier aplicación que requiera la expresión de la escritura en forma codificada, incluida la manipulación informática con propósitos bibliográficos. Esta nueva propuesta de norma ofrece tres códigos -y no uno- para cada nombre de escritura: (1) un código de dos letras y (2) un código de tres letras que en general se crea a partir del nombre de la escritura original en la lengua utilizada comúnmente para esta escritura y transliterado o transcrito a letras latinas, así como (3) una versión numérica que tiene el objetivo de "proporcionar una cierta medida de mnemonicidad de los códigos utilizados." Se han designado grupos de números para los códigos numéricos que tienen el objetivo de mostrar la naturaleza de la escritura: por ejemplo, los números 000-099 se reservan para las escrituras jeroglíficas y cuneiformes; 100-199, para las escrituras que se escriben de derecha a izquierda; 200-299, para las escrituras que se escriben de izquierda a derecha, y así sucesivamente. No se han asignado los números 700-899 y el grupo 900-999 se reserva "para uso privado, son alias para múltiples escrituras y códigos especiales." Los códigos de escrituras alfabéticas se describen a partir de ISO 639-1 e ISO 639-2, sin que haya una preferencia concreta a las alternativas terminológica o bibliográfica de esta última norma. En el último borrador se incluyen los códigos de unas 95-100 escrituras y alias. Una vez ISO 15924 se adopte como norma internacional, habrá que designar una Resgistration Authority que se ocupe de su mantenimiento.

A modo de conclusión se puede decir que el desarrollo de una norma internacional de códigos de lengua y de una norma internacional de códigos de escritura es una gran contribución de cara el Control Bibliográfico Universal, ya que estas listas de códigos permiten comunicar y compartir internacionalmente y de manera eficiente y sin ambigüedades una información importante relativa a la naturaleza de las publicaciones representadas por medio de registros.

Notas

1 ISO 639: Code for the Representation of Names of Languages. 1st ed. Geneva: International Standardization organization, 1988. 17 p.

2 ISO 639-2: Code for the Representation of Names of Languages: Alpha-3. 1st ed. Geneva: International Standardization organization, 1998. 66 p.

3 MARC 21 es el nombre de los formatos USMARC y CANMARC recientemente armonizados y publicados en 1999.

4 CD de ISO 15924: Code for the Representation of Names of Scripts. Borrador del comité con fecha de 9 de julio de 1998. 18 p.

*    

Latest Revision: July 28, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org