IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library 
Associations and InstitutionsAnnual 
ConferenceSearchContacts

64th IFLA Conference Logo

   64th IFLA General Conference
   August 16 - August 21, 1998

 


Code Number: 007-126-F
Division Number: IV.
Professional Group: Cataloguing
Joint Meeting with: -
Meeting Number: 126.
Simultaneous Interpretation:   No

Catalogage et métadonnées : du vin vieux dans des bouteilles neuves ?

Stefan Gradmann
Pica, Leiden, Netherlands


Paper

Introduction:

Un article publié en 1996 par Rachel Heery (et donc il y a longtemps au regard des normes d'Internet et de leur développement) dit que : " On peut désigner les notices traditionnelles des catalogues des bibliothèques par le terme de métadonnées puisque ces notices sont : 'des données sur des données'" (Heery 1996a). Si cette affirmation reste exacte (et - au moins d'un point de vue sémantique - cela semble être le cas), une réaction justifiée bien qu'un peu naïve venant du point de vue des bibliothécaires pourrait être de considérer que le catalogage est simplement un type particulier de production de métadonnées et de laisser de côté tout ce qui, dans ce terme clinquant, ne concerne pas les bibliothèques et, en gros, de continuer à cataloguer comme si rien ne s'était passé.

Un des buts spécifiques du présent article est de donner un certain nombre d'indices montrant l'inadéquation d'une telle réaction : l'objet essentiel est d'identifier certains des aspects touchant les bibliothèques sur la question des métadonnées qui ont des chances de se développer dans un avenir proche.

Cet article n'est en aucune façon une introduction à la question des métadonnées et suppose une connaissance de base de celles-ci. Ce genre d'information est facile à obtenir dans le WWW : des points de départ comme les rubriques "Metadata Resources" (http://ifla.inist.fr/II/metadata.htm) fournies par les sites de l'IFLA ou de UKOLN donnent une information approfondie concernant tous les aspects des métadonnées. Tous ceux qui sont familiers de ces sites ou généralement du sujet des métadonnées seront prêts à comprendre pourquoi je dois restreindre plus étroitement le champ de cet exposé. Cet article n'ambitionne pas de couvrir l'ensemble des activités et des normes sur les métadonnées mais plutôt de se concentrer sur un exemple, peut être le plus visible en ce moment : l'ensemble d'éléments que l'on désigne sous le nom de "Dublin Core" (ou DC) (pour des informations sur l'histoire du Dublin Core, voir d'abord : http://purl.org/metadata/dublin_core ). Cet article n'entend pas non plus être une contribution au processus concernant la normalisation dans le domaine du Dublin Core, ni à celle des formats ou des règles de catalogage existants ou en train d'apparaître (comme l'ISBD(ER)), ni non plus donner des arguments en faveur de l'un ou l'autre de ces modèles. Il y a des environnements mieux adaptés pour cela (comme les listes de discussions qui leur sont consacrés) et il y a certainement dans chacun de ces domaines des spécialistes qui sont bien mieux autorisés que l'auteur de cet article pour faire ce genre de contribution.

Ce qui m'intéresse ici c'est plutôt la question des relations éventuelles du catalogage avec l'approche des métadonnées, en tentant très timidement d'essayer d'apporter un certain nombre de réponses. On a soutenu que les métadonnées et les notices "conventionelles" de catalogage étaient jusqu'à un certain point complémentaires, alors que l'idée principale que je souhaite apporter dans cet article est que ces deux modèles sont fondamentalement différents, voire qu'ils sont opposés, et que les concepts de départ qui sous-tendent les deux modèles diffèrent aussi substantiellement.

Après tout, il y a de bonnes raisons - certaines implicites, d'autres explicites - pour que la communauté qui a développé les métadonnées n'ait pas commencé par proposer des amendements au format MARC mais ait créé une structure d'attributs complétement nouvelle. Une des raisons de cela a pour origine le regard extérieur sur ce que font les bibliothécaires : un point que les bibliothécaires ont intérêt à méditer.

D'un autre côté, l'approche par les métadonnées possède aujourd'hui les avantages des nouveaux départs - une fois cet avantage passé, les activités fondées sur les métadonnées ont toutes les chances de redécouvrir un certain nombre de problèmes et de pièges dont les bibliothécaires ont eu l'expérience depuis les trente dernières années. Bien qu'il puisse être parfois justifié de réinventer la roue (et, de toutes façons, cela a été une pratique fréquente dans le domaine de l'informatisation des bibliothèques jusqu'à aujourd'hui), il y a aussi de bonnes raisons pour au moins éviter les erreurs faites par les autres.

Cette intervention entend provoquer et stimuler la discussion et, donc, je présente mes excuses pour toutes les analogies et les simplifications inévitables que je ne manquerais pas de faire dans ce contexte, elles sont fausses comme le sont toutes les analogies et toutes les simplifications.

Qui fait quoi et comment ?

Lorsqu'on observe les résultats les plus caractéristiques de l'importante production du Dublin Core, une pensée séduisante - du moins selon le point de vue des bibliothécaires - est de considérer les métadonnées du Dublin Core comme une sorte de format simplifié de catalogage. Une telle vision est encouragée par des définitions des métadonnées comme la suivante : "les métadonnées sont des données sur des données et, de ce fait, elles fournissent une information essentielle sur l'auteur de l'œuvre, sa date de création, les liens avec d'autres oeuvres en relation, etc. Une forme bien identifiable de métadonnées, c'est le catalogue sur fiches des bibliothèques ; l'information donnée sur chaque fiche est une métadonnée concernant le livre. Peut-être utilisez-vous des métadonnées sans le savoir dans votre activité quotidienne..." (MILLER 1996).

Ceci correspond parfaitement au point de vue similaire émis par P. Caplan lors des discussions de départ du Dublin Core. A la question suivante : "En fait, qu'est-ce que les métadonnées ?", elle affirma que : "les métadonnées en réalité ne sont rien d'autres que des données sur des données. La notice de catalogue appartient aux métadonnées, de même qu'une en-tête TEI (Text Encoding Initiative) ou toute autre forme de description. Nous pouvons l'appeler du catalogage, mais pour certains, ce terme porte un bagage un peu trop lourd, il rappelle les AACR et USMARC. Ainsi, c'est une situation un peu comme "nous appelons ça du maïs, vous appelez ça du blé d'Inde [nom du maïs au Québec, N.D.T.]", mais métadonnées reste cependant un terme neutre qui couvre bien les différents aspects." (CAPLAN 1995) (1) Dans une autre tentative de donner une vision d'ensemble des formats de métadonnées, R. Heery place à nouveau le catalogage et le Dublin Core à l'intérieur du même paradigme continu mais elle relève entre eux une différence de complexité :

"Dans le tableau suivant, on a placé différents formats que l'on a réparti suivant un axe qui va de notices simplifiées (premier ensemble) à des notices riches et complexes (quatrième ensemble). Les différents types de notices identifiés en suivant le processus du contrôle bibliographique peuvent être répartis sur cet axe, ainsi qu'on le voit ci-dessous.

Ensemble 1 :  Formats        NetFirst           [...]   Formats éditeurs
              propriétaires:
Ensemble 2 :  DC minimal     IAFA               [...]   CIP CIP en MARC
Ensemble 3 :  MARC           en-tête TEI        [...]   Messages EDI
Ensemble 4 :  ICPSR          FGDC indépendant   [...]"	
(HEERY 1996)

Tout ceci semble indiquer que l'idée principale défendue par cet article ne correspond en fait à aucune réalité, qu'il s'agit d'une simple question d'évolution terminologique sans importance et de variations dans la complexité.

Cependant, une différence qui n'a rien de négligeable peut être perçue dans la définition suivante donnée par Berners-Lee : "Les métadonnées sont des informations compréhensibles par des machines à propos de ressources Web ou d'autres ressources " - et le passage continue : "La phrase 'que les machines peuvent comprendre' est capitale. Nous parlons d'informations qui peuvent être utilisées par des outils logiciels afin de nous simplifier la vie, afin de nous assurer que nous n'allons ni contre nos principes ni contre la loi, de vérifier que l'on peut avoir confiance dans ce que l'on est en train de faire, et donc de faire fonctionner les choses de façon plus facile et plus rapide." (BERNERS-LEE 1998).

Ceci diffère déjà sensiblement de la position précédente : "on peut appeler ça du catalogage", même si les objectifs généraux peuvent être aussi assimilés à ceux de l'activité de catalogage (identification et authentification de la méta-information), le contexte d'utilisation de l'information est différent (les agents sont des logiciels et non des personnes) et l'accent est mis explicitement sur l'efficacité, ce qui implique en fait que, dans le contexte des métadonnées les choses sont censées fonctionner "de façon plus facile et plus rapide" qu'avec le catalogage !

Les différences deviennent encore plus claires, lorsque l'on prend en compte un autre aspect qui est à l'origine de l'initiative du Dublin Core et que Stu Weibel a récemment rappelé : "Une des motivations premières à l'origine de la série d'ateliers du Dublin Core a été l'idée que les auteurs pourraient fournir leurs propres descriptions" (WEIBELL 98) (2), ce ne sont plus seulement les processus de production qui diffèrent, mais les créateurs de la méta-information qui fondamentalement ne sont plus les bibliothécaires chargés du catalogage.

Un autre aspect qu'il faut avoir présent à l'esprit, c'est le fait qu'une des autres caractéristiques de départ de l'initiative Dublin Core était de : "faciliter la recherche documentaire dans un environnement en réseau" (LAGOZE 1997) et non d'être principalement la description d'une ressource. L'approche par les métadonnées ne rencontre qu'accidentellement le paradigme de la description bibliogaphique du catalogage.

En fait, tout ceci aboutit à une conception plus claire du terme métadonnée, en incluant les différents postulats qui le sous-tendent explicitement ou implicitement : les métadonnées ont été conçues dans un contexte d'utilisation différent des catalogues de bibliothèques, elles ne sont normalement pas produites par des catalogueurs professionnels, elles ont été conçues de façon à être produites de façon plus efficace que les notices des catalogues, elles concernent un type de document bien particulier (les ressources électroniques). Enfin - et ce point devra être développé par la suite - la relation entre les métadonnées et le document référencé n'est pas de même nature que la relation entre la notice d'un catalogue et le livre posssédé par la bibliothèque.

Ainsi, même si les résultats de la production des métadonnées, la notice Dublin Core elle-même, peuvent être similaires par leur structure à une notice simplifiée de catalogue (et donc que l'on peut facilement les relier avec les zones du format MARC (3)), tout l'environnement de production et d'utilisation de l'information diffère par sa nature de celui qui entoure le catalogage traditionnel et a été conçu afin de dépasser le paradigme du catalogage traditionnel. Considérer que le processus de production peut être une sorte de catalogage simplifié nous conduirait donc probablemnt à une grave méprise.

Pour qui sont-elles faites ? Comment sont-elles utilisées ?

Les notices des catalogues qui sont traditionnellement produites par les bibliothèques sont assez génériques en ceci qu'elles ne prennent pas en compte les utilisateurs potentiels des catalogues. Le futur contexte d'utilisation (intégration dans un OPAC ou bien classement des cartes imprimées dans un catalogue organisé de façon séquentiel) n'avait jusqu'à maintenant qu'un très faible impact sur la façon dont cette information était réellement produite dans le processus de catalogage et n'avait pas d'influence sur la sémantique des notices telle qu'elle était énoncée dans les règles de catalogage comme les AACR2. On pourrait considérer cela comme un avantage - pourtant la communauté des bibliothécaires paraît actuellement de plus en plus consciente des inconvénients de cette absence de prise en compte de l'utilisateur dans l'activité de catalogage et elle est amenée à reconsidérer certains de ces principes de base et ce d'autant plus que l'on est de plus en plus attentif, au niveau politique, à la croissance des coûts.

L'équivalent n'est pas vrai pour ce qui est du Dublin Core, ni des autres projets de métadonnées : l'une de leurs principales caractéristiques semble être que leurs fonctionnalités sont très profondément orientées par la volonté de prendre en compte l'utilisateur. On pourrait considérer cela comme un désavantage, notamment du fait que des changements dans le comportement des utilisateurs ou dans le contexte d'utilisation risqueraient d'avoir une influence sur ce type d'approche et surtout entraîner un manque de continuité dans l'application des règles - pourtant cette caractéristique semble être considéré aujourd'hui comme un aspect positif. Chaque fois que l'on présente le Dublin Core, on raisonne à partir de types particuliers de ressources (soit des objets électroniques dans un environnement WWW), on fait l'hypothèse d'un contexte spécifique d'utilisation (par exemple, la volonté d'accroître la précision des moteurs de recherche sur Internet est un argument fréquemment avancé à ce niveau) et ils sont souvent développés en ayant à l'esprit un groupe d'utilisateurs bien particulier ; la métaphore préférée de la communauté du Dublin Core est celle du "touriste électronique", ce qui, en ce sens, est significatif.

Ceci est déjà en grande partie vraie pour ce qui est de la structure du Dublin Core. Pour n'en donner qu'un exemple, une des hypothèses du Dublin Core est le fait que chaque ressource est unique, - si l'on ne prend pas en compte le fait que l'"œuvre" (selon la terminologie de l'étude Bibliographic Functionnal Requirements) peut avoir plusieurs "représentations" ou "manifestations" et qu'il peut en exister plusieurs exemplaires, - cet unicité implique une relation 1:1 entre la ressource et les métadonnées qui la décrivent, l'ensemble se découpant dans la paradigme horizontal de l'information sur le WWW (4). Ce fait devient encore plus tangible dans un contexte lié à des projets de syntaxes qui sont très clairement orientées pour être utilisées en environnement WWW (5).

Cette différence fondamentale serait sans doute mieux illustrée si l'on comparait les relations respectives qu'entretiennent d'un côté le livre et la notice bibliographique et, de l'autre, les métadonnées et la ressource référencée.

Dans la plupart des systèmes locaux de gestion de bibliothèques, les notices bibliographiques sont le plus souvent complétées par des données locales qui contiennent un pointeur (c'est-à-dire, la cote) donnant la localisation du livre. Ce pointeur utilise le plus souvent les fonctionnalités du module de circulation du système comme élément de médiation, ce qui peut entraîner ensuite l'intervention d'un membre de l'équipe professionnelle pour fournir au lecteur l'objet désiré, livre ou document réels. Le point essentiel à remarquer est que ce contexte d'utilisation n'entraîne pas ou peu de conséquences pour l'activité de catalogage. Cette situation est fondamentalement différente pour les métadonnées, comme cela a déjà été indiqué par R. Heery :

"Les métadonnées diffèrent aussi des données traditionnelles des catalogues en ceci que les données locales sont inclues à l'intérieur de l'enregistrement de façon à permettre la fourniture directe du document à partir d'un logiciel applicatif approprié, en d'autres termes l'enregistrement peut effectivement contenir des renseignements sur l'accès à l'information et les adresses sur le réseau" (HEERY 1996b).

Ainsi, les métadonnées font-elles partie d'une infrastructure d'information technique spécifique et ceci est très largement vrai, y compris pour le niveau sémantique, qui originellement était conçu indépendamment de tout contexte : la valeur réel d'une notice de métadonnées dépend très étroitement du fait que les pointeurs fonctionnent effectivement (ceci explique l'intérêt fréquemment manifesté dans les discussions autour du Dublin Core pour la question des "liens rompus" et la nécessaire implication du Dublin Core dans les différentes tentatives de normaliser l'identification des ressources, comme l'URN), ceci explique aussi le fait que les pointeurs dépendent de la configuration technique requise par le logiciel permettant l'accès à l'information. En simplifiant beaucoup cet aspect, on pourrait dire que des métadonnées qui contiennent un pointeur qui ne fonctionne pas sont presque pires que pas de notice du tout.

Ainsi, la conclusion de cette partie est que les métadonnées non seulement appartiennent à un paradigme de production de l'information secondaire différent, mais qu'elles ont aussi été conçues pour s'intégrer dans un contexte d'utilisation différent des notices des catalogues des bibliothèques et qu'elles dépendent techniquement de cet environnement d'une façon très étroite. Alors que ceci parait simplifier grandement les choses (en permettant l'accès direct au document grâce des systèmes de liens normalisés), ce fait les compliquent également et paradoxalement puisque le rôle des métadonnées dans cette infrastructure d'information dépend de l'évolution des normes sur Internet, qui évoluent et se modifient selon un rythme très rapide (je précise que cette remarque est un simple constat et ne doit pas être lue comme une critique de l'approche des métadonnées).

Une chance pour les bibliothécaires ?

Un certain nombre de différences essentielles entre les notices bibliographiques et les métadonnées, ainsi que leur paradigmes respectifs de production, doivent être devenus maintenant plus clairs. Suffisamment clairs, en tout cas, pour que l'on comprennent que ces deux approches appartiennent à des infrastructures d'information différentes et donc réagissent en fonction de cela, même si elles peuvent avoir des domaines communs et des similarités.

Il pourrait bien sûr être possible de tenter de combiner les deux paradigmes informationnels comme cela a été fait par XU (1998) qui fait la proposition d'utiliser l'OPAC de la bibliothèque comme une porte d'accès au répertoire des métadonnées. Je ne souhaite pas discuter ce point en détail, même si personnellement j'ai des doutes en ce qui concerne sa faisabilité immédiate. Quoiqu'il en soit, ceci est une importante direction de recherche pour les bibliothécaires, et un certain nombre des projets entrepris dans mon institution - Pica - vont dans la même direction en combinant l'informatisation des bibliothèques et les techniques de recherche d'information sur Internet comme nous l'avons fait dans les projets WebDOC ou DELTA.

Il y a cependant des domaines dans lesquels la communauté utilisatrice des métadonnées pourrait bénéficier de l'expertise et de l'expérience spécifiques des bibliothécaires (ou bien cela est-il déjà le cas, étant donnée la présence de nombreux personnes représentant le monde des bibliothèques dans cette communauté) et ceci est probablement encore plus vrai pour ce que l'on appelle le "Dublin Core avec qualificatifs" que pour le Dublin Core de base. Je pense ici à des exemples comme l'utilisation d'éléments répétables et les leçons que l'on peut tirer de l'expérience du format MARC et de sa structure en sous-champs ou de l'utilisation des vocabulaires contrôlés, ce qui peut curieusement mener à des débats ressemblant étrangement à ceux qui ont agité le monde des bibliothèques dans le passé à propos des formes d'autorité. Il y a beaucoup de domaines comme celui-ci pour lesquels cette inévitable réinvention de la roue que constituent les métadonnées peut permettre d'éviter des problèmes qui ont été identifiés dans des contextes plus anciens.

Je souhaite terminer cet article en indiquant deux domaines dans lesquels le monde des bibliothèques peut apporter des contributions importantes et durables à l'approche des métadonnées. L'un des participants à la liste de discussion meta2 affirmait récemment :

"Ma propre expérience montre que ce qui permet de meilleur résultat dans la recherche dans les catalogues de bibliothèques ce n'est pas tellement le format lui-même mais plutôt l'information qui a été mise en format. Les bibliothécaires ont traditionnellement respecté le concept d'uniformisation lorsqu'ils ont créé des notices de catalogue (formes uniformisées des noms, des titres, des indexations par sujet). Je suis prêt à admettre que le fait de pouvoir chercher "Green" comme un nom, séparément d'une recherche de "green" dans un titre est une étape importante, mais elle est peu de choses par rapport à la possibilité de sélectionner le "David Green" que l'on souhaite parmi une multitude de noms." (WEINHEIMER 1998).

La mise en place de formes uniformisées et du contrôle d'autorité ont en fait été des sujets essentiels pour les bibliothécaires et il est possible qu'ils jouent à nouveau un rôle systématique dans le contexte des métadonnées afin de contribuer spécifiquement à l'uniformisation globale des résultats produits - soyons clair, mon intention ici n'est pas de reconvertir l'approche par les métadonnées en une sorte d'activité traditionnelle de catalogage !

Le second point auquel je pense en ce moment est étroitement lié à cela et concerne le problème de l'authentification par les métadonnées. Le rapport récent de l'atelier EC sur les métadonnées à Luxembourg affirme que : "le démarrage actuel du Dublin Core est lent et il y a un manque de masse critique". Parmi d'autres raisons, l'un des problèmes sous-jacents à cela est l'usage relativement faible que les moteurs de recherche comme AltaVista font actuellement des métadonnées, au delà de la simple indexation par mots-clés et, à son tour, on a suggéré que l'absence d'authentification par les métadonnées a été l'une des principales raisons de cela.

S.Weibel réagit à propos de ce problème dans la liste de discussion meta2 en affirmant :

"Mais je commence à penser que l'on est en train de passer d'une mentalité du type "où est-ce que je clique ?" à une mentalité du type "qui faut-il croire ?". En tant que représentant de la communauté des bibliothécaires, je vois cela plus comme une opportunité que comme un problème, puisque la confiance du public fait partie de nos valeurs les plus importantes.

D'autres communautés formelles aussi ont pris position pour la fourniture de descriptions permettant l'authentification des ressources... musées, gouvernements, éditeurs, organisations commerciales ou professionnelles. Il ne manque pas de place pour les abus dans chacun de ces systèmes et il pourrait en avoir (en fait, il y en a) dans le royaume des métadonnées. Ceci les rend simplement plus critiquables que les métadonnées qui ont pour mission de fournir une description fiable de la ressource (incluant les moyens de validation) sur lesquels nous pouvons construire le futur que nous projetons" (WEIBEL 1998).

Dans ce contexte, les suggestions suivantes ont été faites :

"Nous supposons que la méta-information navigationelle va être revendue par des intermédiaires extérieurs confiants. Je m'attends à ce qu'elle se développe comme l'on fait les Pages Jaunes - cela va coûter de l'argent de décrire les ressources ; plus vous payerez, plus vous aurez de réponses, je fais référence ici à des réponses commerciales. Je m'attends à ce que des services comme AltaVista, Yahoo! ou d'autres continuent leurs services gratuits, mais je ne serais pas étonné que leur intérêt aille vers la description des ressources liées à la vente" (ARNETT 1998).

Je ne suis pas sûr que cet avenir soit prévisible ou désirable : il y aurait des moyens d'impliquer des institutions publiques comme les bibliothèques dans ce processus inévitable de revente de l'information. C'est pourquoi je suis d'accord pour dire que l'on a besoin d'intermédiaires extérieurs dans ce processus, mais je ne suis pas certain que nous serions tous ravis de dépendre entièrement de l'intermédiaire d'institutions commerciales pour la question capitale de la validation de l'information. Même si cette dernière idée est contraire au cycle actuel, dans le sens où elle s'oppose au courant actuel de dérégulation, je pense que ceci est un élément important à prendre en compte.

Pour en revenir au titre de cet article, il devrait être plus clair maintenant que métadonnée n'est pas simplement un terme clinquant et ne consiste absolument pas à mettre du vin vieux dans des bouteilles neuves. L'approche dont ce terme est synonyme signifie une rupture avec le paradigme différent qui est celui de l'activité de catalogage des bibliothèques et je pense qu'il faudrait inviter les bibliothécaires à suivre attentivement son évolution et à ne pas la ressentir comme une menace possible mais plutôt comme une chance de redéfinir le rôle des bibliothèques dans ce contexte d'apparition de nouveaux paradigmes de l'information.

Références

Notes

  1. Dans le contexte de cette définition, les projets naissants du Dublin Core sont placés au même niveau que les autres "normes qui définissent des ensembles d'éléments, depuis les AACR2 jusqu'au GILS" (CAPLAN 1995).

  2. Dans le même sens, les publications professionelles du côté des bibliothèques, comme OLSON, ne mentionnent pas le Dublin Core comme un contexte de production pertinent.

  3. Comme il l'est démontré dans Mapping the Dublin Core Metadata elements to USMARC. OCLC Discussion paper. N° 86, mai 1995 http://ifla.inist.fr/documents/libraries/cataloging/ dublin1.txt) et ailleurs.

  4. Ce principe est aussi mis en avant avec la claire conscience que la "complexité des relations entre des oeuvres reliées entre elles résiste à une explication cohérente" dans WEIBEL/HAKELA 1998.

  5. La proposition actuelle d'utiliser la syntaxe XML basée sur RDF est un bon exemple de cela (voir MILLER 1998).