IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
To Bangkok Conference programme

65th IFLA Council and General
Conference

Bangkok, Thailand,
August 20 - August 28, 1999


Code Number: 012-117_F
Division Number: IV
Professional Group: Classification and Indexing
Joint Meeting with: -
Meeting Number: 117
Simultaneous Interpretation:   No

Approches structurelles et multilingues de l'accès matière sur le Web

Lois Mai Chan
School of Library and Information Science, University of Kentucky
Lexington, Kentucky, USA

Xia Lin

College of Information Science and Technology, Drexel University,
Philadelphia, Pennsylvania, USA

Marcia Zeng

School of Library and Information Science, Kent State University
Kent, Ohio, USA


Paper

Introduction

Parmi les nombreux défis posés par la recherche et l'exploitation des ressources utiles du Web figurent le volume même de ce qui est disponible, ainsi que les barrières linguistiques.

Il y a un besoin pressant de mécanismes capables d'organiser les ressources du Web pour une récupération plus efficace et plus pertinente, et un besoin aussi évident et pressant de programmes qui acceptent plusieurs langues.

Dans cette présentation en trois parties, nous traiterons des efforts en cours sur ces deux fronts.

Partie I : Approches structurelles de l'organisation des ressources du Web (Lois Mai Chan)

De nombreux plans de classement matière ont été mis au point pour organiser et gérer les ressources du Web. Ils sont connus sous divers noms tels que guides par sujets, guides du Web, catégories de sujets, répertoires par sujets, hiérarchies de sujets, etc. Beaucoup de ces systèmes ont en commun de manifester les principes traditionnels de structure hiérarchique, de répartition par domaines, de subordination du spécifique au général et de réseaux de sujets associés. Une étude des structures hiérarchiques qui fonctionnent actuellement comme "organisateurs" du Web montre des variations considérables en ce qui concerne aussi bien la complexité que le raffinement, en largeur aussi bien qu'en profondeur de couverture, et dans le nombres de sujets qu'ils couvrent. Ils varient également par le système de classification sur lequel ils sont basés. Dans quelques cas, des essais ont été faits pour adapter des systèmes existants comme la CDD, la classification de la LC, et la CDU à l'environnement Web. Diane Vizine-Goetz, dans son étude, a montré comment, avec les amélioration convenables, ces systèmes pouvaient être utilisés pour améliorer la recherche matièret sur le Web (Vizine-Goetz).

Parmi les systèmes qui utilisent une structure hiérarchique pour organiser les ressources du Web figurent  :

  1. les guides par sujets conçus par des services de recherche sur le Web bien connus comme Yahoo!, Lycos, InfoSeek, Excite, etc.

  2. des plans de classement conçus par des bibliothèques particulières pour faciliter l'accès aux ressources du Web qu'elles sélectionnent et incluent dans leurs systèmes locaux, et

  3. des organisateurs et des répertoires du Web basés sur des classifications existantes, par exemple, le Netfirst d'OCLC basé sur la CDD, CYberStacks et Scout Report Signpost, basés sur la classification de la LC.

L'utilisation de présentations hiérarchiques ou basées sur des classifications pour organiser les ressources du Web pourrait présenter d'importants avantages, parmi lesquels une amélioration de la navigation par sujets (browsing), un accès multilingue potentiel, et une interopérabilité améliorée avec d'autres services (Koch et Day). Une structure hiérarchique peut être considérée comme une carte conceptuelle - soit de l'univers entier de la connaissance, soit d'un domaine particulier de celui-ci. Une telle carte trie le contenu informationnel en groupes associés (et en leurs sous-groupes) et permet ainsi aux utilisateurs de limiter leur approches à des zones déterminées où les documents analogues sont concentrés.

La connaissance envisagée à travers une structure organisée est plus facile à percevoir, et, une fois perçue, à comprendre. Pour l'accès matière, une structure hiérarchique offre un chemin logique vers les objets désirés. Par dessus tout, elle améliore la précision en commençant par définir et restreindre le domaine de la recherche. Cet avantage est évident même dans les structures hiérarchiques qui n'offrent qu'une classification large. La raison de cet avantage peut être qu'une hiérarchie, même à un niveau large, exemplifie deux fonctions de la classification traditionnelle : la collocation (inclusion) et la partition (exclusion). Alors que la collocation est fondée sur l'inclusion, propriété fondamentale de la classification, la partition reprend une autre de ses propriétés fondamentales, l'exclusion.

C'est la qualité avec laquelle une structure hiérarchique remplit ces deux fonctions qui détermine son utilité potentielle dans un environnement de recherche. L'inclusion rapproche les objets et les idées semblables. Mais dans un domaine d'information très vaste, il est tout aussi important d'exclure l'information non désirée que d'inclure ce qui est recherché. L'exclusion peut être opérée en divisant une grande quantité d'information en parties plus petites comme moyen d'isoler la partie qui a la plus grande probabilité d'être pertinente (Chan 1995). Plus le domaine d'information est étendu, plus il est important de trouver une méthode efficace pour définir des domaines de recherche plus étroits. Une des causes principales du "bruit" est constituée par les homographes, c'est-à-dire par des mots qui ont la même écriture mais des sens différents. L'avantage de rechercher dans un domaine spécifique est que des termes sont souvent ambigus si l'on considère plusieurs disciplines, mais ont rarement des sens multiples à l'intérieur d'une même discipline ou d'un domaine particulier.

Il y a des avantages à utiliser la classification dans l'environnement de Web où règnent des conditions différentes de celles de l'environnement imprimé. Dans les systèmes traditionnels, les données matière (y compris les indices de classification et les termes d'indexation) sont d'une manière typique attachées à leur sources, soit sur les documents eux-mêmes (cotes sur le dos d'un livre) soit sur leurs substituts (notices de catalogage ou autres enregistrements de métadonnées comme le Dublin Core). En revanche, dans l'environnement du Web, ces données sont souvent séparées des - ou résident hors des - ressources elles-mêmes. A la place, une telle information peut être stockée dans des répertoires ou d'autres types d'interfaces qui relient les données sujet aux ressources, mais ne les affectent pas autrement ; des liens individuels sont faits depuis les sujets prévus dans l'organisateur de Web aux ressources elles-mêmes par les URL. L'avantage de " lier à " plutôt que de " stocker avec " est la flexibilité. Avec un système de liens, si une classification ou tout autre organisation matière est mise à jour, c'est seulement les liens qui peuvent devoir être changés : les pages et les sites web ne sont affectés en aucune façon. La reclassification n'est pas un problème. En outre, la portée et la profondeur de n'importe quel système peuvent être facilement ajustées sur la base de la garantie documentaire, qu'elle soit populaire, grand public, ou académique/scientifique. Par exemple, parmi les catégories communément trouvées dans les guides matière destinés au public figurent les automobiles, les divertissements, la famille, le sport, et les voyages, alors que les catégories le plus généralement trouvées dans les guides Web académique sont les sciences humaines, les sciences sociales, les sciences, la technologie, et le droit. En outre, les guides Web peuvent également être facilement adaptés aux besoins locaux ou régionaux, ou être modifiés selon les besoins d'une clientèle particulière.

L'utilisation de telles structures hiérarchiques ou classificatoires sur le Web est encore relativement nouvelle. Au fur et à mesure que les ressources web continuent à se développer, on peut s'attendre à la croissance et à l'amélioration correspondantes des manières de les organiser. Cependant, il n'est peut-être pas trop tôt pour envisager certaines des exigences fonctionnelles auxquelles doivent satisfaire les organisateurs du Web.

Les caractéristiques souhaitables peuvent être récapitulées comme suit ; un plan de classement conçu pour l'organisation des ressources web devrait être: (a) intuitif, logique, et facile à utiliser, avec des hiérarchies et des renvois d'équivalence clairement affichés et des intitulés usités et expressifs ; b) flexible, réglable, et extensible, pour refléter des environnements rapidement changeants et divers ; (c) utile dans une large gamme de configurations, et applicable sur une grande partie des sites qu'il vise ; et, (d) relativement facile à mettre à jour et à réviser.

La première question est de savoir s'il convient d'adapter une classification existante ou s'il faut en créer une nouvelle. Il ressort de la situation actuelle que ceux qui conçoivent et construisent des organisateurs du Web penchent vers des dispositifs basés sur leur propre compréhension des besoins et des habitudes de recherche de leurs utilisateurs.

Ce qui est en cause ici est la différence entre deux méthodes pour classer le contenu par catégories. Les schémas de classification familiers représentent typiquement une approche du haut vers le bas, commençant par l'univers entier ou un domaine entier de la connaissance, déterminant les classes principales sur des bases théoriques, et les subdivisant hiérarchiquement en niveaux de plus en plus spécifiques. Cette approche a été généralement utilisée lorsque l'arrangement résultant est créé sur mesure pour des spécialistes ou lorsqu'il est conçu avec à l'esprit une population diverse non homogène. L'autre approche est une opération du bas vers le haut qui commence par les termes ou les éléments spécifiques (pages de Web dans ce contexte) qui sont alors groupés et organisés, d'abord en un microcosme, et finalement, à mesure que la couverture s'étend, en macrocosme. Dans l'environnement du Web, où la plupart des guides par sujets ont été également conçus avec le grand public à l'esprit, beaucoup d'efforts récents pour classer les ressources Web semblent utiliser la dernière approche, ascendante.

La question de savoir quelle approche est susceptible de se révéler plus pertinente dans l'environnement Web n'a pas de réponse assurée. L'une ou l'autre approche mène à un système qui incarne la partition en domaines, la distinction général/spécifique, et un système de liens entre sujets - caractéristiques considérées comme importantes pour une recherche pertinente dans une collection très vaste de ressources.

Ce qui semble très probable, c'est que le temps prouvera que les systèmes descendants sont particulièrement appropriés aux domaines bien établis et fortement structurés ; alors que les systèmes ascendants, de leur côté, peuvent être particulièrement adaptés à la masse des matériaux divers et flottant qui constitue une si grande partie du Web.

Il semble probable, aussi, que l'approche ascendante fonctionne particulièrement bien pour les organisateurs personnalisés de Web, dont plusieurs ont émergé ces derniers mois. Un exemple est celui des "Dossiers de recherche faits à la demande" (Custom Search Folders) de Northernlight, un dispositif qui classe en larges catégories les résultats des recherches particulières.

La deuxième partie de cette présentation consiste en un rapport sur un projet de recherche sur le développement d'une organisation de la connaissance et d'un mécanisme d'accès personnalisés.

Partie II KNOWLEDGE CLASS (Xia Lin et Lois Mai Chan)

But, objectifs, et caractéristiques de Knowledge Class

Le but de ce projet de recherche est de créer et de tester un dispositif appelé "Knowledge Class", conçu pour personnaliser l'organisation et l'accès à la connaissance afin de compléter les dispositifs existants pour les utilisateurs du Web.

Dans un article largement cité, paru dans le Scientific American (mars 1997), Clifford Lynch suggère que "la combinaison des qualifications du bibliothécaire et de l'informaticien peut aider à organiser l'anarchie de l'Internet". Dans notre projet, nous avions exploré la possibilité de combiner des méthodes existantes d'organisation de la connaissance avec la technologie avancée du Web pour créer un cadre facile à utiliser pour les utilisateurs individuels.

Des résultats préliminaires ont été rapportés dans la littérature récente (Lin et Chan 1997). Dans cette présentation, nous récapitulerons brièvement les caractéristiques principales et rendrons compte des derniers progrès.

Knowledge Class contient deux composants de base : un cadre d'organisation et une interface pour l'accès aux ressources du Web et leur récupération.

Le cadre d'organisation est un mini-thésaurus classifié, se composant d'une collection de termes hiérarchiquement structurée sur un sujet ou une discipline spécifique intéressant un utilisateur individuel. L'interface sert de mécanisme interactif entre l'utilisateur et les termes dans le cadre organisé ainsi qu'entre l'utilisateur et les ressources du Web.

Par ce dispositif, l'utilisateur peut lancer des recherches en choisissant les termes d'affichage ou en utilisant des stratégies de recherche préenregistrées, qui souvent contiennent des synonymes et peuvent également connecter aux sites précédemment découverts en cliquant sur des liens aux URL préenregistrés.

Dans Knowledge Class, nous essayons de retrouver certains des avantages des méthodes traditionnelles pour une mise en mémoire et une recherche efficaces et pertinentes de l'information et de les appliquer à l'environnement du Web.

Spécifiquement, trois aspects sont considérés :

  1. Les principes de classification pour l'organisation de l'information et l'affichage des relations entre sujets ;
  2. Les caractéristiques du vocabulaire contrôlé, en particulier le contrôle des synonymes et des homographes afin d'améliorer le taux de rappel et la précision ; et,
  3. Les stratégies de recherche formulées et préenregistrées pour optimiser les résultats de recherche et son actualisation.

Nous avons entrepris de concevoir Knowledge Class de telle manière qu'il :

  • organise des concepts et des termes sur un sujet spécifique en une structure logique montrant des rapports entre les sujet ;
  • facilite la navigation entre les termes sujets et leurs relations ;
  • mémorise les termes et les stratégies de recherche, de sorte qu'ils soient disponibles pour un usage futur ;
  • permette l'ajout de synonymes pour un meilleur taux de rappel et des qualificatifs afin de résoudre les ambiguïtés ou de distinguer parmi des homographes ;
  • lance des recherches en utilisant des termes et des stratégies préenregistrés dans un moteur de recherche choisi ; et,
  • mémorise les URL de sites spécifiques, dans l'optique d'un usage futur.

En d'autres termes, nous espérons faire franchir au service d'information une étape de plus, au-delà de ce qui a été disponible jusqu'ici. Dans la recherche en ligne, l'accent a surtout été mis sur les résultats de la recherche, et cela à juste titre. Mais, après recherche, il est également nécessaire d'organiser l'information en rapport, et de l'enregistrer dans un certain sens en vue d'une utilisation et d'une réutilisation futures. Ceci peut être fait en fournissant les moyens de revisiter les sites et, également important, en retraçant les étapes employées pour trouver les ressources en premier lieu.

Améliorer la navigation par sujets et la précision des résultats sont nos deux buts principaux.

Dans la première étape de notre travail [ Lin et Chan 1997 ], nous avons présenté notre dispositif analogue à un mini-thésaurus. Nous avons souligné que : (1) une structure de la connaissance peut être établie selon les principes de la classification et de l'organisation bibliographique ; (2) la structure de la connaissance pourrait être intégrée sans problème à des moteurs de recherche pour l'accès aux ressources du Web ; et, (3) une interface graphique facile à utiliser devait être construite pour supporter des interactions d'utilisateur non seulement avec la structure d'organisation mais avec les ressources appropriées découvertes et récupérées par des moteurs de recherche.

Conception de système pour Knowledge Class

Un avantage de conduire la recherche sur le Web est que des systèmes-prototypes peuvent être conçus et testés graduellement dans l'environnement réel. Nous avons commencé avec un codage HTML simple pour expérimenter l'idée de Knowledge Class tel que nous l'avions initiallement envisagée. Pendant la mise en place et les tests, nous avons sans cesse mis à jour les fonctions et lui avons ajouté de nouvelles caractéristiques.

A mesure que nous en avons appris et compris davantage de ses performances, nous avons commencé à le mettre en application dans des langages système plus sophistiqués et plus robustes tels que JavaScript et Java. C'est ce processus d'apprentissage par l'expérience qui a aidé l'évolution de Knowledge Class.

Principes de Conception

Dès le début, nous nous sommes fixés plusieurs buts pour la conception de Knowledge Class.

Le projet a commencé par la recherche d'un dispositif ou d'un système qui fournirait un équilibre optimal entre indexation automatique et indexation manuelle en établissant le cadre de l'organisation. Notre premier principe de conception était de maximiser les avantages à la fois de l'indexation manuelle et de l'indexation automatique.

Deuxièmement, nous voulions concevoir une interface facile à utiliser pour Knowledge Class. Le système devrait être utilisable par, et utile à un large gamme d'utilisateurs.

Les bibliothécaires et les spécialistes de l'information peuvent vouloir créer des classes de connaissance pour leurs clients. Les utilisateurs peuvent vouloir employer Knowledge Class à la place des signets simples des navigateurs. Les enseignants peuvent employer des classes de connaissance pour couvrir des sujets qu'ils enseignent et les élèves peuvent les employer pour explorer des sujets étudiés en classe et pour augmenter leurs connaissances en ajoutant des termes de recherche aux classes de connaissance et en les reliant aux ressources du Web. Nous voulons que tous ces utilisateurs puissent utiliser le système avec une courbe d'apprentissage minimale,

Troisièmement, nous voulons que les utilisateurs n'aient pas à apprendre la syntaxe détaillée de la construction des requêtes, n'aient pas à mémoriser la page d'accueil de chaque moteur de recherche, et n'aient pas à construire des stratégies de recherche complexes.

Si Knowledge Class fournit un mini-thésaurus aux utilisateurs, ce qui le rend vraiment utile est sa connexion aux moteurs de recherche. Le système devait effectuer autant de travail que possible en coulisse. Il devait se connecter directement aux moteurs de recherche, ajouter automatiquement des synonymes aux requêtes de recherche, et fournir des stratégies de recherche différentes pour des termes différents. Surtout, le système devait faire tout cela d'une manière transparente aux utilisateurs, de sorte qu'ils puissent se concentrer sur la sémantique et la teneur des sujets lorsqu'ils utilisent Knowledge Class.

Processus itératif de conception

La conception de Knowledge Class est passée par trois étapes.

Premièrement, un cadre de base a été conçu en HTML pour inclure quatre fenêtres.

La première fenêtre affiche toutes les branches dans une classe de la connaissance. La deuxième fenêtre est pour chaque branche dans une structure arborescente extensible/contractile, une branche seulement étant affichée à la fois. La troisième fenêtre est la fenêtre principale pour l'affichage des résultats de recherche. La quatrième fenêtre est pour l'affichage et le changement des moteurs de recherche. Les quatre fenêtres sont sur une page HTML et peuvent être facilement chargées sur des navigateurs Web.

Dans la deuxième étape, nous avons travaillé avec un groupe d'étudiants en bibliothéconomie de l'université du Kentucky. Chaque étudiant a développé une classe de la connaissance en utilisant le cadre de base que nous avions fourni.

Pendant cette étape, nous avons constaté que des stratégies de recherche différentes devaient être développées pour des types de recherches différents. Par exemple, certains des termes doivent être recherchés en tant qu'unitermes, d'autres seraient bien mieux recherchés en tant qu'expressions, et d'autres encore doivent être recherchés avec des termes contextuels supplémentaires pris dans des niveaux plus élevés dans la hiérarchie de la classe de la connaissance.

A travers de nombreux essais, un système de codage a été développé pour faciliter l'attribution d'une stratégie spécifique de recherche à chaque terme.

Une entrée dans une classe de la connaissance ressemble typiquement à :

--, mutual funds, mutual-funds Investment trusts Uni-trusts, http://www.brill.com, 1 (NB. "mutual funds" = aussi bien FCP que SICAV selon la terminologie US)

Il y a cinq parties dans cette entrée, chacune séparée par une virgule. Dans la première, le nombre de tirets indique le niveau hiérarchique du terme. La seconde est le terme d'affichage (ce qui apparaîtra sur la structure arborescente). La troisième correspond aux termes de recherche, qui peuvent inclure de nombreux termes synonymes ou connexes au terme d'affichage. La quatrième est un lien direct; s' il est présent, une icône de "lien" est affichée pour permettre à l'utilisateur de cliquer dessus pour accéder directement à la page. La cinquième, nombre final dans l'entrée, est la stratégie de recherche sous forme codée.

La liste complète des stratégies de recherche codées est discutée dans Lin et Chan (1997).

Dans la troisième étape, nous avons encore amélioré la conception en mettant en application une version Java de Knowledge Class.

Dans cette version, les structures des fenêtres ont été remodelées pour faciliter le passage d'une branche à l'autre sans devoir recharger la page entière. Tirant profit de la puissance graphique de Java, nous avons placé dans un cadre succinct ce qui était dispersé dans trois fenêtres distinctes : toutes les branches dans une classe de la connaissance, les structures arborescentes pour chaque branche, et les moteurs de recherche de Knowledge Class. Avec l'espace d'écran économisé, nous avons pu ajouter un autre niveau d'affichage - une liste de toutes les classes de la connaissance créées jusqu'ici.

Une autre amélioration importante de cette version est la séparation des fichiers-programmes et des fichiers de données. Dans les versions antérieures, le JavaScript et les entrées du mini-thésaurus devaient être inclues sur la même page HTML, ce qui rendait difficile pour l'utilisateur la modification ou le changement du mini-thésaurus sans une bonne compréhension de JavaScript. Avec Java, la programmation est complètement compilée et séparée des données du mini-thésaurus. L'utilisateur peut ainsi créer, ajouter ou modifier n'importe quels contenu et structure dans le fichier de données sans aucune connaissance des programmes.

Support multilingue

Tandis que nous concevions la structure de données, nous avons trouvé un autre avantage à séparer les termes d'affichage des termes de recherche. Notre idée initiale était de rendre la connexion aux moteurs de recherche plus flexible et de faciliter la construction des requêtes. Nous avons constaté que ce dispositif s'est avéré particulièrement utile pour développer des classes de la connaissance multilingues.

Tandis qu'elle construisait une classe de la connaissance sur le Pays de Galles, une de nos étudiantes a développé un mini-thésaurus classifié bilingue avec des termes anglais et gallois.

Pour les pages affichant des termes en gallois, elle souhaitait que les recherches pussent être conduites dans les deux langues. Avec la séparation des termes d'affichage et des termes de recherche, ceci est facile à mettre en application - elle a simplement inclus des termes en anglais et en gallois dans la classe de la connaissance, et les moteurs de recherche pouvaient alors rechercher des pages web dans les deux langues. Nos essais ont montré qu'il s'agissait là d'une approche très pertinente pour fournir le support multilingue.

Un exemple d'une classe multilingue de la connaissance est Complementary & Alternative Medicine (CAM), qui affiche la partie pour la médecine chinoise en chinois. Nous avons développé cette branche à la fois en anglais et en chinois (GB) (NB. "(GB)" = GuoBiao, National Standard of the People's Republic of China) et fourni des liens pour le passage de l'un à l'autre. Dans la version chinoise, chaque terme de recherche inclut des équivalents anglais et chinois. Ainsi, pour les moteurs de recherche qui acceptent le codage chinois GB, les résultats de recherche incluront les pages anglaises et chinoises.

Nous avons trouvé cette classe de la connaissance particulièrement utile pour les chercheurs qui ont une connaissance limitée d'une langue particulière mais souhaitent pouvoir accéder aux matériaux en cette langue. Par exemple, les chercheurs américains en matière de médecine traditionnelle chinoise ont généralement quelque connaissance du chinois, mais peuvent ne pas se sentir assez à l'aise pour naviguer ou pour écrire des requêtes de recherche en chinois.

En utilisant cette classe de la connaissance, ils peuvent naviguer dans la version anglaise, puis passer à la version chinoise pour la récupération, ou ils peuvent cliquer sur les termes anglais et cependant pouvoir récupérer des ressources pertinentes en chinois. Cette caractéristique rend l'accès multilingue aux ressources du Web à la fois possible et efficace.

Knowledge Class est un projet continu, que nous projetons de continuer à améliorer, pour en faire un outil utile pour l'accès matière aux ressources du Web.

Nous croyons que, pour la recherche pertinente, les ressources du Web doivent être organisées en "unités d'information", et non en pages physiques individuelles. Ce qui est analogue au catalogage dans les bibliothèques : pour la maniabilité et l'efficacité, on catalogue au niveau des monographies ou des périodiques, pas au niveau des chapitres ou des articles. Nous construisins Knowledge Class pour faire de telles unités d'information.

A l'avenir, un "méga" moteur de recherche devra seulement indexer au niveau de ces "unités d'information". Avec ce dispositif, les utilisateurs trouveront d'abord les unités d'information appropriées et accéderont ensuite aux pages web individuelles.

Les plans pour le futur proche incluent :

1. Nous espérons recruter davantage de personnes pour créer des classes de la connaissance sur une grande variété de sujets. Nous fournirons le logiciel gratuitement pour encourager la coopération. Nous espérons particulièrement impliquer davantage de professionnels de l'information, et faire participer à leur création des bibliothécaires, des spécialistes en information, des étudiants en bibliothéconomie et des membres du corps enseignant. Quand plus de personnes auront été impliquées, un Comité consultatif pourrait être formé pour conduire et réviser le processus et pour assurer la qualité des classes de la connaissance dans l'ensemble créé.

2. Nous projetons de développer des directives écrites à la fois pour les professionnels de l'information et pour les utilisateurs intéressés par ces classes de la connaissance.

Pour les professionnels de l'information, l'accent sera mis sur la façon d'appliquer les principes et les techniques de la classification et de la recherche documentaire pour la création des classes de la connaissance, et sur la façon d'adapter des stratégies de recherche différentes pour des entrées différentes. Pour les utilisateurs, l'accent sera mis sur la façon de modifier une classe existante de la connaissance pour satisfaire leurs objectifs personnels.

3. Nous comptons améliorer encore plus le logiciel. Actuellement, les données doivent être éditées dans un éditeur de texte et les utilisateurs ne peuvent pas changer les stratégies de recherche en ligne. Dans la prochaine version, l'utilisateur sera équipé d'outils pour ajouter des termes aux entrées dans la structure hiérarchique, pour ajouter des synonymes à la liste de termes de recherche, et pour changer les stratégies de recherche, etc. Un outil "auteurs" sera également développé de sorte que la classe complète de la connaissance puisse être développée et testée dans un environnement graphique.

Partie III : L'approche matière multilingue (Marcia Lei Zeng)

Le phénomène des langues multiples utilisées pour la représentation des données sur le Web réclame des moyens pour résoudre le problème des utilisateurs confrontés en même temps à des langages connus et inconnus d'eux. Dans le passé, la plupart des moteurs de recherche étaient orientés vers l'indexation des pages dans les langues d'Europe occidentale. Presque toutes les interfaces de recherche étaient en anglais et privilégiaient souvent les nouvelles ou autres événements intéressant un public américain. Maintenant que les connexions Internet prolifèrent et que les Intranets envahissent les réseaux d'entreprise, le champ des données disponibles augmente radicalement. Depuis 1998, les moteurs de recherche du Web sont entrés en concurrence à l'échelle mondiale et locale. Le traitement multilingue a émergé comme une question clé dans l'évolution des technologies de ces moteurs de recherche.

Services Multilingues des principaux moteurs de recherche

Pour servir les populations multilingues et multi-culturelles partout dans le monde, les principaux moteurs de recherche, tels qu'AltaVista, Excite, HotBot, InfoSeek, et Yahoo! ont développé de nouveaux services fonctionnant comme des guides régionaux de recherche, qui sont ici récapitulés :

Filtrage par domaine. Habituellement chaque pays a son propre code domaine sur l'Internet, par exemple, .uk pour le Royaume-Uni. Le moyen le plus simple pour créer un guide à contenu régional est de filtrer par domaine. Les résultats sont généralement obtenus à partir des listes principales mais filtrés par domaine. Les services typiques de ce genre sont Global Excite (qui inclut l'Australie, la Chine, la France, l'Allemagne, l'Italie, le Japon, les Pays-Bas, la Suède et le Royaume-Uni), InfoSeek International (couvrant Brésil, Danemark, Allemagne, Espagne, France, Italie, Japon, Mexique, Pays-Bas, Suède et Royaume-Uni), et Lycos in (Allemagne, Royaume-Uni, France, Pays-Bas, Italie, Suisse, Belgique, Suède, Espagne, Japon et Corée).

Détection de domaine. Dans ce cas, le moteur de recherche détecte le pays d'origine du visiteur et présente une page d'accueil personnalisée qui est habituellement confectionnée avec des informations spécifiques.

Sites miroir. Ce sont les sites de moteurs de recherche physiquement situés en dehors des Etats-Unis. Ils peuvent apporter de meilleures réponses, puisqu'ils sont isolés du trafic intense des Etats-Unis et des problèmes liés à la traversée des océans et aux longues distances.

Recherche Spécifique par langue. Quelques services dépassent les frontières nationales et visent plutôt ceux qui parlent une même langue. AltaVista et Northern Light offrent tous deux des services tels que la recherche de documents dans des langues en particulier, ce qui est différent du filtrage par domaine (où les recherches sont limitées à un code domaine de pays, tel que .uk) puisque l'approche est alors complètement basée sur le contenu. AltaVista stocke ainsi l'information des pages dans les différentes langues dans un index unique, indépendamment des jeux de caractères dans lesquels cette information est écrite.

Recherche multilingue. AltaVista propose également une recherche multilingue à travers sa technologie "One World" qui vise particulièrement ceux qui parlent des langues asiatiques. Fondamentalement, AltaVista traduit toute page trouvée en Unicode, code capable de stocker les caractères de toutes les langues. Et le chercheur peut demander la traduction d'une requête, ou d'une page web entière, à partir de la langue ou vers la langue qu'il souhaite utiliser pour la recherche ou la lecture.

Interfaces régionales. Créer une interface régionale peut revenir simplement à présenter le même moteur de recherche dans la langue appropriée pour un pays particulier. Il y a plusieurs façons de fournir ce service. Dans le cas des répertoires matière, les utilisateurs peuvent parfois voir une page complètement traduite de l'anglais, sans le moindre changement dans le contenu ou l'ordre des catégories. Dans d'autres cas, les utilisateurs peuvent voir un affichage bilingue du répertoire, par exemple un répertoire matière à la fois en anglais et en japonais. Afficher un répertoire basé sur le texte japonais exigerait qu'un jeu de codes des caractères locaux soit chargé dans une machine de site client. Afin d'éviter une telle contrainte, certains répertoires fournissent un affichage basé sur l'image graphique. Les interfaces régionales peuvent aussi avoir différents contenus et affichages.

Répertoires matière localisés. Au lieu d'être un ensemble d'interfaces régionales simples produits de versions translittérées ou traduites d'un répertoire global ou d'une version américaine d'un répertoire matière, les répertoires localisés sont des versions adaptées qui reflètent les intérêts locaux. Ces répertoires sont réalisés en utilisant les langues locales pour le répertoire entier, en définissant et en nommant les catégories sur la base d'une convention locale, en présentant ces catégories selon les intérêts locaux et en incluant les catégories qui rassemblent les centres d'intérêt locaux. World Yahoo! propose ainsi 19 versions de son répertoire, couvrant les Amériques, le Pacifique, et l'Europe.

Les répertoires matière du Web dans un environnement multilingue

En introduction à cet article, Prof. Chan a fait l'inventaire des principaux points à considérer pour concevoir un organisateur de Web utile : étendue des thèmes et profondeur de la hiérarchie, définition et appellation des catégories, structure logique, facettes clairement définies, ordre des citations, classification inverse, index alphabétique, terminologie des intitulés, et indices.

Parmi les moteurs de recherche bien connus et les répertoires matière du Web, Yahoo! a été le premier des organisateurs du Web, et a appliqué avec succès la structure de classification à son service tout entier. Il y a un an environ, d'autres grands moteurs de recherche ont aussi adopté la méthodologie du répertoire matière en utilisant leur structure de " classification populaire".

Une analyse de ces services sur les bases des points soulignés par Lois Chan a montré qu'ils utilisent des approches diverses. Cette partie de l'article discutera certaines caractéristiques liées aux services multilingues de quelques moteurs de recherche. La plupart des exemples proviennent du répertoire matière World Yahoo! et ont été recherchés le 12 février 1999. En fait, plusieurs des phénomènes trouvés et ici discutés existent également dans les services d'autres moteurs de recherche, tel le répertoire par sujets de Northern Light et les les catégories principales d'InfoSeek.

1. Agencement alphabétique des catégories

World Yahoo! propose près de 20 versions de son répertoire unique pour différents pays et régions partout dans le monde. Le répertoire divise toutes les ressources du Web en 14 caté gories principales et a pratiquement inclus tous les thèmes. Certain noms/intitulés et traitements des répertoires principaux dans les versions non anglaises (par exemple Yahoo! France) peuvent différer de ceux de la version globale (également connue sous le nom de version US). Parce que la classification Yahoo! n'utilise aucun indice, l'ordre alphabétique devient l'organisation naturelle et unique de toutes les catégories et de leurs sous-catégories. Aucun ordre systématique ou logique des catégories n'est appliqué Un processus complet de navigation est toujours nécessaire pour localiser un sujet particulier sur Yahoo!

Cela cause inévitablement une incohérence de l'ordre des catégories à travers les différentes versions du répertoire qui ne sont pas en anglais. En d'autres termes, bien que tous les répertoires régionaux aient les mêmes 14 catégories principales, les versions espagnole, française, italienne et allemande auront un ordre différent pour ces catégories, selon leurs propres alphabets. Pour les langues en caractères non romain, tel le chinois par exemple, il semble y avoir des systèmes différents d'organisation : non alphabétiques, mais pas systématiques non plus.

2. Mise en oeuvre du principe de garantie documentaire

Fondamentalement, les répertoires matière du Web suivent le principe de garantie documentaire. La profondeur des hiérarchies y dépend de la quantité des sources d'information web dans un domaine particulier. Yahoo! peut ainsi subdiviser des sous-catégories en trois niveaux hiérarchiques (par ex : "Arts : Design Arts : Color Theory" (NB. sur Yahoo! France = "Arts et culture : Arts graphiques : Théorie de la couleur") ou en neuf niveaux (par ex. : "Business and Economy : Companies : Computers : Software : Internet: World Wide Web : HTML Editors : MS Windows : HTML Assistant" (sur Yahoo! France = "Commerce et économie : Sociétés : Informatique : Logiciels : Internet : World Wide Web : Editeurs HTML ", la hiérarchie n'allant pas plus loin.)

La garantie documentaire conduit aussi aux décisions concernant l'inclusion et l'exclusion des sous-catégories dans un domaine. Quand il utilise les répertoires régionaux de Yahoo!, l'utilisateur peut limiter les résultats à une seule région sélectionnée. Par exemple, en utilisant Yahoo! UK&Ireland , on peut demander qu'une recherche soit limitée au Royaume-Uni seulement. Il est courant, à ce stade, de constater une différence dans la profondeur des hiérarchies et un nombre différent de sous-catégories dans le résultat final, parce que c'est la situation pratique des sites web dans cette région qui en décide. (Cf. les affichages sous "Religions : Faiths and Practices" dans les différents répertoires régionaux de Yahoo!) Les domaines concernant la culture, la société, les systèmes politiques et juridiques, les affaires, la santé, etc. représentent le traitement le plus dynamique guidé par le principe de garantie documentaire.

3. Flexibilité dans la prise en compte des intérêts locaux

Tout en essayant de conserver une structure de classification unique et normalisée, les répertoires matière du Web ont aussi montré beaucoup de moyens possibles pour refléter les intérêts locaux. Tout d'abord, des catégories principales particulières peuvent être présentées en position significative si nécessaire. Habituellement, toutes les catégories principales sont en effet affichées selon l'ordre alphabétique et non selon un ordre logique. Mais c'est cependant sans surprise que, pendant la période de la Coupe du monde de football (été 1998), Yahoo! France a déplacé la catégorie "Sport" vers le premier rang, accordant ainsi à l'événement un emplacement très significatif.

En second lieu, les sous-catégories affichées sous chaque catégorie principale changent d'un pays à l'autre et de temps en temps. (Voyez les différences dans l'affichage des sous-catégories de "Arts & Humanities" selon les répertoires régionaux de Yahoo!) Par exemple, sous la catégorie "Arts et sciences humaines", les répertoires régionaux ont donné la priorité à des sous-catégories à afficher à des endroits significatifs. Ces sous-catégories ont été choisies parmi des douzaines dans la classification. Les choix changent en fonction des services régionaux. Il est important de noter que les sous-catégories énumérées sous les catégories principales peuvent ne pas être leurs subordonnés immédiats. (Voyez les exemples de "Mode", "Littérature", "Photographie" dans les différents répertoires régionaux de Yahoo!) La priorité accordée à ces "petits-enfants", subordonnés du dernier niveau, reflète l'importance des intérêts locaux et indique la flexibilité avec laquelle des niveaux hiérarchiques et rapports d'appartenance peuvent être cassés quand un sujet est plus important que sa position logique dans une structure de classification.

Un autre phénomène intéressant à noter est le traitement des noms/intitulés d'une catégorie. (Voyez les sous-catégories affichées sous "Business & Economy" dans les différents répertoires régionaux de Yahoo!) Il serait également très intéressant d'observer comment les intitulés sont traités. Dans la présentation formelle de la catégorie sous "Business & Economy", "Employment" est préféré à "Jobs", et on utilise "Finance and Investment" au lieu de "Finance" ou de "Investment". Un examen du répertoire présente beaucoup d'exemples semblables. Ceci signifie que la liste des sous-catégories choisies pour la page principale ne suit pas une règle stricte pour les afficher selon leur nom ou intitulé "officiel".

Troisièmement, dans les répertoires matière du Web, il y a beaucoup de traitements de classification inverse. Par exemple, "Taxes" est listé sous 93 catégories dans Yahoo!, 122 catégorie si l'on cherche dans les sites "Canada seulement", 5 dans "UK seulement", 2 dans "Australie seulement", un dans "Singapour", et zéro dans "HongKong seulement". Savoir si les impôts sont un sujet d'un intérêt local important peut être déterminé à partir de sa liste sous les catégories principales. Dans l'exemple ci-dessus, "Taxes" apparaît à un endroit significatif sous la rubrique "Business & Economy" du répertoire Yahoo! UK&Ireland. Il est également listé sous la catégorie "Government" dans le répertoire "USA-oriented Yahoo!", au même titre que "Military", "Politics" et "Law", ce qui indique l'importance de cette question au sein des activités courantes du gouvernement des Etats-Unis.

NB. En guise de test multilingue, la fin de cette traduction a directement été faite grâce au service de traduction en ligne offert par AltaVista. Bonne lecture et vive le multilinguisme…

http://babelfish.AltaVista.com/cgi-bin/translate?

4. Limitations des dispositifs de recherche dépendants du langage

Excepté Yahoo!, ce qui reçoit des soumissions par des créateurs de webpage et ce qui a son personnel pour évaluer les descriptions des websites manuellement, la plupart des moteurs de recherche utilisent un traitement automatique dépendant du langage des websites pour ranger ou grouper des ressources basées sur des étiquettes de méta (telles que des limites soumises, les mots-clés, résumés étiquette dans l'élément), des titres de page et des fréquences de mot.

La limitation de telles peser automatique et approches groupantes dans un environnement de non-English est évidente. Les webpages de Non-English peuvent fournir le metadata et le titre en anglais, mais la recherche et l'affichage basé sur ces éléments auront comme conséquence des documents de non-English étant mélangés aux documents anglais. Dans la plupart des cas, sans installer les codes de caractère, un web browser ne permettra pas lire par exemple les caractères asiatiques est. Par conséquent, un tel affichage des langages mélangés perd seulement le temps d'un utilisateur puisqu'aucune teneur de ces liens ne pourrait être lue ou comprise.

En outre, beaucoup de moteurs de recherche utilisent la fréquence de mot comme paramètre important dans l'identification et classifier automatiques du contenu de webpage.

AltaVista " raffinent " la théorie groupante automatique d'utilisations de dispositif basée sur l'Co-occurrence de mot. En analysant les mots qui Co-se produisent avec les mots recherchés dans un document, des documents sont automatiquement groupés. Les résultats sont affichés par une liste montrant des limites groupées selon le compte d'Co-occurrence, ou comme carte montrant des limites et leurs rapports. Un utilisateur peut plus loin raffiner une stratégie de recherche en incluant ou en excluant les groupes particuliers de mots de sorte qu'une précision plus élevée de recherche puisse être réalisée. Cependant, ce dispositif est imité aux documents dans langages anglais et quelques occidentaux; par exemple pour le chinois, bien qu'AltaVista permette la recherche spécifique à une langue, il s'applique seulement aux requêtes simples de base de forme, pas au prochain ' raffinent ' l'étape.

La lumière nordique fournit un dispositif connu sous le nom de " chemises faites sur commande de recherche " pour des stratégies de recherche de raffinage. Le service réclame que ses chemises ne sont pas pré-établies, un-taille-adapter-tout, comme d'autres répertoires de Web.

Plutôt, chaque fois une recherche a exécuté sur la lumière nordique, il crée une série de chemises faites sur commande de recherche basées sur la recherche individuelle. Un utilisateur peut choisir les sujets, les types, les sources, et les langages qu'il veut l'explorer. Basé sur le nombre de documents dans chaque chemise et leur pertinence avec une requête, le Search Engine détermine et suggère quelles chemises faites sur commande de recherche seront les plus utiles à un utilisateur. Néanmoins, seulement cinq langages occidentaux sont servis actuellement.

Conclusion

La route vers un accès soumis interlinguistique entièrement fonctionnel est optimiste et sophistiquée. Beaucoup d'autres questions techniques aussi bien que les issues sociales et culturelles doivent également être abordées; celles-ci incluent le support de codage de caractère, la traduction linguistique d'interface utilisateur, support des formats de données culture-spécifiques (date, devise, etc.), modification graphique d'interface utilisateur (couleur, images), support étranger de produits (par exemple bases de données), et compatibilité de système d'exploitation. En résumé, il y a eu un besoin croissant des mécanismes pertinents d'organiser des ressources de Web pour l'exploration, la découverte, et la recherche. L'approche multilingue pour soumettre l'accès, comme démontré par les moteurs principaux de recherche de Web et les répertoires soumis, a exploré de diverses voies de mettre en application la structure hiérarchique ou classificatory. Ces nouveaux services ont également autre progressé au delà des conventions de la classification traditionnelle. Ayant l'avantage d'enregistrer une classification en dehors des ressources ou de leurs substituts, ces services Web-web-based peuvent être très flexibles en arrangeant et en affichant des catégories et leurs intérêts locaux de rapports, et de se refléter dans un répertoire soumis. Le principe de la garantie littéraire est entièrement fonctionnel dans les pratiques des répertoires de sujet de Web. Il restent beaucoup de limites quand la structure soumise de classification et les méthodologies groupantes automatiques sont utilisées dans le traitement multilingue. Comment assurer le globalization et la localisation dans un environnement de croix-langage et de croix-culture en même temps? La question demeure sans réponse par les technologies et les théories disponibles.""

Références

Batty, David. (1998) WWW -- wealth, weariness or waste: controlled vocabulary and thesauri in support

of online information access. D-Lib Magazine (http://www.dlib.org/dlib/november98/11batty.html).

Chan, Lois Mai. (1995). Classification, present and future. Cataloging & Classification Quarterly, 21(2), 5-17.

Koch, Traugott, Michael Day, and others. The role of classification schemes in Internet resource description and discovery. ({hyperlink http://www.ukoln.ac.uk/metadata/desire/classification/)}

Lester, Dan. (December 1995). Profile of a Web database," Database 46-50

Lin, X. & Chan, L. M. (1997). Knowledge Class - A dynamic structure for subject access on the web. Proceedings of the 8th ASIS SIG/CR Classification Research Workshop. (November 1, Washington, D.C.). pp. 31-40.

Lynch, Clifford Lynch. (1997). Searching the Internet. Scientific American 276(3), 52-56.

Search engine watch. Compiled by Danny Sullivan. Retrieved February 12, 1999 from the World Wide Web: {hyperlink http://searchenginewatch.com/ }

Vizine-Goetz, Diane. Using library classification schemes for Internet resources

(http://www.oclc.org/oclc/man/colloq/v-g.htm)

*    

Latest Revision: July 27, 1999 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org