61st IFLA General Conference - Conference Proceedings - August 20-25, 1995

Normes et édition électronique

Catherine Lupovici, Jouve Système d’Information, Paris, France

PAPER

Introduction

La normalisation, qu’elle soit réalisée par des standard de fait ou par des normes internationales, est très active dans tous les domaines qui supportent l’émergence des publications électroniques. E lle touche tous les niveaux de codage de l’information multimédia pour sa création, son exploitation par ordinateur et sa communication par les réseaux de télécommunication.

Codage du contenu

Le contenu informationnel multimédia est codé selon les différentes composantes monomédia de l’information et est constitué de codage du texte, des graphiques, des images fixes, du son de la vidéo.

Le codage du texte ou mode caractères permet de coder les signes de tous les systèmes d’écriture. Il permet seul la recherche sur le contenu textuel d’un document ainsi que la réutilisation de l’inf ormation dans un traitement de texte. Aujourd’hui les systèmes informatiques dont nous disposons utilisent une variété importante de tables de codes selon les différents secteurs d’applications. En p articulier le monde bibliographique de l’information secondaire utilise pour ses échanges, en plus des codes de bases de l’écriture latine , une série de codes qui lui sont propres . Ce codage spécif ique répond aux besoins des catalogues de bibliothèques qui décrivent des publications dans toutes les langues du monde. Ils doivent également gérer les signes diacritiques associés aux lettres latin es pour supporter la translittération des systèmes d’écriture non latine en écriture latine qui est pratiquée notamment par les organisations internationales. Le monde de l’édition fonctionne avec un e autre série de codes et s’intéresse de plus à la typographie associée à la représentation textuelle et donc aux dessins et polices de caractères. Enfin le codage courant utilisé en micro-informati que et qui est souvent la base des échanges de textes en écriture latine est l’ASCII (American Standard Code for Information Interchange).
Les besoins d’échanges entre les applications ont conduit récemment à la mise en place d’un codage universel des caractères qui code chaque caractère de l’écriture à l’aide de quatre octets. Un sou s ensemble de ce code universel qui utilise seulement deux octets est connu sous le nom d’UNICODE. Bien que l’usage des codes universel conduise à multiplier par deux ou par quatre le stockage de l’i nformation codée en caractères, c’est un mode de codage peu volumineux et donc facile à transférer rapidement sur les réseaux. C’est sur ce codage que se fonde toute la recherche documentaire classiq ue qui peut porter sur l’information secondaire ou sur le texte intégral d’un document. Les systèmes informatiques dont nous disposons actuellement commencent seulement à offrir la possibilité de gér er les codes universels et nous entrons dans une phase de mutation sur ce plan.

Le codage en mode image, appelé aussi fac-similé ou mode photographique, code une reproduction d’une page effectuée en mode point (bitmap). Ce codage est fondé sur une résolution initiale choisie lor s de la reproduction. Les valeurs courantes de résolution appliquées dans les archivages sont 300 ou 400 dpi (dot per inch). Dans le monde de l’édition traditionnelle avec impression sur papier, les résolutions courantes sont de 600 à 1200 dpi, voire davantage pour des reproductions à caractère artistique.
Si le document reproduit est une photographie en noir et blanc ou en couleur, on va pour chaque point coder de plus des niveaux de gris ou les nuances des couleurs fondamentales constitutives de cha cun des points.
La place occupée par cette information est énorme et on associe toujours au codage des constituants du point le codage d’une méthode de compression de l’information. Le codage de la compression devr a être connu lors de l’utilisation de l’information pour en effectuer préalablement la décompression.
Les normes les plus utilisées aujourd’hui pour le codage des images noir et blanc sont les groupes III et IV des normes CCITT définies initialement pour le fax. Cependant la normalisation a été très active ces dernières années pour prendre en compte des besoins plus diversifiés tels que la couleur et des modes compression/décompression compatibles avec des exigences professionnelles ou grand pu blic. C’est ainsi qu’est apparue dans la norme JPEG (Joint Photographic Expert Group), la notion de compression sans perte (préservation-conservation) et de compression avec perte d’information (pro duits d’édition).
Enfin un standard de fait a été imposé par Kodak pour le codage de la photographie en couleur dans la réalisation des Photo-CD. Le standard Photo-CD comporte six niveaux de résolution de l’image pou r la réalisation de vignettes, d’écrans standards de téléviseur ou de micro-ordinateur, d’images haute résolution pour impression, d’images numériques professionnelles.
Malgré les méthodes de compression, ce codage de l’information reste très volumineux et par exemple la reproduction en groupe IV d’une page de texte est environ 50 fois plus volumineuse que le texte ASCII correspondant.
Des techniques de segmentation de l’image et de reconnaissance optique de caractères (OCR) permettent de coupler le fichier ASCII du texte avec l’image des pages. Cette technique permet actuellement pour les articles de périodiques numérisés d’offrir l’image des pages pour l’affichage et l’impression et le texte ASCII pour la recherche en texte intégral.

Le codage graphique code des éléments géométriques combinés avec des attributs de taille, de direction dans le plan ou dans l’espace, de couleur, etc. On parle également de codage vectoriel. Sa norma lisation est assez stable actuellement. On utilise ce mode de codage principalement dans le dessin industriel et donc dans la documentation technique. Il est moins consommateur de place que le mode i mage et est parfois couplé au mode image pour en effectuer l’archivage. On réalise dans ce cas la vectorisation des images au moment du stockage. L’utilisation prometteuse de ce mode de codage des de ssins est la manipulation des images en trois dimensions que l’on peut imaginer appliquer aux formules de chimie par exemple.
La norme courante des images en deux dimensions est CGM (Computer Graphic Metafiles)

La normalisation du codage de l’image et du son est actuellement très active en raison des enjeux du multimédia. Elle aborde de manière globale le son et l’image animée et vise à la compatibilité ave c l’image fixe. La norme MPEG (Moving Picture Expert Group) couvre le codage du son, de l’image animée et de la vidéo. La norme comportera à terme quatre niveaux de codage de manière à servir des be soins différents.
MPEG1 qui est disponible sert de support au Vidéo-CD et permet de stocker 74 mn de vidéo avec un son de qualité hi-fi. L’image plein écran est de qualité équivalente à un très bon VHS analogique.
MPEG2 est également disponible et permet avec des débits plus élevés une image d’excellente qualité ainsi que la transmission en parallèle de plusieurs émissions sur le même câble.
MPEG3 en cours de définition couvrira les très hauts débits et MPEG4 est prévu pour les bas débits des lignes téléphoniques et la vidéoconférence.

Codage de la structure

Il est utilisé pour traduire la structuration logique de l’information et/ou la forme physique constituée d’effets visuels et organisant la mise en forme dans l’espace de la page ou de l’écran. On di spose aujourd’hui d’une gamme de codages de structure qui ont été créés avec des objectifs spécifiques de production ou de distribution.

SGML (Standard Generalized Markup Language)
La famille des normes SGML a son origine dans le monde de l’édition et constitue une normalisation des différentes étapes de la chaîne de production électronique. Elle peut être représentée par le sc héma suivant :

Création  Structure  Structuration   Structure  Formetage   Structure  Présentation
--------> naturelle --------------->  logique  -----------> physique  --------------> Sortie

Les auteurs créent leur information en utilisant soit des traitements de texte, soit des outils plus élaborés comme TEX, développés par les scientifiques pour mieux traiter les formules de mathématiq ues.
Les éditeurs pratiquent ensuite, sur le manuscrit électronique ou lors de la saisie à partir du manuscrit de l’auteur, un codage de la structure logique du document. La codification logique est ensui te interprétée par un formatage physique et transformée dans une codification d’attributs visuels. Enfin la présentation et la mise en page sont effectuées et le document est codifié en langage de de scription de page. Cette décomposition permet la gestion de toutes les données, codées au niveau logique, dans une seule base de données polyvalente à partir de laquelle on pourra élaborer différents produits sur différents supports.
La famille des normes SGML définit des langages normalisés de codification des documents issus pour ces trois étapes de production. Ces langages normalisés permettent des échanges de données entre de s systèmes hétérogènes et des applications différentes. Ces normes sont :

SGML (Standard Generalized Markup Language) constitue la norme de base définissant le langage SGML
DSSSL (Document Style, Semantic and Specifications Language) est une norme définissant le langage, la méthode et la sémantique pour le formatage physique des documents structurés logiquement en SGML.
SPDL (Standard Page Description Language) est un langage normalisé de description de page pour coder la présentation des documents formatés.
SDIF (SGML Documents Interchange Format) permet l'échange de documents codés en SGML Glyph fonts definition and identification permet la gestion des polices de caractères.

Le langage SGML permet de décrire dans un document appelé DTD (Définition de type de Document) la structure logique générique d’une classe de document. Cette structure définit la hiérarchie des éléme nts logiques composant le document. Elle permet de qualifier des éléments par l’association d’attributs et de faire appel à des entités externes, ancrées à un endroit précis, et qui peuvent être des illustrations encodées en image ou en graphique. Le langage permet de décrire la structure des tableaux et des formules de mathématiques ainsi que la notation de liens hypermédias.
Un document encodé en SGML est une instance d’une DTD. Il comporte des balises encadrant chacun des éléments, qui peuvent ainsi facilement être identifiés et utilisés par un programme de recherche d’ information, ou pour effectuer une mise en forme d’affichage. On peut ainsi par exemple effectuer des affichages différenciés pour répondre aux besoins d’une communauté particulière d’utilisateurs te lle que les mal voyants.
Il existe des DTD standards définies dans des domaines particuliers tels que la documentation technique de l’aéronautique civile ou celle de l’industrie automobile. Dans le domaine de l’édition plusi eurs initiatives ont conduit à des DTD pour certains types de documents. La norme "Préparation et balisage de manuscrits électroniques" propose des DTD normalisées pour les livres, les publications en série, les articles de périodiques et les formules de mathématiques. Cette norme internationale est l’aboutissement de travaux réalisés aux Etats Unis dès 1983 par les éditeurs, les bibliothèques et les bases de données et dont les résultats sont connus sous le nom de Standard AAP (American Association of Publishers). Ces DTD génériques ont été conçues pour servir d’échange dans la chaîne de production et de distribution des publications électroniques. Elles peuvent être augmentées pour les besoins spécifiques de chacun des intervenants (éditeurs, bibliothèques ou bases de données par ex emple). Parallèlement à ces travaux de normalisation internationale, et sur des bases très proche, des éditeurs européens réunis dans le groupe de travail EWS (European Workshop on SGML) et représent ant essentiellement les besoins d’éditeurs scientifiques, techniques et médicaux, ont défini une DTD standard pour la structure de l’en-tête des articles de périodiques, MAJOUR (Modular Application f or JOURnals). Elle a été publiée en 1991 par l’éditeur Springer. Cette DTD comprend tous les éléments du signalement des articles de périodique que l’on retrouve dans les bases de données. Toutes ces DTD concernant les publications monographiques et périodiques sont assez proches et toutes conformes au langage normalisé SGML.
La place grandissante que prend SGML est renforcée par son utilisation sur les serveurs WWW d’Internet. En effet HTML(Hypertexte Markup Language) est une DTD SGML, utilisée non plus pour les fonction nalités puissantes de structure complexe, mais principalement pour la notation des liens hypermédias. Les grands logiciels de traitement de texte offrent maintenant des fonctionnalités de codage SGML proches de la philosophie HTML.
Enfin SGML évolue de plus en plus vers la gestion d’objets complexes, non plus statiques mais évolutifs, non plus contenus dans un seul document physique, mais distribués sur différents systèmes. C’e st la philosophie de la norme Hytime (Hypermedia / Time based structuring language) pour laquelle des outils commencent à être proposés.

Les DTD normalisées donnent aujourd’hui une vue classique de l’organisation des articles en périodiques publiés en livraisons, ainsi qu’une organisation des parties composantes d’une monographie. Cet te organisation présente un parcours descendant dans l’arborescence de la structure qui va de la collection vers l’unité physique et les unités d’information qu’elles peuvent contenir. Les évolutions conceptuelles qu’autorisent Hytime permettent cependant d’imaginer une recombinaison dynamique des unités d’information dans des séries ou des collections virtuelles.

PDF (Portable Document Format)
Le format PDF d'Adobe, société qui a auparavant développé le format Postscript de description de page, permet de supporter à la fois la structure et la forme du document. Ce format a été mis en oeuvr e en suivant la même philosophie que celle qui a présidé à la création de Postscript, c'est à dire de manière indépendante des matériels et des systèmes d'exploitation. PDF est fondé à la fois sur le langage de description de page Postscript pour les éléments visuels (imprimables) du document et sur une description de la structure, y compris d'éléments tels que les liens hypertexte.
Le logiciel Acrobat permet de transcrire en PDF des documents créés avec d'autres éditeurs tels que des éditeurs SGML ou des traitements de texte. Il traduit en PDF des balises SGML en fonction d'une DTD donnée, ou des codages de traitement de texte en fonction d'une feuille de style donnée.
L'objectif du format PDF est de permettre l'échange de documents formatés contenant à la fois l'aspect visuel et la structure du document, interprétables pour l'affichage et l'impression sur une larg e gamme de plates-formes : Macintosh, Windows, DOS et UNIX.
Adobe travaille à rajouter à Acrobat des fonctions de recherche et d'extraction de texte, ainsi que des fonctions de Reconnaissance Optique de Caractères. Adobe travaille également à la conversion in verse permettant de restituer le document SGML ou le format du traitement de texte d'origine.
La devise commerciale d'Acrobat est : "le meilleur des deux mondes", celui de l'information structurée et celui du document formaté, donc du format logique et du format physique. Le document codé en PDF est principalement destiné à l'affichage ou à l'impression de l'information texte, image ou graphique, ce qui correspond aux besoins immédiats de l'édition pour diffuser des produits électronique s.

Les formats des publications électroniques

Les formats courants des documents électroniques que l’on rencontre aujourd’hui peuvent être classés selon les types suivants :

Documents produits par la numérisation du papier : il s’agit principalement de publications académiques sous forme d’articles de périodiques et quelquefois de livres. Ces documents sont créés à des f ins d’archivage et souvent pour supporter la fourniture électronique de documents. Cette numérisation peut être assurée par des bibliothèques, des centres de fournitures de documents et mêmes par des éditeurs pour convertir des documents papier. Ce type de document comprend une image en mode point destinée à reproduire la forme exacte de l’original et à permettre sa lecture, sa transmission et u ne impression. On rencontre également le fichier texte correspondant qui peut être associé très étroitement à l’image par un couplage ligne à ligne ou mot à mot.

Conclusion

La technologie d’aujourd’hui est suffisamment avancée et normalisée pour permettre la production et la distribution de l’édition électronique. Les normes et les usages sont en cours de définition à l a fois dans les expérimentations que les éditeurs conduisent et dans les pratiques du réseau Internet. Les choix des normes techniques conditionnent l’utilisation et les services à valeur ajoutée que l’on peut construire sur les documents et les bibliothèques doivent s’intéresser aux décisions qui se prennent dans le monde de l’édition pour expliquer leurs besoins en terme d’accès, d’intégration dans les services à leurs utilisateurs, de communication sans oublier les aspects de dépôt légal et de préservation.

Bibliographie

ISO 646. Information technology - 7-bit coded character set for information interchange. 3rd ed. 1991
ISO 5426. Information technolog y- 7 bit coded character set for information interchange
ISO 8632. Information technology - Computer Graphics - Metafile for the storage and transfer of picture description information, 1992
ISO 8859. Information technology - 8-single byte coded graphic character sets, 1993
ISO 8879. Information processing - Text and office systems-Standard Generalized Markup Language, 1986. Amendment 1, 1992
ISO 9069. Information processing - SGML support facilities - SGML Document Interchange Format, 1988
ISO 9541. Information processing - Text and office systems-Glyph fonts definition and identification. First ed. 1991. Corrigendum 1993, 1993, 1994
ISO 10646. Information technology - Universal Multiple - octet coded character set
ISO 10179. Information processing - Text and office systems-Document Style, Semantic and Specifications Language
ISO 10180. Information processing - Text and office systems-Standard Page Description Language
ISO 10744. Information processing - Text and office systems-Hypermedia/Time based structuring language, 1992
ISO 10918. Information technology - Digital compression and coding of continuous-tone still images, 1994
ISO 12083. Information technology - Electronic manuscript preparation and markup, 1994
ISO 13818. Information technology - Generic coding of moving pictures and associated audio information
Open Information Interchange standards list. Luxembourg CEC DGXIII, March 1995