IFLA

As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites

This old website and all of its content will stay on as archive – http://archive.ifla.org

IFLANET home - International Federation of Library Associations and InstitutionsAnnual ConferenceSearchContacts
*    
Jerusalem Conference logo

66th IFLA Council and General
Conference

Jerusalem, Israel, 13-18 August

 
 


Code Number: 029-142-S
Division Number: VI
Professional Group: Information Technology
Joint Meeting with: -
Meeting Number: 142
Simultaneous Interpretation: Yes

Bibliotecas digitales en Internet

Taly Sharon

&

Ariel J. Frank

Bar-Ilan University,
Ramat-Gan, Israel
E-mail: taly.ariel@cs.biu.ac.il


Resumen

Internet y el Web han crecido continuamente en los últimos años acelerando el problema de la explosión de la información, un fenómeno bien conocido por todos nosotros. Además, los motores de búsqueda que han aparecido inesperadamente en todas partes nos permiten acceder al ciberespacio, pero nos inundan con una gran cantidad de información irrelevante. Sin embargo, teniendo en cuenta la gran cantidad de información, muchos consideran el Web la biblioteca virtual internacional definitiva - ¿pero es esta solución la correcta?.


Paper

En cualquier caso, el Web y los motores de búsqueda no sustituyen a las clásicas, queridas bibliotecas. Mirando hacia atrás, las bibliotecas pueden clasificarse en tres tipos:

1) Analógicas/Bibliotecas de Papel (BP) - la biblioteca de papel clásica con su fichero manual.

2) Automatizada/Biblioteca Híbrida (BH) - una biblioteca analógica con el catálogo automatizado.

3) Biblioteca Digital (BD) - una biblioteca automatizada en la que la mayor parte de la información es digital.

Los problemas de nuestras bibliotecas normales son bien conocidos y no es necesario detallarlos aquí. Por otra parte, tenemos menos claro qué es una biblioteca digital y cuáles son sus características.

En primer lugar, distinguimos tres clases de bibliotecas digitales.

1) Biblioteca Digital Única (BDU) - la biblioteca clásica normal implementada de manera completamente automatizada.

2) Biblioteca Digital Federada (BDF) - es una federación de varias bibliotecas independientes, centradas en un tema común, en la red.

3) Biblioteca Digital Recolectada [Harvested] (BDR) - es una biblioteca virtual que proporciona acceso resumido al material relacionado disperso en la red.

En consecuencia, comparamos los distintos tipos de bibliotecas y nos centramos en una amplia comparación entre la Biblioteca Digital Recolectada y los motores de búsqueda en el Web. Para demostrarlo, mostramos bibliotecas digitales ejemplares. En particular hacemos mención a la BDR Katsir, basada en el sistema de recolección, que se está desarrollando actualmente en la Univerisdad Bar-Ilan.

1. Introducción

Internet y el Web han crecido continuamente en los últimos años acelerando el problema de la explosión de la información, un fenómeno bien conocido por todos nosotros. Según Nature [1], el Web indizable públicamente se estimaba que contenía 800 millones de páginas en febrero de 1.999. Además, los motores de búsqueda que han aparecido inesperadamente en todas partes, superando la cifra de 2.400, nos permiten acceder al ciberespacio, pero nos inundan con una gran cantidad de información irrelevante. La cobertura de los motores de búsqueda, en relación con el tamaño estimado del Web indizable públicamente, ha disminuido recientemente de manera sustancial, no disponiendo de motor de indización más que alrededor del 16% del tamaño estimado del Web indizable públicamente. [1]. El artículo se estructura como sigue. Esta sección presenta la jerarquía de depósitos de recursos, define la noción de biblioteca y su desarrollo desde la biblioteca de papel a las bibliotecas digitales. La sección siguiente clasifica las bibliotecas digitales, compara los distintos tipos e introduce el modelo lógico recolectado. Concluimos con una discusión.

1.1 Jerarquía de depósitos de recursos

Tanto los motores de búsqueda como las bibliotecas digitales (BD) son Herramientas para el Descubrimiento de Recursos de Internet (DRI). Introducimos una jerarquía de depósitos de recursos con dos paradigmas principales: motores de búsqueda y bibliotecas digitales, cada uno de ellos ramificado en distintas categorías. Los motores de búsqueda pueden clasificarse en tres categorías: Motor de Búsqueda Básico, Directorio y Metamotor de Búsqueda. Todas las categorías soportan interfaces de búsqueda de usuario, pero con diferencias significativas en su método de construcción.

1) Motor de búsqueda básico/Índice - una herramienta que utiliza un robot automático para reunir metadatos sobre los items.

2) Directorio/Catálogo/Guía - una herramienta que utiliza un criterio humano para reunir y catalogar items.

3) Metamotor de Búsqueda - una herramienta que no soporta en sí misma bases de datos sino preguntas de motor de búsqueda básico a petición del usuario.

En la sección 2 se presentará una discusión detallada sobre las bibliotecas digitales, incluyendo clases de bibliotecas digitales.

1.2 Qué es una biblioteca

Antes de profundizar en las bibliotecas digitales, definimos el concepto de biblioteca en general y de biblioteca digital en particular. La definición de biblioteca incluye seis características principales:

1) Colección de objetos de datos - Una biblioteca aloja una colección de objetos de datos, también llamados fondos, items, recursos o materiales. Los items pueden ser: libros y periódicos, documentos (p. ej., páginas HTML) y objetos multimedia (pinturas o imágenes, cintas o archivos de vídeo, etc.). Los objetos bibliotecarios pueden ser accesibles localmente en la biblioteca o, indirectamente, utilizando una red para acceder a ellos.

2) Colección de estructuras de metadatos - Una biblioteca contiene una colección de estructuras de metadatos, como son catálogos, guías, diccionarios, thesauros, índices, sumarios, anotaciones, glosarios, etc.

3) Colección de servicios - Una biblioteca proporciona un conjunto de servicios, como: diversos métodos de acceso para distintos usuarios (búsqueda, etc.), gestión de la biblioteca, estadísticas y evaluación de las actividades de la biblioteca y Difusión Selectiva de la Información (DSI).

4) Dominio especializado - Una biblioteca tiene un dominio especializado y su colección tiene un objetivo. Por ejemplo: arte, ciencia o literatura. Además, normalmente se crea para servir a una comunidad de usuarios y está sutilmente estrructurada. Por ejemplo: universitaria, pública, especializada, escolar, nacional o estatal.

5) Control de calidad - Una biblioteca utiliza el control de calidad en el sentido de que todo su material se verifica y es consistente con el perfil o estereotipo de la biblioteca. El material se filtra antes de incluirlo en la biblioteca y sus metadatos generalmente se enriquecen (p. ej., se anota), etc.

6) Preservación - Bibliotecas y archivos han servido como focos institucionales centrales para la preservación y para ambas instituciones la preservación es una de sus funciones fundamentales. El objetivo de la preservación [2] es asegurar la protección de la información de valor permanente de manera que pueda ser accesible para las generaciones presentes y futuras. La preservación incluye la distribución de los recursos para su permanencia, medidas preventivas para detener el deterioro de los materiales y medidas restauradoras que permitan la utilización de los materiales seleccionados.

1.3 De las bibliotecas de papel a las bibliotecas digitales

En cualquier caso, el Web y los motores de búsqueda no sustituyen a las clásicas, queridas bibliotecas. Mirando hacia atrás, las bibliotecas pueden clasificarse en tres tipos:

1) Analógicas/Bibliotecas de Papel (BP) - la biblioteca de papel clásica con su fichero manual.

2) Automatizada/Biblioteca Híbrida (BH) - una biblioteca analógica con el catálogo automatizado.

3) Biblioteca Digital (BD) - una biblioteca automatizada en la que la mayor parte de la información es digital.

Nadie cuestiona o discute la larga y duradera contribución de las bibliotecas clásicas existentes [4]. Está claro el concepto de biblioteca de papel y de los distintos servicios que proporciona. La idea es que las bibliotecas digitales deberán proporcionar todos esos servicios además de otros nuevos [5, 6]. Para aludir a esto, en las bibliotecas digitales, utilizamos el término 'servicios integrados'. Estos servicios integrados añadirán servicios que son posibles a través de la utilización de medios digitales como: variadas técnicas de búsqueda con la consecuencia de resultados centrados especializados, suministro más rápido de recursos relevantes y también acceso a recursos multimedia.

Los problemas de nuestras bibliotecas son bien conocidos y no es preciso detallarlos aquí. Por otra parte, tenemos menos claro qué es una biblioteca digital y cómo funciona: este es el tema de esta ponencia.

2. Bibliotecas digitales

2.1 Clasificación de las bibliotecas digitales

Dividimos las bibliotecas digitales en tres clases: Biblioteca Digital Autónoma (BDA), Biblioteca Digital Federada (BDF) y Biblioteca Digital Recolectada (BDR). Las detallamos a continuación:

1) Biblioteca Digital Autónoma (BDA)
Es la biblioteca clásica normal implementada de manera completamente automatizada. La BDA es simplemente una biblioteca cuyos fondos son digitales (escaneados o digitalizados). La BDA es independiente - el material está localizado y centralizado. De hecho, es un ejemplo automatizado de la biblioteca clásica con las ventajas de la automatización. Son ejemplos de BDAs la Biblioteca del Congreso [7] y la Israeli K12 Portal Snunit [8].

2) Biblioteca Digital Federada (BDF)
Es una federación de varias BDAs independientes en la red, organizadas en torno a un tema común y unidas en la red. Una BDF consta de varias BDAs que forman una biblioteca en red con una interfaz de usuario transparente. Las distintas BDAs son heterogéneas y están conectadas via comunicación en red. El mayor desafío en la construcción y mantenimiento de una BDF es la interoperabilidad (puesto que los distintos depósitos utilizan diferentes normas y formatos de metadatos). Son ejemplos de BDF NCSTRL [9] y NDLTD [10].

3) Biblioteca Digital Recolectada (BDR)
Es una biblioteca virtual que proporciona acceso resumido a materiales relacionados dispersos en la red. Una BDR solo maneja metadatos con punteros a los fondos que están a un solo clic de distancia en el ciberespacio. El material alojado en las bibliotecas está recolectado (convertido en sumarios) de acuerdo con la definición de un Especialista de la Información (EI). Sin embargo, una BDR tiene las características de una biblioteca digital normal, está sutilmente estructurada y centrada en una materia. Tiene numerosos servicios bibliotecarios y un alto control de calidad mantenido por el EI que también es responsable de anotar los objetos de la biblioteca. Son ejemplos de HDLs la IPL [11] y WWW Virtual Library [12].

2.2 Comparación

Para subrayar los distintos aspectos de esta clasificación de las bibliotecas digitales permítannos examinar los distintos tipos de bibliotecas digitales. En las BDA y BDF los items se adquieren electrónicamente o están completamente digitalizados/escaneados. Estos items se almacenan en depósitos locales (en las BDA) o en depósitos de BDA independientes a los que se accede mediante un protocolo de red (en las BDF). Cada BDA aloja un inmenso depósito que contiene tanto los items como estructuras de metadatos que permiten una recuperación eficaz. Este material se va actualizando, en un proceso similar al de una biblioteca clásica. Es importante señalar que la composición de una BDF a partir de BDAs requiere posibilidades de interoperabilidad y la utilización de un protocolo común.

Al contrario que en las BDAs y las BDF, los items de una BDR se reúnen en la red. Estos items se encuentran dispersos en numerosos servidores y se accede a ellos vía recuperación directa utilizando protocolos estándar como HTTP, FTP., etc. La BDR solo aloja metadatos de los items y, además, su depósito es pequeño y compacto. Debido a que los items que pertenecen a la BDR pueden ser actualizados en cada momento por sus autores, sus sumarios deben ser actualizados dinámicamente en la BDR mediante procedimientos automatizados que se desencadenan automáticamente o los inicia explícitamente el EI. Una cuestión interesante es que el EI puede cambiar el perfil de una BDR para reforzar los contenidos de la biblioteca.

2.3 Modelo de Recolección de BDRs

Describiremos ahora nuestros modelos lógicos desarrollados para construir BDRs [13]. El modelo incluye procesos, depósitos de datos y depósitos auxiliares. La inicialización del EI invoca al Recolector con la petición de recolección de la BD. El Recolector genera el perfil de la BD inicial y lo pasa como una pregunta de recolección al componente Localizador. El Localizador utiliza varias técnicas de búsqueda en red para enriquecer la colección inicial de URLs que van a ser recolectados. El segundo componente a invocar es el Conseguidor. Utiliza cada URL al nivel superior, de manera recursiva, para reunir todos los recursos referenciados de los proveedores de la red y se los pasa al componente de Filtrado.

El componente de Filtrado es el responsable del bloqueo de los documentos no relevantes desde el punto de vista del interés del peticionario. Utiliza varios niveles de filtrado de modo tal que todos los documentos deben pasar para que se consideren relevantes. En un primer nivel, por ejemplo, puede utilizar "expresiones normales" para comparar palabras clave de la búsqueda con muestras de la cadena del URL. En un segundo nivel puede utilizar técnicas estadísticas sobre el propio documento basadas en frecuencias y recuento de palabras clave. En un tercer nivel podría utilizar un Categorizador para clasificar el documento y comprobar si pertenece a las categorías de BD reunidas. Más niveles o una combinación de niveles pueden asegurar una BD limpia, desprovista de "ruido".

Todos los documentos relevantes se pasan ahora al Resumidor. Este extrae un resumen del documento y pasa un grupo de resúmenes al Agente. El Agente indiza los resúmenes y organiza la BD. El EI construye un árbol de temas relevantes para la BD, utilizando posiblemente herramientas avanzadas de Recuperación de la Información para la categorización y agrupación. El Recuperador proporciona una interfaz de usuario amigable al usuario de la BD.

2.4 Implementación del Sistema de Recolección/Katsir

Para demostrar BDRs, mencionamos la BDR Katsir [13], basada en el sistema de Recolección [14], una implementación inicial/parcial del modelo recolectado de BDR [15]. Katsir se está desarrollando actualmente en la Universidad Bar-Ilan como resultado de la cooperación entre el Departamento de Matemáticas y Ciencias de la Computación y el Departamento de Estudios sobre Información.

3. Discusión

Teniendo en cuenta la gran cantidad de información, muchos consideran el Web la biblioteca digital virtual definitiva a nivel internacional - ¿pero es esta a solución correcta?.

Ya hemos comparado los motores de búsqueda con las bibliotecas digitales para señalar las diferencias entre ellos. Podemos comparar los distintos tipos de motores de búsqueda con los distintos tipos de bibliotecas digitales. El motor de búsqueda básico es similar a cualquier biblioteca digital en lo que se refiere a la interfaz de usuario básica, herramientas de recuperación de la información y acceso a la red. Además, el motor de búsqueda básico es similar a la BDR en la medida en que ambos manejan depósitos de metadatos más que items completos. Un directorio está incluso más próximo a una biblioteca digital que a un motor de búsqueda básico puesto que ha sido compilado mediante un criterio humano y además tiene control de calidad. Pero no olvidemos que no tiene dominio especializado ni servicios integrados de biblioteca digital. Un metamotor de búsqueda es similar a una biblioteca digital federada en el sentido de que ambos generan preguntas a otros motores de búsqueda/bibliotecas digitales para responder preguntas de usuario. En la sección siguiente detallamos más diferencias entre motores de búsqueda y bibliotecas digitales.

3.1 Motores de búsqueda vs. Bibliotecas digitales

El paradigma de motor de búsqueda y el de biblioteca digital se localizan realmente en los extremos de un espectro de depósitos de datos y tipos de búsqueda. Cada una de estas monedas tiene dos caras: la de la construcción del depósito de datos y la de la búsqueda de la información al usuario. A continuación discutiremos y contrastaremos estos aspectos.

La construcción de motores de búsqueda es una tarea compleja. Evidentemente es un esfuerzo a largo plazo apoyado (eventualmente) por compañías comerciales. Los motores de búsqueda pretenden construir un depósito cuantitativo global que represente tanta información disponible en Internet como sea posible o al menos una gran parte de ella. El motor de búsqueda mantiene varias estructuras de datos, para representar sus depósitos, como son los índices, directorios y catálogos. También proporciona una elaborada interfaz de usuario para propósitos de búsqueda. El motor de búsqueda utiliza continuamente distintos tipos de robots para buscar e indizar páginas de Internet y para actualizar dinámicamente el depósito suministrado.

Veamos ahora la cara del usuario de motores de búsqueda. Pensemos que un usuario necesita información sobre una determinada materia. Pide a su motor de búsqueda favorito buscar cualquier información relevante. Se invoca al motor de búsqueda con una pregunta ad hoc compuesta mediante una combinación de palabras clave supuestamente apropiadas. Seguramente el motor devolverá una cantidad de información (con poca precisión) que probablemente agobiará al usuario. El usuario tendrá que navegar tediosamente a través de ella y filtrar manualmente las referencias suministradas. La información relevante encontrada deberá ser utilizada inmediatamente o guardada temporalmente en una caché durante un período de utilización corto.

Consideremos ahora el proceso de recolección (es decir, construcción) de una BD. Un usuario, es decir, un especialista de la información (EI) descubre una bien definida necesidad para construir un depósito de datos cualitativos acerca de un tema concreto. Decide investigar construyendo y manteniendo una BD a largo plazo caracterizada por un conjunto de categorías específicas. Así interactúa con una interfaz de EI para definir cuidadosamente su petición de BDR. La BD se recolecta y se hace disponible para sus usuarios. Soporta métodos de acceso de usuario transparentes utilizando distintas estructuras de datos para posibilitar búsquedas eficaces mediante palabras clave, recorriendo a través de un árbol temático y una DBSQL dirigida a visualizar los contenidos de la BD. Los contenidos de la BD están permanentemente puestos al día y la BD puede enriquecerse con el material adicional pertinente.

Veamos ahora el uso de las BDs. Un usuario necesitará frecuentemente información sobre una materia incluida en su área de interés. Existen muchas posibilidades de que ya tenga acceso a una BD relevante, previamente recolectada. Así, invoca a la interfaz de la BD a alto nivel y elige una manera adecuada de buscar esta BD. La BD le devolverá una cantidad razonable de información (con alta precisión) que el usuario puede digerir fácilmente. Los resultados devueltos estarán disponibles a tres niveles de detalle: en primer lugar, a un alto nivel de sumario (metadatos) [16, 17]; después, si se ha solicitado, un resumen adicional; y, por último, si es relevante, se presentará el propio recurso referenciado. En ningún caso será necesario un examen exhaustivo. La información relevante puede ser anotada por el usuario que podrá volver a encontrarla posteriormente si la necesita.

En resumen, los motores de búsqueda exigen un enorme esfuerzo organizativo, proporcionan al usuario demasiada información ruidosa, pero son útiles para información que se necesita muy rápidamente. Por otra parte, las bibliotecas digitales necesitan un modesto esfuerzo de apoyo, proporcionan al usuario información especializada, pero deben estar disponibles de antemano si bien son superiores en cuanto a calidad y facilidad de uso. Es importante observar que estos dos paradigmas no entran en conflicto ni son exclusivos sino que son, por naturaleza, complementarios.

4. Conclusión

Las bibliotecas digitales y los motores de búsqueda de Internet son similares en muchos sentidos, pero distintos en otros. Ambos parecen avanzar en la misma dirección aunque aún es necesario investigar más para determinar las tendencias reales. Una investigación más a fondo podría desembocar en tipos versátiles de Motores de Búsqueda y Bibliotecas Digitales y de sus generaciones. Deberían investigarse más aspectos adicionales como los multimedia, la composición de las bibliotecas y los perfiles de las BD para promover estas cuestiones en beneficio de millones de usuarios que navegan por la red.

Bibliografía

[1] Lawrence S., Giles L., Accessibility and Distribution of Information on the web, Nature, 400, 107-109, 1999, http://www.wwwmetrics.com/.

[2] Hedstrom M., Digital Preservation: a Time Bomb for Digital Libraries, http://www.uky.edu/~kiernan/DL/hedstrom.html.

[3] Chen H., A. L. Houston, "Digital Libraries: Social Issues and Technological Advances", Advances in Computers, Academic Press, vol. 48, pp. 257-314.

[4] Tock S., Can the Library Survive in a Digital Age?, http://comm1.uwsp.edu/302x/jan98projects/tock.htm.

[5] Kessler J., Internet Digital Libraries, Artech House, Boston, 1996.

[6] Lesk M., Practical Digital Libraries, Morgan Kaufmann, San Francisco, 1997.

[7] Library of Congress (LC) and its National Digital Library (NDL), http://www.loc.gov.

[8] The Israeli K12 Portal Snunit http://www.snunit.k12.il.

[9] Networked Computer Science Technical Reference Library (NCSTRL), http://www.ncstrl.org.

[10] Networked Digital Library of Theses and Dissertations (NDLTD), http://www.ndltd.org.

[11] Internet Public Library (IPL), http://www.ipl.org.

[12] WWW Virtual Library, http://www.vlib.org/.

[13] Katsir, http://bicsir.cs.biu.ac.il:8088/katsir/.

[14] based on the Harvest system, http://www.tardis.ed.ac.uk/harvest.

[15] Hanani U., A. Frank, Intelligent Information Harvesting Architecture: an Application to a High School Environment, Online Information 96, London, December 1996, pp. 211-220.

[16] Lassila O., Web Metadata: A Matter of Semantic, IEEE Internet Computing, July/August 1998, 2, 4, 30-37.

[17] Rust G., Metadata: the Right Approach, D-Lib Magazine, July/August 1998, http://www.dlib.org/dlib/july98/rust/07rust.html

*    

Latest Revision: August 22, 2000 Copyright © 1995-2000
International Federation of Library Associations and Institutions
www.ifla.org