Solutions logicielles pour bibliothèques numériques

De Bibliopedia
Révision datée du 21 septembre 2009 à 10:57 par Mathieuandro (discussion | contributions) (Page créée avec « = Les différents logiciels = == Greenstone == Développé par la Nouvelle Zélande en collaboration avec l'UNESCO. Caractéristiques * Communauté importante de développe... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Les différents logiciels

Greenstone

Développé par la Nouvelle Zélande en collaboration avec l'UNESCO. Caractéristiques

  • Communauté importante de développeurs dans le monde
  • Facile à installer et à paramétrer. Ne nécessite que connaissances en HTML pour interface
  • OAI-PMH
  • Conversion des métadonnées UNIMARC - MARC21 - Dublin Core
  • Compatible avec XML/TEI : http://www.nzetc.org

Références de sites

  • Ecole Nationale des Chartes
  • Bibliothèque Nationale de Nouvelle Zélande
  • Oxford Digital Library
  • Bibliothèque de Washington
  • Bibliothèque de Musique de Toulouse
  • Bibliothèque Municipale de Bourg en Bresse
  • Books from the past

Liens

  • Greenstone
  • Blog Greenstone France

Persée

Développé par la société informatique Linagora, porté par Lyon 2, conseillé par le Ministère de l'Enseignement Supérieur, utilisé par Paris 5. Caractéristiques

  • Adapté aux revues
  • Numérisation destructive
  • Métadonnées : METS, Dublin Core, MODS, Marc XML, MADS (pour autorités). Pas d'importation des métadonnées, elles sont ressaisies.
  • Texte intégral : TEI, Erudit schema (développé à Montréal pour les articles)
  • Interopérabilité : OAI-PMH (avec Cairn et revues.org) , OKI/OSID (permet d'avoir une interface unique lorsqu'on recherche les articles d'une revue quelque soient les succession d'éditeurs et d'interface d'éditeurs qui l'ont publiée).
  • Identifiant articles : DOI (est facturé en fonction du chiffre d'affaires, donc peu onéreux)
  • Navigation : Persée s'est largement inspiré du système arborescent des sites d'éditeurs de revues auxquels les chercheurs sont habitués.
  • Statistiques : via Google Analytics (villes et institutions d'origine, mots clés saisis dans les moteurs de recherche etc...).
  • Conservation : Persée est paramétré pour être compatible avec l'archivage pérenne du CINES.

Développements

  • Lyon 2 travaille actuellement à sa segmentation afin de pouvoir l'adapter à des projets locaux car de nombreuses universités avaient manifesté leur intérêt pour une réplication.
  • Des développements informatiques sont possibles : adaptation à d'autres types de documents que les revues, importation possible de métadonnées depuis un SIGB.

Références de sites

Persée Liens

Société informatique Linagora

SDX

Déployé en France par la société AJLSM (Bordeaux) Caractéristiques

  • Compatible avec XML/TEI
  • Possibilité d'importer métadonnées à partir d'un SIGB (format BiblioML)

Références de sites

  • SICD Toulouse
  • Lille III
  • Bibliothèques Virtuelles Humanistes

Liens

Société AJLSM

DigiTool

Développé par la société Ex Libris. Caractéristiques

  • Importation possible des métadonnées depuis le SIGB
  • La conversion des notices UNIMARC en MARC21 puis Dublin Core peut être assurée par Ex Libris.
  • Signalement possible des mentions :"Vous souhaitez financer la numérisation de ce livre, cliquez ici" (puis délégation de service public pour numérisation à la demande)
  • Le système est compatible avec OAI-PMH.
  • Pas de thésaurus, mais possibilité de remplacer cette fonction par la création d'une arborescence de collections correspondant aux sujets de CADIC.
  • L'outil statistique ne semble pas optimal mais il serait possible d'incorporer Google Analytics ou un logiciel libre de statistique.
  • Le balisage TEI est toujours possible mais ne sera pas exploité par DigiTool (pas de création d'index sur les termes encodés) car le schéma XML METS a été choisi.

Références de sites

  • Getty Research Institute
  • Leeds University Digital Objects
  • Leiden University Library
  • London's Global University
  • University of Melbourne

Liens

DigiTool

Générateur de collections numériques

Logiciel libre (en PHP MySQL) développé pour les bibliothèques Canadiennes Caractéristiques

  • Métadonnées : EAD, METS et Dublin Core en cours de développement, pas de projet TEI pour le moment
  • Les métadonnées peuvent être importées
  • Thésaurus possible
  • Pas de statistiques, ni de gestion d'embargos, ni de RSS, ni de DSI.
  • Le GCN peut être utilisé par une seule organisation pour effectuer ses propres descriptions ou encore il peut être installé en "catalogue collectif" multi-sites qui intègre les descriptions d'un plus ou moins grand nombre d'institutions contributrices

Plus de détails sur le forum de GCN Liens

  • GCN
  • Présentation du CGN

Mnesys

Caractéristiques

  • Format xml EAD et dynamiquement Dublin Core qualifié
  • Importation possible de notices UNIMARC
  • Compatible OAI-PMH
  • Outil de saisie des sommaires avec lien vers pages
  • Encodage TEI sur les images. Pour le faire sur le texte : nécessiterait développements
  • Outil de feuilletage en 3D (Flash)
  • Création d'expositions virtuelles
  • Flux RSS

Références

  • Archives départementales du Nord
  • Archives départementales du Cantal
  • Archives départementales de la Drôme

Liens

Mnesys

Adobe Content Server

Développé par Adobe. Caractéristiques

  • Outil de zoom : Zoomify
  • Moteur de recherche : Verity
  • Importation dynamique des métadonnées à partir du numéro de la notice du SIGB

Références de sites

Cité des Sciences Liens

Adobe Content Server

Albulle

Logiciel libre et gratuit. Caractéristiques

  • Communauté de développeurs
  • Pas d'importations de métadonnées depuis un SIGB
  • Compatible OAI-PMH
  • Base de donnée MySQL. Les notices bibliographiques des ouvrages sont en outre converties en fichier XML (Dublin Core)
  • Le texte intégral OCRisé n'est pas indexé par les moteurs de recherche
  • Possibilité de constituer des paniers
  • Possibilité de flux RSS sur les nouveautés

Références de sites Liens

Albulle

Bases MySQL

Caractéristiques

  • Possibilité de développements peu couteux en interne
  • Risque d'être tributaire du personnel ou de la société qui a développé l'interface

Références de sites

  • Bibliothèque numérique de Roubaix
  • Bordeaux 1
  • cartulaires numérisés à l'Ecole de Chartes

Autres solutions logicielles

  • ORI-OAI : développé par les universités françaises pour leurs archives institutionnelles et le moissonnage OAI.
  • XTF : logiciel libre utilisé à Cujas, Bibliothèques Virtuelles Humanistes et California Digital Library
  • Dspace : principal concurrent de DigiTool
  • Fedora : Utilisé pour le site roman de la rose
  • Pleade : plutôt pour les archives (XML EAD)
  • eprints : Adapté pour archives institutionnelles.
  • Archimed : Utilisé à la BM de Troyes et à Orléans
  • CADIC
  • Dipmaker
  • FileMaker Pro : utilisé à la BIUM pour Medica
  • Content dm : utilisé au SICD de Strasbourg
  • Castore
  • XnView : gratuit, utilisé par la Maison de l'Orient et de la Méditerranée
  • Omeka
  • dLibra
  • CDSware : utilisé par le réseau des Bibliothèques de Suisse Occidentale
  • Phrasea : utilisé à Lille 3

Listes complètes de logiciels

  • WorldCat
  • OpenArchives

Quelques critères pour choisir

  1. S'agit-il d'une solution libre ou propriétaire ? Le développement a-t-il été assuré en interne ou en externe ? Quel en a été le coût approximatif ? Existe-t-il une solution de maintenance ou une communauté de développeurs ?
  2. Permet-elle l'importation des métadonnées (depuis un SIGB par exemple) et sous quels formats ?
  3. Est-elle compatible OAI/PMH ?
  4. Est-elle basée sur une structure de base de données ou sur des fichiers XML ? Quelles sont les normes adoptées pour les fichiers XML ? Qu'est ce qui est traité en XML (métadonnées, texte océrisé, tables des matières, fichiers de correspondance des pages etc). Dans le cas d'une base de données , de laquelle s'agit-il ? Quelles sont les tables utilisées ?
  5. Gère-t-elle aussi bien des images que du texte (natif ou OCRisé), et est-il possible d'encoder ce texte en TEI afin de générer des index par exemple? Le texte et les métadonnées peuvent-ils être indexés par les moteurs de recherche du web (Google...) ?
  6. Quelle est la visionneuse utilisée ?
  7. Quel est le moteur de recherche utilisé ? Quelles sont ses particularités ? Quels sont les différents types de recherche proposés ? Quels sont les éléments proposés à la recherche : métadonnées, tables, texte, autre ?
  8. Est-il possible de décharger le document complet ou une partie du document sous forme de PDF ou dans d'autres formats (compatibilité avec des lecteurs ebooks) ?
  9. Est-elle adaptée à plusieurs types de documents : livres, thèses, périodiques, articles, manuscrits, livres anciens, incunables, iconographies, estampes, enluminures, objets... ?
 10. Y-a-il possibilité pour les usagers de soumettre des corrections d'OCR, d'encoder en TEI, d'insérer des tags ? Des services sont-ils proposés avec la recherche : panier, export vers des logiciels de gestion bibliographique, RSS sur les nouveautés, DSI sur des équations de recherche, rebonds dynamiques vers d'autres ressources ?
 11. Offre-t-elle les possibilités suivantes : gestion de thésaurus, statistiques de consultation, personnalisation satisfaisante de la présentation, paramétrage de durées d'embargos pour pour des documents qui ne sont pas encore libres de droits ? 

Esquisse de tableau de comparaison

Greenstone Persée SDX DigiTool Générateur de collections numériques Mnesys Adobe Content Server Lodel/Albulle Bases MySQL Quest. 1 : pérennité Libre, communauté internationale de développeurs Libre, développé par la société Linagora Libre, maîtrisé par la société AJLSM Propriétaire, société internationale Libre (PHP-MySQL), Etat canadien Propriétaire, petite société française Propriétaire, très grosse société internationale logiciels libres et gratuits possédant chacun une communauté de développeurs Libre, communauté importante de développeurs, mais base sur mesure parfois difficile à interpréter et à maintenir. Quest. 2 : importation SIGB Oui, Marc21 ? Oui Oui ? Oui ? Non ? Quest. 3 : OAI-PMH ? ? ? Oui ? Oui ? Oui ? Quest. 4 : XML / BDD ? ? xml ? base de données MySQL xml ? base de donnée MySQL base de donnée MySQL Quest. 5 : Texte intégral TEI possible ? Indexation Google Image+texte, bonne indexation Gogle ? Encodage TEI possible. ? ?Image+texte, indexation Google ? texte intégral (via PDF multicouches) non indexé par google ? Quest. 6 : visionneuse Pas de visionneuse développée avec Greenstone. L'outil libre Zoomify semble souvent être utilisé. ? ? visualiseurs propriétaires DigiTool sans Flash (car posent des problèmes d’accessibilité) ? Visionneuse 3D développée par Mnesys. ? Albulle ? Quest. 7 : moteur Lucene ? ? ? ? ? ? moteur interne à Lodel, qui ne permet d'interroger le contenu des textes océrisés. Il n'y a qu'une recherche simple, avec "ou" par défaut. ? Quest. 8 : PDF PDF possible PDF possible ? ? ? ? PDF possible il est possible de télécharger les documents en JPEG et en PDF ? Quest. 9 : type de doc. ? revues seulement pour le moment ? ? ? ? ? Tous types de documents ? Quest. 10 : web 2.0 ? ? ? Panier possibles ? ? ? RSS sur les nouveautés, possibilité de constituer un panier. ? Quest. 11 : fonctions avancées ? ? ? Embargo possible. Pas d'outil de thésaurus ? Outil thésaurus, statistiques via google analytics ? ? ?

Exemple de fonctionnalités pour un projet collectif

La méthode agile semble plus adaptée à ce type de projet qu'un traditionnel cahier des charges. Formats

Les métadonnées (formats Dublin Core, Dublin Core qualifé, BiblioML et METS) relatives à ces documents numérisés proviendront de l'importation des notices des SIGB des bibliothèques. Les métadonnées seront chargées en masse par le prestataire avec statut "numérisation en cours" puis seront progressivement changées de statut pour "numérisé par Bibliothèque X" ou "vous souhaitez en financer la numérisation de l'ouvrage, cliquez ici" pour les ouvrages que nous n'aurons pas pu numériser, faute de financements publics. Pour les ouvrages non encore numérisés, une alerte mail sera possible afin d'être prévenu de leur numérisation. Pour les documents anciens, des champs supplémentaires sont à prévoir : numéro de référence d'un incunable, lien vers une autre base (base des reliures estampées à froid ou Calames, par exemple) [à compléter ?]. Une interface permettra de modifier ces métadonnées, d'identifier les sommaires (par balisage XML/TEI par exemple) et de rédiger des présentations de documents. Ainsi, des articles ou des notices détaillées signés par les conservateurs pourront accompagner les documents numérisés. La plateforme servira ainsi également à valoriser l'activité recherche de l'institution à l'instar d'une archive institutionnelle contenant les articles des conservateurs sous forme d'archives ouvertes. Les CV des auteurs et des conservateurs pourront apparaître accompagnés d'une liste dynamique de leurs articles et présentations d'ouvrages. Les métadonnées des documents devront être accessibles via un réservoir OAI-PMH signalé dans les annuaires internationaux du type OAIster et permettant le moissonnage par d'autres bases comme Europeana, Gallica, Bibliothèques Virtuelles Humanistes, Incunabula Short Catalogue, Gesamtkatalog der Wiegendrucke). Le site devra aussi être interrogeable via un Système d'Information, (portail) dans le cadre d'une recherche fédérée. Enfin, son indexation sera possible par Google Books, Amazon BookSurge et archive.org et compatible avec la plupart des lecteurs ebooks sur le marché (format Kindle, EPUB, PDF, TXT, MOBI), les téléphones portables, les logiciels de reconnaissance vocale pour aveugles et malvoyants (compatibilité xml daisy) et les logiciels de gestion de bibliographie (Zotero, EndNote et RefWorks). Il sera possible de référencer tous types de documents des livres, des revues, des articles de revues, des thèses, des enluminures, des estampes, des images au sein de livres, des manuscrits, des dessins, des photos. Pour d'éventuels documents qui ne seraient pas libres de droits mais dont nous souhaiterions conserver une reproduction numérique sans pouvoir la diffuser, un embargo devra pouvoir être paramétré afin que les documents ne soient accessibles que par le staff jusqu'à leur date de passage au domaine public. Accès par login : Administrateur, Indexeur (professionnels), partenaire (universitaires ou érudits qui peuvent participer à l'encodage et/ou à la corrections de l'OCR), lecteur simple ou anonyme. Le prestataire vérifiera le cahier des charges numérisation afin de valider la conformité des prestations demandées avec sa solution logicielle. Fonctionnalités

Chaque document électronique devra bénéficier d'une adresse URL stable, pérenne (ARK ou DOI ?) afin que les bibliothécaires puissent le signaler dans le catalogue national SUDOC et y saisir son URL en champs 856 ou 325 de l'UNIMARC. L'URL devra être significative afin que le site soit bien indexé par les moteurs de recherche. Les éditeurs pourront nommer les pages numériser en recourant à des systèmes spécialisés non strictment numériques (ex : « feuillet a1recto », « a1verso », « *8verso », « plat supérieur », etc…) Chaque document sera entièrement OCRisé afin de permettre une recherche en texte intégral dans le corps du texte et afin d'en permettre une bonne indexation par les moteurs de recherche du type Google. Un balisage XML/TEI devra pouvoir être possible afin de générer des index sur des termes identifiés dans le texte et de permettre une valorisation et une exploitation de son contenu (noms de lieux, dates, noms de personnes etc...). Il devra également être possible d'indexer ainsi les images au sein des documents numérisés (afin de pouvoir effectuer des recherches iconographiques), mais aussi de permettre à des historiens et des paleographes d'ajouter le texte de documents trop anciens pour être OCRisés, des corrections d'OCR et des balisages XML/TEI. Les documents numérisés pourront être distribués au sein d'une structure hiérarchisée permettant de créer des corpus et des collections (adapté pour les archives en particulier). Les images et les métadonnées correspondantes des bases BSG suivantes devront être importées : base CADIC des enluminures, base MySQL des reliures estampées à froid (http://bsg-reliures.univ-paris1.fr/fr/accueil), estampes numérisées. Un outils de thésaurus hiérarchisé (Thésaurus François Garnier) permettra de poursuivre l'indexation des enluminures. L'utilisateur aura la possibilité de s'enregistrer des sessions afin d'annoter et d'ajouter des ouvrages dans un panier (MonCarnet 2.0 est une application web destiné à permettre la collecte, le classement, le partage et l’annotation électronique de ressources numériques moissonnables en OAI-PMH et pourra être utilisé). L'utilisateur pourra également télécharger (plusieurs formats : PDF multicouches image et texte OCR, JPEG, TIFF, PNG etc...) et imprimer les documents, corriger des erreurs d'OCR ou signaler des documents de mauvaise qualité. La base devra être compatible avec les technologies RSS afin de pouvoir afficher les derniers ouvrages numérisés. Possibilité sera également donnée aux usagers de suggérer la numérisation d'un ouvrage de notre catalogue, d'ajouter des commentaires, des notes et d'insérer des tags pour indexer les documents (folksonomie). L'indication du nombre de fois que le document a été suggéré à la numérisation, ou commenté apparaîtra sur le site, mais aussi le nombre de fois qu'un lien vers un mécène a été cliqué. Une selection d'ouvrages sur le même thème que celui en cours de consultation sera dynamiquement proposée (en fonction de l'indexation du document consulté, sur le modèle de bookser.com). Pour les ouvrages numérisés, sur chaque page devra apparaître : "numérisation financée par la Bibliothèque X, l'institution Y, la fondation Z" (en fonction de l'origine du financement) et pour les ouvrages pas encore numérisés : "si vous souhaitez financer la numérisation pour N euros, merci de cliquer ici", mais aussi le statut juridique du document électronique (Creative Commons CC-by-nc-nd : paternité, pas d'utilisation commerciale sans autorisation, pas de modification), et un lien dynamique vers une société d'impression de facs similes à la demande (type Amazon). Il sera possible d'accéder à une page "nos soutiens" et d'y afficher dynamiquement la liste de nos mécènes et soutiens par ordre décroissant du nombre de documents numérisés avec un lien vers la liste des documents qu'ils nous ont permis de numériser. Il sera possible aussi d'afficher tous les documents dont la numérisation reste à financer. La liste des documents correspondant à une requête fera apparaître une vignette de la page de titre, le titre, l'auteur et la date avec tri possible par titre, auteur, date, popularité. Un module statistique (de type Google Analytics) permettra de connaître l'origine géographique et institutionnelles des connexions, les mots clés utilisés dans le moteur de recherche, le nombre de téléchargements et d'impressions, le nombre de clics sur des liens pointant vers l'extérieur (institutions ou mécènes). Une version anglaise du site sera développée. Afin que chaque bibliothèque partenaire du projet conserve son identité malgré son caractère collectif, en dehors de l'interface générale, devra être développé une vitrine (interface graphique et URL personnalisées) propre à chaque bibliothèque portant exclusivement sur les documents qu'elle conserve. Affichage

La navigation permettra d'obtenir page précédente, page suivante, aller à la page X, première page, dernière page. Elle affichera par défaut, pour les incunables, conjointement le verso d’un feuillet et le recto du feuillet suivant (consultation par double page). Il sera également possible de naviguer par le sommaire ou les index des documents. La visualisation permettra de zoomer avec l'aide, par exemple, d'outils libres du type ImageMagick et/ou Zoomify. Il sera possible de visualiser des documents originaux de grands formats (cartes, plans) et de pouvoir localiser la partie actuellement consultée dans l'ensemble du document (avec l'aide d'un carré représentant la partie zoomée sur la vignette) permettant de savoir à tout moment quelle partie du document est zoomée (carré qui se déplace sur la vignette). Le feuilletage des pages utilisera des outils de type turning the pages (feuilletage 3D avec Flash : fsi viewer, Issuu, acroflip). Les références succinctes du texte resteront apparentes pendant la visualisation (titre, auteur, date) L'affichage permettra de comparer entre elles des éditions d’un même atelier, d’un même imprimeur-typographe ou d’un même texte (typographie, décor, annotations manuscrites), 2 enluminures représentant le même objet, 2 plans ou dessins d'architecte... Les bibliothèques auront la possibilité d'éditer et de commercialiser des facs similés à la demande ou d'établir un partenariat avec une société, mais aussi de faire apparaître d'éventuels liens dynamiques vers des sites de libraires partenaires. Recherche

La solution logicielle devra être parfaitement adapté aux spécialistes tout en permettant au grand public de se délecter du patrimoine. C'est la raison pour laquelle, les recherches seront possibles à la fois à partir de références bibliographiques et par sujet avec 3 niveaux de recherche correspondant à divers niveaux de compétences en recherche bibliographique : 1- Recherche en texte intégral : avec surlignage sur l'image de la zone géographique correspondant au texte OCRisé repéré (ALTO). 2- Recherche simple : "anywhere" (tous champs : mots du titre ou mot du sujet ou mot auteur etc...) 3- Recherche avancée : titre, auteur, sujet , numéro de référence bibliographique (incunable), cote avec booléen (et, ou, sauf) sur 3 lignes avec tri possible par date, titre, auteur, popularité (nb commentaires, téléchargements et vues) , note et filtre par date (2 champs : début et fin de l'intervalle), ou type de doc (image, incunable, manuscrit, plan, imprimé, objet etc...) Troncature * automatique si l'utilisateur coche la case "commence par". Recherches par expression exacte. Pour le champs sujet, possibilité d'accéder à une fenêtre présentant la liste d'index des sujets.

Possibilité d’établir un formulaire de requête propre à la base d’incunables, avec les champs suivants : - Tous champs - Auteur - Titre - Lieu de publication - Imprimeur-libraire - Références bibliographiques (avec double index : ouvrage / n°s) - Format - Date de publication (=, <, >, < <) - Langue - Cote Pour tous ces champs : saisie directe des termes de recherche ou sélection dans un index associé (sauf pour les zones « Tous champs » et « Date », sans index associé)

4- Recherche experte : possibilité d'écrire équation de recherche selon modèle (KW=chat OR KW=chats OR kW=cat OR KW=cats) AND (KW=comportement* OR KW=ethol* OR KW=behavio*) pour une recherche sur le comportement du chat avec une application facilitant l'écriture de l'équation, un modèle et un schéma sous forme de "patates" expliquant le fonctionnement des booléens AND OR NOT. La recherche ne sera pas sensible à la casse et aux diacritiques. Afin d'éviter le "bruit documentaire", l'opérateur implicite entre plusieurs mots du même champs sera ET Il sera possible d'effectuer une navigation par sujets ou corpus ou même du type "un document au hasard". Il devra être possible de restreindre les corpus, les bibliothèques, les types de documents sur lesquels portera chaque recherche. Un historique des recherches pourra être affiché. Il permettra de combiner plusieurs recherches différentes par des opérateurs booléens. Il sera possible de créer une DSI de deux manières différentes : alerte email ou sous forme d'un flux RSS généré dynamiquement et correspondant à l'équation de recherche souhaitée (afin d'être prévenu de la numérisation d'un document ou de la numérisation de documents relatifs à sujet). En l'absence de réponse à une requête, des rebonds dynamiques seront proposés vers d'autres catalogues de documents numérisés (Europeana, Gallica, ISTC, GW...), des librairies partenaires et des catalogues de bibliothèques comme le SUDOC et le CCFR. Ce rebond sera dynamique au sens où il n'affichera un lien que si la ressource extérieure va répondre au moins 1 occurence à cette même requête. Un moteur de recherche open source pourrait être utilisé : Lucene (utilisé par Europeana) ou Zebra, Cocoon. Une recherche par index (browse by) sera possible sur les champs suivants : grand sujet Dewey, auteur, année, titre, documents restant à numériser.