OCR
Les titres traités par OCR peuvent faire l’objet d’une recherche en texte intégral. Les textes intégraux peuvent être téléchargés au format Plaintext, ALTO XML ou PDF, avec les images (page d’accueil → section «Downloads»). Dans la facette, on peut filtrer l’ensemble des résultats pour n’afficher que les titres consultables en texte intégral (tous les contenus en texte intégral).
Solution OCR utilisée et état d’avancement
Jusqu’en 2023, on utilisait uniquement le logiciel ABBYY FineReader pour l’obtention de textes intégraux sur e-rara. On a ainsi traité des contenus datant du XVIIe au XXe siècle. Depuis 2024, on utilise également Tesseract, version 5, avec différents modèles de langue.
Recherche en texte intégral
Une recherche générale parcourt les métadonnées des titres ainsi que tous les textes intégraux de façon automatique. On peut aussi directement parcourir un titre disposant d’un texte intégral (bouton en haut à droite sur l’aperçu des titres). Attention aux points suivants lors des recherches en texte intégral:
- Une troncature est effectuée automatiquement: si l’on recherche le mot london, on obtiendra également Londonderry comme résultat. Si l’on souhaite obtenir un résultat précis, il faut placer le mot recherché entre guillemets: "london".
- En fonction du modèle, l’OCR commet plus ou moins d’erreurs. Une recherche de mots ne fournit pas toujours tous les résultats possibles.
- Selon le logiciel OCR utilisé, les caractères imprimés ne sont pas transcrits de la même façon: pour le caractère imprimé «ſ» (dans des anciens textes en police Antiqua et Fraktur), FineReader transcrit un «s» tandis que d’autres logiciels OCR transcrivent le caractère «ſ». Il faut en tenir compte en cas de réutilisation d’un texte intégral téléchargé. Pour la recherche de mots sur e-rara, le caractère «ſ» est normalisé: en recherchant august, on obtiendra aussi auguſt comme résultat.
- En principe, l’OCR restitue le texte conformément au modèle. Faites donc attention aux particularités orthographiques et typographiques lors de vos recherches. C’est notamment le cas avec les lettres u/v et i/j (contrairement à s/ſ) ainsi qu’avec les abréviations et les ligatures.
NER/NEL
Depuis 2025, la Named Entity Recognition (NER) et la Named Entity Linking (NEL) sont utilisées pour certains textes intégraux. Les personnes, les thèmes et les lieux sont identifiés automatiquement dans les textes intégraux et associés à la base de données normatives GND. Les entrées de recherche correspondantes sur la page d’accueil permettent de rechercher ces éléments et les passages de texte où ils sont mentionnés. Les listes Personnes, Lieux et Thèmes sont également disponibles pour les titres individuels et peuvent être sélectionnées dans l’aperçu des titres.
La NER et la NEL sur e-rara reposent sur la Natural Language API de Google et fournit de bons résultats dans l’ensemble. La procédure basée sur l’IA n’est toutefois pas exempte d’erreurs: elle n’identifie ni n’associe tous les éléments et, lorsqu’elle le fait, peut se tromper.