services/pdf-text/tests.hurl

POST {{host}}/v1/pdf2txt?indent=true
content-type: application/json
[
	{"id":1,"value":"https://hal.science/hal-01990444v1/file/EGC_2019.pdf"}
]


HTTP 200
[{
    "id": 1,
    "value": "LODEX : des données structurées au web sémantique Stéphanie Collignon Parmentier , Nicolas Thouvenin Inist-CNRS, 2, Allée du Parc de Brabois, CS 10310, 54519 Vandœuvre-lès-Nancy prenom.nom@inist.fr est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique. Il propose, en plus de la création automatique d’ , la génération d’identifiants pérennes normalisés via le système des 1 Introduction Les bibliothèques produisent depuis longtemps dans leurs catalogues des données structurées et contrôlées, qu’elles exposent sur le web. Le web sémantique est présenté comme étant le web pour lequel les ordinateurs interprètent les métadonnées afin de mieux assister l’utilisateur dans sa recherche de l’information (Berners-Lee et al., 2001). L’Inist- a lancé une expérimentation visant à publier, selon les normes du web sémantique, des données extraites du fonds (plus de 20 millions de publications scientifiques). Cette expérience a eu comme incidence le développement de , outil permettant de mettre en ligne des jeux de données dans le respect des normes et standards du . Dans cet article nous présenterons brièvement l’archive puis nous développe- rons l’outil qui a pour but de publier des données extraites de cette archive et ainsi faciliter l’accès et la diffusion des données acquises et produites. Cette publica- tion est réalisée via un site dédié  et un SPARQL endpoint  contenant un graphe global des données 2 L’archive ISTEX Le projet a pour objectif de permettre à la communauté scientifique française d’accéder à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l’essentiel des publications scientifiques mondiales. Ce réservoir de publications scienti- fiques est bien entendu à destination des documentalistes et chercheurs ayant un besoin documentaire. C’est également une ressource unique pour tous les chercheurs gravitant autour des thématiques de la fouille de textes, du Traitement Automatique de la LODEX : des données structurées au web sémantique Langue), de la Recherche d’Information…La mise en ligne de ces informations en texte intégral structuré permet de développer des fonctionnalités d’extraction de connaissances basées sur les technologies de la fouille de textes. Ces enjeux ont été un déclencheur pour proposer une documentation dynamique et inter- opérable du fonds , et pour publier sous forme de jeux de données toutes les informations non présentes dans les documents. Ces derniers respectent les normes du web sémantique grâce à l’utilisation d’un outil dédié. 3 L’outil LODEX 3.1 Cadre de réflexion Dans le contexte présenté ci-dessus nous avons identifié différents utilisateurs pouvant intervenir lors de ce processus de publication. L’internaute consulte les ressources sur la toile et peut prendre le rôle de data consumer lorsqu’il télécharge des informations. Le documentaliste data manager sélectionne, affine et publie des données en toute autonomie. L’informaticien ou le documentaliste joue la fonction d’administrateur data administrator du système. Puis nous avons défini schématiquement un processus intellectuel de publication des jeux de données (Fabry et al., 2017). Pour l’établir, nous avons rapproché notre réalité de terrain avec les notions théoriques du web sémantique appliquées en milieu documentaire (Bermès et al., 2013). En particulier nous nous sommes penchés sur le caractère hétérogène des res- sources et son incidence sur le protocole à mettre en œuvre. Prenant en compte la typologie des utilisateurs ainsi que notre processus de publication, nous avons souhaité disposer d’un outil permettant de : — publier selon des normes du web sémantique des tableaux comportant des données brutes, — faciliter la transformation en données structurées, — aider à aligner les données à publier avec des données similaires ou connexes, — explorer le jeu de données publié pour valoriser et référencer chaque ressource. Dans un environnement professionnel en pleine mutation, ayant vu naître de nouvelles activités dans les bibliothèques (ou centres de documentation), la curation, la modélisation, la normalisation, le modèle sont au cœur des préoccupations des data managers . Ceci a eu pour incidence l’émergence d’outils dédiés à ces activités comme par exemple LODRe- fine et Catmandu (Harlow, 2015). Datalift(Scharffe et al., 2012) en est un autre exemple. Le concept élévation des données , permettant de passer d’un fichier tabulé à un fichier RDF nous a fortement séduits. Cependant, la fonctionnalité d’exposition des données sur le web était peu satisfaisante. Plus près de nos préoccupations, le logiciel CubicWeb dédié aux techniques du web sémantique est utilisé dans le développement de l’application data.bnf.fr (Le Bœuf, 2013). Le logiciel CubicWeb, présente de nombreuses fonctionnalités pouvant nous être utiles, cependant l’usage de ce framework nécessite l’appui technique de la société Logilab, par consé- quent, nous nous sommes orientés vers le développement d’une solution logicielle libre appelée . Par rapport aux outils similaires, cet outil se concentre sur trois priorités : masquer la complexité des triplets au format , donner envie de structurer son information en aug- mentant les données (visualisation, interconnexion, .) et faciliter la mise à jour ou l’ajout d’information sans refaire un long processus de publication. a été développé avec des technologies JavaScript. C’est un logiciel libre dont le code source est accessible sur GitHub et sous licence CeCILL. S. Gregorio et al. 3.2 Le back office back office permet de réaliser toutes les fonctionnalités nécessaires au traitement ou d’un jeu de données. Après avoir importé un jeu de données dans un des formats acceptés ( , …), l’outil propose six grandes étapes permettant le processus de publication : 1. Informations générales. 2. Comment la valeur est créée. 3. Transformations appliquées à cette valeur. 4. Sémantiques. 5. Comment et où elle est affichée. 6. Recherche. Nous allons détailler les singularités de , sans nous attarder sur l’ensemble du pro- cessus qui sera développé lors de la démonstration du logiciel. Suite à l’import d’un fichier, l’outil génère automatiquement un Uniform Resource Identifier ), identifiant requis pour le web sémantique. Par défaut, Unique Identifier ). Si votre organisation a opté pour le système d’identification se génère automatiquement en fonction de la présence des paramètres subpublisher dans le fichier de configuration. Une attention particulière a été portée à la fonctionnalité « Transformations appliquées à cette valeur » car elle donne la possibilité au data manager de réaliser une curation automatisée de ses données. L’outil propose différents transformers permettant de standardiser le contenu du jeu de données. Par exemple, permet de transformer la valeur du champ en un booléen, de remplacer une chaîne de caractères par une autre ou bien encore d’ajouter une chaîne de caractères à la fin de la valeur du champ… L’étape 4 « Sémantiques », permet de renseigner la propriété ou prédicat des triplets (un triplet est composé de trois parties : sujet - prédicat - objet). La saisie y est facilitée par auto- complétion avec les différentes ontologies présentes dans le Linked Open Vocabularies exporte les structures nécessitant des nœuds blancs en leur créant des identifiants uniques. Nous avons identifié deux cas : 1. Annoter un autre champ : par exemple pour préciser la source d’une définition. 2. Composer ce champ : au sens du web sémantique, composer ce champ à partir de plusieurs champs. Par exemple, une adresse est composée d’un nom de rue, d’une ville, d’un pays. Après curation, sémantisation , le jeu de données est publié via le front office (dans notre cas ). Différents exports aux formats du web sémantique sont pos- sibles (Turtle pour sa lisibilité ; N-Quads et N-Triple pour leur simplicité et JSON pour son application courante dans le web). Ces exports permettent d’alimenter un triplestore ). Une documentation permettant la prise en main de l’outil ainsi que son utilisation est accessible à l’adresse suivante . Des tutoriels viendront la compléter. LODEX : des données structurées au web sémantique 4 Conclusion L’objectif principal de notre approche est de mettre à disposition un outil intuitif afin de valoriser un jeu de données via le web de données ou Linked Open Data . L’outil qui présente la caractéristique de publier des tableaux bruts selon des normes du web sémantique révèle les particularités suivantes : — faciliter la transformation de données structurées en données sémantisées, — aider à aligner les données à publier avec des données similaires ou connexes, — exposer le jeu de données pour valoriser et référencer chaque ressource. Dans le nouveau paradigme de la science ouverte et plus particulièrement celui des don- nées ouvertes, l’outil peut être un excellent allié afin de publier des données selon les principes "
}]