26 juin 2009

Le Web sémantique à iExpo 2009

La session "Web sémantique" organisée par l'ADBS, pilotée par  Véronique MESGUICH (Directrice de l'Infothèque/Léonard de Vinci) fut riche et de très haute qualité ! Un public nombreux, à l'écoute, attentif. Un régal... je ne regrette pas le prix un peu élevé ;-) de cette demi journée.

Les transparents sont en ligne sur le site iExpo. Malheureusement le basculement en pdf (beurk !) nous fait perdre toute la dynamique des excellentes présentations concoctées par les orateurs.

1. Nathalie AUSSENAC-GILLES, chargée de recherches à l'IRIT-Université Paul Sabatier de Toulouse ouvre le bal avec un "Eclairage général sur le web sémantique". Nathalie Aussenac nous a habitué à des exposés à l'attention du "grand public" (enfin, pas de chercheurs spécialisés, mais un peu au parfum tout de même) de grande qualité.

J'ai extrait de son intervention deux planches particulièrement intéressante sur le plan pédagogique.

[Apparté : L'IRIT organise les 8èmes Rencontres Internationales Terminologie et Intelligence Artificielle à Toulouse (France), le 18-20 novembre 2009 - http://www.irit.fr/TIA09/index.html

Sur cette première planche : les noeuds et les relation du "Web aujourd'hui" sont de nature identiques : ils sont a-sémantiques. Le Web sémantique se propose d'ajouter et donc de distinguer noeuds et relations.

Aussenac-web1-webS

On voit donc apparaitre des ontologies qui apportent ce niveau de sémantique qui fait défaut aujourd'hui.

Les différences avec des systèmes d'organisation de connaissances tels que les taxonomies ou les thésaurus sont sur ces deux planches visibles.[A mon avis, le A_pour_rôle doit être dans le schéma sur les ontologies ?]

Aussenac-relation-thesaurus

Aussenac-relation-ontologie

En dehors de ce niveau de structuration (étiquette, classe et instance), l'ontologie est beaucoup plus formalisée et permet le développement de relations spécifiques (entre une personne et un sujet, on établit une relation "connaît"). Ce qui permet d'appliquer des traitements et des contrôles.

[Dalb - Distinguer labels / étiquettes, classes et instances (nos fameuses listes annexes !) constitue un élément-clé des dispositifs sémantiques. Bien que déjà présentent dans la norme ISO de thésaurus (mais pas la norme FR), ces distinctions ont été peu mises en oeuvre. Mais elles vont être renforcées dans la nouvelle norme (ISO DIS 25964) qui devrait paraître cette fin d'année. Préparons-nous !]

[Dalb - Même si les thésaurus (spécialisés) se développent dans des domaines (des spécialités), l'objectif des thésaurus étaient de gommer les points de vue autour des concepts (culturels, linguistiques). Le "flou" dans les relations permettait des regroupements que l'on estime (estimait) suffisant pour un objectif de recherche de "documents". Dans le contexte de l'accès à l'information dans des corpus de documents numériques, il est important de passer à un autre type d'outil sémantiquement plus formalisé.... D'où ces ontologies...].

Le temps de parole de N. Aussenac était déjà dépassé et l'intervention s'est terminée en citant les travaux actuels sur l'annotation sémantique des corpus (de texte) et l'exposition des données avec Linked Data. Le support ppt de Nathalie Aussenac (pdf)


2. Bruno Menon maître de conférences associé à l'Université Paris 8, aborde dans cette deuxième intervention, les "nouvelles compétences professionnelles liées aux outils sémantiques (pdf)".

L'auteur s'appuie sur une mise en correspondance entre les compétences mises en oeuvre dans le cadre d'un système d'information documentaire et plusieurs sources présentant les compétences des professionnels de l'infodoc, en particulier "LA" fiche ROME et surtout l'Euroréférentiel des compétences des profs de l'infodoc. Ce dernier est organisé en 33 domaines de compétence répartis en 4 principaux groupes : Groupe I – Information, Groupe T – Technologies, Groupe C – Communication, Groupe M – Management.
Bruno Menon propose d'étudier les compétences nécessaires pour trois modèles déclinés à partir d'un schéma de système d'information générique qu'il distingue en fonction de la nature des médiations et du nombre d'interfaces.

Système d'information documentaire générique

Menon-schema-generique

  • le modèle "classique" fait la part belle à l'intermédiation humaine impliquant des expertises professionnelles. Ce qui se traduit par un poids important accordé au groupe de compétences I - Information
  • le modèle "moderne" supprime la médiation humaine !, une seule interface entre le back-office et l'utilisateur, l'expertise se trouvant dans le système et chez l'utilisateur. Ce qui se traduit par un poids important accordé au groupe de compétences T - Technologies
  • le modèle "post-moderne" du Web sémantique, réintroduit des niveaux d'intermédiation. Des compétences du groupe I - Information sont à nouveau convoquées, compétences à rapprochées du domaine Gestion des contenus et des connaissances(I04) et Analyse et représentation de l’information (I06). Avec des absences en particulier celles liées aux "ressources sémantique".
B. Menon - "Dans chacun des modèles évoqués, des formes de ressources « sémantiques »
(langages documentaires / dictionnaires, ressources TAL / Ontologie) peuvent être mobilisées.
Ces ressources doivent être créées et gérées ....
Par des professionnels de l’info-doc ??

Bruno Menon poursuit sa réflexion sur les hypothèses et les routes possibles pour les professionnels de l'infodoc et le web sémantique.

[Dalb : depuis plusieurs mois déjà une fiche adhoc sur le thème  des "systèmes de représentation de domaines" est proposée, mais régulièrement retoquée par le groupe en charge de l'évolution de cet Euroréférentiel ! Mais si les professionnels de l'infodoc ne sont pas tojours placés sur le devant de la scène pour les compétences et activités sur les ressources sémantiques - en particulier sur les ontologies - , ils participent fortement à ces systèmes, et l'absence total d'un domaine de compétences dédié aux ressources sémantiques risque de nous éloigner irrémédiablement de ces développements. Qu'en pensez vous ? ]

3 Jean Delahousse, pdg de Mondeca a souhaité rebondir sur les propos de Bruno Menon plutôt que de suivre le fil de sa présentation !
Une très bonne chose pour nous tous : en partant de l'expérience de Mondeca chez un client, il a souhaité exposer les compétences et les fonctions qui ont été nécessaires au développement du projet :

Contexte : un éditeur
1 - Orchestrer  des ressources terminologiques
2 - Aider les experts du "domaine" à formuler, formaliser le dispositif sémantique
3 - Modérer (principe des candidats descripteurs)
4 - IHM : développer l'accès à l'information par profils
5 - Mapping entre vocabulaires (alignement de vocabulaires)

[Dalb : Des fonctions sommes toutes "classiques" de pilotage, gestion et contrôle de vocabulaires et d'appui aux experts ("faire accoucher les experts"). Ce ne sont donc pas ces catégories de compétences qui sont nouvelles, mais le contexte. Celui-ci est assez nouveau (variété des utilisateurs, contraintes d'usages, forme des ressources...) pour que la mise en oeuvre de ces compétences en soit modifiée].

L'intervention de Jean Delahousse s'est poursuivie par la présentation de plusieurs expériences que vous pouvez voir sur le document de présentation (pdf).

4. La dernière présentation par Tayeb Merabti, doctorant, participant à l'équipe CISMEF du CHU de Rouen (que l'on ne présente plus !!) et au LITIS portait sur l'intégration d’outils sémantiques dans le portail Cismef.

Le changement stratégique du dispositif documentaire a rendu nécessaire ce travail de fédération et d'intégration de familles d'outils sémantiques indispensables. En effet, CISMEF a décidé en 2005 de quitter l'univers mono-terminologique (MeSH) et de basculer dans un univers multi terminologique. Pour aller vers la construction d'un serveur multi-terminologique de Santé (SMTS), supporté par les outils de Mondeca et regroupant les vocabulaires suivants :

Smts cismef

[Un travail qui devrait se développer parallèlement à l'évolution des types de ressources et de la variété des natures d'information qui nécessitent donc des outils sémantiques variés donc certains sont des nomenclatures "officielles".]

Des traitements automatiques multi-terminologiques et de multiples services en perspective. Très beau projet. Excellente présentation ... et dans les temps, comme l'a souligné un précédent orateur ;-)

On attend iExpo 2010 de pied ferme !



14 juin 2009

Libérer les métadonnées. 2. Facette et Delicious

Facette (écrit en français?) est une application d'organisation par facettes des tags de Delicious.

Le contexte

Cette application sur Delicious exploite l'outil Exhibit du MIT développé dans le cadre du projet SIMILE (Semantic Interoperability of Metadata and Information in unLike Environments). SIMILE a déjà été présenté dès 2006 par Christophe Le Bot ou C.Fauré, entre autres websemanticiens francophones. L'applicatif Timeline est certainement l'outil, issu de ce projet, le plus connu. Exhibit est quant à lui un cadre d'applications de publication de pages Web interactives. L'utilisation pendant quelques semaines de l'application fournit de nombreuses pistes de réflexion.

Résultat : un tableau de bord pour exploiter le "répertoire" Delicious

Tout d'abord le résultat (résultats en ligne) : un véritable tableau de bord de mes signets sous Delicious, s'appuyant sur une catégorisation des mots-clés (à gauche de l'écran), fonction qui donne son nom à l'application, sur un index de l'ensemble des mots-clés produits (droite de l'écran) et offrant une recherche directe bien plus efficace que sur Delicious.

FacetteMIT-ex2.002

Etudions l'arrière du décors

Les résultats sont exportables, ici au format RDF/XML, ce qui nous permet d'étudier de plus près, les données ... format ouvert oblige.

FacetteMIT-ex1.001

Mais comment sont produits ces tags enrichis ? Ce type d'index de mots-clés associés à leurs catégories d'indexation peut être produit en sortie des systèmes documentaires habituels pour être exploité par un applicatif adhoc type Exhibit ou un moteur d'indexation et de recherche.

Sous Delicious, Facette vous propose de basculer sur une interface ... d'indexation !

Facette1

Au fil de l'eau, on obtient des tags Delicious avec un look particulier ...

Facette2

Que nous apporte cette application ? Que peut-on en dire ?

  • Structurer la représentation des ressources est très utile ! Certes.
    • Mais ce n'est pas tant la phase d'indexation structurée ici qui me semble intéressante que l'application en aval - Exhibit (exposition) - qui permet de produire dynamiquement cette interface de recherche riche.

    • Un intérêt toutefois à l'application amont (la phase d'indexation) : elle montre tout ce qui peut être fait avec des métadonnées libérées- ici des données structurées stockées sous Delicious.

    • La question reste bien sûr la phase "d'attribution d'une étiquette". Après une période de démarrage que je qualifierais de très douloureuse ;-), j'ai atteint aujourd'hui une phase de croisière. Je n'utilise plus l'outil d'annotation du MIT (qui ne fonctionne pas trop bien : ne mémorisant pas mes propositions, je me retrouve régulièrement avec une page vierge, et des catégories ... anglosaxonnes ...). Par contre, mes tags sont maintenant assez riches sous ce formatage pour rendre cette tâche acceptable sous Delicious directement. Et cette liste m'aide à ... réfléchir ! Petit travail intellectuel très profitable assisté par la machine à l'inverse de la logique documentaire.
Facette3
  • Ces fonctionnalités sont-elles exploitables réellement dans des systèmes d'indexation sociale ?

Il me semble que cela ne peut s'imaginer que si le premier niveau de description ("catalogage" + "indexation sujet") est totalement ou partiellement, déjà intégré à la ressource. L'annotation réalisée par l'utilisateur est alors tellement orientée par son usage que cela semble tout à fait naturel : en tant qu'utilisatrice, il m'est plus facile d'indexer "ma" métadonnée "Exemple", que le sujet global de la ressource. Si j'élabore un dossier documentaire sur les "ressources pédagogiques en ligne", il m'est plus facile de tagger des références par rapport à cette thmatique, lorsqu'elles sont préalablement enrichies.

  • Quelles "facettes" ? Quelle schéma de métadonnées ? Quelle sémantique pour les tags ?
    • La question de la sémantique des catégories de tags reste entière, mais je vois poindre le CommonTag, une toute nouvelle spécification que Bernard Vatant de Mondeca nous présente.
    • Mais il ne s'agit pas toutefois d'imposer "une" structure unique, mais de permettre l'exploitation de différents schémas de métadonnées liés aux usages autour de collections mises à disposition. Par exemple j'avais besoin de distinguer "nature d'information" de "type d'objet", "exemple" ou "norme", le "domaine couvert" et le "sujet". Bref une structure adhoc. Sur ce plan, l'exploitation de Delicious est très parlant.

(Désolée pour celles qui en ont marre de Delicious)

Autres ressources

  • Un autre papier sur Facette par ReadWriteWeb au début de l'année.
  • Pour la notion de facette, se reporter aux travaux de Jacques Maniez. Par exemple : "Des classifications aux thésaurus :
    Du bon usage des facettes", Documentaliste - Sciences de l’information, 1999, vol. 36, n° 4-5 (non accessible en ligne), qui "plaide [...] pour un usage plus rigoureux du terme et de l’outil [classification à facettes), qui fasse clairement le partage entre la classification des concepts et le classement des sujets.

01 juin 2009

OAI, recherche fédérée et "exemplaires" multiples !

Interroger simultanément plusieurs ressources à partir d'une seule requête est une fonctionnalité fondamentale bien connue des documentalistes qui interrogent depuis les années 1970, les serveurs professionnels, comme Dialog, STN, Questel,.. (une histoire de ces serveurs).

Un des problèmes de cette fonctionnalité reste la présentation des résultats fournis par ces diverses sources, et plus particulièrement la suppression des doublons pouvant exister entre les ressources.
En imposant des principes de dépôt et surtout un format "normalisé" de description des ressources (même s'il est possible d'enrichir le DC simple), la recherche sur des entrepôts OAI devrait nous éviter ces problèmes.

Or une recherche sur le métamoteur OAI, ScientificCommons, nous ramène très fréquemment des doublons et même, comme nous allons le voir, 6 résultats pour un même titre !

Résultats en double

1. Pourquoi ces doublons ?
L'application de ScientificCommons nous offrant la possibilité de contrôler l'origine des enregistrements, nous voyons qu'il s'agit de la même ressource OAI dans laquelle l'application de moissonnage a rapatrié la page liée à l'identifiant, ici le DOI mais aussi la page "résumé" .

  • Publication details
    Download     http://citeseerx.ist.psu.edu/viewdoc/summary10.1.1.69.7216
    Source     http://www.heppnetz.de/files/hepp-de-bruijn-ESWC2007-gentax-CRC.pdf
  • Publication details
    Download     http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.69.7216
    Source     http://www.heppnetz.de/files/hepp-de-bruijn-ESWC2007-gentax-CRC.pdf

Ce doublon pourrait donc être résolu techniquement (assez simplement ?), soit au niveau de l'application ScientificCommons, soit peut être à la source.

D'autres résultats montrent que ces doublons peuvent être dus aux différents accès à une même ressource. Par exemple pour cette OAI australienne, les doublons proviennent du moisonnage via deux URL :

  • l'écran de recherche  : http://espace.library.curtin.edu.au:80
  • l'écran réservé au moissonnage :  http://espace.library.curtin.edu.au:1802/webingest/action/start.do
  • alors que l'adresse de l'OAI Arrow Discovery Service, est clairement unique dans les 2 cas : [http://search.arrow.edu.au/apps/ArrowUI/OAIHandler]

(PS: ceci n'est pas visible sur le site de ScientificCommons. C'est en récupérant les notices bibliographiques sous Zotero que l'on identifie ces deux accès à la même source)  

L'URL d'accès étant différente, le moteur de moissonnage semble les considérer comme différentes ... Alors que l'adresse (l'identifiant?) de l'OAI reste la même (ici - http://search.arrow.edu.au/apps/ArrowUI/OAIHandler).

Encore un point technique qui pourrait être résolu, me semble-t-il en prenant l'adresse de l'OAI et non pas l'adresse des accès proposés ? (mais je ne connais pas tous les arcanes de la norme OAI !).

2. L'écran suivant montre un problème qui n'est pas à caractère technique mais organisationnel.

OAI - Résultats multiples

Une étude poussée de ces 6 réponses nous permet de noter que les OAI moissonnées sont au nombre de 4 :

Sources des OAI

  1. http://archive-edutice.ccsd.cnrs.fr/oai/oai.php
  2. http://archive-edutice.ccsd.cnrs.fr/oai/oai.php (identique à 1.)
  3. http://edutice.archives-ouvertes.fr/oai/oai.php (alias, renvoi à 1.)
  4. http://hal.ccsd.cnrs.fr/oai/oai.php
  5. http://hal.ccsd.cnrs.fr/oai/oai.php (identique à 4.)
  6. http://hal.inria.fr/oai/oai.php

Nous retrouvons les doublons évoqués dans la première partie de ce billet, pour une même Archive OAI.

Nous avons identifié trois autres motifs possibles aux nombreux "exemplaires" :

  • HAL est déjà en fait une méta-archive moissonnant les archives Edutice (produite par la Fondation Maison des Sciences de l’Homme de Paris) et Inria, tout comme ScientificCommon
  • La structure interne des enregistrements que nous avons étudié montre des différences qui peuvent également être à la source de ces problèmes
  • Des différences sur la description du document (type de document, les mots clés, langue)  montrent qu'il y a eu deux saisies du même document

L'informatique nous aide, mais il faut aussi aider l'informatique ;-)

Et après de multiples recherches en français ou en anglais, je peux vous dire que ce problème est particulièrement visible pour les entrepôts Français. 


Tout cela ne n'arrange pas les affaires de l'utilisateur exploitant SciencesCommons, pourtant si efficace !