Web Sémantique et LOD

En De
Emerging Technology

Le concept du Web sémantique remonte à Tim Berners-Lee /tbl/ et est actuellement standardisé et développé par /w3c/. Le Web sémantique est une technologie futuriste permettant de relier des données avec des données d’autre type via des URI, c’est-à-dire de le mettre parfaitement en relation. Un principe identique existe pour les sites Internet actuels, quoique sur un site Internet, des renvois (links) surviennent sur d’autres sites Internet. Dans le Web sémantique, les données ne sont pas mises en relation par l’intermédiaire de sites Internet mais bien par des “triplets” via des URI. Un triplet contient toujours trois éléments sous forme de lot simple: Sujet-verbe-objet. Tout ce qui se trouve dans un triplet est constitué de données ou de métadonnées.

Afin de pouvoir décrire un objet plus complexe ou une ressource “X”, un lot fini (mais à priori pas défini de manière fixe) de triplets est utilisé, les triplets ayant toutefois tous le même sujet “X”.

Chaque propriété de “X” est ainsi définie via un triplet qui ajoute à “X” une propriété (verbe) et une valeur (objet) [déjà en 2008, des triplets furent étendus à des dénommés quadruples (“Quads”) – le quatrième élément dans le “quad” étant le contexte dans lequel la déclaration du triple doit être valable /quads/]. Il est intéressant de constater que des ressources, telles “X” par exemple, sont également mises en relation par l’intermédiaire de triplets. Il en résulte un graphe sémantique, pour lequel chaque nœud est un sujet (ou un objet) et les bords reliant/connotent les nœuds représentent, resp. connotent, alors les propriétés (verbe) parmi les nœuds en question (pour un exemple, voir /skos/). Un graphe sémantique peut contenir des milliers de concepts connotés de ce genre. Les données dans le Web sémantique sont disponibles dans des graphes, elles sont en règle générale publiques. De telles données publiques, Il est très simple de naviguer dans de telles données publiques – librement accessibles sous forme de graphes sémantiques – elles offrent des informations précises et des relations entre les informations, et réduisent énormément le temps de recherche. Selon leur acronyme actuel, on peut parler de LOD, LOD = “Linked Open Data” /lod1/ ou également de LOD-Data-Cloud. Fin 2011, les données LOD sont estimées à env. 30 milliards de triplets et env. 500 de connections sous la forme de graphes sémantiques /lod2/. Ainsi une ressource (un objet) via triplets – pas obligatoirement dans le même graphe sémantique (!) – peut être définie par un nombre à priori inconnu de triplets. La ressource est ainsi représentée/décrite de manière semi-structurée, c’est-à-dire avec une structure variable (dans le temps et l’espace). La technologie LOD suppose des formats standard, tels par ex. RDF – voir /rdf/.

Pourquoi le Web sémantique?
Le Web sémantique n’est pas seulement la représentation LOD ouverte, le Web sémantique décrit également toute une série de technologies permettant, sur une représentation LOD, de procéder avec des opérateurs logiques et donc de découvrir de “nouvelles” données (implicites et déductibles) [valider, déduire, /inf/]. Des „Reasoners“ (il s’agit là tout simplement de programmes d’ordinateur pouvant analyser les formats de représentation LOD de manière adéquate) retrouvent – rapidement et de manière fiable – des données au sein de graphes sémantiques, là où une simple demande de recherche fournirait autrement des milliers de résultats. Des applications du Web sémantique à plus grande echelle sont indiquées sous /wea/ et /swx/. Des problème complexes peuvent donc être résolues manière plus efficace /wea/ et /swx/. Ainsi les technologies du Web sémantique (représentation précise et traitement logique) deviennent indispensables pour des entreprises à connaissances soutenues afin de:
1.) relier les données de l’entreprise de manière précise tout en restant flexible (semi-structurée),
2.) représenter, sous forme modulaire, flexible et durable, les unités de connaissances (formules, pratiques, droits…) par l’intermédiaire de processus d’entreprise (au sens de la gestion des connaissances /knr/),
3.) relier, de manière précise mais flexible, les données d’entreprise avec celles des fournisseurs et des clients et donc d’obtenir une représentation homogène des données, dans laquelle il est simple de naviguer; ce qui réduirait alors considérablement les temps de recherche, de reporting et de réponse dans l’ensemble de l’entreprise étant donné que les informations sont disponibles sous forme de lien précis.

Les connaissances de l’entreprise peuvent être mises à disposition dans des ontologies – comment?
Des connaissances spécifiques spécifiques au domaine (formules, pratiques, droits, résultats empiriques) sont maintenus, depuis des siècles, dans des documents structurés. Les connaissances spécifiques devraient notamment être converties sous forme LOD de manière appropriée et leur fonctionement spécial devrait y être documenté. Le document résultant – un graphe sémantique complet ou partiel – est dénommé “Ontologie”. Une ontologie est une description systématique des connaissances des sujets et objets que l’on utilise dans un domaine. Différentes branches utilisent les ontologies et se les partagent. Les ontologies décrivent donc des faits spéciaux et peuvent donc peuvent donc être considérées comme étant un cas spécial de graphes sémantiques. Les généticiens utilisent par ex. depuis bien longtemps des ontologies – voir par ex. /gno/.

Comment arriver au nuage LOD?
Poussés par la nécessité de construire de manière durable une plate-forme d’informations, de structure nette et à recherche rapide, vous souhaitez “LOD-ifier” une partie de vos données d’entreprise, afin
1.) d’y effectuer des recherches précises avec de simples applications,
2.) de gagner, et de conserver une vue d’ensemble sur les données / connaissances d’entreprise,
3.) de relier, de manière précise mais tout de même flexible, les données d’entreprise avec d’autres données.

Une analyse de la situation détermine d’abord le type et la forme des données. La spécification qui en résulte détermine ce que les prestations cibles doivent fournir et comment elles doivent le fournir.
Ci-dessous quelques phases importantes de la LOD-ification:

a) le choix minutieux des vocabulaires pour la description des données d’entreprise,
b) les données d’entreprise concernées sont illustrées sur des graphes sémantiques; des triplets acceptés à titre d’hôtes dans votre entreprise en sont alors le résultat,
c) le développement des applications spécifiées pour le traitement de vos données d’entreprise.

Pour l’exploitation des graphes sémantiques ainsi obtenus à titre de données LOD, des mesures de mise en échelle adaptées sont prises par la suite, pour garantir une haute vitesse pour les nouvelles applications.

Mon entreprise doit-elle alors rendre publiques toutes les données?
Quoique les données LOD supposent et exigent en principe la publication, clair que les obstacles figurent dans les problèmes ayant trait au domaine légal et concurrentiel. Une entreprise ne doit ou ne devrait en conséquence pas publier toutes les données LOD, mais elle peut toutefois exploiter, de façon interne à l’entreprise et avec des partenaires confidentiels, les technologies du Web sémantique y étant liées de manière rentable.
Etant donné que les données LOD supposent la technologie du Web, l’accès à ces données via des URI appropriés (Uniform Resource Identificators) doit être enregistré dans la centrale de dépôts LOD ; ces URI protègent, sous application d’un modèle légal approprié, les domaines du Web concernés et ne rendent donc ainsi pas publiques les données. L’accès à un graphe sémantique obtenu – peu importe que ce soit pour l’utilisation interne ou contrôlée – est ainsi suffisamment protégé par la technologie actuelle du Web. Si des groupes de participants et des forces du marché recommandent l’unification de certains domaines (par ex. fournisseurs), le graphe sémantique correspondant peut être ouvert de manière contrôlé par l’intermédiaire de la technologie existante du Web.

Quel est en fait le “prix” d’une LOD-ification?
Le traitement adéquat, précis et flexible de données LOD soient les technologies du Web sémantique suppose naturellement que les données LOD sont structurées et gérées de manière logique et conforme à des standards. Une conservation précise des données est indispensables pour l’utilisation ultérieure des données d’entreprise. L’activité y étant reliée, le service Ingénierie des connaissances /seng/ joue alors un rôle important dans l’entreprise.

Quels sont les risques d’une LOD-ification?
Nous voyons les risques d’une LOD-ification dans le fait que la gestion des données puisse ne pas être à la hauteur, et qu’en conséquence le graphe sémantique de l’entreprise contienne des concepts dépassés et inadéquats. Vu que les données LOD, organisées selon le Web sémantique, sont une stucture logique – de manière identique à des nomenclatures spécifiques, d’éventuels “trous” dans la structure peuvent entraîner de grandes pertes de résultats lors de demandes. Un autre risque peut résider dans la faiblesse logique de la modélisation des données. Dans ce cas, faire un lien ultérieur avec ces données LOD ne sera que partiellement possibles, voire impossibles. Des données d’entreprise à LOD-ification trop faible doivent être remodelisées. Ceci peut également être le cas pour différents graphiques partiels.

Quel est le comportement du nuages LOD vis-à-vis de la mise en archives de données?
Les données sont ensuite mises en archivées ou alors détruites de manière ciblée selon les principes du Records Management, si la catégorie du record correspondant doit être archivée pour des raisons légales, structurelles et temporelles; ces rapports appropriés sont destinés à la mise en archives de contenus LOD; ces reports transmettent la partie déterminante des données d’entreprise dans un format lisible et à l’épreuve du temps. Il n’est pas necessaire de relier des données d’entreprise archivées avecs le nuage LOD.

Quelle est l’assistance de Semweb dans le cadre de la LOD-ification?
Semweb peut vous prêter assistance dans toutes les phases de la LOD-ification, l’assistance et l’exploitation de données LOD-ifiées.