Data Mining

Données ouvertes liées (Linked Open Data)

John Samuel
CPE Lyon

Year: 2023-2024
Email: john.samuel@cpe.fr

Creative Commons License

Wikidata

Linked Open Data

Le Linked Open Data (LOD) est une approche permettant de connecter des ensembles de données hétérogènes de manière ouverte et interconnectée, facilitant la découverte et l'utilisation des informations.

Principes Clés

  • Identifiants Uniques (URIs) : Chaque ressource est identifiée de manière unique à l'aide d'URIs.
  • Modèle RDF (Resource Description Framework) : Structuration des données sous forme de triplets (sujet-prédicat-objet) pour représenter les relations.
  • Protocole SPARQL : Langage de requête permettant d'interroger les données RDF de manière standardisée.

Wikidata

Linked Open Data

Objectifs

  • Interconnexion des Données : Faciliter la liaison entre différentes sources de données, permettant une vue globale et cohérente.
  • Accessibilité et Ouverture : Encourager la disponibilité publique des données avec des licences ouvertes favorisant leur utilisation.

Wikidata

Linked Open Data

Linked Open Data: Représentation des relations (2009)
Données ouvertes liées (Linked Open data: LOD), 2010
  1. https://commons.wikimedia.org/wiki/File:Lod-datasets_2009-07-14.svg
  2. https://commons.wikimedia.org/wiki/File:Lod-datasets_2010-09-22_colored.png

Wikidata

Wikidata

Wikidata a été lancé en 2012 en tant que projet collaboratif visant à créer une base de connaissances structurée et liée. Wikidata est une base de connaissances libre, ouverte, liée, structurée, collaborative et multilingue.

Wikidata

Wikidata

Évolution des sites Wikipédia : de sites Wikipédia multilingues avec plusieurs sous-domaines à un site Wikidata multilingue avec un seul domaine.

Wikidata

Wikipédia: Articles multilingues

L'Infobox est une composante clé des articles Wikipédia. Elle fournit un résumé structuré et concis des informations essentielles sur un sujet.

Wikidata

Wikipédia: Articles multilingues

Wikidata

Wikipédia: Articles multilingues

Problèmes potentiels

Wikipédia: Articles multilingues

Wikidata

Wikipédia: Articles multilingues

Problèmes potentiels

Wikipédia: Articles multilingues

Wikidata

Élément de Wikidata: libellés, descriptions et alias

Les éléments de Wikidata comprennent des libellés (labels), des descriptions et des alias. Les libellés sont les noms principaux, multilingues, attribués à chaque entité. Les descriptions fournissent des informations brèves sur la nature ou la signification de l'élément, tandis que les alias sont des synonymes ou variantes utilisés pour faciliter la recherche.

Exemple: Bogotá (Q2841)

Wikidata

Élément (item) de Wikidata: Étiquettes et propriétés

Les propriétés définissent les caractéristiques ou relations des éléments. Exemples : Date de naissance, lieu de naissance, genre, etc. Elles permettent une structuration précise des informations liées aux éléments.

Exemple: Avignon (Q6397)

Wikidata

Propriétés de Wikidata

Propriétés de Wikidata

Wikidata

Propriétés: Étiquettes et descriptions

Exemple: pays (P17)

Wikidata

Propriétés

Étiquettes, descriptions et alias de Property:P31 en anglais

Wikidata

Propriétés de l'Infobox de Wikipedia

Propriétés existantes de l'Infobox de Wikipedia en anglais pour une ville colombienne

Wikidata

Identifiant, étiquettes, descriptions et alias

Traductions actuelles: Bogotá (Q2841)

Wikidata

Wikidata: Informations, propriétés, qualifications et références

Wikidata

Wikidata: Informations, propriétés, qualifications et références

Wikidata

Wikidata: Informations, propriétés, qualifications et références

Informations actuelles: Bogotá (Q2841)

Wikidata

Wikidata: External identifiers

Identifiants externes actuels: Bogotá (Q2841)

Wikidata

Requêtes SPARQL

Interface web

4. Wikidata

Requêtes SPARQL

Les identifiants des grandes villes.

SELECT ?grandeville WHERE {
  ?grandeville wdt:P31 wd:Q1549591.
}

SELECT ?grandeville WHERE {
  ?grandeville wdt:P31 wd:Q1549591.
}
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les noms des grandes villes.

SELECT ?grandeville ?grandevilleLabel WHERE {
  ?grandeville wdt:P31 wd:Q1549591.
  SERVICE wikibase:label {
  bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les noms des grandes villes dans différentes langues.

SELECT ?grandeville ?grandevilleLabel WHERE {
  ?grandeville wdt:P31 wd:Q1549591.
  ?grandeville rdfs:label ?grandevilleLabel.
}
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les noms français des grandes villes.

SELECT ?grandeville ?grandevilleLabel WHERE {
  ?grandeville wdt:P31 wd:Q1549591;
    rdfs:label ?grandevilleLabel.
  FILTER(lang(?grandevilleLabel) = "fr")
}
LIMIT 100

Rémarque: Le sujet n'est pas répété sur la deuxième ligne grâce au point-virgule.

4. Wikidata

Requêtes SPARQL

Les noms des grandes villes de France.

SELECT ?grandeville ?grandevilleLabel WHERE {
  ?grandeville wdt:P31 wd:Q1549591;
    wdt:P17 wd:Q142;
    rdfs:label ?grandevilleLabel.
  FILTER(lang(?grandevilleLabel) = "fr")
}
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les noms et images des grandes villes de France.

SELECT ?grandeville ?grandevilleLabel ?image {
  ?grandeville wdt:P31 wd:Q1549591;
               wdt:P17 wd:Q142;
               wdt:P18 ?image;
               rdfs:label ?grandevilleLabel.
  FILTER(lang(?grandevilleLabel) = "fr")
}

4. Wikidata

Requêtes SPARQL

Les noms et images des grandes villes.

SELECT DISTINCT ?grandeville ?grandevilleLabel ?pays ?paysLabel ?image {
  ?grandeville wdt:P31 wd:Q1549591;
               wdt:P17 ?pays;
               wdt:P18 ?image.
 SERVICE wikibase:label { bd:serviceParam wikibase:language "fr". }
}
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les noms de 100 langages de programmation.

SELECT ?languageLabel (YEAR(?inception) AS ?year) WHERE {
  ?language wdt:P31 wd:Q9143;
    wdt:P571 ?inception;
    rdfs:label ?languageLabel.
  FILTER((LANG(?languageLabel)) = "en")
}
ORDER BY (?year)
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les noms de 100 langages de programmation et leurs paradigmes.

SELECT ?languageLabel ?paradigmLabel (YEAR(?inception) AS ?year) WHERE {
  ?language wdt:P31 wd:Q9143;
    wdt:P571 ?inception;
    wdt:P3966 ?paradigm;
    rdfs:label ?languageLabel.
  ?paradigm rdfs:label ?paradigmLabel.
  FILTER(((LANG(?languageLabel)) = "en") && ((LANG(?paradigmLabel)) = "en"))
}
ORDER BY (?year) (?paradigmLabel)
LIMIT 100

4. Wikidata

Requêtes SPARQL

Les informations disponibles sur la population des différents pays à différentes périodes.

SELECT DISTINCT ?countryLabel (YEAR(?date) AS ?year) ?population WHERE {
  ?country wdt:P31 wd:Q6256;
    p:P1082 ?populationStatement;
    rdfs:label ?countryLabel.
  ?populationStatement ps:P1082 ?population;
    pq:P585 ?date.
  FILTER((LANG(?countryLabel)) = "en")
}
ORDER BY (?countryLabel) (?year)
LIMIT 1000

Références

Ressources en ligne

Références

Couleurs

Images