Data Mining et Machine Learning

John Samuel
CPE Lyon

Year: 2023-2024
Email: john.samuel@cpe.fr

Objectifs

Cycle de vie des données : Phases de collecte à visualisation.
Acquisition, extraction, transformation de données : Étapes clés pour préparer l'analyse.
Stockage de données : Garantir disponibilité pour futures analyses.
ETL (Extract, Transform, Load) : Processus crucial pour préparation des données.
Analyses de données : Techniques variées pour insights.
Visualisation de données : Communication efficace des résultats.

Cycle de vie des données

Données : Collecte, stockage, et gestion initiale des données.
Connaissances : Extraction de signification à partir des données, identification de modèles et de tendances.
Perspectives : Interprétation des connaissances pour obtenir des insights exploitables.
Actions : Prise de décisions et mise en œuvre de stratégies basées sur les perspectives obtenues.

1.1. Des données à la connaissance

Acquisition de données
Extraction de données
Nettoyage de données
Transformation de données
Stockage de données
Modélisation de l'analyse des données
Analyses de données
Visualisation de données

1.1.1.1. Acquisition de données

Collecte initiale de données provenant de diverses sources.

1.1.1.2. ETL (Extraction Transformation, Loading)

ETL (Extraction, Transformation and Loading)

1.1.1.2. ETL (Extraction Transformation, Loading)

Extraction de données
Nettoyage de données
Transformation de données
Chargement des données dans les entrepôts de données

1.1.1.3. Analyses de données

Exploration approfondie des données pour identifier des tendances significatives et des insights pertinents.

Utilisation de tableurs tels que Microsoft Excel ou Google Sheets.

Fonctionnalités clés : tri, filtrage, formules, graphiques, facilitant l'analyse approfondie.

1.1.1.3. Analyses de données (Tableur)

Lignes (1, 2, 3, ...) : Représentent les enregistrements individuels ou observations dans le tableur.
Colonnes (A, B, C, ...) : Définissent les différentes variables ou attributs des données.
Cellule (A1, A2, B1, ...) : Intersection d'une ligne et d'une colonne, contenant une valeur spécifique.
Valeurs : Les données réelles stockées dans les cellules.
Cell Range (A1:A10) : Sélection de plusieurs cellules dans une colonne.
Feuille de calcul : Ensemble de données organisées sous forme de tableau dans le tableur.
Références (=A1, =A2, =Feuille1!A1, ...) : Liaison dynamique entre les cellules, permettant la mise à jour automatique des valeurs.
Formules (=expression) : Utilisation d'expressions mathématiques/logiques pour effectuer des calculs sur les données.

1.1.1.3. Analyses de données (Tableur: formules)

Valeurs : Les données réelles à traiter dans le tableur.
Références (A1, A1:A10, ...) : Liaisons aux cellules individuelles ou à des plages de cellules pour l'inclusion dans les calculs.
Opérateurs Arithmétiques (+, -, *) : Utilisés pour effectuer des opérations mathématiques sur les valeurs.
Opérateurs Relationnels (<, >) : Permettent de comparer les valeurs et d'évaluer des conditions.
Fonctions (SOMME, MOYENNE, MAX, ...) : Outils prédéfinis facilitant des calculs spécifiques sur les données.

1.1.1.4. Visualisation de données

Transformation des données en représentations graphiques claires et informatives. Par exemple, graphiques, tableaux de bord, cartes pour faciliter la compréhension visuelle.

1.1.1.4. Visualisation de données

L'acquisition de données [Lenzerini 2002][Dong 2013]

Questionnaires: questionnaires face à face, questionnaires en ligne
Capteurs¹

Température, pression, humidité
Acoustique, navigation
Proximité, capteurs de présence

Réseau sociaux
Vidéo de surveillance
Web
Enregistrement

https://en.wikipedia.org/wiki/List_of_sensors

1.2.1. Formats de stockage de données

Fichiers Textuels et Binaires - Stockage de données sous forme de fichiers texte lisible ou binaire pour une variété d'applications.
CSV/TSV (Comma/Tab-Separated Values) - Formats de texte structuré, idéaux pour les données tabulaires, avec des valeurs séparées par des virgules (CSV) ou des tabulations (TSV).
XML (eXtensible Markup Language) - Format de données lisible par machine et par l'homme, utilisant des balises pour structurer l'information.
JSON (JavaScript Object Notation) - Format léger, largement utilisé pour le stockage et l'échange de données entre serveurs et applications.
Médias (Images/Audio/Vidéo) - Stockage de données multimédias dans des formats spécifiques tels que JPEG, MP3, MP4, etc.

1.2.1. Formats de stockage de données: JSON

Format léger et lisible par l'homme pour représenter et échanger des données et une structure basée sur des paires clé-valeur, adaptée pour les objets complexes et les listes.

[
  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  },
  {
    "languageLabel": "ENIAC Short Code",
    "year": "1946"
  },
  {
    "languageLabel": "Von Neumann and Goldstine graphing system",
    "year": "1946"
  }
]

1.2.1. Formats de stockage de données: XML

Langage de balisage polyvalent pour représenter et structurer des données de manière lisible par l'homme et la machine. XML supporte la représentation de données complexes avec des schémas définissables.

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <element>
      <languageLabel>ENIAC coding system</languageLabel>
      <year>1943</year>
   </element>
   <element>
      <languageLabel>ENIAC Short Code</languageLabel>
      <year>1946</year>
   </element>
   <element>
      <languageLabel>Von Neumann and Goldstine graphing system</languageLabel>
      <year>1946</year>
   </element>
</root>

1.2.1. Formats de stockage de données: CSV

Format de fichier texte utilisé pour représenter des données tabulaires sous forme de valeurs séparées par des virgules.Il est idéal pour stocker des données tabulaires comme les feuilles de calcul.

languageLabel,year
ENIAC coding system,1943
ENIAC Short Code,1946
Von Neumann and Goldstine graphing system,1946

1.2.2 Types de stockage des données

Unstructured vs. Structured vs. Semi-structured

1.2.2 Types de stockage des données

Bases de données structurées
- Bases de données relationnelles
- Bases de données orientées objet
Bases de données non-structurées
- Systèmes de fichiers
- Systèmes de gestion de contenu (CMS)
- Collections de documents
Bases de données semi-structurées
- Systèmes de fichiers
- Bases de données NoSQL

1.2.3.1. Propriétés ACID¹

Atomicité: Chaque transaction est soit effectuée intégralement, soit annulée complètement. Évite les situations intermédiaires indésirables dans la base de données.
Cohérence: Toute transaction doit maintenir la cohérence de la base de données. La base de données doit passer d'un état valide à un autre après chaque transaction.
Isolation: Chaque transaction s'exécute de manière isolée, comme si elle était la seule sur le système. Empêche les interférences entre transactions concurrentes.
Durabilité: Même en cas de perte de puissance ou de plantage, une transaction engagée reste dans la base de données. Assure la persistance des données après la confirmation de la transaction.

https://fr.wikipedia.org/wiki/Propri%C3%A9t%C3%A9s_ACID

1.2.3.1. Propriétés ACID

Assurer la validité des bases de données
- Les propriétés ACID (Atomicité, Cohérence, Isolation, Durabilité) sont spécialement conçues pour garantir la validité des bases de données même en cas d'erreurs ou de pannes de courant.
Importance dans le secteur bancaire: critique dans le secteur bancaire en raison de la nature sensible des opérations financières.
- Atomicité assure que les transactions sont effectuées intégralement ou annulées en cas d'échec, évitant des situations financières indésirables.
- La Cohérence garantit que la base de données reste dans un état valide après chaque transaction, assurant l'exactitude des informations financières.
- L'Isolation prévient les conflits entre transactions concurrentes, préservant la confidentialité des données clients.
- La Durabilité assure la persistance des données, même en cas de perturbations, assurant la traçabilité et l'historique des transactions bancaires.

1.2.3.2 Types de bases de données

Bases de Données Relationnelles : Utilisent le modèle relationnel pour organiser les données en tables, liées par des clés. SQL est le langage de requête standard pour les bases de données relationnelles.
Base de Données Orientée Objet : Modélise les données sous forme d'objets, intégrant des concepts de l'orientation objet tels que l'héritage et l'encapsulation. Elle est utilisée pour représenter des structures de données complexes.
NoSQL (Not Only SQL) : Englobe une variété de modèles de données non relationnels tels que les bases de données clé-valeur, documentaires, graphes, et de colonnes. Adapté aux données non structurées ou semi-structurées.
NewSQL : Approche moderne qui vise à combiner les avantages des bases de données relationnelles avec des améliorations de performance adaptées aux architectures distribuées.

1.2.3.3. NoSQL

Théorème CAP¹

Il est impossible sur un système informatique de calcul distribué de garantir en même temps (c'est-à-dire de manière synchrone) les trois contraintes suivantes

Cohérence: tous les nœuds du système voient exactement les mêmes données au même moment
Disponibilité: garantie que toutes les requêtes reçoivent une réponse. Chaque requête reçoit une réponse (non erronée), sans la garantie qu'elle contient l'écriture la plus récente
Tolérance au partitionnement: Le système continue à fonctionner malgré un nombre arbitraire de messages qui sont abandonnés (ou retardés) par le réseau entre les nœuds

1.2.3.3. NoSQL

Compromis sur la cohérence

Les systèmes NoSQL peuvent faire des compromis sur la cohérence des données en faveur d'autres priorités.
La cohérence forte est souvent sacrifiée au profit d'une meilleure disponibilité et d'une réponse plus rapide.

Priorité à la disponibilité et à la rapidité

NoSQL donne la priorité à la disponibilité des données et à la rapidité des opérations.
S'adapte particulièrement bien aux applications nécessitant une évolutivité horizontale et des performances élevées.

1.2.3.3. NoSQL : BASE

Les bases de données NoSQL adoptent le modèle BASE en mettant l'accent sur la disponibilité immédiate des données et des opérations, même au détriment d'une cohérence instantanée.

Basically Available (BA) - Disponibilité Fondamentale : Assure la disponibilité des opérations de lecture et d'écriture, même en cas de perturbation. Priorise la disponibilité immédiate des données.
Soft-state (S) - État Temporaire : L'état du système sera disponible après un certain laps de temps, lorsque le système converge. Permet des périodes temporaires d'incohérence ou d'état intermédiaire.
Eventually Consistent (E) - Cohérence Éventuelle : Le système deviendra éventuellement cohérent lorsqu'il ne recevra plus d'opérations d'écriture. Accepte une certaine période d'incohérence avant la convergence.

1.2.3.3. Types de bases de données NoSQL

1.2.3.3. Types de bases de données NoSQL

1.2.3.3. Types de bases de données NoSQL

Base de données orientée colonnes
Base de données orientée documents
Base de données clé-valeur
Base de données orientée graphe

Base de données relationnelles

Dans une base de données relationnelle, un tableau est une entité qui stocke des données organisées en lignes et colonnes. Les colonnes (Attributs) Représentent les différents types d'informations que la table stocke. Chaque colonne a un nom unique et un type de données spécifique (texte, nombre, date, etc.). Chaque ligne (tuple) représente un enregistrement individuel dans la table. Les lignes contiennent des données spécifiques, conformes à la structure définie par les colonnes. La clé primaire est une colonne spécifique ou une combinaison de colonnes utilisée pour identifier de manière unique chaque ligne dans la table.

Exemple: un tableau dans une base de données relationnelles

num	languageLabel	year
1	ENIAC coding system	1943
2	ENIAC Short Code	1946
3	Von Neumann and Goldstine graphing system	1946

NoSQL: base de données orientée colonnes

Dans une base de données orientée colonnes, les données sont stockées de manière efficace en utilisant une structure orientée colonnes plutôt que des lignes. Les données sont organisées en familles de colonnes, chaque famille ayant plusieurs colonnes liées à un identifiant unique. Elle est idéale pour les situations où l'accès à un sous-ensemble spécifique de données est fréquent. Elle est performante pour les agrégations et les opérations analytiques.

Exemple: base de données orientée colonnes

ENIAC coding system:1; ENIAC Short Code:2 Von Neumann and Goldstine graphing system:3

1943:1; 1946:2; 1946:3

NoSQL : base de données orientée documents

Dans une base de données orientée documents, les données sont stockées sous forme de documents similaires à des objets JSON ou BSON. Les documents regroupent des données liées, souvent dans un format similaire à des paires clé-valeur ou des structures de données imbriquées. Elle permet une flexibilité de schéma, chaque document pouvant avoir des champs différents sans imposer une structure rigide. Elle est idéale pour les données semi-structurées ou changeantes fréquemment.

  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  }

Exemples : MongoDB, CouchDB sont des exemples de bases de données NoSQL orientées documents.

Exemple: base de données orientée clé-valeur

Dans une base de données orientée clé-valeur, les données sont stockées sous forme de paires clé-valeur. Chaque donnée est associée à une clé unique, et ces paires clé-valeur peuvent être simples ou complexes. Elle offre une flexibilité maximale en termes de structure de données. Elle donne une excellente performance pour les opérations de lecture et d'écriture simples. Elle est idéale pour les cas d'utilisation nécessitant une récupération rapide de données par clé. Elle est performante pour le stockage de données simples et non structurées.

identifiant	languageLabel,year
p1	ENIAC coding system,1943
p2	ENIAC Short Code,1946

Exemples : Redis, Amazon DynamoDB sont des exemples de bases de données NoSQL orientées clé-valeur.

NoSQL: base de données orientée graphe

Dans une base de données orientée graphe, les données sont représentées sous forme de nœuds, d'arêtes et de propriétés. Les nœuds représentent les entités, les arêtes décrivent les relations entre ces entités, et les propriétés fournissent des informations supplémentaires. Elle est excellente pour modéliser des relations complexes entre différents types d'entités. Elle favorise la découverte de motifs et l'analyse de réseaux. Elle est idéale pour les domaines où les relations entre les données sont cruciales, comme les réseaux sociaux et les recommandations. Elle facilite l'analyse de la connectivité et des structures complexes.

Exemple: base de données orientée graphe

1.3.1. Techniques d'extraction des données

Vidage de données (data dumps)
- Téléchargement de données de vidange complètes
- Téléchargement de vidanges sélectives de données
Interrogation périodique des flux de données (par exemple, les blogs, les flux d'informations)
Flux de données
- Abonnement aux flux de données (notifications "push")

1.3.2. Interfaces d'interrogation

Points terminaux de requête supportant les langues déclaratives : Des points d'interrogation qui prennent en charge des langues déclaratives pour interroger la base de données. Utilisation de langues comme SQL (Structured Query Language) pour les bases de données relationnelles et SPARQL (SPARQL Protocol and RDF Query Language) pour les données RDF.
Options de recherche (et de filtrage) manuelle automatisée : Possibilité pour les utilisateurs d'effectuer des recherches manuelles et mise en place d'options automatisées pour filtrer les résultats. Exemple : Une interface offrant des filtres prédéfinis et une barre de recherche manuelle pour des requêtes plus spécifiques.

1.3.3. Crawlers pour les pages web

Les crawlers, également appelés robots d'indexation, sont des programmes qui parcourent et analysent automatiquement les pages web pour collecter des informations. Les crawlers naviguent de page en page en suivant les liens, extrayant des données pertinentes telles que le contenu, les liens hypertextes, les balises méta, etc.

Web crawlers : naviguer dans l'ensemble en utilisant des hyperliens

1.3.4. Interface de programmation d'applications (API)

Opérations Web (CRUD) pour manipuler les ressources gérées en externe
- Create: créer
- Read: lire
- Update: mettre à jour
- Delete: supprimer
Requiert que les programmeurs développent des wrappers pour l'intégration des services web

1.3.4. Interface de programmation d'applications (API)

import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

1.4.1. Nettoyage de données

Identifie et corrige les anomalies pour garantir la qualité des données

Erreurs de Syntaxe - Correction des erreurs liées à la structure, format, ou type de données.
Erreurs Sémantiques - Rectification des incohérences de sens dans les données.
Erreurs de Couverture - Résolution des lacunes ou des données manquantes pour assurer une couverture complète.

1.4.1.1. Erreurs de syntaxe

Erreurs Lexicales - Ces erreurs impliquent une utilisation inappropriée des caractères ou des symboles, par exemple, si un utilisateur saisit une chaîne de caractères au lieu d'un chiffre dans une colonne numérique. Exemple : L'utilisateur entre "dix" au lieu de "10" dans une colonne de valeurs numériques.
Erreurs de Format des Données - Ces erreurs concernent la structure ou la présentation incorrecte des données, telles que des incohérences dans l'ordre du nom de famille et du prénom. Exemple : Les données sont enregistrées avec l'ordre "Nom, Prénom" au lieu de "Prénom Nom".
Erreurs de Données Irrégulières - Ces erreurs surviennent lorsque des données ne respectent pas les conventions ou les unités de mesure attendues, par exemple, l'utilisation de mesures différentes. Exemple : Dans une colonne de poids, certaines valeurs sont enregistrées en kilogrammes tandis que d'autres le sont en livres.

1.4.1.2. Erreurs sémantiques [Abedjan 2016]

Violation des Contraintes d'Intégrité - Il s'agit de situations où les données enfreignent les règles définies pour garantir la cohérence et la validité des informations. Exemple : Une règle stipulant qu'un étudiant ne peut être inscrit à plus d'un cours à la fois est violée.
Erreurs de Contradiction - Des incohérences entre les données qui devraient normalement être compatibles. Exemple : Un enregistrement indiquant qu'un produit est en stock tout en indiquant simultanément qu'il est en rupture de stock.
Erreurs de Duplication - Des enregistrements redondants ou répétitifs qui nuisent à l'efficacité de la base de données. Exemple : Deux entrées identiques pour le même client dans la base de données.
Erreurs de Donnée Invalide - L'enregistrement de données qui ne respectent pas les normes ou les formats attendus. Exemple : Enregistrer une date au format texte au lieu du format date prévu.

1.4.1.3. Erreurs de couverture

Valeur Manquante - La non-présence d'une valeur dans une colonne où une valeur est attendue. Exemple : L'absence de données dans la colonne "Prix" pour certains produits.
Donnée Manquante - L'absence complète d'une entrée ou d'un enregistrement dans la base de données. Exemple : L'absence totale des détails d'un client dans la base de clients.

1.4.2.1. Traitement des erreurs syntaxiques

Validation à l'Aide d'un Schéma - La validation à l'aide d'un schéma est un processus permettant de s'assurer que les données respectent une structure définie. Exemple : Utilisation de schémas tels que XSD (XML Schema Definition) ou JSONP pour valider la structure et le format des données.
Transformation de Données - La transformation de données implique la modification de la structure ou du format des données pour les rendre conformes aux exigences. Exemple : Utilisation d'outils de transformation comme XSLT (eXtensible Stylesheet Language Transformations) pour rectifier les erreurs syntaxiques et harmoniser le format des données.

1.4.2.1. Traitement des erreurs syntaxiques: XSD

<xs:schema attributeFormDefault="unqualified"
      elementFormDefault="qualified" xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="root" type="rootType"/>
  <xs:complexType name="elementType">
    <xs:sequence>
      <xs:element type="xs:string" name="languageLabel"/>
      <xs:element type="xs:short" name="year"/>
    </xs:sequence>
  </xs:complexType>
  <xs:complexType name="rootType">
    <xs:sequence>
      <xs:element type="elementType" name="element" maxOccurs="unbounded" minOccurs="0"/>
    </xs:sequence>
  </xs:complexType>
</xs:schema>

1.4.2.2. Traitement des erreurs sémantiques

L'élimination des doublons implique la suppression d'enregistrements redondants en utilisant des contraintes d'intégrité, comme les dépendances fonctionnelles.

Exemple : Identifier les colonnes pertinentes qui définissent la duplication (par exemple, 'Colonne1', 'Colonne2'). Appliquer la suppression des doublons en conservant uniquement la première occurrence.

1.4.2.2. Traitement des erreurs sémantiques

num	languageLabel	year
1	ENIAC coding system	1943

\({num}\rightarrow{languageLabel}\)

\({languageLabel}\rightarrow{year}\)

\({num}\rightarrow{year}\)

1.4.2.3. Traitement des erreurs de couverture

Techniques d'Interpolation - L'interpolation consiste à estimer ou remplir les valeurs manquantes en se basant sur les données existantes. Exemple : Utilisation de méthodes d'interpolation, comme l'interpolation linéaire, pour estimer des valeurs manquantes dans une série chronologique.
Utilisation de Sources de Données Externes pour les Vérifications Croisées - La vérification croisée avec des sources externes implique l'utilisation de données provenant d'autres sources pour compléter ou valider les informations manquantes. Exemple : Intégrer des données provenant d'une source externe pour compléter les détails manquants dans une base de données client.

1.4.2.4. Administrateurs et traitement des erreurs

Retour d'Information des Utilisateurs pour Correction - Implique la collecte de commentaires et de corrections des utilisateurs pour améliorer la qualité des données. - Exemple : Plateformes collaboratives comme OpenStreetMap et Wikipedia permettent aux utilisateurs de signaler des erreurs et de contribuer à la correction des données.
Alertes et Déclencheurs en Cas d'Ajout d'Informations Incohérentes - Mise en place de mécanismes automatisés pour détecter et signaler les ajouts d'informations incohérentes. - Exemple : Utilisation d'alertes et de déclencheurs dans une base de données pour notifier les administrateurs lorsqu'une entrée incohérente est ajoutée.

1.5.1 Langages de programmation

Langues des Templates - Modèles prédéfinis pour formater et structurer les données.
XSLT (eXtensible Stylesheet Language Transformations) - Langage pour transformer et styliser les documents XML.
AWK - Langage de programmation pour l'extraction de données et la génération de rapports.
Sed (Stream Editor) - Utilisé pour effectuer des transformations simples sur les flux de texte.
Langages de Programmation tels que PERL - Puissants pour la manipulation de chaînes de caractères et la transformation complexe de données.

1.6.1. ETL (Extraction Transformation and Loading)

Extraction des Données : Récupération de données depuis différentes sources, qu'elles soient internes ou externes à l'organisation.
Nettoyage des Données : Identification et correction des erreurs, des incohérences et des duplications dans les données extraites.
Transformation des Données : Modification des données extraites pour les rendre conformes aux besoins et aux standards de l'entrepôt de données.
Chargement des Données dans les Entrepôts de Données : Intégration des données nettoyées et transformées dans l'entrepôt de données, prêtes pour l'analyse.

1.6.2. ETL: d'une base de données à l'autre

Déplacer efficacement les données des sources, telles que bases de données internes/externes et services web, vers les destinations, incluant entrepôts de données d'entreprise et entrepôts web, pour faciliter l'analyse.

De : Sources de données
- Bases de données internes ou externes, regroupant des données provenant de différentes sources.
- Services web fournissant des données via des API ou d'autres protocoles.
À : Entrepôts de données
- Entrepôts de données d'entreprise qui centralisent les informations pour l'analyse.
- Entrepôts Web spécialisés dans le stockage et l'analyse de données spécifiques à des applications en ligne.

1.6.2.1. Analyse des données multidimensionnelles

Exploration des données selon plusieurs dimensions pour une compréhension approfondie.

Dimensions :Les aspects sous-jacents des données qui sont analysés.

Attributes (Attributs): : Caractéristiques spécifiques d'une dimension.
Niveaux: : Les différentes valeurs possibles pour un attribut.
Hiérarchies: : Organisation des niveaux en structures arborescentes.

Faits : Les mesures quantitatives associées aux dimensions, fournissant les données à analyser.

1.6.2.1. Analyse des données multidimensionnelles

Dimensions

Dimensions : Spatio-temporelles Dimensions, Produits.
Attributes : Par exemple, nom, fabricant, etc.
Niveaux : Par exemple, jour, mois, trimestre, magasin, ville, pays, etc.
Hiérarchies : Par exemple, jour-mois-trimestre-année, magasin-ville-pays, etc.

Faits

Faits : Mesures telles que le nombre de produits vendus/non vendus.

1.6.2.2. Modèle de données en étoile

Le modèle de données en étoile est une architecture de base de données conçue spécifiquement pour faciliter l'analyse et le reporting dans les entrepôts de données.

Schéma en Étoile :
- Caractérisé par une table centrale de faits entourée de tables de dimensions.
- La table centrale de faits contient les mesures numériques que l'on souhaite analyser.
Table de Faits :
- Contient des mesures quantitatives telles que les ventes, les quantités, etc.
- Souvent liée à des clés étrangères provenant des tables de dimensions.

1.6.2.2. Modèle de données en étoile

Tables de Dimensions :
- Contiennent des informations détaillées sur les dimensions associées aux faits.
- Exemples de dimensions : temps (date, mois, année), produits, clients, emplacements géographiques.
Relations Simples :
- Chaque table de dimension est liée à la table centrale de faits par des clés étrangères.
- Facilite les requêtes multidimensionnelles en permettant des analyses détaillées.
Avantages :
- Favorise la simplicité et la performance pour les requêtes analytiques complexes.
- Idéal pour les environnements où l'analyse multidimensionnelle est fréquente.

1.6.2.2. Modèle de données en étoile

1.6.2.3. Cubes ou hypercube de données

Dans le modèle de données en étoile, les cubes de données, également appelés hypercubes, sont des structures multidimensionnelles qui permettent une analyse approfondie.

Structure Multidimensionnelle : Les cubes comprennent plusieurs dimensions, chacune correspondant à une table de dimensions dans le schéma en étoile.
Mesures au Centre : Les mesures quantitatives sont placées au centre du cube, correspondant à la table centrale de faits.
Analyse Multidimensionnelle : Permet une analyse approfondie en explorant les données le long de différentes dimensions.
Interactions avec les Dimensions : Les utilisateurs peuvent interagir avec les cubes en tranchant (slice), coupant (dice), ou pivotant (pivot) pour visualiser les données sous différents angles.

1.6.2.3. Cubes ou hypercube de données

Avantages

Facilite une analyse multidimensionnelle approfondie.
Permet des requêtes ad hoc pour répondre à des questions spécifiques.

1.6.2.3. Cubes ou hypercube de données

Opérations du Cube OLAP

Cubes de Données pour le Traitement Analytique en Ligne (OLAP) : - Les cubes de données sont essentiels pour les systèmes OLAP, facilitant l'analyse multidimensionnelle.Les opérations OLAP permettent aux utilisateurs d'interagir avec les cubes pour obtenir des analyses spécifiques.

Slice (Tranche) - Extraction d'une tranche d'informations le long d'une dimension spécifique.
Dice (Bloc) - Extraction d'un bloc de données, une opération plus générale que le slicing, permettant de spécifier plusieurs dimensions.
Roll-up (Relevé) - Le Roll-up est une opération essentielle dans le traitement analytique en ligne (OLAP) pour agréger les données vers des niveaux supérieurs d'une hiérarchie dimensionnelle.

1.6.2.3. Cubes ou hypercube de données

Drill Up (Remonter) - Synthèse des informations en agrégeant vers des niveaux supérieurs d'une dimension.
Drill Down (Descendre) - Opération inverse du drill-up, permettant d'explorer des niveaux inférieurs d'une dimension.
Pivot (Pivoter) - Sélection du couple de dimensions qui formera le résultat de la requête, offrant une vue alternative.

1.6.2.4. Modèle de données en flocon

Le modèle de données en flocon est une variante du modèle en étoile, conçu pour réduire la redondance en normalisant les dimensions.

Structure en Flocon - Comme le modèle en étoile, il comprend une table centrale de faits et des tables de dimensions. Cependant, les tables de dimensions peuvent être normalisées, réduisant la duplication.
Tables de Dimensions Normalisées - Les tables de dimensions en flocon peuvent être décomposées en plusieurs tables normalisées, réduisant la redondance des données.
Relations Normalisées - Les relations entre les tables sont définies de manière à minimiser la redondance, mais cela peut complexifier les requêtes.

1.6.2.4. Modèle de données en flocon

Avantages

Réduit l'espace de stockage en normalisant les données.
Utile lorsque la redondance des données doit être minimisée.

Activités d'analyse des données

Récupération des Valeurs : Extraire les données nécessaires à partir de sources diverses pour l'analyse.
Filtrer : Sélectionner des données spécifiques en fonction de critères prédéfinis pour réduire le volume de données.
Calculer les Valeurs Dérivées : Créer de nouvelles variables en effectuant des calculs basés sur les valeurs existantes.
Trouver l'Extremum : Identifier les valeurs maximales et minimales dans un ensemble de données.
Trier : Organiser les données dans un ordre spécifique, souvent croissant ou décroissant.
Déterminer la Limite : Établir des seuils ou des limites pour définir des critères spécifiques.

Activités d'analyse des données

Caractériser la Distribution : Analyser la répartition des valeurs dans un ensemble de données à l'aide de mesures statistiques.
Trouver des Anomalies : Identifier des valeurs aberrantes ou des schémas inhabituels dans les données.
Cluster : Regrouper les données similaires pour découvrir des structures ou des tendances.
Corréler : Examiner les relations entre différentes variables pour déterminer les liens.
Contextualisation : Comprendre les données dans leur contexte global pour une interprétation plus approfondie.

https://en.wikipedia.org/wiki/Data_analysis

1.8.1.Les variables visuelles [Jacques Bertin]

Jacques Bertin identifie différentes variables visuelles cruciales pour la représentation graphique des données.

Position : La position spatiale des éléments sur le graphique.
Taille : La taille relative des éléments pour représenter une mesure.
Forme : La forme distinctive des éléments pour catégoriser ou différencier.
Valeur : La valeur numérique des éléments, souvent représentée par la longueur d'une barre ou le placement le long d'un axe.
Couleur : L'utilisation de couleurs pour représenter des informations ou des catégories.
Orientation : L'angle ou l'inclinaison des éléments pour indiquer une direction ou une tendance.
Texture : La variation de surface ou de motif pour ajouter des informations tactiles à la visualisation.

1.8.2. Visualisation des données : Exemples

Séries Temporelles : Représentation graphique de données en fonction du temps pour analyser les tendances et les fluctuations.
Classement : Affichage ordonné des éléments en fonction d'une mesure spécifique pour identifier les leaders ou les suiveurs.
Partie à l'Ensemble : Illustration de la contribution relative des parties à un ensemble total.
Écart : Représentation graphique des différences entre des valeurs, souvent utilisée pour identifier des variations significatives.
Triage : Organisation des données pour révéler des modèles ou des structures spécifiques.
Distribution des Fréquences : Visualisation de la répartition des valeurs dans un ensemble de données, souvent à l'aide d'histogrammes.

1.8.2. Visualisation des données : Exemples

Corrélation : Analyse visuelle des relations entre deux variables pour identifier des tendances ou des dépendances.
Comparaison Nominale : Visualisation des différences entre catégories sans mesure quantitative.
Géographique ou Géospatial : Utilisation de cartes pour représenter des données en fonction de leur emplacement géographique.

Référence: https://en.wikipedia.org/wiki/Data_visualization

1.8.2. Visualisation des données: Exemples

Diagramme en Bâtons (Comparaison Nominale) : Utilisé pour comparer des catégories sans mesure quantitative, représentant des données discrètes.
Diagramme Circulaire (Partie à l'Ensemble) : Illustration de la contribution relative des parties à un ensemble total, utile pour représenter des pourcentages.
Histogramme (Distribution des Fréquences) : Visualisation graphique de la répartition des valeurs dans un ensemble de données, utilisé pour comprendre la distribution.
Nuage de Points (Corrélation) : Représentation de la corrélation entre deux variables, chaque point représentant une paire de valeurs.
Réseaux : Illustration des relations complexes entre entités interconnectées.

1.8.2. Visualisation des données: Exemples

Graphique Linéaire (Séries Temporelles) : Représentation des données en fonction du temps pour analyser les tendances et les variations.
Arborescence : Visualisation hiérarchique des relations entre différentes catégories ou niveaux.
Diagramme de Gantt : Utilisé pour planifier et suivre l'avancement des tâches sur une échelle de temps.
Carte Thermique/Heatmap : Utilisation de couleurs pour représenter des données sur une matrice, mettant en évidence les zones de concentration.

https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_graphique_de_donn%C3%A9es

Diagramme circulaire

Les paradigmes du langage de programmation (diagramme à bulles)

Historique des langages de programmation (Histropedia)

Diagramme d'influence des langages de programmation

k couleurs prédominantes

Diagrammes de dispersion RGB (Comparaison)

Articles de recherche

[Abedjan 2016] Abedjan, Ziawasch, et al. Detecting Data Errors: Where Are We and What Needs to Be Done? VLDB Endowment, 1 Aug. 2016.
[Dong 2013] Dong, Xin Luna, and Divesh Srivastava. “Big Data Integration.” 2013 IEEE 29th International Conference on Data Engineering (ICDE), 2013, pp. 1245–48. IEEE Xplore
[Lenzerini 2002] Lenzerini, Maurizio. “Data Integration: A Theoretical Perspective.” Proceedings of the Twenty-First ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Association for Computing Machinery, 2002, pp. 233–246. ACM Digital Library

Data Mining et Machine Learning

Data Mining

Objectifs

1.1. Cycle de vie des données

Cycle de vie des données

1.1. Cycle de vie des données

1.1. Des données à la connaissance

1.1. Cycle de vie des données

1.1. Des données à la connaissance

1.1. Cycle de vie des données

1.1.1.1. Acquisition de données

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

1.1. Cycle de vie des données

1.1.1.2. ETL (Extraction Transformation, Loading)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur)

1.1. Cycle de vie des données

1.1.1.3. Analyses de données (Tableur: formules)

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

1.1. Cycle de vie des données

1.1.1.4. Visualisation de données

1.2. Acquisition et stockage des données

L'acquisition de données [Lenzerini 2002][Dong 2013]

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: JSON

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: XML

1.2. Acquisition et stockage des données

1.2.1. Formats de stockage de données: CSV

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

1.2. Acquisition et stockage des données

1.2.2 Types de stockage des données

1.2. Acquisition et stockage des données

1.2.3.1. Propriétés ACID1

1.2. Acquisition et stockage des données

1.2.3.1. Propriétés ACID

1.2. Acquisition et stockage des données

1.2.3.2 Types de bases de données

1.2. Acquisition et stockage des données

1.2.3.3. NoSQL

Théorème CAP1

1.2. Acquisition et stockage des données

1.2.3.3. NoSQL

Compromis sur la cohérence

Priorité à la disponibilité et à la rapidité

1.2. Acquisition et stockage des données

1.2.3.3. NoSQL : BASE

1.2. Acquisition et stockage des données

1.2.3.3. Types de bases de données NoSQL

1.2. Acquisition et stockage des données

1.2.3.3. Types de bases de données NoSQL

1.2. Acquisition et stockage des données

1.2.3.3. Types de bases de données NoSQL

1.2. Acquisition et stockage des données

Base de données relationnelles

1.2. Acquisition et stockage des données

Exemple: un tableau dans une base de données relationnelles

1.2. Acquisition et stockage des données

NoSQL: base de données orientée colonnes

1.2. Acquisition et stockage des données

Exemple: base de données orientée colonnes

1.2. Acquisition et stockage des données

NoSQL : base de données orientée documents

1.2. Acquisition et stockage des données

Exemple: base de données orientée clé-valeur

1.2. Acquisition et stockage des données

NoSQL: base de données orientée graphe

1.2. Acquisition et stockage des données

Exemple: base de données orientée graphe

1.3. Extraction et intégration des données

1.3.1. Techniques d'extraction des données

1.3. Extraction et intégration des données

1.3.2. Interfaces d'interrogation

1.2.3.1. Propriétés ACID¹

Théorème CAP¹