Data Science

John Samuel
CPE Lyon

Année: 2023-2024
Email: john.samuel@cpe.fr

Objectifs

Panorama du numérique
Usine 4.0
Codage des données en chimie
Acquisition et stockage de données

Cadran solaire

Mesure du temps : Utilisé pour indiquer l'heure en fonction de la position du soleil et suivre des changements saisonniers et des équinoxes.
Principe de base : Ombre projetée par un style sur une surface graduée.

Les cadrans solaires témoignent de l'ingéniosité scientifique de l'antiquité. Ils ont influencé le développement ultérieur des instruments astronomiques.

Ancien cadran solaire egyptien (1500 av. J.-C. )

Système de numération

Système de numération

Utilisation pour représenter et manipuler des quantités.
Contribution à la collecte et à l'organisation des données.

Exemples de Systèmes Anciens

Système Babylonien : Base 60, utilisé pour des calculs astronomiques.
Numération Maya : Base 20, avec un système de points et de traits.
Système Romain : Symboles alphanumériques pour représenter des quantités.

Système de numération

Applications

Enregistrement historique : Utilisation de ces systèmes pour enregistrer des données importantes.
Calculs astronomiques : Adaptation à des besoins spécifiques comme les calculs astronomiques.

Transition vers les systèmes modernes

Évolution numérique : Passage aux systèmes binaires et décimaux.
Héritage culturel : Impact persistant sur la numération moderne.

Machine à Écrire

Invention : Développement au 19e siècle pour la saisie et la documentation.
Traitement manuel : Limitations liées à la vitesse et à la capacité.

Machine à écrire électronique

Transition numérique : Intégration de composants électroniques dans les machines à écrire.
Augmentation de la vitesse et de l'efficacité : Améliorations dans le traitement de l'information.

Automatisation Partielle : Réduction des tâches manuelles dans la saisie de données.

Machine à différences de Charles Babbage

Machine à calculer de Blaise Pascal

Invention au 17e siècle : Calculatrice mécanique à six chiffres.
Utilisation scientifique : Contribution à la résolution de problèmes mathématiques complexes.

Machine à Différences de Charles Babbage

Conception au 19e siècle : Machine mécanique pour automatiser les calculs.
Précurseur des ordinateurs : Influence sur le développement des ordinateurs modernes.

Automatisation des calculs : Réduction du temps nécessaire pour effectuer des calculs complexes.

Avancées scientifiques : Facilitation de la recherche scientifique grâce à des outils de calcul plus efficaces.

L'ENIAC (photo prise entre 1947 et 1955).

L'ENIAC (1947-1955)

Pionnier de l'ère informatique : Premier ordinateur électronique de grande échelle.
Calculs complexes : Utilisé pour des calculs scientifiques et militaires.

IBM PC 5150 (1983) :

Ère des ordinateurs personnels : Lancement du premier IBM PC accessible au grand public.
Révolution informatique : Popularisation de l'informatique domestique et des logiciels.

Démocratisation de l'informatique : Transition vers l'accessibilité et l'utilisation généralisée des ordinateurs.

Précurseurs des technologies actuelles : Fondement des systèmes informatiques modernes.

Développement : Introduction dans les années 1970.
Technologie d'Impact : Utilisation de têtes d'impression à impact pour former des caractères.
Polyvalence : Adaptée à l'impression de documents et de rapports.

Sortie de données : Facilitation de la visualisation des informations traitées.

Usage commercial : Adoption répandue dans les environnements professionnels.

Disquettes (8 Pouces, 5,25 Pouces et 3,5 Pouces)

Développement : Introduction des différentes tailles de disquettes dans les années 1970 et 1980.
Stockage Amovible : Moyen de stockage pratique pour le transfert de données.

Disque Dur

Développement : Introduction des premiers disques durs dans les années 1950.
Stockage Permanent : Utilisation de disques magnétiques pour stocker des données de manière permanente.
Capacité Croissante : Évolution vers des disques durs offrant une capacité de stockage de plus en plus importante.

Stockage portable et massif: Disquettes pour la portabilité des données et le stockage volumineux et permanent.

Serveurs : Impact sur les méthodes de stockage de données et contribution à la gestion centralisée des données.

Origines : Émergence des serveurs dans les débuts de l'informatique.
Centralisation des ressources : Utilisation des serveurs pour centraliser le stockage et la gestion des données.
Connectivité réseau : Intégration des serveurs dans des environnements réseau.

Évolution des technologies serveur

Améliorations de la capacité : Augmentation de la capacité de stockage des serveurs au fil du temps.
Virtualisation : Introduction de technologies de virtualisation pour une utilisation plus efficace des ressources.
Stockage cloud : Transition vers des solutions de stockage basées sur le cloud.

Impact

Centralisation et partage : Facilitation de la centralisation et du partage des données.
Sécurité et redondance : Utilisation des serveurs pour assurer la sécurité et la redondance des données.
Précurseurs des infrastructures de données modernes : Fondement des systèmes de stockage actuels.

Croissance de la capacité mondiale de stockage de données et informations

Croissance des Capacités de Stockage

Début de l'informatique : Capacités de stockage modestes, souvent mesurées en kilooctets.
Années 2000 : Expansion significative avec l'avènement des disques durs de plusieurs gigaoctets.
Époque contemporaine : Térabytes et pétaoctets deviennent la norme.

Technologies de Stockage Émergentes

Stockage Flash : Introduction de la mémoire flash pour des performances rapides.
Stockage en nuage : Utilisation de services cloud pour une capacité virtuellement infinie.
Innovations futures : Anticipation de nouvelles avancées dans le stockage quantique, etc.

Systèmes

Systèmes distribués (a,b)

Origines : Développement des concepts de systèmes distribués dans les années 1960.
Caractéristiques : Répartition des tâches sur des machines connectées en réseau.
Avancements Modernes : Utilisation dans les applications cloud et les réseaux distribués contemporains.

Calcul distribué
https://commons.wikimedia.org/wiki/File:Distributed-parallel.svg

Systèmes

Systèmes parallèles (c)

Développement : Émergence des systèmes parallèles pour exécuter des tâches simultanées.
Traitement Parallèle : Utilisation de multiples processeurs pour accélérer le traitement.
Applications Actuelles : Intégration dans les supercalculateurs et les environnements informatiques intensifs.

Calcul distribué

Les projets suivants ont utilisé la puissance de traitement des ordinateurs personnels pour différents objectifs

Genome@home: pour l'étude des génomes et des protéines
Folding@home: simuler le repliement des protéines dans diverses configurations de température et de pression
SETI@home: détecter de la vie intelligente non terrestre
LHC@Home: simuler les collisions de particules élémentaires dans l’accélérateur de particules LHC

Tendances de recherche Google (novembre 2020): Big Data

Tendances de recherche Google (novembre 2020): Big Data et Artificial Intelligence

Tendances de recherche Google (novembre 2020): Big Data, Artificial Intelligence et Blockchain

Articles de recherche déjà publiées
Brévets
Les cahiers de recherche

Cycle de vie des données

Données : Collecte, stockage, et gestion initiale des données.
Connaissances : Extraction de signification à partir des données, identification de modèles et de tendances.
Perspectives : Interprétation des connaissances pour obtenir des insights exploitables.
Actions : Prise de décisions et mise en œuvre de stratégies basées sur les perspectives obtenues.

Place de la Bourse à Bordeaux vue par le dispositif Imayana

Acquisition
Extraction
Nettoyage
Stockage
Analyse
Visualisation

Les super marchés et le shopping [Dennis 2001]

Caissier : Acteur principal dans l'acquisition de données au point de vente.

Enregistre les détails des transactions d'achats, y compris les articles, les quantités, et les prix.

Les données collectées sont cruciales pour l'analyse des comportements d'achat et la gestion des stocks.

Les achats en ligne [Chen, Daqing 2012]

Acquisition de données dans le domaine de l'e-commerce : Enregistrement des transactions, détails des produits, informations de paiement, et données sur les clients.

Les transactions financières [Kovalerchuk 2005]

Guichet Automatique Bancaire: point d'acquisition de données cruciales dans le secteur financier.

Enregistrement des transactions effectuées via les guichets automatiques bancaires.
Les données incluent les montants, les types de transactions, et les informations de compte.

Guichet Automatique Bancaire (Transactions financières)[Kovalerchuk 2005]

Les capteurs [Shen Bin 2010]

Méthode d'acquisition de données par l'utilisation de capteurs de température.

Collecte continue d'informations sur les variations de température, pression.
Les données sont essentielles dans des domaines tels que la météorologie, la surveillance environnementale, et le contrôle industriel.

Les vidéos [Brax 2008]

Méthode d'acquisition de données à travers l'utilisation de caméras vidéo : enregistrement visuel continu de scènes spécifiques.

Les médias et réseaux sociaux [Aggarwal 2011]

Acquisition de données à partir des médias et des plateformes de réseaux sociaux : collecte d'informations provenant de publications, commentaires, partages, et interactions en ligne.

Variété de données telles que texte, images, vidéos, reflétant la diversité des contenus générés par les utilisateurs.
Analyse des tendances, des opinions, et des comportements à partir des informations collectées.

Production participative [Gao 2011]

Méthode d'acquisition de données impliquant la contribution du grand public : collecte de données provenant d'un grand nombre de participants en ligne. Les données incluent des idées, des avis, des contributions créatives, reflétant la diversité des participants.

Production participative (Crowdsourcing)

Production participative [Nakayama 2007]

Exemple de production participative dans le domaine des données : contributions massives à des projets tels que Wikipédia, Wikibooks, et autres.

Données textuelles, multimédias, et collaboratives provenant de contributeurs du monde entier.
Les projets Wikimedia démontrent l'ampleur et la puissance de la production participative dans la création et le partage de connaissances.

Enregistrement de données [Alspaugh 2014]

Utilisation de la commande tail pour extraire des informations du fichier d'accès Apache. Exemple de collecte de données en temps réel à partir des journaux d'accès. Les données enregistrées proviennent des requêtes HTTP au serveur Apache.

                     $ tail /var/log/apache2/access.log
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET / HTTP/1.1" 200 3477 "-"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET /icons/ubuntu-logo.png HTTP/1.1" 304 180 "http://localhost/"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET /favicon.ico HTTP/1.1" 404 294 "-"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"

Enregistrement de données [Alspaugh 2014]

Exemple de collecte de données en temps réel à partir des journaux d'accès. Les données enregistrées proviennent des erreurs et des anomalies détectées par le serveur Apache.

                     $ tail /var/log/apache2/error.log

[Wed Nov 14 09:53:39.563044 2018] [mpm_prefork:notice] [pid 849]
         AH00163: Apache/2.4.29 (Ubuntu) configured -- resuming normal operations
[Wed Nov 14 09:53:39.563066 2018] [core:notice] [pid 849]
         AH00094: Command line: '/usr/sbin/apache2'
[Wed Nov 14 11:35:35.060638 2018] [mpm_prefork:notice] [pid 849]
         AH00169: caught SIGTERM, shutting down

Questionnaires

Questionnaires face à face
Questionnaires en ligne

Capteurs¹

Température, pression, humidité
Acoustique, navigation
Proximité, capteurs de présence

Réseau sociaux
Vidéo de surveillance
Web
Enregistrement

Different types of data acquistion techniques

https://en.wikipedia.org/wiki/List_of_sensors

from urllib import request

response = request.urlopen("https://en.wikipedia.org/wiki/Main_Page")
html = response.read()

from urllib import request
from lxml import html

document = html.parse(request.urlopen("https://en.wikipedia.org/wiki/Main_Page"))
for link in document.iter("a"):
    if(link.get("href") is not None):
        print(link.base_url+link.get("href"))

import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

import requests
url = "https://api.github.com/users/johnsamuelwrites/repos"

response = requests.get(url)
print(response.json())

Données structurées

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://query.wikidata.org/sparql")
sparql.setQuery("""
SELECT ?item WHERE {
  ?item wdt:P31 wd:Q9143;
}
LIMIT 10
""")
sparql.setReturnFormat(JSON)
results = sparql.query().convert()

for result in results["results"]["bindings"]:
    print(result)

Nettoyage de données

Identifie et corrige les anomalies pour garantir la qualité des données

Erreurs de Syntaxe - Correction des erreurs liées à la structure, format, ou type de données.
Erreurs Sémantiques - Rectification des incohérences de sens dans les données.
Erreurs de Couverture - Résolution des lacunes ou des données manquantes pour assurer une couverture complète.

Erreurs de syntaxe
- Erreurs lexicales
- Erreurs de formatage
- Erreurs d'irrégularité
Erreurs sémantiques
- Violation des contraintes d'intégrité
- Erreurs de contradiction
- Erreurs de duplication
- Erreurs de donnée invalide
Erreurs de couverture
- Valeur manquante
- Donnée manquante

Erreurs de syntaxe

Erreurs Lexicales - Ces erreurs impliquent une utilisation inappropriée des caractères ou des symboles, par exemple, si un utilisateur saisit une chaîne de caractères au lieu d'un chiffre dans une colonne numérique. Exemple : L'utilisateur entre "dix" au lieu de "10" dans une colonne de valeurs numériques.
Erreurs de Format des Données - Ces erreurs concernent la structure ou la présentation incorrecte des données, telles que des incohérences dans l'ordre du nom de famille et du prénom. Exemple : Les données sont enregistrées avec l'ordre "Nom, Prénom" au lieu de "Prénom Nom".
Erreurs de Données Irrégulières - Ces erreurs surviennent lorsque des données ne respectent pas les conventions ou les unités de mesure attendues, par exemple, l'utilisation de mesures différentes. Exemple : Dans une colonne de poids, certaines valeurs sont enregistrées en kilogrammes tandis que d'autres le sont en livres.

Erreurs sémantiques [Abedjan 2016]

Violation des Contraintes d'Intégrité - Il s'agit de situations où les données enfreignent les règles définies pour garantir la cohérence et la validité des informations. Exemple : Une règle stipulant qu'un étudiant ne peut être inscrit à plus d'un cours à la fois est violée.
Erreurs de Contradiction - Des incohérences entre les données qui devraient normalement être compatibles. Exemple : Un enregistrement indiquant qu'un produit est en stock tout en indiquant simultanément qu'il est en rupture de stock.
Erreurs de Duplication - Des enregistrements redondants ou répétitifs qui nuisent à l'efficacité de la base de données. Exemple : Deux entrées identiques pour le même client dans la base de données.
Erreurs de Donnée Invalide - L'enregistrement de données qui ne respectent pas les normes ou les formats attendus. Exemple : Enregistrer une date au format texte au lieu du format date prévu.

Erreurs de couverture

Valeur Manquante - La non-présence d'une valeur dans une colonne où une valeur est attendue. Exemple : L'absence de données dans la colonne "Prix" pour certains produits.
Donnée Manquante - L'absence complète d'une entrée ou d'un enregistrement dans la base de données. Exemple : L'absence totale des détails d'un client dans la base de clients.

Traitement des erreurs syntaxiques

Validation à l'Aide d'un Schéma - La validation à l'aide d'un schéma est un processus permettant de s'assurer que les données respectent une structure définie. Exemple : Utilisation de schémas tels que XSD (XML Schema Definition) ou JSONP pour valider la structure et le format des données.
Transformation de Données - La transformation de données implique la modification de la structure ou du format des données pour les rendre conformes aux exigences. Exemple : Utilisation d'outils de transformation comme XSLT (eXtensible Stylesheet Language Transformations) pour rectifier les erreurs syntaxiques et harmoniser le format des données.

Traitement des erreurs syntaxiques: XSD

<xs:schema attributeFormDefault="unqualified"
      elementFormDefault="qualified" xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="root" type="rootType"/>
  <xs:complexType name="elementType">
    <xs:sequence>
      <xs:element type="xs:string" name="languageLabel"/>
      <xs:element type="xs:short" name="year"/>
    </xs:sequence>
  </xs:complexType>
  <xs:complexType name="rootType">
    <xs:sequence>
      <xs:element type="elementType" name="element" maxOccurs="unbounded" minOccurs="0"/>
    </xs:sequence>
  </xs:complexType>
</xs:schema>

Traitement des erreurs sémantiques

L'élimination des doublons implique la suppression d'enregistrements redondants en utilisant des contraintes d'intégrité, comme les dépendances fonctionnelles.

Exemple : Identifier les colonnes pertinentes qui définissent la duplication (par exemple, 'Colonne1', 'Colonne2'). Appliquer la suppression des doublons en conservant uniquement la première occurrence.

num	languageLabel	year
1	ENIAC coding system	1943

\({num}\rightarrow{languageLabel}\)

\({languageLabel}\rightarrow{year}\)

\({num}\rightarrow{year}\)

Traitement des erreurs de couverture

Techniques d'Interpolation - L'interpolation consiste à estimer ou remplir les valeurs manquantes en se basant sur les données existantes. Exemple : Utilisation de méthodes d'interpolation, comme l'interpolation linéaire, pour estimer des valeurs manquantes dans une série chronologique.
Utilisation de Sources de Données Externes pour les Vérifications Croisées - La vérification croisée avec des sources externes implique l'utilisation de données provenant d'autres sources pour compléter ou valider les informations manquantes. Exemple : Intégrer des données provenant d'une source externe pour compléter les détails manquants dans une base de données client.

Administrateurs et traitement des erreurs

Retour d'Information des Utilisateurs pour Correction - Implique la collecte de commentaires et de corrections des utilisateurs pour améliorer la qualité des données. - Exemple : Plateformes collaboratives comme OpenStreetMap et Wikipedia permettent aux utilisateurs de signaler des erreurs et de contribuer à la correction des données.
Alertes et Déclencheurs en Cas d'Ajout d'Informations Incohérentes - Mise en place de mécanismes automatisés pour détecter et signaler les ajouts d'informations incohérentes. - Exemple : Utilisation d'alertes et de déclencheurs dans une base de données pour notifier les administrateurs lorsqu'une entrée incohérente est ajoutée.

Fichiers
Blockchain
Base de données (Rélationnels et NoSQL)

Formats de stockage de données

Fichiers Textuels et Binaires - Stockage de données sous forme de fichiers texte lisible ou binaire pour une variété d'applications.
CSV/TSV (Comma/Tab-Separated Values) - Formats de texte structuré, idéaux pour les données tabulaires, avec des valeurs séparées par des virgules (CSV) ou des tabulations (TSV).
XML (eXtensible Markup Language) - Format de données lisible par machine et par l'homme, utilisant des balises pour structurer l'information.
JSON (JavaScript Object Notation) - Format léger, largement utilisé pour le stockage et l'échange de données entre serveurs et applications.
Médias (Images/Audio/Vidéo) - Stockage de données multimédias dans des formats spécifiques tels que JPEG, MP3, MP4, etc.

Formats de stockage de données: JSON

Format léger et lisible par l'homme pour représenter et échanger des données et une structure basée sur des paires clé-valeur, adaptée pour les objets complexes et les listes.

[
  {
    "languageLabel": "ENIAC coding system",
    "year": "1943"
  },
  {
    "languageLabel": "ENIAC Short Code",
    "year": "1946"
  },
  {
    "languageLabel": "Von Neumann and Goldstine graphing system",
    "year": "1946"
  }
]

Formats de stockage de données: XML

Langage de balisage polyvalent pour représenter et structurer des données de manière lisible par l'homme et la machine. XML supporte la représentation de données complexes avec des schémas définissables.

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <element>
      <languageLabel>ENIAC coding system</languageLabel>
      <year>1943</year>
   </element>
   <element>
      <languageLabel>ENIAC Short Code</languageLabel>
      <year>1946</year>
   </element>
   <element>
      <languageLabel>Von Neumann and Goldstine graphing system</languageLabel>
      <year>1946</year>
   </element>
</root>

Formats de stockage de données: CSV

Format de fichier texte utilisé pour représenter des données tabulaires sous forme de valeurs séparées par des virgules.Il est idéal pour stocker des données tabulaires comme les feuilles de calcul.

languageLabel,year
ENIAC coding system,1943
ENIAC Short Code,1946
Von Neumann and Goldstine graphing system,1946

Types de stockage des données

Unstructured vs. Structured vs. Semi-structured

Types de stockage des données

Bases de données structurées
- Bases de données relationnelles
- Bases de données orientées objet
Bases de données non-structurées
- Systèmes de fichiers
- Systèmes de gestion de contenu (CMS)
- Collections de documents
Bases de données semi-structurées
- Systèmes de fichiers
- Bases de données NoSQL

Bases de données relationnelles
Base de données orientée objet
NoSQL
NewSQL

Analyses de données

Exploration approfondie des données pour identifier des tendances significatives et des insights pertinents.

Utilisation de tableurs tels que Microsoft Excel ou Google Sheets.

Fonctionnalités clés : tri, filtrage, formules, graphiques, facilitant l'analyse approfondie.

Analyses de données (Tableur)

Lignes (1, 2, 3, ...) : Représentent les enregistrements individuels ou observations dans le tableur.
Colonnes (A, B, C, ...) : Définissent les différentes variables ou attributs des données.
Cellule (A1, A2, B1, ...) : Intersection d'une ligne et d'une colonne, contenant une valeur spécifique.
Valeurs : Les données réelles stockées dans les cellules.
Cell Range (A1:A10) : Sélection de plusieurs cellules dans une colonne.
Feuille de calcul : Ensemble de données organisées sous forme de tableau dans le tableur.
Références (=A1, =A2, =Feuille1!A1, ...) : Liaison dynamique entre les cellules, permettant la mise à jour automatique des valeurs.
Formules (=expression) : Utilisation d'expressions mathématiques/logiques pour effectuer des calculs sur les données.

Biologie/médecine
Astronomie
Robotique industrielle
Securité

Un robot industriel Motoman SDA10, robot d'assemblage

Voiture autonome dont on distingue certains capteurs sur le toit.

Les variables visuelles [Jacques Bertin]

Jacques Bertin identifie différentes variables visuelles cruciales pour la représentation graphique des données.

Position : La position spatiale des éléments sur le graphique.
Taille : La taille relative des éléments pour représenter une mesure.
Forme : La forme distinctive des éléments pour catégoriser ou différencier.
Valeur : La valeur numérique des éléments, souvent représentée par la longueur d'une barre ou le placement le long d'un axe.
Couleur : L'utilisation de couleurs pour représenter des informations ou des catégories.
Orientation : L'angle ou l'inclinaison des éléments pour indiquer une direction ou une tendance.
Texture : La variation de surface ou de motif pour ajouter des informations tactiles à la visualisation.

Visualisation des données

Séries Temporelles : Représentation graphique de données en fonction du temps pour analyser les tendances et les fluctuations.
Classement : Affichage ordonné des éléments en fonction d'une mesure spécifique pour identifier les leaders ou les suiveurs.
Partie à l'Ensemble : Illustration de la contribution relative des parties à un ensemble total.
Écart : Représentation graphique des différences entre des valeurs, souvent utilisée pour identifier des variations significatives.
Triage : Organisation des données pour révéler des modèles ou des structures spécifiques.
Distribution des Fréquences : Visualisation de la répartition des valeurs dans un ensemble de données, souvent à l'aide d'histogrammes.

Visualisation des données

Corrélation : Analyse visuelle des relations entre deux variables pour identifier des tendances ou des dépendances.
Comparaison Nominale : Visualisation des différences entre catégories sans mesure quantitative.
Géographique ou Géospatial : Utilisation de cartes pour représenter des données en fonction de leur emplacement géographique.

Référence: https://en.wikipedia.org/wiki/Data_visualization

Visualisation des données: Exemples

Diagramme en Bâtons (Comparaison Nominale) : Utilisé pour comparer des catégories sans mesure quantitative, représentant des données discrètes.
Diagramme Circulaire (Partie à l'Ensemble) : Illustration de la contribution relative des parties à un ensemble total, utile pour représenter des pourcentages.
Histogramme (Distribution des Fréquences) : Visualisation graphique de la répartition des valeurs dans un ensemble de données, utilisé pour comprendre la distribution.
Nuage de Points (Corrélation) : Représentation de la corrélation entre deux variables, chaque point représentant une paire de valeurs.
Réseaux : Illustration des relations complexes entre entités interconnectées.

Visualisation des données: Exemples

Graphique Linéaire (Séries Temporelles) : Représentation des données en fonction du temps pour analyser les tendances et les variations.
Arborescence : Visualisation hiérarchique des relations entre différentes catégories ou niveaux.
Diagramme de Gantt : Utilisé pour planifier et suivre l'avancement des tâches sur une échelle de temps.
Carte Thermique/Heatmap : Utilisation de couleurs pour représenter des données sur une matrice, mettant en évidence les zones de concentration.

https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_graphique_de_donn%C3%A9es

Diagramme circulaire

Les paradigmes du langage de programmation (diagramme à bulles)

Historique des langages de programmation (Histropedia)

Diagramme d'influence des langages de programmation

k couleurs prédominantes

Diagrammes de dispersion RGB (Comparaison)

Articles de recherche

[Abedjan 2016] Abedjan, Ziawasch, et al. Detecting Data Errors: Where Are We and What Needs to Be Done? VLDB Endowment, 1 Aug. 2016.
[Aggarwal 2011] Aggarwal, Charu C. “An Introduction to Social Network Data Analytics.” Social Network Data Analytics, edited by Charu C. Aggarwal, Springer US, 2011, pp. 1–15. Springer Link
[AlNoamany 2014] AlNoamany, Yasmin, et al. “Who and What Links to the Internet Archive.” International Journal on Digital Libraries, vol. 14, no. 3, Aug. 2014, pp. 101–15. Springer Link
[Alspaugh 2014] Alspaugh, S., et al. Analyzing Log Analysis: An Empirical Study of User Log Mining. 2014, pp. 62–77. www.usenix.org
[Brax 2008] Brax, Christoffer, et al. “Finding Behavioural Anomalies in Public Areas Using Video Surveillance Data.” 2008 11th International Conference on Information Fusion, 2008, pp. 1–8

Articles de recherche

[Bauer 2012] Bauer, Florian, and Martin Kaltenböck. Linked Open Data: The Essentials: A Quick Start Guide for Decision Makers. Ed. mono/monochrom, 2012
[Chen 2012] Chen, Hsinchun, et al. “Business Intelligence and Analytics: From Big Data to Big Impact.” MIS Quarterly, vol. 36, no. 4, 2012, pp. 1165–88. JSTOR
[Chen, Daqing 2012] Chen, Daqing, et al. “Data Mining for the Online Retail Industry: A Case Study of RFM Model-Based Customer Segmentation Using Data Mining.” Journal of Database Marketing & Customer Strategy Management, vol. 19, no. 3, Sept. 2012, pp. 197–208. Springer Link
[Chen 2014] Chen, Min, et al. “Big Data: A Survey.” Mobile Networks and Applications, vol. 19, no. 2, Apr. 2014, pp. 171–209. Springer Link
[Crosby 2016] Crosby M, Nachiappan Pattanayak P, Verma S, Kalyanaraman V(2016) Blockchain technology: Beyond bitcoin. Appl Innov Rev2:6–19

Articles de recherche

[Dennis 2001] Dennis, Charles, et al. “Data Mining for Shopping Centres – Customer Knowledge‐management Framework.” Journal of Knowledge Management, vol. 5, no. 4, Jan. 2001, pp. 368–74. Emerald Insight
[Driscoll 2012] Driscoll, Kevin. “From Punched Cards to ‘Big Data’: A Social History of Database Populism.” Communication 1, vol. 1, no. 1, Aug. 2012, pp. 1–33
[Dong 2013] Dong, Xin Luna, and Divesh Srivastava. “Big Data Integration.” 2013 IEEE 29th International Conference on Data Engineering (ICDE), 2013, pp. 1245–48. IEEE Xplore
[Gandomi 2015] Gandomi, Amir, and Murtaza Haider. “Beyond the Hype: Big Data Concepts, Methods, and Analytics.” International Journal of Information Management, vol. 35, no. 2, Apr. 2015, pp. 137–44.

Articles de recherche

[Gao 2011] Gao, Huiji, et al. “Harnessing the Crowdsourcing Power of Social Media for Disaster Relief.” IEEE Intelligent Systems, vol. 26, no. 3, May 2011, pp. 10–14. IEEE Xplore
[Halevy 2006] Halevy, Alon, et al. “Data Integration: The Teenage Years.” Proceedings of the 32nd International Conference on Very Large Data Bases, VLDB Endowment, 2006, pp. 9–16.
[Jagadish 2014] Jagadish, H. V., et al. Big Data and Its Technical Challenges. Association for Computing Machinery, 1 July 2014.
[Kitchin 2016] Kitchin, Rob. “Big Data.” International Encyclopedia of Geography, American Cancer Society, 2016, pp. 1–3. Wiley Online Library
[Kovalerchuk 2005] Kovalerchuk, Boris, and Evgenii Vityaev. “Data Mining for Financial Applications.” Data Mining and Knowledge Discovery Handbook, edited by Oded Maimon and Lior Rokach, Springer US, 2005, pp. 1203–24. Springer Link

Articles de recherche

[Kwon 2014] Kwon, Ohbyung, et al. “Data Quality Management, Data Usage Experience and Acquisition Intention of Big Data Analytics.” International Journal of Information Management, vol. 34, no. 3, June 2014, pp. 387–94.
[Lenzerini 2002] Lenzerini, Maurizio. “Data Integration: A Theoretical Perspective.” Proceedings of the Twenty-First ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Association for Computing Machinery, 2002, pp. 233–246. ACM Digital Library
[Laender 2002] Laender, Alberto H. F., et al. A Brief Survey of Web Data Extraction Tools. Association for Computing Machinery, 1 June 2002. June 2002
[Murray-Rust 2008] Murray-Rust, Peter. “Open Data in Science.” Nature Precedings, Jan. 2008, pp. 1–1. www.nature.com

Articles de recherche

[Nakayama 2007] Nakayama, Kotaro, et al. “Wikipedia Mining for an Association Web Thesaurus Construction.” Web Information Systems Engineering – WISE 2007, edited by Boualem Benatallah et al., Springer, 2007, pp. 322–34. Springer Link
[Nofer 2017] Nofer, Michael, et al. “Blockchain.” Business & Information Systems Engineering, vol. 59, no. 3, June 2017, pp. 183–87. Springer Link
[Pouchard 2015] Pouchard, Line. “Revisiting the Data Lifecycle with Big Data Curation.” International Journal of Digital Curation, vol. 10, no. 2, June 2015, pp. 176–92.
[Richards 2014] Richards, Neil M., and Jonathan H. King. “Big Data Ethics.” Wake Forest Law Review, vol. 49, 2014
[Rizvi 2002] Rizvi, Shariq J., and Jayant R. Haritsa. “Chapter 59 - Maintaining Data Privacy in Association Rule Mining.” VLDB ’02: Proceedings of the 28th International Conference on Very Large Databases, edited by Philip A. Bernstein et al., Morgan Kaufmann, 2002, pp. 682–93.

Articles de recherche

[Shen Bin 2010] Shen Bin, et al. “Research on Data Mining Models for the Internet of Things.” 2010 International Conference on Image Analysis and Signal Processing, 2010, pp. 127–32. IEEE Xplore
[van Wel 2004] van Wel, Lita, and Lambèr Royakkers. “Ethical Issues in Web Data Mining.” Ethics and Information Technology, vol. 6, no. 2, June 2004, pp. 129–40. Springer Link
[Vrandečić 2014] Vrandečić, Denny, and Markus Krötzsch. “Wikidata: A Free Collaborative Knowledgebase.” Communications of the ACM, vol. 57, no. 10, Sept. 2014, pp. 78–85.
[Xu 2014] Xu, Lei, et al. “Information Security in Big Data: Privacy and Data Mining.” IEEE Access, vol. 2, 2014, pp. 1149–76. IEEE Xplore
[Zwitter 2014] Zwitter, Andrej. “Big Data Ethics.” Big Data & Society, vol. 1, no. 2, July 2014

References

https://fr.wikipedia.org/wiki/Industrie_4.0

Colors

Color Tool - Material Design

Images

Wikimedia Commons

Data Science

Objectifs

Objectifs

1. Panorama du Numérique

Cadran solaire

1. Panorama du Numérique

Système de numération

1. Panorama du Numérique

Système de numération

Exemples de Systèmes Anciens

1. Panorama du Numérique

Système de numération

Applications

Transition vers les systèmes modernes

1. Panorama du Numérique

1. Panorama du Numérique

Machine à Écrire

Machine à écrire électronique

1. Panorama du Numérique

1. Panorama du Numérique

Machine à calculer de Blaise Pascal

Machine à Différences de Charles Babbage

1. Panorama du Numérique

1. Panorama du Numérique

L'ENIAC (1947-1955)

IBM PC 5150 (1983) :

1. Panorama du Numérique

1. Panorama du Numérique

1. Panorama du Numérique

Disquettes (8 Pouces, 5,25 Pouces et 3,5 Pouces)

Disque Dur

1. Panorama du Numérique

1. Panorama du Numérique

Évolution des technologies serveur

Impact

1. Panorama du Numérique

1. Panorama du Numérique

Croissance des Capacités de Stockage

Technologies de Stockage Émergentes

1. Panorama du Numérique

Systèmes

Systèmes distribués (a,b)

1. Panorama du Numérique

Systèmes

Systèmes parallèles (c)

1. Panorama du Numérique

Calcul distribué

1. Panorama du Numérique

1. Panorama du Numérique

1. Panorama du Numérique

1.1 Architecture des ordinateurs: Réseau

2.1 Le codage des données en chimie

3. Usine 4.0

Cycle de vie des données

3. Usine 4.0

3.1. Analyse et Visualisation des données

3.1. Analyse des données en temps-réel

3.2. Usine 4.0: Capteurs

3.3. Usine 4.0: Capteurs

3.4. Usine 4.0: Supervision

3.5. Usine 4.0: IoT

3.6. Usine 4.0: Données

3.5 Usine 4.0: Réalité augmentée

4. Les phases macroscopiques

4.1 L'acquisition de données

4.1 L'acquisition de données

Les super marchés et le shopping [Dennis 2001]

4.1 L'acquisition de données

Les achats en ligne [Chen, Daqing 2012]

4.1 L'acquisition de données

Les transactions financières [Kovalerchuk 2005]

4.1 L'acquisition de données

Les capteurs [Shen Bin 2010]

4.1 L'acquisition de données

Les vidéos [Brax 2008]

4.1 L'acquisition de données

Les médias et réseaux sociaux [Aggarwal 2011]

4.1 L'acquisition de données

Production participative [Gao 2011]

4.1 L'acquisition de données