Les fondamentaux des sciences du numerique pour les chimistes

John Samuel
CPE Lyon

Année: 2018-2019
Email: john(dot)samuel(at)cpe(dot)fr

Creative Commons License

Les fondamentaux des sciences du numerique

Cours/TP Dates Horaires
1 juin 24 9h00-17h30
2 juin 25 8h30-17h00
3 juin 26 8h30-17h00
4 juin 27 8h30-17h00
5 juin 28 8h30-12h00

Les fondamentaux des sciences du numerique

Cours/TP Dates Horaires
1 juin 24 9h00-17h30
2 juin 25 8h30-17h00
3 juin 26 8h30-17h00
4 juin 27 8h30-17h00
5 juin 28 8h30-12h00

Les fondamentaux des sciences du numerique

Dates Sujets
juin 24
  • Panorama du numérique
  • Usine 4.0
  • Codage des données en chimie
  • Acquisition et stockage de données
juin 26
  • Analyse et visualisation de données
  • Data Mining et Big Data
  • Base de données non-relationnelle
  • Apprentissage machine
juin 28
  • Système de recommandation
  • Intelligence artificielle
  • Base de données ouvertes

Les fondamentaux des sciences du numerique

Dates Sujets
juin 24
  • Panorama du numérique
  • Usine 4.0
  • Codage des données en chimie
  • Acquisition et stockage de données
juin 26
  • Analyse et visualisation de données
  • Data Mining et Big Data
  • Base de données non-relationnelle
  • Apprentissage machine
juin 28
  • Système de recommandation
  • Intelligence artificielle
  • Base de données ouvertes

Les fondamentaux des sciences du numerique

Dates Sujets
juin 24
  • Panorama du numérique
  • Usine 4.0
  • Codage des données en chimie
  • Acquisition et stockage de données
juin 26
  • Analyse et visualisation de données
  • Data Mining et Big Data
  • Base de données non-relationnelle
  • Apprentissage machine
juin 28
  • Système de recommandation
  • Intelligence artificielle
  • Base de données ouvertes

Les fondamentaux des sciences du numerique

Travaux pratiques

Evaluation

Objectifs

Objectifs

  1. Panorama du numérique
  2. Usine 4.0
  3. Codage des données en chimie
  4. Acquisition et stockage de données

1. Panorama du Numérique

Architecture client-serveur

1. Panorama du Numérique

Histoire scientifique

Ancien cadran solaire egyptien (1500 av. J.-C. )
Système numérique
126 AD, Houghton Library, Harvard University

1. Panorama du Numérique

Comptabilité d'entreprise


Museum für Volkskultur in Württemberg, Waldenbuch
Machine à écrire
Machine à écrire électronique

1. Panorama du Numérique

Stockage


Imprimante matricielle (Panasonic)
Disquettes 8 pouces, 5,25 pouces et 3,5 pouces
L’intérieur d’un disque dur

1. Panorama du Numérique

Calcul


Machine à calculer de Blaise Pascal
Machine à différences de Charles Babbage
L'ENIAC.

1.1 Architecture des ordinateurs: Réseau

Pair à pair(P2P)
Architecture client-serveur

1.2. Stockage et Calcul

Serveurs
Croissance de la capacité mondiale de stockage de données et informations

2.1 Le codage des données en chimie

3. Usine 4.0

Cycle de vie des données

  1. Données
  2. Connaissances
  3. Perspectives
  4. Actions
Data Lifecycle

3. Usine 4.0

Industrie 4.0

3.1. Analyse et Visualisation des données

Analyse d'images en histologie
Oculométrie (Eye-tracking)
Enjeux du réchauffement climatique

3.1. Analyse des données en temps-réel

Détection d'objet
Un robot industriel Motoman SDA10
Voiture autonome

3.2. Usine 4.0: Capteurs

Industrie 4.0
Capteur infrarouge
Capteur de lumière

3.3. Usine 4.0: Capteurs

Industrie 4.0
Capteur de température

3.4. Usine 4.0: Supervision

Industrie 4.0
Vidéo de surveillance
Detection des personnes

3.5. Usine 4.0: IoT

Industrie 4.0
Internet des objets

3.6. Usine 4.0: Données

Industrie 4.0
Données

3.5 Usine 4.0: Réalité augmentée

Industrie 4.0
Place de la Bourse à Bordeaux vue par le dispositif Imayana
Jeu de vidéo

3. Les phases macroscopiques

  1. Acquisition
  2. Extraction
  3. Nettoyage
  4. Stockage
  5. Analyse
  6. Visualisation

3.1 L'acquisition de données

Caissier (Achats)

3.1 L'acquisition de données

Guichet Automatique Bancaire (Transactions financières)

3.1 L'acquisition de données

Capteurs (température)

3.1 L'acquisition de données

Caméras de surveillance

3.1 L'acquisition de données

Réseautage social

3.1 L'acquisition de données

Production participative (Crowdsourcing)

3.1 L'acquisition de données

Production collaborative

3.1 L'acquisition de données

Enregistrement de données

                     $ tail /var/log/apache2/access.log
                   
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET / HTTP/1.1" 200 3477 "-"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET /icons/ubuntu-logo.png HTTP/1.1" 304 180 "http://localhost/"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET /favicon.ico HTTP/1.1" 404 294 "-"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
                   

3.1 L'acquisition de données

Enregistrement de données

                     $ tail /var/log/apache2/error.log
                   
[Wed Nov 14 09:53:39.563044 2018] [mpm_prefork:notice] [pid 849]
         AH00163: Apache/3.4.29 (Ubuntu) configured -- resuming normal operations
[Wed Nov 14 09:53:39.563066 2018] [core:notice] [pid 849]
         AH00094: Command line: '/usr/sbin/apache2'
[Wed Nov 14 11:35:35.060638 2018] [mpm_prefork:notice] [pid 849]
         AH00169: caught SIGTERM, shutting down
                   

3.1 L'acquisition de données

LogLevel (https://httpd.apache.org/docs/3.4/mod/core.html#loglevel)

3.1 L'acquisition de données

Log Format (https://httpd.apache.org/docs/3.4/mod/core.html#errorlogformat)

3.1 L'acquisition de données

Log Format (https://httpd.apache.org/docs/3.4/mod/core.html#errorlogformat)

3.1 L'acquisition de données

Enregistrement de données

                    $ cat /etc/apache2/apache3.conf
                   
LogFormat "%v:%p %h %l %u %t \"%r\" %>s %O \"%{Referer}i\" \"%{User-Agent}i\"" vhost_combined
LogFormat "%h %l %u %t \"%r\" %>s %O \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %O" common
LogFormat "%{Referer}i -> %U" referer
LogFormat "%{User-agent}i" agent

                   

3.1 L'acquisition de données

  1. Questionnaires
    • Questionnaires face à face
    • Questionnaires en ligne
  2. Capteurs1
    • Température, pression, humidité
    • Acoustique, navigation
    • Proximité, capteurs de présence
  3. Réseau sociaux
  4. Vidéo de surveillance
  5. Web
  6. Enregistrement
Different types of data acquistion techniques
  1. https://en.wikipedia.org/wiki/List_of_sensors

3.2 L'integration et l'extraction de données

Robot d'indexation
from urllib import request

response = request.urlopen("https://en.wikipedia.org/wiki/Main_Page")
html = response.read()

3.2 L'integration et l'extraction de données

Robot d'indexation
from urllib import request
from lxml import html

document = html.parse(request.urlopen("https://en.wikipedia.org/wiki/Main_Page"))
for link in document.iter("a"):
    if(link.get("href") is not None):
        print(link.base_url+link.get("href"))

3.2 L'integration et l'extraction de données

API (Interface de programmation)
import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

3.2 L'integration et l'extraction de données

API (Interface de programmation)
import requests
url = "https://api.github.com/users/johnsamuelwrites/repos"

response = requests.get(url)
print(response.json())

3.2 L'integration et l'extraction de données

Données structurées
from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://query.wikidata.org/sparql")
sparql.setQuery("""
SELECT ?item WHERE {
  ?item wdt:P31 wd:Q9143;
}
LIMIT 10
""")
sparql.setReturnFormat(JSON)
results = sparql.query().convert()

for result in results["results"]["bindings"]:
    print(result)

3.2 L'integration et l'extraction de données

Web des données

3.2 L'integration et l'extraction de données

Les identifiants externes (Paris, Wikidata)

3.2 L'integration et l'extraction de données

Données archivées et historiques

3.3 Nettoyage de données

3.3 Nettoyage de données: Erreurs de syntaxe

3.3 Nettoyage de données: Erreurs de syntaxe

Exemple: XSLT

3.3 Nettoyage de données: Erreurs sémantiques

3.3 Nettoyage de données: Erreurs de couverture

Exemple: Pandas

3.3 Nettoyage de données: Erreurs de couverture

3.4 Stockage de données

Big Data

3. Stockage de données

  1. Fichiers
  2. Blockchain
  3. Base de données (Rélationnels et NoSQL)

3.4 Stockage de données

Formats

3. Stockage de données

3.1. Formats: Fichiers textuelles et binaires

3. Stockage de données

3.1. Formats: CSV/TSV

year, population
1960, 46647521
1961, 47293811
1962, 47990159
1963, 48697015
1964, 49361165
1965, 49945471
1966, 50430631
1967, 50829214
1968, 51175036

3. Stockage de données

3.1. Formats: XML

<temp>22.7<temp>
<lum>390<lum>
<UV>1<UV>
<humidity>22.7<humidity>
<date>2018-02-23 14:56:26.091532<date>

3. Stockage de données

3.1. Formats: JSON

{
 "values": [{
  "temp": 22.7,
  "lum": 390,
  "UV": 1,
  "humidity": 25.3,
  "date": "2018-02-23 14:56:26.091532",
  "pression": 989
 },...
]
}

3. Stockage de données

3.1. Formats: Média (Images/Audio/Vidéo)

3. Stockage de données

3.2 Types de données

  1. Données structurées
  2. Données non-structurées
  3. Données semi-structurées
Unstructured vs. Structured vs. Semi-structured

3. Stockage de données

  1. Fichiers
  2. Base de données (Rélationnels et NoSQL)
  3. Blockchain

3.4 Stockage de données

Types de données

  1. Données structurées
  2. Données non-structurées
  3. Données semi-structurées

3.4 Stockage de données

Blockchain (Metadonnées)

3.4 Stockage de données

Blockchain (Blocs de Bitcoin)

3.4 Stockage de données

3.5 Analyse des données

3.5 Analyse des données: images

Analyse d'images en histologie

3.5 Analyse des données: Robotique industrielle

Un robot industriel Motoman SDA10, robot d'assemblage

3.5 Analyse des données: Véhicule autonome

Voiture autonome dont on distingue certains capteurs sur le toit.

3.5 Analyse des données: Détection d'objet

Détection d'objet
Detection des personnes

References

References

Colors

Images