Big Data

John Samuel
CPE Lyon

Année: 2021-2022
Courriel: john(dot)samuel(at)cpe(dot)fr

Objectifs

Histoire scientifique
Les phases macroscopiques du Big Data
Fouille de données

Cadran solaire

un instrument qui indique le temps solaire.

Système de numération

Machine à calculer de Blaise Pascal à six chiffres

Machine à différences de Charles Babbage

L'ENIAC (photo prise entre 1947 et 1955).

Disquettes 8 pouces, 5,25 pouces et 3,5 pouces

Croissance de la capacité mondiale de stockage de données et informations

Calcul distribué

Genome@home
Folding@home
SETI@home
LHC@Home

Tendances de recherche Google (novembre 2020): Big Data

Tendances de recherche Google (novembre 2020): Big Data et Artificial Intelligence

Tendances de recherche Google (novembre 2020): Big Data, Artificial Intelligence et Blockchain

Le populisme de la base de données [Driscoll 2012]

La surveillance et le contrôle
La fonction sociale de la technologie des bases de données
- fin du XIXe siècle: les systèmes de cartes perforées électromécaniques et le traitement de l'information à grande échelle
- fin des années 1970: la disponibilité des micro-ordinateurs et la mise en œuvre du modèle de données relationnelles
- début du 21ème siècle: le traçage des utilisateurs grâce à des systèmes de communication hautement centralisés

Big Data: 3V [Chen 2012, Kwon 2014, Gandomi 2015]

Volume
- Images et vidéos
Variété
- données structurées
- données non-structurées
- données semi-structurées
Vélocité
- la vitesse à laquelle les données sont générées
- millions de transactions par heure

Big Data: 6V [Gandomi 2015]

Volume
Variété
Vélocité
Verité
- traiter des données imprécises et incertaines
Variabilité
- la variation des flux de données
- des pics et des dépressions
Valeur
- obtenir une valeur élevée en analysant de grands volumes de données

Big Data [Kitchin 2016]

Exhaustif
- capable de capturer un système entier
Extension
- de nouveaux éléments peuvent être facilement ajoutés

Les défis [Chen 2014, Jagadish 2014, Pouchard 2015]

Acquisition
Extraction
Nettoyage
Stockage
Analyses
Visualisation

Cycle de vie des données

Données
Connaissances
Perspectives
Actions

Web sémantique

L'acquisition de données

Les super marchés et le shopping [Dennis 2001]
Les achats en ligne [Chen, Daqing 2012]
Les transactions financières [Kovalerchuk 2005]
Les capteurs [Shen Bin 2010]
Les vidéos [Brax 2008]
Les médias et réseaux sociaux [Aggarwal 2011]
Enregistrement de données [Alspaugh 2014]

Les super marchés et le shopping [Dennis 2001]

Les achats en ligne [Chen, Daqing 2012]

Les transactions financières [Kovalerchuk 2005]

Guichet Automatique Bancaire (Transactions financières)[Kovalerchuk 2005]

Les capteurs [Shen Bin 2010]

Les vidéos [Brax 2008]

Les médias et réseaux sociaux [Aggarwal 2011]

Production participative [Gao 2011]

Production participative (Crowdsourcing)

Production participative [Nakayama 2007]

Enregistrement de données [Alspaugh 2014]

                     $ tail /var/log/apache2/access.log

127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET / HTTP/1.1" 200 3477 "-"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET /icons/ubuntu-logo.png HTTP/1.1" 304 180 "http://localhost/"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"
127.0.0.1 - - [14/Nov/2018:14:46:49 +0100] "GET /favicon.ico HTTP/1.1" 404 294 "-"
         "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:63.0) Gecko/20100101 Firefox/63.0"

Enregistrement de données [Alspaugh 2014]

                     $ tail /var/log/apache2/error.log

[Wed Nov 14 09:53:39.563044 2018] [mpm_prefork:notice] [pid 849]
         AH00163: Apache/2.4.29 (Ubuntu) configured -- resuming normal operations
[Wed Nov 14 09:53:39.563066 2018] [core:notice] [pid 849]
         AH00094: Command line: '/usr/sbin/apache2'
[Wed Nov 14 11:35:35.060638 2018] [mpm_prefork:notice] [pid 849]
         AH00169: caught SIGTERM, shutting down

Enregistrement de données

LogLevel (https://httpd.apache.org/docs/2.4/mod/core.html#loglevel)

Enregistrement de données

Log Format (https://httpd.apache.org/docs/2.4/mod/core.html#errorlogformat)

Enregistrement de données

                    $ cat /etc/apache2/apache2.conf

LogFormat "%v:%p %h %l %u %t \"%r\" %>s %O \"%{Referer}i\" \"%{User-Agent}i\"" vhost_combined
LogFormat "%h %l %u %t \"%r\" %>s %O \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %O" common
LogFormat "%{Referer}i -> %U" referer
LogFormat "%{User-agent}i" agent

L'acquisition de données [Lenzerini 2002][Dong 2013]

Questionnaires

Questionnaires face à face
Questionnaires en ligne

Capteurs¹

Température, pression, humidité
Acoustique, navigation
Proximité, capteurs de présence

Réseau sociaux
Vidéo de surveillance
Web
Enregistrement

https://en.wikipedia.org/wiki/List_of_sensors

Different types of data acquistion techniques

Loi sur la protection de la vie privée

loi qui traite de la réglementation, du stockage et de l'utilisation des informations personnelles identifiables
e.g., Règlement général sur la protection des données (RGPD)

Vie privée [Rizvi 2002][Xu 2014]

Licences, Ethiques et la vie privé [van Wel 2004]

Droits d'utilisation des données
Confidentialité et la vie privée
Ethiques

Ethiques [Zwitter 2014]

la responsabilité morale individuelle
Les défis éthiques des Big Data
- Vie privée
- Vie privée du groupe
- Propension (la "police prédictive")
- L'éthique de la recherche

Ethiques [Richards 2014]

La "vie privée" comme règles d'information
Les informations privées partagées peuvent rester "confidentielles".
Reconnaître que les grandes données exigent de la transparence
Reconnaître que les grandes données peuvent compromettre l'identité

Licences

Licences

L'extraction de données web [Laender 2002]

from urllib import request

response = request.urlopen("https://en.wikipedia.org/wiki/Main_Page")
html = response.read()

L'extraction de données web [Laender 2002]

from urllib import request
from lxml import html

document = html.parse(request.urlopen("https://en.wikipedia.org/wiki/Main_Page"))
for link in document.iter("a"):
    if(link.get("href") is not None):
        print(link.base_url+link.get("href"))

L'extraction de données web

import requests
url = "https://api.github.com/users/johnsamuelwrites"

response = requests.get(url)
print(response.json())

L'extraction de données web

import requests
url = "https://api.github.com/users/johnsamuelwrites/repos"

response = requests.get(url)
print(response.json())

Données ouvertes [Murray-Rust 2008]

from SPARQLWrapper import SPARQLWrapper, JSON

sparql = SPARQLWrapper("http://query.wikidata.org/sparql")
sparql.setQuery("""
SELECT ?item WHERE {
  ?item wdt:P31 wd:Q9143;
}
LIMIT 10
""")
sparql.setReturnFormat(JSON)
results = sparql.query().convert()

for result in results["results"]["bindings"]:
    print(result)

Linked Open data (LOD) [Bauer 2012]

Web des données (Linked Open data cloud)

Wikidata [Vrandečić 2014]

Les identifiants externes (Paris, Wikidata)

Internet Archive [AlNoamany 2014]

Nettoyage de données

Erreurs de syntaxe
Erreurs sémantiques
Erreurs de couverture

Erreurs de syntaxe

Erreurs lexicales
Erreurs de formatage
Erreurs d'irrégularité

Erreurs de syntaxe

Erreurs lexicales
Erreurs de formatage
Erreurs d'irrégularité

Erreurs sémantiques [Abedjan 2016]

Violation des contraintes d'intégrité
Erreurs de contradiction
Erreurs de duplication
Erreurs de donnée invalide

Erreurs de couverture

Valeur manquante
Donnée manquante

Big Data

Volume
Variété
Vélocité
Verité
Valeur

Fichiers
Blockchain
Base de données (Rélationnels et NoSQL)

Formats

Fichiers textuelles et binaires
CSV/TSV
XML
JSON
Média (Images/Audio/Vidéo)

Types de données

Données structurées
Données non-structurées
Données semi-structurées

Blockchain [Crosby 2016,Nofer 2017]

Bases de données relationnelles
Base de données orientée objet
NoSQL
NewSQL

Base de données orientée colonnes
Base de données orientée documents
Base de données clé-valeur
Base de données orientée graphe

Analyses [Gandomi 2015]

Analyse de textes
Analyse de l'audio
Analyse vidéo
Analyse des médias sociaux
Analyse prédictive

Analyse de textes

Identification de la langue
Identification du locuteur
Réponse aux questions
- réponse par oui ou par non
- des réponses aux questions relatives aux paragraphes multilignes
- réponse à une question mathématique
Analyse des citations
Analyse des avis
Paraphrasant
Faits de notoriété publique
Explication de bon sens
Analyse des émotions

Analyse des images

Détection d'objets
Classification des images

Analyse des données audio

Détection du genre musical
Analyse des notes de musique
- la hauteur, le timbre, l'enveloppe, etc.
Analyse des sentiments
Reconnaissance de la parole
- la hauteur, le timbre, l'enveloppe, etc.
- Un seul orateur
- Plusieurs orateurs
- Accents
Reconnaissance des émotions
Distinction entre parole et musique
Commandes vocales
Transcription

Approche manuelle
Les outils et applications (e.g., Tableur, Hadoop)

Les super marchés et le shopping [Dennis 2001]

La gestion des connaissances clients

les groupes socio-économiques
les catégories de revenus
l'utilisation des transports publics ou des véhicules
les commerces ou services
genre

Biologie/médecine
Astronomie
Robotique industrielle
Securité

Un robot industriel Motoman SDA10, robot d'assemblage

Voiture autonome dont on distingue certains capteurs sur le toit.

Hadoop HDFS

        $  head /home/john/Downloads/query.csv
             itemLabel,year
             Amiga E,1993
             Embarcadero Delphi,1995
             Sather,1990
             Microsoft Small Basic,2008
             Squeak,1996
             AutoIt,1999
             Eiffel,1985
             Eiffel,1986
             Kent Recursive Calculator,1981

                          $ export HADOOP_HOME="..."
                          $ ./hive
                          hive> set hive.metastore.warehouse.dir=${env:HOME}/hive/warehouse;

                          $./hive
                          hive> set hive.metastore.warehouse.dir=${env:HOME}/hive/warehouse;
                          hive> create database mydb;
                          hive> use mydb;

        $./hive
        hive> use mydb;
        hive> CREATE TABLE IF NOT EXISTS
             proglang (name String, year int)
             COMMENT "Programming Languages"
             ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
             LINES TERMINATED BY '\n'
             STORED AS TEXTFILE;
        hive> LOAD DATA LOCAL INPATH '/home/john/Downloads/query.csv'
             OVERWRITE INTO TABLE proglang;

        $./hive
        hive> SELECT * from proglang;
        hive> SELECT * from proglang where year > 1980;

        $./hive
        hive> DELETE from proglang where year=1980;
	FAILED: SemanticException [Error 10294]: Attempt to do update
	  or delete using transaction manager that does not support these operations.

        $./hive
        hive> set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
        hive> DELETE from proglang where year=1980;
	FAILED: RuntimeException [Error 10264]: To use
	  DbTxnManager you must set hive.support.concurrency=true
        hive> set hive.support.concurrency=true;
        hive> DELETE from proglang where year=1980;
	FAILED: SemanticException [Error 10297]: Attempt to do update
	  or delete on table mydb.proglang that is not transactional
        hive> ALTER TABLE proglang set TBLPROPERTIES ('transactional'='true') ;
	FAILED: Execution Error, return code 1 from i
          org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table.
          The table must be stored using an ACID compliant format
	  (such as ORC): mydb.proglang

        $./hive
        hive> use mydb;
        hive> CREATE TABLE IF NOT EXISTS
             proglangorc (name String, year int)
             COMMENT "Programming Languages"
             ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
             LINES TERMINATED BY '\n'
             STORED AS ORC;
        hive> LOAD DATA LOCAL INPATH '/home/john/Downloads/query.csv'
             OVERWRITE INTO TABLE proglangorc;
	FAILED: SemanticException Unable to load data to destination table.
          Error: The file that you are trying to load does not match
	   the file format of the destination table.

        $./hive
        hive> insert overwrite table proglangorc select * from proglang;
        hive> DELETE from proglangorc where year=1980;
	FAILED: SemanticException [Error 10297]: Attempt to do update
	  or delete on table mydb.proglangorc that is not transactional
        hive> ALTER TABLE proglangorc set TBLPROPERTIES ('transactional'='true') ;
        hive> DELETE from proglangorc where year=1980;
        hive> SELECT count(*) from proglangorc;
        hive> SELECT count(*) from proglangorc where year=1980;

Hive

                          $./pyspark
   >>> lines = sc.textFile("/home/john/Downloads/query.csv")
   >>> lineLengths = lines.map(lambda s: len(s))
   >>> totalLength = lineLengths.reduce(lambda a, b: a + b)
   >>> print(totalLength)

Hive

                          $./pyspark
   >>> lines = sc.textFile("/home/john/Downloads/query.csv")
   >>> lineWordCount = lines.map(lambda s: len(s.split()))
   >>> totalWords = lineWordCount.reduce(lambda a, b: a + b)
   >>> print(totalWords)

Apache SPARK et Jupyter

                          $ export SPARK_HOME='.../spark/spark-x.x.x-bin-hadoopx.x/bin
			  $ export PYSPARK_PYTHON=/usr/bin/python3
			  $ export PYSPARK_DRIVER_PYTHON=jupyter
			  $ export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
			  $ ./pyspark

Apache SPARK, Jupyter et Hive

			from pyspark.sql import HiveContext

                        sqlContext = HiveContext(sc)

                        sqlContext.sql("use default")

                        sqlContext.sql("show tables").show()

Apache SPARK, Jupyter et Hive

			+--------+---------+-----------+
                        |database|tableName|isTemporary|

                        +--------+---------+-----------+

                        | default| proglang|      false|

                        | default|proglang2|      false|

                        +--------+---------+-----------+

Apache SPARK, Jupyter et Hive

			result = sqlContext.sql("SELECT count(*) FROM proglang ")

			result.show()

			+--------+

                        |count(1)|

                        +--------+

                        |     611|

                        +--------+

Apache SPARK, Jupyter et Hive

			print(type(result))

			<class 'pyspark.sql.dataframe.DataFrame'>

Apache SPARK, Jupyter, Hive et Pandas

			import pandas as pd

			result = sqlContext.sql("SELECT count(*) as count FROM proglang ")

			resultFrame = result.toPandas()

			print(resultFrame)

Apache SPARK, Jupyter, Hive et Pandas

			import pandas as pd

			result = sqlContext.sql("SELECT * FROM proglang ")

                        resultFrame = result.toPandas()

                        groups = resultFrame.groupby('year').count()

                        print(groups)

Aanalyse des sentiments

			import nltk

                        nltk.download('vader_lexicon')

Aanalyse des sentiments

			from nltk.sentiment.vader import SentimentIntensityAnalyzer

                        sia = SentimentIntensityAnalyzer()

                        sentiment = sia.polarity_scores("this movie is good")

                        print(sentiment)

                        sentiment = sia.polarity_scores("this movie is not very good")

                        print(sentiment)

                        sentiment = sia.polarity_scores("this movie is bad")

                        print(sentiment)

Aanalyse des sentiments

			{'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.4404}

                        {'neg': 0.344, 'neu': 0.656, 'pos': 0.0, 'compound': -0.3865}

                        {'neg': 0.538, 'neu': 0.462, 'pos': 0.0, 'compound': -0.5423}

Les variables visuelles [Jacques Bertin]

position
taille
forme
valeur
couleur
orientation
texture

https://en.wikipedia.org/wiki/Visual_variable

Visualisation de données

séries temporelles
classement
partie à l'ensemble
écart
triage
distribution des fréquences
corrélation
comparaison nominale
géographique ou géospatial

https://en.wikipedia.org/wiki/Data_visualization

Visualisation de données: exemples

Diagramme en bâtons (comparaison nominale)
Diagramme circulaire (partie à l'ensemble)
Histogramme (distribution des fréquences)
Nuage de points (corrélation)
Réseaux
Graphique linéaire (séries temporelles)
Arborescence
Diagramme de Gantt
Carte thermique/heatmap

https://fr.wikipedia.org/wiki/Repr%C3%A9sentation_graphique_de_donn%C3%A9es

Diagramme circulaire

Les paradigmes du langage de programmation (diagramme à bulles)

Historique des langages de programmation (Histropedia)

Diagramme d'influence des langages de programmation

k couleurs prédominantes

Enjeux du réchauffement climatique: 1880(à gauche)/ 1980 (à droite), (US EPA), 2012

Cycle de vie des données

Données
Connaissances
Perspectives
Actions

Usine 4.0

Régularités naturelles

Symétrie
Arbres, fractales
Spirales
Chaos
Ondes
Bulles, mousse
Pavages
Ruptures
Taches, bandes

Créations humaines

Bâtiments (Symétrie)
Villes
Environnement virtuel (e.g., jeux de vidéo)

Création

Répétition
Fractales
- Ensemble de Julia: f(z) = z² + c

Synonymes

Fouille de données
Forage de données
Extraction de connaissances à partir de données
Data mining
Machine learning
Apprentissage automatique

Identifier des motifs informatiques à partir de données brutes
Approches
1. Apprentissage supervisé: Apprentissage automatique qui utilise un ensemble de données étiquetées
2. Apprentissage non-supervisé: Apprentissage automatique qui utilise un ensemble de données non-étiquetées
3. Apprentissage semi-supervisé: Apprentissage automatique qui utilise un ensemble de données étiquetées et non-étiquetées

Activités

Classification
Partitionnement de données (Clustering)
Régression
Détection d'anomalies

Catégorisation algorithmique d'objets.
Attribuer une classe ou catégorie à chaque objet (ou individu)
Classification binaire ou classification en classes multiples

Applications

Filtrage de contenu (e.g., spam/pourriel)
Classification de documents
Reconnaissance de l'écriture manuscrite
Reconnaissance automatique de la parole
Moteurs de recherche

Classificateur

Algorithme de classification
Deux types de classificateurs
- Classificateur binaire Attribuer une des deux classes ou catégories à chaque objet (ou individu)
- Classificateur en classes multiples Attribuer une des plusieurs classes ou catégories à chaque objet (ou individu)

Diviser un ensemble de données en différents « paquets » homogènes,
Les données de chaque sous-ensemble partagent des caractéristiques communes

Applications

Analyse des réseaux sociaux
Segmentation d'image
Systèmes de recommandation

Méthodes de partitionnement des données

Méthodes basées centroïdes
Regroupement hiérarchique

Analyser la relation d'une variable par rapport à une ou plusieurs autres.
Attribuer une valeur réelle à chaque entrée

Applications

Prévisions météorologiques
Prévisions de ventes
Apprentissage machine
Finance

Identification de données inhabituelles
Approches
1. Détection supervisé
2. Détection non-supervisé
3. Détection semi-supervisé

Applications

Détection d'intrusion
Détection de fraude
System health monitoring
Détection d'événements dans les réseaux de capteurs
Détection d'abus dans un système d'information

Synthèse courte d'un ensemble de données
Génération de rapports

Applications

Extraction des mots-clès
Récapitulation de documents
Moteurs de recherche
Récapitulation d'images
Récapitulation de vidéos: découvrir des événements principaux dans une vidéo

Inspirée du fonctionnement des neurones biologiques
Composé d'une succession de couches dont chacune prend ses entrées sur les sorties de la précédente
Chaque couche i est composée de N_i neurones.
Chaques couche prenne leurs entrées sur les N_i-1 neurones de la couche précédente.
Le signal entre les neurones est une valeur
Le sortie d'une neurone est la somme de ses entrées

Perceptron

Classificateur binaire

Réseaux neuronaux profonds (Deep neural networks)

Plusieurs couches cachées entre la couche d'entrée et la couche de sortie.

Applications

Vision par ordinateur (reconnaissance de formes)
Reconnaissance automatique de la parole
Conception de médicament
Traitement automatique du langage naturel
Traduction automatique

Réseau neuronal convolutif

Convolutional deep neural networks en Anglais
est inspiré par le cortex visuel des animaux
Empilage multicouche de perceptrons
L'objectif de chaque empil est de prétraiter de petites quantités d'informations.
L'avantage pricipale est de faire évoluer tout seul ses propres filtres

Apprentissage par renforcement

Reinforcement learning (en Anglais)
Inspirée de théories de psychologie animale
Un agent autonome plongé au sein d'un environnement,
L'agent doit prendre des décisions en fonction de son état courant.
L'environnement procure à l'agent une récompense, qui peut être positive ou négative.
L'objectif est de maximiser la somme des récompenses au cours du temps.

Articles de recherche

[Abedjan 2016] Abedjan, Ziawasch, et al. Detecting Data Errors: Where Are We and What Needs to Be Done? VLDB Endowment, 1 Aug. 2016.
[Aggarwal 2011] Aggarwal, Charu C. “An Introduction to Social Network Data Analytics.” Social Network Data Analytics, edited by Charu C. Aggarwal, Springer US, 2011, pp. 1–15. Springer Link
[AlNoamany 2014] AlNoamany, Yasmin, et al. “Who and What Links to the Internet Archive.” International Journal on Digital Libraries, vol. 14, no. 3, Aug. 2014, pp. 101–15. Springer Link
[Alspaugh 2014] Alspaugh, S., et al. Analyzing Log Analysis: An Empirical Study of User Log Mining. 2014, pp. 62–77. www.usenix.org
[Brax 2008] Brax, Christoffer, et al. “Finding Behavioural Anomalies in Public Areas Using Video Surveillance Data.” 2008 11th International Conference on Information Fusion, 2008, pp. 1–8
[Bauer 2012] Bauer, Florian, and Martin Kaltenböck. Linked Open Data: The Essentials: A Quick Start Guide for Decision Makers. Ed. mono/monochrom, 2012
[Chen 2012] Chen, Hsinchun, et al. “Business Intelligence and Analytics: From Big Data to Big Impact.” MIS Quarterly, vol. 36, no. 4, 2012, pp. 1165–88. JSTOR

Articles de recherche

[Chen, Daqing 2012] Chen, Daqing, et al. “Data Mining for the Online Retail Industry: A Case Study of RFM Model-Based Customer Segmentation Using Data Mining.” Journal of Database Marketing & Customer Strategy Management, vol. 19, no. 3, Sept. 2012, pp. 197–208. Springer Link
[Chen 2014] Chen, Min, et al. “Big Data: A Survey.” Mobile Networks and Applications, vol. 19, no. 2, Apr. 2014, pp. 171–209. Springer Link
[Crosby 2016] Crosby M, Nachiappan Pattanayak P, Verma S, Kalyanaraman V(2016) Blockchain technology: Beyond bitcoin. Appl Innov Rev2:6–19
[Dennis 2001] Dennis, Charles, et al. “Data Mining for Shopping Centres – Customer Knowledge‐management Framework.” Journal of Knowledge Management, vol. 5, no. 4, Jan. 2001, pp. 368–74. Emerald Insight
[Driscoll 2012] Driscoll, Kevin. “From Punched Cards to ‘Big Data’: A Social History of Database Populism.” Communication 1, vol. 1, no. 1, Aug. 2012, pp. 1–33
[Dong 2013] Dong, Xin Luna, and Divesh Srivastava. “Big Data Integration.” 2013 IEEE 29th International Conference on Data Engineering (ICDE), 2013, pp. 1245–48. IEEE Xplore
[Gandomi 2015] Gandomi, Amir, and Murtaza Haider. “Beyond the Hype: Big Data Concepts, Methods, and Analytics.” International Journal of Information Management, vol. 35, no. 2, Apr. 2015, pp. 137–44.

Articles de recherche

[Gao 2011] Gao, Huiji, et al. “Harnessing the Crowdsourcing Power of Social Media for Disaster Relief.” IEEE Intelligent Systems, vol. 26, no. 3, May 2011, pp. 10–14. IEEE Xplore
[Halevy 2006] Halevy, Alon, et al. “Data Integration: The Teenage Years.” Proceedings of the 32nd International Conference on Very Large Data Bases, VLDB Endowment, 2006, pp. 9–16.
[Jagadish 2014] Jagadish, H. V., et al. Big Data and Its Technical Challenges. Association for Computing Machinery, 1 July 2014.
[Kitchin 2016] Kitchin, Rob. “Big Data.” International Encyclopedia of Geography, American Cancer Society, 2016, pp. 1–3. Wiley Online Library
[Kovalerchuk 2005] Kovalerchuk, Boris, and Evgenii Vityaev. “Data Mining for Financial Applications.” Data Mining and Knowledge Discovery Handbook, edited by Oded Maimon and Lior Rokach, Springer US, 2005, pp. 1203–24. Springer Link
[Kwon 2014] Kwon, Ohbyung, et al. “Data Quality Management, Data Usage Experience and Acquisition Intention of Big Data Analytics.” International Journal of Information Management, vol. 34, no. 3, June 2014, pp. 387–94.
[Lenzerini 2002] Lenzerini, Maurizio. “Data Integration: A Theoretical Perspective.” Proceedings of the Twenty-First ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Association for Computing Machinery, 2002, pp. 233–246. ACM Digital Library

Articles de recherche

[Laender 2002] Laender, Alberto H. F., et al. A Brief Survey of Web Data Extraction Tools. Association for Computing Machinery, 1 June 2002. June 2002
[Murray-Rust 2008] Murray-Rust, Peter. “Open Data in Science.” Nature Precedings, Jan. 2008, pp. 1–1. www.nature.com
[Nakayama 2007] Nakayama, Kotaro, et al. “Wikipedia Mining for an Association Web Thesaurus Construction.” Web Information Systems Engineering – WISE 2007, edited by Boualem Benatallah et al., Springer, 2007, pp. 322–34. Springer Link
[Nofer 2017] Nofer, Michael, et al. “Blockchain.” Business & Information Systems Engineering, vol. 59, no. 3, June 2017, pp. 183–87. Springer Link
[Pouchard 2015] Pouchard, Line. “Revisiting the Data Lifecycle with Big Data Curation.” International Journal of Digital Curation, vol. 10, no. 2, June 2015, pp. 176–92.
[Richards 2014] Richards, Neil M., and Jonathan H. King. “Big Data Ethics.” Wake Forest Law Review, vol. 49, 2014
[Rizvi 2002] Rizvi, Shariq J., and Jayant R. Haritsa. “Chapter 59 - Maintaining Data Privacy in Association Rule Mining.” VLDB ’02: Proceedings of the 28th International Conference on Very Large Databases, edited by Philip A. Bernstein et al., Morgan Kaufmann, 2002, pp. 682–93. ScienceDirect

Articles de recherche

[Shen Bin 2010] Shen Bin, et al. “Research on Data Mining Models for the Internet of Things.” 2010 International Conference on Image Analysis and Signal Processing, 2010, pp. 127–32. IEEE Xplore
[van Wel 2004] van Wel, Lita, and Lambèr Royakkers. “Ethical Issues in Web Data Mining.” Ethics and Information Technology, vol. 6, no. 2, June 2004, pp. 129–40. Springer Link
[Vrandečić 2014] Vrandečić, Denny, and Markus Krötzsch. “Wikidata: A Free Collaborative Knowledgebase.” Communications of the ACM, vol. 57, no. 10, Sept. 2014, pp. 78–85.
[Xu 2014] Xu, Lei, et al. “Information Security in Big Data: Privacy and Data Mining.” IEEE Access, vol. 2, 2014, pp. 1149–76. IEEE Xplore
[Zwitter 2014] Zwitter, Andrej. “Big Data Ethics.” Big Data & Society, vol. 1, no. 2, July 2014

Big Data

Big Data

Objectifs

1. Histoire scientifique

Cadran solaire

1. Histoire scientifique

Système de numération

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

Calcul distribué

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

1. Histoire scientifique

Le populisme de la base de données [Driscoll 2012]

1. Histoire scientifique

Big Data: 3V [Chen 2012, Kwon 2014, Gandomi 2015]

1. Histoire scientifique

Big Data: 6V [Gandomi 2015]

1. Histoire scientifique

Big Data [Kitchin 2016]

2. Les phases macroscopiques

Les défis [Chen 2014, Jagadish 2014, Pouchard 2015]

2. Les phases macroscopiques

Cycle de vie des données

2. Les phases macroscopiques

Web sémantique

2.1 L'acquisition de données

L'acquisition de données

2.1 L'acquisition de données

Les super marchés et le shopping [Dennis 2001]

2.1 L'acquisition de données

Les achats en ligne [Chen, Daqing 2012]

2.1 L'acquisition de données

Les transactions financières [Kovalerchuk 2005]

2.1 L'acquisition de données

Les capteurs [Shen Bin 2010]

2.1 L'acquisition de données

Les vidéos [Brax 2008]

2.1 L'acquisition de données

Les médias et réseaux sociaux [Aggarwal 2011]

2.1 L'acquisition de données

Production participative [Gao 2011]

2.1 L'acquisition de données

Production participative [Nakayama 2007]

2.1 L'acquisition de données

Enregistrement de données [Alspaugh 2014]

2.1 L'acquisition de données

Enregistrement de données [Alspaugh 2014]

2.1 L'acquisition de données

Enregistrement de données

2.1 L'acquisition de données

Enregistrement de données

2.1 L'acquisition de données

Enregistrement de données

2.1 L'acquisition de données

Enregistrement de données

2.1 L'acquisition de données

L'acquisition de données [Lenzerini 2002][Dong 2013]

2.1 L'acquisition de données

Loi sur la protection de la vie privée

2.1 L'acquisition de données

Vie privée [Rizvi 2002][Xu 2014]

2.1 L'acquisition de données

Licences, Ethiques et la vie privé [van Wel 2004]

2.1 L'acquisition de données

Ethiques [Zwitter 2014]

2.1 L'acquisition de données

Ethiques [Richards 2014]

2.1 L'acquisition de données

Licences

2.1 L'acquisition de données

Licences