Data Mining (2018-2019): Examen 2: John Samuel

Questions: deuxième session

Année: 2018-2019
Durée: 2 heures
Total: 15 points
Documents: autorisés
Types de documents autorisés: Tous les documents autorisés
Calculatrices : non autorisées

Question 1.a

Quelles sont les différentes façons d’obtenir des données afin d’en faire l’analyse? (1 point)

Question 1.b

Les enquêtes en ligne sont actuellement utilisées pour récupérer les avis sur des projets et des produits. Néanmoins, nous trouvons encore des gens dans les supermarchés posant des questions ainsi que des enquêtes porte à porte. Pourquoi, à votre avis, ces enquêtes face à face sont toujours utilisées? (1 point)

Question 2.a

Quelles sont les contraintes ACID? Quelles contraintes sont assouplies par les bases de données NoSQL et pourquoi? (1 point)

Question 2.b

Avant de télécharger et utiliser les données externes, quelles sont vos considérations? Quelle était votre démarche par rapport à cet aspect lors du déroulement de votre projet? (1 point)

Question 3

Pour votre projet, nous vous avons demandé de créer un système de recommandation pour les images. Décrivez votre système en détaillant les différentes étapes, les algorithmes et l’architecture? Comparez votre travail avec le cycle de vie de données. Quelles sont les étapes vous avez utilisées et quelles sont les étapes manquantes? (1 point)

Question 4

Le nettoyage de données est une étape importante avant de faire l’analyse de données. Pourquoi ? Quels sont les différents types d’erreurs ? Comment peut-on les résoudre? (1 point)

Question 5.a

Quelles sont les différences entre classification et partitionnement de données? (1 point)

Question 5.b

Comment pouvons-nous comparer et évaluer l’efficacité des classificateurs? (1 point)

Question 5.c

Considérons un fichier CSV contenant les colonnes suivantes : pays, ville, année et population. Ce fichier contient les informations de la population des villes (de différents pays) enregistrées depuis 1900. Votre objectif est de coder en Python en utilisant pandas un programme qui peut lire ce fichier CSV et calcule les valeurs suivantes :

La ville la plus peuplée en année 2010
Pour chaque pays, la population moyenne des villes en année 2010

(1.5 points)

Question 6

Considérons un fichier CSV contenant les colonnes suivantes : photoId, ville, année et nombredevues. Ce fichier contient les informations détaillées sur les photos d’un site web de photographie : photoId : l’identifiant unique de photo, ville : nom de la ville où l’image a été pris, année : l’année à laquelle l’image a été prise et nombredevues : le nombre de vues sur le site web. Votre objectif est de coder en Python (utilisation de la bibliothèque pandas préférable) un programme qui peut lire ce fichier CSV et calcule les valeurs suivantes :

La photo la plus vue et la moins vue
La ville dans laquelle le plus grand nombre et le plus petit nombre de photos ont été prises
L’année pendant laquelle le plus grand nombre de photos a été pris
Pour chaque ville, le nombre de vues moyenne sur l’année 2018

(2 points)

Question 7.a

Qu’est-ce qu’un réseau de neurones artificiel? (1 point)

Question 7.b

Pourquoi, à votre avis, l’apprentissage par renforcement est pertinent pour la navigation intérieure ou extérieure des robots? (1 point)

Question 8

Un site web d’annotation a demandé à 10 utilisateurs de décrire une image en utilisant 5 hashtag (mot-diès). Vous trouverez ci-dessous une table détaillant les choix de hashtags des 10 utilisateurs. La table contient 5 colonnes et 10 lignes. Chaque ligne correspond à un utilisateur. Chaque colonne correspond à un hashtag; les valeurs dans la colonne contiennent soit 0 soit 1. Si la valeur est égale à 0, l’utilisateur n’a pas choisi ce hashtag, sinon la valeur est 1. Votre objectif est de trouver toutes les règles d’association dans cette table. Que pensez-vous de cette image. (1.5 points)

Utilisateur	#Architecture	#Nature	#Paris	#StreetArt	#Fractals
U1	1	0	0	1	0
U2	1	1	1	1	1
U3	1	0	0	1	0
U4	1	1	1	1	1
U5	0	1	0	0	1
U6	1	0	1	1	0
U7	0	0	0	0	0
U8	0	0	0	0	0
U9	0	1	1	1	1
U10	1	0	0	1	0

Questions: Data Mining

John Samuel