Traitement de données massives

Traitement automatique des langues naturelles (TAL)

John Samuel
CPE Lyon

Année: 2024-2025
Courriel: john.samuel@cpe.fr

Intelligence artificielle

Le traitement automatique des langues (TAL) est un domaine interdisciplinaire de la linguistique informatique qui se concentre sur l'analyse et la compréhension du langage naturel (celui utilisé par les humains). Cette section aborde plusieurs aspects clés du TAL, notamment :

Analyser et comprendre le langage naturel (humain): Le TAL se consacre à la compréhension du langage naturel dans divers contextes, qu'il s'agisse de textes écrits ou de discours verbal.
Interaction homme-machine
Syntaxe d'une langue
- Parsing : Le parsing consiste à analyser la structure grammaticale des phrases.
- L'étiquetage en parties du discours (PoS) : L'étiquetage PoS consiste à assigner des catégories grammaticales (comme verbe, nom, adjectif, etc.) aux mots d'une phrase.

Sémantique d'une langue
- Traduction automatique
- Reconnaissance d'entités nommées (NER): La NER consiste à identifier des entités spécifiques (comme des noms de personnes, de lieux ou d'organisations) dans un texte.
- Analyse des sentiments

Analyse de systèmes TAL

Racinisation : La racinisation est le processus de réduction des mots à leur forme de base ou de racine.
Étiquetage morpho-syntaxique : Cette étape consiste à attribuer des balises ou des étiquettes aux mots dans un texte en fonction de leur rôle grammatical et de leur structure.
Lemmatisation : Contrairement à la racinisation, la lemmatisation consiste à ramener les mots à leur forme canonique ou lemmes.
Morphologie : La morphologie concerne l'étude de la structure des mots, notamment comment ils sont formés à partir de morphèmes (unités de sens).

Racinisation [Frakes 2003]

La racination, souvent appelée stemming en anglais, est un processus de normalisation linguistique visant à réduire les mots à leur forme racine, en ignorant les affixes. Elle est utilisée pour simplifier les variations morphologiques des mots.
Les algorithmes de racination appliquent généralement des règles heuristiques pour éliminer les préfixes et suffixes courants.
- Exemples : Porter, Snowball
- Limitations : La racination peut conduire à des résultats non valides, car elle peut produire des racines qui ne sont pas des mots réels.
Exemples
- engineer: engineer, engineered, engineering

Racinisation

Quelques exemples d'issues potentiellement non valides :

Racination excessive :
- Mot d'origine : "happily"
- Racination : "happi" (au lieu de la forme correcte "happy")
Racination incorrecte :
- Mot d'origine : "better"
- Racination : "bet" (au lieu de la forme correcte "better")
Création de faux mots :
- Mot d'origine : "unhappiness"
- Racination : "unhappi" (crée un faux mot au lieu de "unhappy")

Racinisation

Ambiguïté des règles :
- Mot d'origine : "flies" (verbe)
- Racination : "fli" (peut être confondu avec le nom "fly")

Racinisation: mesures d'évaluation [Frakes 2003]

La mesure dans laquelle un algorithm modifie des mots qu'elle réduit à ses racines est appelée la force de l'algorithme
Une métrique de similarité des algorithmes met en correspondance les n-tuples d'algorithmes (n au moins 2), avec un nombre indiquant la similarité des algorithmes.

Racinisation: distance de Hamming [Frakes 2003]

La distance de Hamming entre deux chaînes de longueur égale est définie comme le nombre de caractères des deux chaînes qui sont différents à la même position.
Pour les chaînes de longueur inégale, ajouter la différence de longueur à la distance de Hamming pour obtenir une fonction de distance de Hamming modifiée $d$
Exemples
- tri: try, tried, trying
- $d$(tri, try)= 1
- $d$(tri, tried)= 2
- $d$(tri, trying)= 4

Racinisation: force [Frakes 2003]

Le nombre moyen de mots par classe
Facteur de compression de l'indice. Soit n est le nombre de mots dans le corpus et s est le nombre de racines. \[\frac{n - s}{n}\]
Le nombre de mots et de racines qui diffèrent
Le nombre moyen de caractères supprimés lors de la formation des racines
La médiane et la moyenne de la distance de Hamming modifiée entre les mots et leur racine

Racinisation: similarité [Frakes 2003]

Soit $A1$ et $A2$ sont deux algorithmes
Soit $W$ une liste de mots et $n$ le nombre de mots dans $W$ \[ M(A1,A2,W) = \frac{n}{\Sigma d(x_i, y_i)}\]
pour tous les mots $w_i$ en W, $x_i$ est le résultat de l'application de $A1$ à $w_i$ et $y_i$ est le résultat de l'application de $A2$ à $w_i$
des algorithmes plus similaires auront des valeurs plus élevées de M

Racinisation: nltk

L'objectif est de réduire les mots à leur forme de base ou racine, en éliminant les suffixes, ce qui permet de regrouper différentes formes d'un mot sous une forme commune.

Porter [Porter 1980] : Le Porter Stemming Algorithm, créé par Martin Porter en 1980, est basé sur un ensemble de règles heuristiques. Il suit une approche itérative en appliquant une série de transformations séquentielles aux mots.
Snowball Le Snowball (anciennement appelé Porter2) est une amélioration du Porter Stemmer. Il suit également une approche basée sur des règles, mais il est plus systématique dans son traitement des différents cas de racination.

Porter

L'algorithme de Porter, également connu sous le nom de stemmer de Porter, est un algorithme de racination (stemming) développé par Martin Porter en 1980. Son objectif est de réduire les mots à leur forme racine ou base en éliminant les suffixes couramment utilisés en anglais.

Prétraitement : Convertir le mot en minuscules. Identifier le préfixe 'y' et le traiter comme une voyelle s'il est en première position, sinon comme une consonne.
Application des règles de racination : L'algorithme de Porter utilise une série de règles pour éliminer les suffixes. Ces règles sont appliquées séquentiellement jusqu'à ce qu'aucune d'entre elles ne s'applique plus. Les règles comprennent des opérations comme la suppression de suffixes spécifiques, la transformation de certains suffixes en d'autres, et la manipulation de la longueur des mots.
Post-traitement : Certains ajustements post-traitement sont effectués pour améliorer la précision de la racination.

Porter

L'algorithme de Porter utilise une série de règles de racination pour réduire les mots à leur forme racine. Quelques-unes des règles de l'algorithme de Porter :

Règles de suppression de suffixes :
- "s" : Supprimer le suffixe "s" à la fin des mots.
- "sses" : Remplacer par "ss" si la séquence se termine par "sses".
Règles de traitement de suffixes spécifiques :
- "eed" ou "eedly" : Remplacer par "ee" si la séquence se termine par "eed" ou "eedly".
- "ed" : Supprimer "ed" à la fin du mot s'il y a une voyelle précédente.
- "ing" : Supprimer "ing" à la fin du mot s'il y a une voyelle précédente.

Porter

Règles de transformation de suffixes en d'autres suffixes :
- "at" : Remplacer par "ate" si la séquence se termine par "at".
- "bl" : Ajouter "e" à la fin si la séquence se termine par "bl".
Règles de manipulation de la longueur des mots :
- Si la séquence se termine par une consonne suivie de "y", remplacer par "i" à la fin.
- Si la séquence se termine par deux consonnes, supprimer la dernière consonne si la précédente est une voyelle.
Règles de manipulation des doubles consonnes :
- Supprimer une lettre double à la fin du mot.

Racinisation: Porter

from nltk.stem.porter import PorterStemmer

words = ["words", "eating", "went", "engineer", "tried"]
porter = PorterStemmer()
for word in words:
    print(porter.stem(word), end=" ")

Affichage

word eat went engin tri

Snowball

L'algorithme de Snowball, également connu sous le nom de Snowball stemmer, est un algorithme de racination (stemming) développé par Martin Porter comme une extension de son algorithme de Porter. Snowball a été conçu pour être plus modulaire et extensible, permettant aux utilisateurs de créer des stemmers pour différentes langues en utilisant un ensemble commun de conventions.

Les caractéristiques principales de l'algorithme de Snowball :

Modularité : L'algorithme de Snowball est conçu de manière modulaire, permettant la définition de règles spécifiques pour chaque langue. Chaque règle est encapsulée dans une unité appelée "step."
Structure du Langage : L'algorithme de Snowball est souvent utilisé pour différentes langues, et la structure du langage est définie par des fichiers de règles spécifiques à chaque langue. Ces fichiers décrivent comment les suffixes et préfixes doivent être traités.

Snowball

Extensibilité : Les utilisateurs peuvent étendre l'algorithme de Snowball pour traiter des langues spécifiques en ajoutant des règles appropriées dans un fichier dédié à cette langue.
Étape de Règle : Chaque étape (step) de l'algorithme de Snowball est constituée de règles qui décrivent comment transformer un mot. Chaque règle a une forme similaire à "condition -> action," où la condition spécifie quand appliquer la règle, et l'action définit la transformation à effectuer.
Itération : L'algorithme de Snowball applique les étapes de règle itérativement jusqu'à ce qu'aucune d'entre elles ne puisse être appliquée. Cette itération permet de réduire progressivement les mots à leur forme racine.

Racinisation: Snowball

from nltk.stem.snowball import SnowballStemmer

words = ["words", "eating", "went", "engineer", "tried"]
snowball = SnowballStemmer("english")
for word in words:
    print(snowball.stem(word))

Affichage

word eat went engin tri

Étiquetage morpho-syntaxique [Màrquez 2000]

L'étiquetage morpho-syntaxique, également appelé Part of Speech (PoS) Tagging, est un processus dans lequel chaque mot d'un texte se voit attribuer une balise morpho-syntaxique appropriée en fonction de son rôle grammatical et de son contexte d'apparition. Ces balises indiquent la catégorie grammaticale à laquelle chaque mot appartient.
Il permet de capturer la structure grammaticale d'un texte, facilitant ainsi la compréhension et l'analyse linguistique automatisées.
Les algorithmes d'étiquetage morpho-syntaxique utilisent généralement des modèles statistiques ou des règles linguistiques pour assigner ces balises en fonction du contexte entourant chaque mot.

Étiquetage morpho-syntaxique [Màrquez 2000]

Exemples des balises
- Noms : Indiquent des entités ou objets concrets. Exemple : "chat," "maison," "fleur"
- Verbes : Indiquent des actions ou des états. Exemple : "marcher," "manger," "être"
- Adjectifs : Décrivent ou qualifient des noms. Exemple : "beau," "rapide," "intelligent"
- Adverbes : Modifient des verbes, des adjectifs ou d'autres adverbes, fournissant des informations sur la manière, le lieu, le temps, etc. Exemple : "rapidement," "bien," "ici"

Étiquetage morpho-syntaxique [Màrquez 2000]

Construction de modèles linguistiques

Approche manuelle :
- Construction de règles linguistiques manuelles pour analyser la structure linguistique
- Exemple : Définir des règles pour identifier les parties du discours en fonction de la syntaxe.
Approche statistique :
- Utilisation de statistiques et de probabilités pour modéliser les relations linguistiques.
- Collection de n-grammes (bi-grammes, tri-grammes, ...)
- Ensemble de fréquences de cooccurrence
- L'estimation de la probabilité d'une séquence de longueur n est calculée en tenant compte de son occurrence dans le corpus d'entraînement

Étiquetage morpho-syntaxique [Màrquez 2000]

Construction de modèles linguistiques

Apprentissage machine :
- Utilisation de techniques d'apprentissage machine pour apprendre automatiquement des modèles linguistiques à partir de données d'entraînement.
- Les algorithmes peuvent être entraînés à reconnaître des motifs et des structures linguistiques complexes

nltk: ngrams

from nltk import ngrams

sentence = "He went to school yesterday and attended the classes"
for n in range(1, 5):
    print("\n{}-grams".format(n))
    n_grams = ngrams(sentence.split(), n)
    for ngram in n_grams:
        print(ngram, end=" ")

nltk: ngrams (affichage)

1-grams ('He',) ('went',) ('to',) ('school',) ('yesterday',) ('and',) ('attended',) ('the',) ('classes',) 2-grams ('He', 'went') ('went', 'to') ('to', 'school') ('school', 'yesterday') ('yesterday', 'and') ('and', 'attended') ('attended', 'the') ('the', 'classes') 3-grams ('He', 'went', 'to') ('went', 'to', 'school') ('to', 'school', 'yesterday') ('school', 'yesterday', 'and') ('yesterday', 'and', 'attended') ('and', 'attended', 'the') ('attended', 'the', 'classes') 4-grams ('He', 'went', 'to', 'school') ('went', 'to', 'school', 'yesterday') ('to', 'school', 'yesterday', 'and') ('school', 'yesterday', 'and', 'attended') ('yesterday', 'and', 'attended', 'the') ('and', 'attended', 'the', 'classes')

nltk: pos_tag

from nltk import pos_tag, word_tokenize

sentence = "He goes to school daily"

tokens = word_tokenize(sentence)
print(pos_tag(tokens))

Affichage

[('He', 'PRP'), ('goes', 'VBZ'), ('to', 'TO'), ('school', 'NN'), ('daily', 'RB')]

nltk: pos_tag

[('He', 'PRP'), ('goes', 'VBZ'), ('to', 'TO'), ('school', 'NN'), ('daily', 'RB')]

Balise	Signification
PRP	pronoun, personal
VBZ	verb, present tense, 3rd person singular
TO	"to" as preposition
NN	"noun, common, singular or mass
RB	adverb

spaCy

Installation

$ pip3 install spacy $ python3 -m spacy download en_core_web_sm

Usage

import spacy

nlp = spacy.load("en_core_web_sm")

spaCy

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("He goes to school daily")
for token in doc:
    print(token.text, token.pos_, token.dep_)

He PRON nsubj goes VERB ROOT to ADP prep school NOUN pobj daily ADV advmod

spaCy: mots vides, forme, PoS, lemme

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("He goes to school daily")
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

He -PRON- PRON PRP nsubj Xx True True goes go VERB VBZ ROOT xxxx True False to to ADP IN prep xx True True school school NOUN NN pobj xxxx True False daily daily ADV RB advmod xxxx True False

Lemmatisation [Gesmundo 2012]

La lemmatisation, consiste à regrouper les différentes formes d'un mot qui appartiennent au même paradigme morphologique flexionnel et à attribuer à chaque paradigme son lemme correspondant.
Cette méthode vise à ramener les variations flexionnelles d'un mot à sa forme canonique ou à sa racine.
La lemmatisation permet de simplifier la représentation des mots en les ramenant à leur forme de base, ce qui facilite la recherche, l'analyse et le traitement automatique du langage naturel.
Exemples
- go: go, goes, going, went, gone

Lemmatisation [Chrupała 2006, Gesmundo 2012]

La lemmatisation comme une tâche d'étiquetage
Attribuer un label pour chaque transformation d'un label en lemme
4 étapes [Gesmundo 2012]
1. supprimer un suffixe de longueur $N_s$
2. ajouter un nouveau suffixe de lemme $L_s$
3. supprimer un préfixe de longueur $N_p$
4. ajouter un nouveau préfixe lemme, $L_p$
Transformation $\tau = \langle N_s, L_s, N_p, L_p \rangle$
(going, go) = $\langle 3, \emptyset, 0, \emptyset \rangle $

nltk: WordNetLemmatizer

WordNet [Miller 1995] : WordNet est une base de données lexicale de la langue anglaise qui organise les mots en synsets (ensembles de synonymes) et les relie entre eux par des relations lexicales telles que l'hypernymie (relation "est-un") et l'hyponymie (relation "a pour instance").
WordNetLemmatizer : Le module WordNetLemmatizer dans NLTK utilise WordNet pour la lemmatisation des mots. Il attribue à chaque mot sa forme canonique ou lemme, en tenant compte des différentes formes flexionnelles.

import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

nltk: WordNetLemmatizer (sans les balises PoS)

from nltk.stem import WordNetLemmatizer

sentence = "He went to school yesterday and attended the classes"
lemmatizer = WordNetLemmatizer()

for word in sentence.split():
    print(lemmatizer.lemmatize(word), end=' ')

Affichage

He went to school yesterday and attended the class

nltk: WordNetLemmatizer (avec les balises PoS)

from nltk.stem import WordNetLemmatizer
from nltk import word_tokenize, pos_tag
from nltk.corpus import wordnet as wn

# Check the complete list of tags http://www.nltk.org/book/ch05.html
def wntag(tag):
    if tag.startswith("J"):
        return wn.ADJ
    elif tag.startswith("R"):
        return wn.ADV
    elif tag.startswith("N"):
        return wn.NOUN
    elif tag.startswith("V"):
        return wn.VERB
    return None

nltk: WordNetLemmatizer (avec les balises PoS)

lemmatizer = WordNetLemmatizer()
sentence = "I went to school today and he goes daily"

tokens = word_tokenize(sentence)
for token, tag in pos_tag(tokens):
    if wntag(tag):
        print(lemmatizer.lemmatize(token, wntag(tag)), end=' ')
    else:
        print(lemmatizer.lemmatize(token), end=' ')

Affichage

I go to school today and he go daily

spaCy: mots vides, forme, PoS, lemme

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("I went to school today and he goes daily")

for token in doc:
    print(token.lemma_, end=' ')

-PRON- go to school today and -PRON- go daily

Morphologie

La morphologie lexicale est une branche de la linguistique qui se concentre sur l'étude des mots, de leurs formes, de leurs paradigmes et de l'organisation des catégories grammaticales.
Elle examine de près les parties du discours, l'intonation, l'accentuation, ainsi que la manière dont le contexte peut influencer la prononciation et le sens d'un mot.
Elle explore la structure interne des mots et comment ils interagissent avec la grammaire et le contexte pour communiquer des significations spécifiques.

spaCy: mots vides, forme, PoS, lemme

import spacy
from spacy import displacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("He goes to school daily")

displacy.render(doc, style="dep", jupyter=True)

Word Embeddings (Incorporation de mots)

Les embeddings de mots sont une technique d'apprentissage de caractéristiques où des mots ou des phrases du vocabulaire sont associés à des vecteurs de nombres réels.

L'idée principale est de représenter chaque mot par un vecteur dense dans un espace continu, de telle sorte que des mots similaires aient des vecteurs similaires, capturant ainsi les relations sémantiques entre les mots.
Quantifier et catégoriser les similarités sémantiques entre les éléments linguistiques en fonction de leurs propriétés de distribution dans de grands échantillons de données linguistiques.
En d'autres termes, les mots qui ont des contextes similaires ou qui apparaissent dans des contextes similaires auront des embeddings de mots similaires.

Word Embeddings (Incorporation de mots)

Avantages de Word Embeddings

Représentation dense : Les embeddings fournissent une représentation dense, contrairement à une représentation creuse où chaque mot serait représenté par un vecteur binaire indiquant sa présence ou son absence.
Capture des relations sémantiques : Les embeddings captent les relations sémantiques et les similitudes entre les mots, ce qui les rend utiles dans de nombreuses tâches de traitement du langage naturel.

Word Embeddings (Incorporation de mots)

Applications de Word Embeddings

Similarité sémantique : Mesurer la similarité sémantique entre les mots.
Traduction automatique : Améliorer les performances des systèmes de traduction automatique.
Analyse des sentiments : Mieux comprendre le contexte et les relations sémantiques dans l'analyse des sentiments, entre autres applications.

spaCy

spaCy est une bibliothèque open-source pour le traitement du langage naturel (NLP) en Python. Elle offre des outils performants et efficaces pour effectuer diverses tâches de traitement du langage naturel, de l'analyse syntaxique à la reconnaissance d'entités nommées. spaCy est conçu pour être rapide, précis et facile à utiliser.

Collecte de données : Les modèles spaCy sont souvent entraînés sur de vastes ensembles de données annotées, qui peuvent inclure des corpus textuels avec des annotations pour l'analyse syntaxique, la reconnaissance d'entités nommées, etc.

spaCy

Annotation des données : Les données collectées sont annotées manuellement avec des informations linguistiques spécifiques telles que les parties du discours, les entités nommées, les relations syntaxiques, etc.
Entraînement initial : Les modèles spaCy sont initialement entraînés sur ces ensembles de données annotées pour apprendre les structures linguistiques. Ce processus peut inclure l'utilisation d'algorithmes d'apprentissage automatique tels que les réseaux de neurones.
Optimisation et réglage : Les modèles sont ensuite optimisés et réglés pour améliorer leurs performances sur des tâches spécifiques. Cela peut impliquer des itérations sur le processus d'entraînement en ajustant les hyperparamètres du modèle.

spaCy

Évaluation : Les modèles sont évalués sur des ensembles de données de test distincts pour mesurer leur précision, leur rappel et d'autres métriques spécifiques à la tâche.
Construction des modèles linguistiques pré-entraînés : Une fois le modèle entraîné et évalué, spaCy construit des modèles linguistiques pré-entraînés qui encapsulent les connaissances acquises sur la structure linguistique.
Téléchargement et utilisation : Les utilisateurs peuvent télécharger ces modèles pré-entraînés via spaCy et les utiliser dans leurs applications pour effectuer diverses tâches de traitement du langage naturel sans avoir à entraîner un modèle de zéro.

spaCy

spaCy propose différents modèles linguistiques pré-entraînés pour différentes langues et tâches. Le modèle en_core_web_lg est un modèle vectoriel large d'anglais.

Installation du Modèle spaCy (en_core_web_lg) :

$ python3 -m spacy download en_core_web_lg

spaCy

Chargement du Modèle spaCy :

import spacy

# Charger le modèle spaCy
nlp = spacy.load("en_core_web_lg")

spaCy

Avantages de spaCy :

Performance élevée : spaCy est reconnu pour sa rapidité d'exécution, ce qui le rend adapté au traitement de grands volumes de texte en temps réel.
Modèles pré-entraînés : spaCy propose des modèles linguistiques pré-entraînés pour plusieurs langues, ce qui facilite l'analyse de texte sans nécessiter d'entraînement à partir de zéro.
Extraction d'informations linguistiques riches : spaCy fournit des informations linguistiques détaillées telles que les parties du discours, les entités nommées, les relations syntaxiques, et plus encore.
API conviviale : L'API spaCy est conçue pour être intuitive et conviviale. Elle facilite la réalisation de tâches complexes avec des lignes de code concises.
Intégration avec d'autres bibliothèques : spaCy s'intègre bien avec d'autres bibliothèques Python populaires, facilitant son utilisation dans des projets plus larges.

spaCy

Limites de spaCy :

Dépendance des modèles linguistiques : L'utilisation de modèles pré-entraînés signifie que la qualité des résultats dépend de la qualité du modèle. Dans des domaines de spécialité ou pour des langues moins courantes, les modèles peuvent ne pas être aussi performants.
Gestion des entités nommées : Bien que spaCy excelle dans la reconnaissance d'entités nommées, il peut parfois avoir du mal avec des tâches plus complexes impliquant des variations contextuelles.
Taille des modèles : Les modèles pré-entraînés peuvent être relativement volumineux, ce qui peut être un inconvénient dans des environnements avec des restrictions de mémoire ou pour des applications mobiles.
Personnalisation limitée : Bien que spaCy offre des fonctionnalités de personnalisation, elles peuvent être limitées par rapport à d'autres bibliothèques NLP plus flexibles.

spaCy: similarity

import spacy

# Charger le modèle spaCy
nlp = spacy.load("en_core_web_lg")

# Définir les mots à comparer
words_to_compare = ["dog", "cat", "apple"]

# Calculer la similarité entre les paires de mots
for i in range(len(words_to_compare)):
    for j in range(i + 1, len(words_to_compare)):
        word1, word2 = words_to_compare[i], words_to_compare[j]
        doc1, doc2 = nlp(word1), nlp(word2)
        similarity_score = doc1.similarity(doc2)
        print("Similarité ({} / {}): {:.4f}".format(word1, word2,
	    similarity_score))

spaCy: similarity

Affichage

Similarité (dog / cat): ...
Similarité (dog / apple): ...
Similarité (cat / apple): ...

spaCy: vector

import spacy

# Charger le modèle spaCy
nlp = spacy.load("en_core_web_sm")

# Texte à analyser
text_to_analyze = "cat"
doc = nlp(text_to_analyze)

# Imprimer les vecteurs de chaque jeton sur une seule ligne
vector_list = [token.vector for token in doc]
print("Vecteurs de '{}' : {}".format(text_to_analyze, vector_list))

Word2Vec [Mikolov 2013]

Word2Vec a marqué un tournant significatif dans la représentation des mots dans le domaine de l'apprentissage automatique.

C'est une technique publiée en 2013 par une équipe de chercheurs dirigée par Tomas Mikolov chez Google.
Représentation vectorielle : Word2Vec représente chaque mot distinct avec un vecteur dans un espace continu. Ces vecteurs captent les relations sémantiques et syntaxiques entre les mots.
Apprentissage basé sur un réseau neuronal : Le modèle utilise un réseau neuronal pour apprendre des associations de mots à partir d'un vaste corpus de texte. Cette approche permet de capturer des nuances complexes dans la signification des mots.
Entrée et sortie : Word2Vec prend en entrée un large corpus de texte et produit un espace vectoriel, généralement de plusieurs centaines de dimensions. Cette représentation vectorielle permet de mesurer la similarité sémantique entre les mots.

Word2Vec [Mikolov 2013]

L'implémentation de Word2Vec se déroule en plusieurs étapes :

Prétraitement des données : Le texte est nettoyé et prétraité pour éliminer les éléments indésirables tels que la ponctuation et les stopwords.
Création d'un vocabulaire : Les mots uniques du corpus sont utilisés pour construire un vocabulaire. Chaque mot est ensuite associé à un index.
Génération de paires mot-contexte : Pour chaque mot du corpus, des paires mot-contexte sont créées en utilisant une fenêtre contextuelle glissante. Ces paires servent d'exemples d'entraînement.

Word2Vec [Mikolov 2013]

Construction du modèle Word2Vec : Un modèle de réseau neuronal est créé, avec une couche d'entrée représentant les mots, une couche cachée (skip-gram ou CBOW), et une couche de sortie pour prédire le mot suivant dans le contexte.
Entraînement du modèle : Le modèle est entraîné sur les paires mot-contexte générées, ajustant les poids du réseau pour minimiser la différence entre les prédictions et les vrais mots du contexte.
Obtention des embeddings : Les vecteurs de mots appris pendant l'entraînement, appelés embeddings, sont extraits. Chaque mot du vocabulaire est maintenant représenté par un vecteur dense dans l'espace continu.

Word2Vec

les vecteurs de mots sont positionnés dans l'espace vectoriel de telle sorte que les mots qui partagent des contextes communs dans le corpus soient situés à proximité les uns des autres dans l'espace
une simple fonction mathématique (par exemple, la similarité cosinus entre les vecteurs) indique le niveau de similarité sémantique entre les mots représentés par ces vecteurs \[\text{similarity} = \cos(\theta) = {\mathbf{A} \cdot \mathbf{B} \over \|\mathbf{A}\| \|\mathbf{B}\|} = \frac{ \sum\limits_{i=1}^{n}{A_i B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{A_i^2}} \sqrt{\sum\limits_{i=1}^{n}{B_i^2}} },\]
les vecteurs de mots sont positionnés dans l'espace vectoriel de telle sorte que les mots qui partagent des contextes communs dans le corpus soient situés à proximité les uns des autres dans l'espace

Context Bag of Words (CBOW)

CBOW est un modèle spécifique de Word2Vec. Dans ce modèle, la prédiction du mot courant se fait en utilisant une fenêtre de mots contextuels voisins. L'ordre des mots de contexte n'influence pas la prédiction, ce qui en fait une approche robuste.

Modèle prédictif : CBOW prédit le mot cible en se basant sur le contexte qui l'entoure, mais contrairement à d'autres modèles, l'ordre spécifique des mots dans ce contexte n'est pas pris en compte.

Context Bag of Words (CBOW)

Entrée : La donnée d'entrée du modèle CBOW est une fenêtre de mots contextuels entourant le mot cible. Cette fenêtre est définie par un paramètre appelé la taille de la fenêtre.
Architecture : CBOW utilise une architecture de réseau neuronal à une seule couche cachée. La couche d'entrée représente les mots du contexte, et la couche de sortie représente le mot cible à prédire.
Entraînement : Le modèle est entraîné en ajustant les poids du réseau pour minimiser la différence entre les prédictions du modèle et le mot cible réel. Cela se fait à travers des techniques d'optimisation comme la rétropropagation du gradient.
Sortie : Une fois le modèle entraîné, les poids de la couche d'entrée sont utilisés comme embeddings de mots. Ces embeddings capturent les relations sémantiques entre les mots, permettant ainsi de représenter chaque mot par un vecteur dans un espace continu.
Avantages : CBOW est souvent plus rapide à entraîner que d'autres modèles comme le Skip-gram (une autre variante de Word2Vec) et peut être plus efficace dans des contextes où l'ordre séquentiel des mots n'est pas critique.

gensim: cbow

import gensim
from nltk.tokenize import sent_tokenize, word_tokenize

# Données d'exemple
data = "This is a class. This is a table"

# Prétraitement des données en utilisant nltk pour obtenir des phrases et des mots
sentences = [word_tokenize(sentence.lower()) for sentence in sent_tokenize(data)]

# Construction du modèle CBOW avec Gensim
# min_count: Ignorer tous les mots dont la fréquence totale est inférieure à cette valeur.
# vector_size: Dimension des embeddings de mots
# window: Distance maximale entre le mot courant et le mot prédit dans une phrase
cbow_model = gensim.models.Word2Vec(sentences, min_count=1, vector_size=100,
       window=3, sg=0)

gensim: cbow


# Affichage du vecteur du mot "this"
print("Vecteur du mot 'this':", cbow_model.wv["this"])

# Similarité entre les mots "this" et "class"
print("Similarité entre 'this' et 'class':", cbow_model.wv.similarity("this",
                   "class"))

# Prédiction des deux mots les plus probables suivant le mot "is"
predicted_words = cbow_model.wv.most_similar(positive=["is"], topn=2)
print("Prédiction des mots suivant 'is':", predicted_words)

Skip grams

Le modèle Skip-gram est une autre variante de Word2Vec qui se concentre sur la prédiction de la fenêtre voisine des mots de contexte à partir du mot courant.

Objectif : L'objectif principal du modèle Skip-gram est de prendre un mot source (le mot courant) et de prédire les mots qui l'entourent dans une fenêtre de contexte donnée.
Entrée : Le mot source est utilisé comme donnée d'entrée du modèle, et la sortie souhaitée est la distribution des probabilités des mots du contexte.

Skip grams

Architecture : Skip-gram utilise une architecture de réseau neuronal à une seule couche cachée. La couche d'entrée représente le mot source, et la couche de sortie représente les mots du contexte.
Entraînement : Pendant l'entraînement, les poids du réseau sont ajustés pour minimiser la différence entre les prédictions du modèle et la véritable distribution des mots du contexte. Cela se fait généralement à l'aide de techniques d'optimisation comme la rétropropagation du gradient.
Pondération du contexte : Une caractéristique importante du modèle Skip-gram est que l'architecture accorde plus de poids aux mots de contexte proches du mot source que ceux plus éloignés. Cela permet de mieux capturer les relations sémantiques et syntaxiques locales.
Embeddings : Une fois le modèle entraîné, les poids de la couche d'entrée sont utilisés comme embeddings de mots. Ces embeddings capturent les similitudes sémantiques entre les mots, permettant de représenter chaque mot par un vecteur dans un espace continu.

gensim: skip-gram

import gensim
from nltk.tokenize import sent_tokenize, word_tokenize

# Données d'exemple
data = "This is a class. This is a table"

# Prétraitement des données en utilisant nltk pour obtenir des phrases et des mots
sentences = [word_tokenize(sentence.lower()) for sentence in sent_tokenize(data)]

# Construction du modèle Skip-gram avec Gensim
# min_count: Ignorer tous les mots dont la fréquence totale est inférieure à cette valeur.
# vector_size: Dimension des embeddings de mots
# window: Distance maximale entre le mot courant et le mot prédit dans une phrase
# sg: 1 pour skip-gram ; sinon CBOW.
skipgram_model = gensim.models.Word2Vec(sentences, min_count=1, vector_size=100,
                 window=5, sg=1)

gensim: skip-gram

# Affichage du vecteur du mot "this"
print("Vecteur du mot 'this':", skipgram_model.wv["this"])

# Similarité entre les mots "this" et "class"
print("Similarité entre 'this' et 'class':", skipgram_model.wv.similarity("this", "class"))

# Prédiction des mots les plus probables dans le contexte entourant le mot "is"
predicted_words = skipgram_model.wv.most_similar(positive=["is"], topn=2)
print("Prédiction des mots dans le contexte de 'is':", predicted_words)

Reconnaissance d'entités nommées

La Reconnaissance d'Entités Nommées (NER) consiste à identifier et classer des entités spécifiques dans un texte. Ces entités peuvent inclure des personnes, des lieux, des organisations, des dates, des montants monétaires, etc. Le but est d'extraire des informations structurées à partir de données textuelles non structurées.

Reconnaissance d'entités nommées

Identification d'entités : La première étape de la NER consiste à identifier les mots ou groupes de mots qui représentent des entités dans le texte. Ces entités peuvent être des noms de personnes, des noms de lieux, des noms d'organisations, etc.
Classification des entités : Une fois les entités identifiées, elles sont classifiées dans des catégories spécifiques. Par exemple, une entité peut être classée comme "PERSON" si elle représente une personne, "LOCATION" si elle représente un lieu, "ORGANIZATION" si elle représente une organisation, et ainsi de suite.
Contextualisation : La NER tient compte du contexte dans lequel une entité apparaît. Par exemple, le mot "banc" peut être classé comme une entité financière dans le contexte d'une discussion sur l'économie, mais comme une entité physique dans le contexte d'un parc.

Reconnaissance d'entités nommées

Relations entre entités : Dans certains cas, la NER peut également inclure la détection des relations entre différentes entités dans le texte. Par exemple, la relation entre une personne et l'organisation qu'elle travaille.
Applications pratiques : Les résultats de la NER peuvent être utilisés dans diverses applications, telles que l'amélioration de la recherche d'informations, l'extraction de relations, la catégorisation de documents, la création de résumés automatiques, etc.

Reconnaissance d'entités nommées : Algorithmes

La Reconnaissance d'Entités Nommées (NER) est souvent réalisée à l'aide de modèles d'apprentissage automatique, et plusieurs algorithmes peuvent être utilisés dans ce contexte. Quelques-uns des algorithmes couramment employés :

Modèles de markov cachés (HMM - Hidden Markov Models) : Les HMM ont été utilisés pour la NER, où l'idée est de modéliser la séquence des étiquettes d'entités en tant que séquence cachée derrière la séquence observable de mots.

Reconnaissance d'entités nommées : Algorithmes

Réseaux de neurones : Les architectures de réseaux de neurones, y compris les réseaux de neurones récurrents (RNN), les réseaux de neurones récurrents bidirectionnels (BiRNN), et les réseaux de neurones récurrents à mémoire à court terme (LSTM), ont montré des performances significatives dans la NER.
Transformers : Les modèles basés sur les transformers, tels que BERT (Bidirectional Encoder Representations from Transformers) et ses variantes, ont considérablement amélioré les performances en NER. Ces modèles sont pré-entraînés sur de grandes quantités de données textuelles et captent des représentations contextuelles riches.

Reconnaissance d'entités nommées : Algorithmes

Modèles statistiques traditionnels : Des approches statistiques plus traditionnelles, comme les modèles de séquence et les classificateurs basés sur des caractéristiques, ont également été utilisées dans des scénarios où des quantités limitées de données annotées sont disponibles.
Règles et expressions régulières : Dans certains cas, des règles manuelles ou des expressions régulières peuvent être utilisées pour extraire des entités spécifiques, surtout lorsque des motifs clairs et récurrents peuvent être définis.
Entraînement supervisé : Les méthodes d'entraînement supervisé consistent à annoter manuellement un ensemble de données avec des entités nommées, puis à entraîner un modèle sur ces données annotées.

spaCy: Reconnaissance d'entités nommées

import spacy

# Charger le modèle spaCy
nlp = spacy.load("en_core_web_sm")

# Texte à analyser
text_to_analyze = "Paris is the capital of France." + "In 2015, its population was recorded as 2,206,488"

# Analyser le texte
doc = nlp(text_to_analyze)

spaCy: Reconnaissance d'entités nommées

# Afficher les informations sur les entités
for entity in doc.ents:
    entity_text = entity.text
    start_char = entity.start_char
    end_char = entity.end_char
    label = entity.label_

    print("Entité: {}, Début: {}, Fin: {}, Catégorie: {}".format(entity_text,
                  start_char, end_char, label))

spaCy: Reconnaissance d'entités nommées

Entité: Paris, Début: 0, Fin: 5, Catégorie: GPE
Entité: France, Début: 24, Fin: 30, Catégorie: GPE
Entité: 2015, Début: 35, Fin: 39, Catégorie: DATE
Entité: 2,206,488, Début: 72, Fin: 81, Catégorie: CARDINAL

spaCy: Reconnaissance d'entités nommées

import spacy
from spacy import displacy

def visualize_entities(text):
    # Charger le modèle spaCy
    nlp = spacy.load("en_core_web_sm")
    # Analyser le texte
    doc = nlp(text)
    # Visualiser les entités nommées avec displaCy
    displacy.serve(doc, style="ent")

# Texte à analyser et visualiser
text_to_analyze = "Paris is the capital of France." + "In 2015, its population was recorded as 2,206,488"

# Appeler la fonction pour analyser et visualiser les entités
visualize_entities(text_to_analyze)

spaCy: Reconnaissance d'entités nommées

import spacy
from spacy import displacy

def visualize_entities(text):
    # Charger le modèle spaCy
    nlp = spacy.load("en_core_web_sm")
    # Analyser le texte
    doc = nlp(text)
    # Visualiser les entités nommées avec displaCy
    displacy.render(doc, style="ent", jupyter=True)

# Texte à analyser et visualiser
text_to_analyze = "Paris is the capital of France. In 2015, its population was recorded as 2,206,488"

# Appeler la fonction pour analyser et visualiser les entités
visualize_entities(text_to_analyze)

spaCy: Reconnaissance d'entités nommées

Paris GPE is the capital of France GPE . In 2015 DATE , its population was recorded as 2,206,488 CARDINAL

Balise	Signification
GPE	Pays, villes, états.
DATE	Dates ou périodes absolues ou relatives
CARDINAL	Les chiffres qui ne correspondent à aucun autre type.

Le lexique VADER (Valence Aware Dictionary and sEntiment Reasoner) est spécifiquement conçu pour analyser les sentiments dans du texte en attribuant des scores de positivité, négativité et neutralité aux mots ainsi qu'aux expressions.

Installation

import nltk
nltk.download('vader_lexicon')

VADER

VADER est une bibliothèque d'analyse de sentiment conçue pour évaluer le sentiment d'un morceau de texte, généralement une phrase ou un paragraphe.

Dictionnaire et Scores : VADER utilise un dictionnaire pré-annoté avec des scores de positivité, négativité et neutralité pour des milliers de mots et expressions. Chaque mot est associé à un score qui indique dans quelle mesure il est perçu comme positif ou négatif.
Polarité des Mots : Pour chaque mot dans le texte, VADER examine son score dans le dictionnaire. Certains mots ont des scores forts, indiquant une polarité positive ou négative, tandis que d'autres ont des scores plus neutres.
Modificateurs et Emphase : VADER prend en compte les modificateurs, tels que les adverbes, qui peuvent influencer la polarité d'un mot. Il reconnaît également l'emphase en attribuant des poids différents aux mots en majuscules.

VADER

Calcul du Score Composé : VADER agrège les scores des mots en utilisant une formule qui prend en compte la distribution des polarités dans le texte. Le score composé résultant est une mesure globale du sentiment de la phrase.
Résultats : Le résultat final de l'analyse est un ensemble de scores qui indiquent la positivité, la négativité, la neutralité et un score composé global. Ces scores sont normalisés dans une échelle de -1 à 1, où -1 représente un sentiment extrêmement négatif, 1 représente un sentiment extrêmement positif, et 0 représente la neutralité.

VADER est souvent utilisé pour l'analyse de sentiment rapide et basée sur des règles. Bien qu'il soit efficace dans de nombreux cas, il peut ne pas être aussi précis que des méthodes plus complexes basées sur l'apprentissage automatique, notamment dans des contextes où l'analyse nécessite une compréhension plus profonde du langage et de la syntaxe.

VADER: Usage

from nltk.sentiment.vader import SentimentIntensityAnalyzer
sia = SentimentIntensityAnalyzer()

sentiment = sia.polarity_scores("this movie is good")
print(sentiment)

sentiment = sia.polarity_scores("this movie is not very good")
print(sentiment)

sentiment = sia.polarity_scores("this movie is bad")
print(sentiment)

Les scores renvoyés par VADER représentent différentes mesures du sentiment dans un texte. Une explication de chaque score :

Positivité (Positive Score) : Ce score mesure la positivité relative du texte. Il indique dans quelle mesure le texte contient des éléments positifs. Plus le score est élevé, plus le texte est perçu comme positif.
Négativité (Negative Score) : - Ce score mesure la négativité relative du texte. Il indique dans quelle mesure le texte contient des éléments négatifs. Plus le score est élevé, plus le texte est perçu comme négatif.

Neutralité (Neutral Score) : Ce score mesure la neutralité relative du texte. Il indique dans quelle mesure le texte est neutre, c'est-à-dire dépourvu d'éléments fortement positifs ou négatifs. Plus le score est élevé, plus le texte est perçu comme neutre.
Score Composé (Compound Score) : Le score composé est une mesure agrégée du sentiment qui prend en compte à la fois la positivité et la négativité du texte. Il combine les scores positif, négatif et neutre en une seule valeur. Le score composé est souvent utilisé pour évaluer le sentiment global du texte. Un score composé élevé indique un sentiment fort, qu'il soit positif ou négatif, tandis qu'un score proche de zéro indique un texte neutre.

Les scores sont normalisés dans une échelle de -1 à 1, où -1 représente un sentiment extrêmement négatif, 1 représente un sentiment extrêmement positif, et 0 représente la neutralité. Les scores peuvent être interprétés individuellement ou conjointement pour obtenir une compréhension complète du sentiment dans le texte analysé.

Affichage

{'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.4404} {'neg': 0.344, 'neu': 0.656, 'pos': 0.0, 'compound': -0.3865} {'neg': 0.538, 'neu': 0.462, 'pos': 0.0, 'compound': -0.5423}

Articles de recherche

[Beel 2013a] Beel, Joeran, et al. “A Comparative Analysis of Offline and Online Evaluations and Discussion of Research Paper Recommender System Evaluation.” Proceedings of the International Workshop on Reproducibility and Replication in Recommender Systems Evaluation, Association for Computing Machinery, 2013
[Beel 2013b] Beel, Joeran, et al. “Sponsored vs. Organic (Research Paper) Recommendations and the Impact of Labeling.” Research and Advanced Technology for Digital Libraries, edited by Trond Aalberg et al., Springer, 2013, pp. 391–95.
[Chrupała 2006] Chrupała, Grzegorz. Simple Data-Driven Context-Sensitive Lemmatization. 2006. doras.dcu.ie, http://www.unizar.es/departamentos/filologia_inglesa/sepln2006/.
[Frakes 2003] Frakes, William B., and Christopher J. Fox. “Strength and Similarity of Affix Removal Stemming Algorithms.” ACM SIGIR Forum, vol. 37, no. 1, Apr. 2003, pp. 26–30. Spring 2003

Articles de recherche

[Gomez-Uribe 2016] Gomez-Uribe, Carlos A., and Neil Hunt. “The Netflix Recommender System: Algorithms, Business Value, and Innovation.” ACM Transactions on Management Information Systems, vol. 6, no. 4, Dec. 2016, p. 13:1–13:19. January 2016 Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers - Volume 2, Association for Computational Linguistics, 2012, pp. 368–372.
[Gesmundo 2012] Gesmundo, Andrea, and Tanja Samardžić. “Lemmatisation as a Tagging Task.”
[Herlocker 2000] Herlocker, Jonathan L., et al. “Explaining Collaborative Filtering Recommendations.” Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work, Association for Computing Machinery, 2000, pp. 241–250. ACM
[Konstan 2012] Konstan, Joseph A., and John Riedl. “Recommender Systems: From Algorithms to User Experience.” User Modeling and User-Adapted Interaction, vol. 22, no. 1–2, Apr. 2012, pp. 101–123.

Articles de recherche

[Màrquez 2000] Màrquez, Lluís, et al. “A Machine Learning Approach to POS Tagging.” Machine Learning, vol. 39, no. 1, Apr. 2000, pp. 59–91.
[Mikolov 2013] Mikolov, Tomas, et al. “Efficient Estimation of Word Representations in Vector Space.” ArXiv:1301.3781 [Cs], Sept. 2013.
[Miller 1995] Miller, George A. “WordNet: A Lexical Database for English.” Communications of the ACM, vol. 38, no. 11, Nov. 1995, pp. 39–41. Nov. 1995
[Pazzani 2007] Pazzani, Michael J., and Daniel Billsus. “Content-Based Recommendation Systems.” The Adaptive Web: Methods and Strategies of Web Personalization, edited by Peter Brusilovsky et al., Springer, 2007, pp. 325–41.

Articles de recherche

[Porter 1980] Porter, M. F. “An Algorithm for Suffix Stripping.” Program, vol. 14, no. 3, Jan. 1980, pp. 130–37. Emerald Insight
[Pu 2012] Pu, Pearl, et al. “Evaluating Recommender Systems from the User’s Perspective: Survey of the State of the Art.” User Modeling and User-Adapted Interaction, vol. 22, no. 4, Oct. 2012, pp. 317–55.
[Ricci 2011] Ricci, Francesco, et al. “Introduction to Recommender Systems Handbook.” Recommender Systems Handbook, edited by Francesco Ricci et al., Springer US, 2011, pp. 1–35.
[Ziegler 2005] Ziegler, Cai-Nicolas, et al. “Improving Recommendation Lists through Topic Diversification.” Proceedings of the 14th International Conference on World Wide Web, Association for Computing Machinery, 2005, pp. 22–32.

Traitement de données massives

Traitement automatique des langues naturelles (TAL)

5.1. Traitement automatique des langues naturelles (TAL/NLP)

Intelligence artificielle

5.1. Traitement automatique des langues naturelles

5.1. Traitement automatique des langues naturelles

5.1. Traitement automatique des langues naturelles

Analyse de systèmes TAL

5.1.1. Racinisation

Racinisation [Frakes 2003]

5.1.1. Racinisation

Racinisation

5.1.1. Racinisation

Racinisation

5.1.1. Racinisation

Racinisation: mesures d'évaluation [Frakes 2003]

5.1.1. Racinisation

Racinisation: distance de Hamming [Frakes 2003]

5.1.1. Racinisation

Racinisation: force [Frakes 2003]

5.1.1. Racinisation

Racinisation: similarité [Frakes 2003]

5.1.1. Racinisation

Racinisation: nltk

5.1.1. Racinisation

Porter

5.1.1. Racinisation

Porter

5.1.1. Racinisation

Porter

5.1.1. Racinisation

Racinisation: Porter

5.1.1. Racinisation

Snowball

5.1.1. Racinisation

Snowball

5.1.1. Racinisation

Racinisation: Snowball

5.1.2. Étiquetage morpho-syntaxique

Étiquetage morpho-syntaxique [Màrquez 2000]

5.1.2. Étiquetage morpho-syntaxique

Étiquetage morpho-syntaxique [Màrquez 2000]

5.1.2. Étiquetage morpho-syntaxique

Étiquetage morpho-syntaxique [Màrquez 2000]

Construction de modèles linguistiques

5.1.2. Étiquetage morpho-syntaxique

Étiquetage morpho-syntaxique [Màrquez 2000]

Construction de modèles linguistiques

5.1.2. Étiquetage morpho-syntaxique

nltk: ngrams

5.1.2. Étiquetage morpho-syntaxique

nltk: ngrams (affichage)

5.1.2. Étiquetage morpho-syntaxique

nltk: pos_tag

5.1.2. Étiquetage morpho-syntaxique

nltk: pos_tag

5.1.2. Étiquetage morpho-syntaxique

spaCy

5.1.2. Étiquetage morpho-syntaxique

spaCy

5.1.2. Étiquetage morpho-syntaxique

spaCy: mots vides, forme, PoS, lemme

5.1.3. Lemmatisation

Lemmatisation [Gesmundo 2012]

5.1.3. Lemmatisation

Lemmatisation [Chrupała 2006, Gesmundo 2012]

5.1.3. Lemmatisation

nltk: WordNetLemmatizer

5.1.3. Lemmatisation

nltk: WordNetLemmatizer (sans les balises PoS)

5.1.3. Lemmatisation

nltk: WordNetLemmatizer (avec les balises PoS)

5.1.3. Lemmatisation

nltk: WordNetLemmatizer (avec les balises PoS)

5.1.3. Lemmatisation

spaCy: mots vides, forme, PoS, lemme

5.1.4. Morphologie

Morphologie

5.1.4. Morphologie

spaCy: mots vides, forme, PoS, lemme