Un jeton est une séquence de caractères considérée comme une unité unique par un modèle de traitement du langage. Les jetons peuvent être des mots, des sous-mots, des caractères individuels, ou même des symboles spéciaux, selon la méthode de fractionnement utilisée (tokenisation, en anglais). Le fractionnement est le processus qui transforme un texte brut en une liste de jetons.
Types de fractionnement (tokenisation)
Par mots :
Le texte est divisé en mots séparés par des espaces. Par exemple, « Bonjour le monde » devient [« Bonjour », « le », « monde »].
Par sous-mots :
Le texte est divisé en morceaux plus petits que les mots, souvent utilisés dans les modèles basés sur les sous-mots comme BERT ou GPT. Par exemple, « incroyable » pourrait être divisé en [« in », « croy », « able »].
Par caractères :
Chaque caractère est considéré comme un jeton. Par exemple, « chat » devient [« c », « h », « a », « t »].
Importance des jetons en IA
Les jetons sont cruciaux pour les modèles de langage naturel car ils sont les unités d'entrée que ces modèles manipulent. La manière dont un texte est fractionné peut grandement influencer la performance et la compréhension du modèle. Un fractionnement efficace permet au modèle de capturer des relations sémantiques et syntaxiques plus fines dans le texte.
Application des jetons dans les modèles de langage
Entrée pour les modèles :
Les jetons sont convertis en vecteurs numériques (embeddings, en anglais) que les modèles de langage peuvent traiter.
Entraînement de modèles :
Pendant l'entraînement, les jetons permettent au modèle d'apprendre les probabilités des séquences de texte et les relations entre les mots ou les sous-mots.
Génération de texte :
Lors de la génération de texte, les modèles produisent des séquences de jetons qui sont ensuite converties en texte lisible.
Exemple concret avec GPT-3
GPT-3, par exemple, utilise un fractionnement basée sur les sous-mots (Byte Pair Encoding - BPE). Une phrase comme « L'intelligence artificielle » pourrait être fractionnée en [« L' », « intelligence », « art », « ificielle »], ce qui permet au modèle de mieux gérer les variations linguistiques et les nouveaux mots.