Identifier le genre avec l'analyse de texte ?

Une équipe de chercheurs de l’institut d'ingénierie physique de Moscou, de l’institut Kourtchatov et de l'université d’État de Voronej, en Russie, a développé un algorithme capable d'analyser un échantillon de texte en utilisant un réseau neuronal pour identifier le genre de l'auteur, avec une fiabilité proche de 80 %.

Il s'agit d'un exemple d'intelligence artificielle faible. L'IA faible est caractérisée par un processus significativement plus performant qu'un être humain pour une tâche spécifique, comme un ordinateur capable de jouer aux échecs. Le projet a été financé par la Fondation scientifique russe (RSF) et les résultats de l'étude ont été publiés dans la revue Procedia Computer Science.

Un certain nombre d'études scientifiques ont démontré que le style d'écriture pouvait révéler certaines caractéristiques à propos de l'auteur, notamment son genre, ses traits de personnalité physiologiques et son niveau d'études. Les motifs vocaux semblent également contenir des informations pertinentes de psychodiagnostic et sont couramment utilisés par les services RH pour le recrutement, en parallèle de l'analyse graphologique, en particulier dans les services de sécurité. D'autres études ont également déterminé que l'analyse des signaux vocaux permettait d'identifier certaines caractéristiques comme la démence, la dépression et même les états suicidaires. La détermination des traits de personnalité à partir d'échantillons de texte a également un potentiel considérable.

À l'ère du Big data (les fameuses mégadonnées), il est important d'identifier avec précision une cible de population pour optimiser les ressources marketing. Ce qui explique pourquoi les chercheurs concentrent leurs efforts sur l’extraction d’informations spécifiques dans les textes. Grâce à des modèles mathématiques qui associent des valeurs à des paramètres spécifiques présents dans le texte, il est possible d'identifier certains traits de personnalité de l'auteur. Les réseaux neuronaux sont utilisés pour évaluer l'efficacité de différents algorithmes automatiques d'analyse de texte.

Les résultats obtenus en montré que les réseaux neuronaux convolutifs à apprentissage profond étaient les plus efficaces pour identifier le genre de l'auteur d'un texte. L'équipe de recherche utilise également des techniques similaires pour identifier la tranche d'âge à laquelle appartient l'auteur d'un échantillon de texte.

Évaluez cet article

★ ★ ★ ★ ★