Les techniques d'apprentissage automatique utilisées par des milliers de scientifiques pour analyser de très gros volumes de données conduisent à des résultats trompeurs et parfois même complètement erronés.

Le docteur Genevera Allen de l’université Rice à Houston, États-Unis, considère que l'utilisation croissante de ces systèmes contribue à une crise scientifique. Selon elle, si les chercheurs n'améliorent pas leurs techniques, ils vont non seulement perdre du temps, mais également de l'argent. Le docteur Allen a présenté ses travaux devant les membres de l’AAAS (American Association for the Advancement of Science) à Washington.

Crise de la reproductibilité

Un nombre croissant de travaux scientifiques utilisent les logiciels d'apprentissage automatique pour analyser les données déjà collectées. La démarche concerne un très large spectre de domaines de recherche, depuis la biomédecine jusqu'à l'astronomie. Les ensembles de données utilisés dans ce cadre sont à la fois très volumineux et extrêmement coûteux.

Pour autant, cette approche pose un problème car les réponses obtenues suite à ces travaux présentent un risque élevé d'inexactitude, voire même d’erreur complète. En effet, le logiciel met en évidence des modèles qui n'existent que dans un ensemble de données particulier, mais pas dans le monde réel.

Souvent, l'inexactitude d'une étude n'est révélée que lorsque la même technique est appliquée à un autre ensemble de données volumineux pour constater que les résultats ne se recoupent pas.

Il semble bien que les activités scientifiques soient aux prises avec une crise de la reproductibilité. Selon le docteur Allen, le phénomène découle en grande partie de l'application de techniques d'apprentissage automatique dans la recherche scientifique.

Cette « crise » correspond au nombre alarmant des résultats scientifiques impossibles à reproduire par d'autres chercheurs avec les mêmes expériences. Il semblerait en effet que près de 85 % des recherches relatives à la biomédecine dans le monde soient réalisées en pure perte.

Qualité de conception

Cette crise de la reproductibilité n'a cessé de croître au cours des vingt dernières années. Elle résulte du fait que les expériences ne sont pas conçues avec une réflexion suffisante pour éviter que les chercheurs ne se trompent eux-mêmes en n'observant que ce qu'ils souhaitent. D'une manière générale, une démarche de recherche scientifique consiste normalement à formuler d’abord une hypothèse (de préférence réfutable). Ce n'est qu'ensuite que sont examinés les résultats expérimentaux pour confirmer ou non cette hypothèse initiale.

La crise tient notamment au fait que les algorithmes d'apprentissage automatique ont été spécifiquement conçus pour trouver des modèles « intéressants », ce qui provoque presqu’inévitablement la découverte de certains modèles, en particulier lorsque les chercheurs exploitent des ensembles de données très volumineux. Les modèles mis en évidence ont-ils vraiment un sens ? Ce n'est probablement pas le cas dans nombre de situations...

Source : BBC News