Logo Spiria

IA : bientôt à court de données textuelles ?

24 novembre 2022.

Old books.

© iStock.

Les grands modèles de langage sont un domaine très actif de la recherche sur l’IA, avec des programmes comme GPT-3 qui sont capables d’écrire des articles et même du code informatique. Mais selon des chercheurs d’Epoch, un organisme de recherche et de prévision en matière d’IA, un problème se profile à l’horizon : nous pourrions manquer de données pour entraîner ces modèles. Les modèles linguistiques sont formés à partir de textes de qualité provenant de sources telles que Wikipédia, des articles de presse, des documents scientifiques et des livres. Dans l’espoir de rendre les modèles plus puissants, on entraîne ces modèles avec de plus en plus de données, mais la quantité de ce type de données n’est pas infinie. Cependant, certains chercheurs pensent que la taille n’est pas forcément synonyme de qualité lorsqu’il s’agit de modèles linguistiques. Percy Liang, professeur d’informatique à l’université de Stanford, explique qu’ils ont “constaté que des modèles plus petits, formés sur des données de meilleure qualité, peuvent être plus performants que des modèles plus grands, formés sur des données de moindre qualité”.

MIT Technology Review, Tamy Xu, “We could run out of data to train AI language programs.”

2022-11-24