Logo Spiria

DALL·E, dessine-moi un mouton

5 janvier 2021.

Avocado Armchair.

© OpenAI.

Le Generative Pre-trained Transformer 3 (GPT-3) est un modèle de langage autorégressif qui utilise l’apprentissage profond pour produire des textes qui semblent avoir un auteur humain. Non seulement le modèle est en mesure de créer des articles de presse, mais il peut aussi écrire de la poésie et même des lignes de code. Son créateur, OpenAI, a présenté une version du GPT-3 qui est formée pour générer des images à partir de descriptions textuelles. Baptisée DALL·E (en référence à l’artiste surréaliste Salvador Dalí et au robot WALL·E de Pixar), cette version de GPT-3 aux 12 milliards de paramètres peut produire une image, souvent convaincante, à partir de descriptions textuelles comme “une illustration de bébé radis daikon dans un tutu qui promène un chien”, “un fauteuil en forme d’avocat”, ou encore “un emoji de bébé pingouin portant un chapeau bleu, des gants rouges, une chemise verte et un pantalon jaune”. Contrairement à un moteur de rendu 3D, dont les entrées doivent être spécifiées sans ambiguïté et de façon très détaillée, DALL·E est souvent capable de “remplir les blancs” lorsque la description implique que l’image doit contenir un certain détail qui n’est pas explicitement indiqué. Il a également la capacité de combiner des idées disparates pour synthétiser des objets imaginaires qui n’existent pas dans le monde réel, comme le mélange d’un escargot et d’une harpe par exemple. Dalí aurait sans doute apprécié.

OpenAI, “DALL·E: Creating images from text.”

2021-01-05