Logo Spiria

Stability AI s’attaque à l’audio

13 septembre 2023.

Robot hands playing piano.

© iStock.

Stability AI, la startup anglaise à l’origine du célèbre générateur d’images Stable Diffusion, a dévoilé Stable Audio, un outil permettant de créer de la musique de “haute qualité” à 44,1 kHz à partir de descriptions textuelles. Ce modèle permet d’outrepasser une limite de ses concurrents : ne pas avoir le contrôle de la durée du morceau généré. Il a été formé avec plus de 800 000 fichiers audio extraits de la bibliothèque musicale AudioSparx, ce qui permet à Stability AI de dire qu’elle utilise avec une licence en bonne et due forme du matériel protégé par le droit d’auteur (le reproche fait à bien des modèles est de piocher du matériel à droite et à gauche sans demander l’autorisation aux ayants droit). La principale utilisation visée de l’outil est la génération de musique de fond pour des podcasts et les vidéos.

Stable Audio propose trois niveaux de tarification : une version gratuite qui permet aux utilisateurs de créer mensuellement jusqu’à 20 morceaux d’une durée maximale de 45 secondes (sans autorisation d’utilisation commerciale), une version à 11,99 USD pour 500 morceaux d’une durée maximale de 90 secondes (avec utilisation commerciale) et enfin un abonnement “entreprise” sur mesure et sur devis. D’autres grands noms de l’IA générative ont déjà proposé des modèles texte-audio : Meta a publié AudioCraft et Google, MusicLM. Mais ces modèles ne sont pour l’instant accessibles qu’aux chercheurs et à certains professionnels de l’audio.

Vous pouvez écouter la qualité de la musique générée ici.

The Verge, Emilia David, “Stability AI releases AI audio platform.”

2023-09-13