L'IA de Microsoft imite n'importe quelle voix sur la base d'un enregistrement de trois secondes

Microsoft a introduit l'intelligence artificielle VALL-E. Il peut générer des enregistrements vocaux basés sur

échantillon de trois secondes. L'étude a révélé qu'un modèle formé sur de nombreux extraits courts générait une parole anglaise impossible à distinguer de la voix originale.

Chercheurs à l'Université Cornellont utilisé le modèle VALL-E pour analyser les mécanismes de génération de la parole. Dans leur travail, dont la prépublication est publiée sur le serveur arXiv, les scientifiques examinent un réseau de neurones entraîné sur la base de 60 000 heures de parole en anglais. C'est des centaines de fois plus que les analogues existants.

Comment fonctionne l'IA. Image : VALL-E

L'analyse a montré que le système dispose de suffisammentun clip de trois secondes pour imiter la voix de l'interlocuteur. Dans le même temps, Vall-E est de loin supérieur au système TTS actuel en termes de voix au son naturel et de similarité vocale. De plus, il peut préserver les émotions de l'orateur et l'environnement acoustique (l'influence des propriétés acoustiques de la pièce dans laquelle l'enregistrement original a été réalisé).

Le système de production développé est toujours fermé pouraccès public, mais les chercheurs ont publié des exemples d'échantillons et de fichiers vocaux finis sur le site Internet. Les échantillons de parole générée varient en qualité. Alors que certains semblent naturels, d'autres sonnent générés par la machine. Les auteurs du développement notent qu'une formation complémentaire à différentes voix, y compris avec des accents différents, améliorera la qualité du système.

Échantillon de voix humaine. Audio : VALL-E

Enregistrement généré qui préserve le bruit externe. Audio : VALL-E

Les chercheurs notent également que la possibilitéla génération de voix identiques aux originales crée de nouveaux défis en matière de sécurité car elle peut être exploitée par des fraudeurs. Ils pensent qu'avant que le modèle ne soit largement diffusé au public, un système doit être développé qui reconnaîtra les enregistrements générés par l'IA.

Lire la suite:

Le secret de la durabilité du béton romain est révélé : il peut être restauré

Les généticiens ont déterminé comment l'âge de la conception chez l'homme a changé sur 250 000 ans

Le soleil a ouvert l'année avec un flash de la classe la plus puissante