IA da Microsoft imita qualquer voz com base em uma gravação de três segundos

A Microsoft introduziu a inteligência artificialVALL-E.gerar gravações de voz com base em

O estudo mostrou que um modelo treinado em muitos clipes curtos gerouFala inglesa que não se distingue da original.

Pesquisadores da Universidade de Cornellutilizaram o modelo VALL-E para analisar os mecanismos de geração da fala. Em seu trabalho, cuja pré-impressão é publicada no servidor arXiv, os cientistas examinam uma rede neural treinada com base em 60.000 horas de fala em inglês. Isso é centenas de vezes mais do que os análogos existentes.

Como funciona a IA. Imagem: VALL-E

A análise mostrou que o sistema tem bastanteum clipe de três segundos para imitar a voz do interlocutor. Ao mesmo tempo, o Vall-E é muito superior ao sistema TTS atual em termos de fala com som natural e similaridade de voz. Além disso, pode preservar as emoções do locutor e o ambiente acústico (a influência das propriedades acústicas da sala em que a gravação original foi feita).

O sistema de geração desenvolvido ainda está fechado paraacesso público, mas os pesquisadores publicaram exemplos de amostras e arquivos de voz finalizados no site na Internet. As amostras de fala gerada variam em qualidade. Enquanto alguns soam naturais, outros soam gerados por máquina. Os autores do desenvolvimento observam que o treinamento adicional em diferentes vozes, inclusive com diferentes sotaques, melhorará a qualidade do sistema.

Amostra de voz humana. Áudio: VALL-E

Gravação gerada que preserva o ruído externo. Áudio: VALL-E

Os pesquisadores também observam que a possibilidadea geração de vozes idênticas às originais cria novos desafios de segurança, pois pode ser explorada por fraudadores. Eles acreditam que, antes que o modelo seja amplamente divulgado ao público, é necessário desenvolver um sistema que reconheça os registros gerados por IA.

Consulte Mais informação:

O segredo da durabilidade do concreto romano é revelado: ele pode ser restaurado

Geneticistas determinaram como a idade da concepção em humanos mudou ao longo de 250.000 anos

O sol abriu o ano com um flash da classe mais poderosa