Microsoft의 AI는 3초 녹음을 기반으로 모든 음성을 모방합니다

Microsoft는 인공 지능VALL-E를 도입했습니다.를 기반으로 음성 녹음을 생성합니다.

이 연구는 많은 짧은 클립에서 훈련된 모델이 생성되었음을 보여주었습니다.원문과 구별할 수 없는 영어 음성.

코넬 대학의 연구원VALL-E 모델을 사용하여 음성 생성 메커니즘을 분석했습니다. 사전 인쇄가 arXiv 서버에 게시된 작업에서 과학자들은 60,000시간의 영어 말하기를 기반으로 훈련된 신경망을 검사합니다. 이것은 기존 아날로그보다 수백 배 더 많습니다.

AI 작동 방식. 이미지: VALL-E

분석 결과 시스템이 충분한 것으로 나타났습니다.대담 자의 목소리를 모방하는 3 초 클립. 동시에 Vall-E는 자연스러운 음성 및 음성 유사성 측면에서 오늘날의 TTS 시스템보다 훨씬 뛰어납니다. 또한 화자의 감정과 음향 환경(원래 녹음이 이루어진 방의 음향 특성의 영향)을 보존할 수 있습니다.

개발된 발전 시스템은 아직 폐쇄되어 있습니다.그러나 연구원들은 인터넷 사이트에 샘플 및 완성된 음성 파일의 예를 게시했습니다. 생성된 음성 샘플은 품질이 다릅니다. 일부는 자연스럽게 들리지만 다른 일부는 기계로 생성된 것처럼 들립니다. 개발 작성자는 다른 악센트를 포함하여 다른 목소리로 추가 교육을 받으면 시스템의 품질이 향상될 것이라고 말합니다.

인간의 목소리 샘플. 오디오: VALL-E

외부 소음을 보존하는 생성된 녹음. 오디오: VALL-E

연구원들은 또한 가능성에 주목합니다.원본과 동일한 음성을 생성하면 사기꾼이 악용할 수 있으므로 새로운 보안 문제가 발생합니다. 그들은 모델이 대중에게 널리 공개되기 전에 AI 생성 기록을 인식할 시스템을 개발해야 한다고 생각합니다.

더 읽어보기 :

로마 콘크리트의 내구성 비밀이 밝혀졌습니다. 복원이 가능합니다.

유전학자들은 인간의 수태 연령이 250,000년 동안 어떻게 변했는지 알아냈습니다.

태양은 최강 클래스의 섬광으로 한 해를 열었다

긱 테크 온라인

기술 및 장치에 관한 모든 것

Microsoft의 AI는 3초 녹음을 기반으로 모든 음성을 모방합니다.