ה-AI של מיקרוסופט מחקה כל קול המבוסס על הקלטה של 3 שניות

מיקרוסופט הציגה בינה מלאכותית VALL-E. זה יכול ליצור הקלטות קול על סמך

מדגם שלוש שניות. המחקר מצא שמודל שאומן על קטעים קצרים רבים יצר דיבור אנגלי שלא ניתן להבחין בו מהקול המקורי.

חוקרים מאוניברסיטת קורנלהשתמש במודל VALL-E כדי לנתח את המנגנונים של יצירת דיבור. בעבודתם, שההדפסה המוקדמת שלה מתפרסמת בשרת arXiv, בוחנים המדענים רשת עצבית מאומנת על בסיס 60,000 שעות דיבור באנגלית. זה פי מאות מונים מאשר אנלוגים קיימים.

איך AI עובד. תמונה: VALL-E

הניתוח הראה שלמערכת יש מספיקקליפ בן שלוש שניות לחיקוי קולו של בן השיח. יחד עם זאת, Vall-E עדיפה בהרבה על מערכת ה-TTS של היום מבחינת דיבור ודמיון קולי בצלילים טבעיים. בנוסף, היא יכולה לשמר את רגשות הדובר ואת הסביבה האקוסטית (השפעת התכונות האקוסטיות של החדר בו בוצעה ההקלטה המקורית).

מערכת הדור המפותחת עדיין סגורה עבורגישה ציבורית, אך החוקרים פרסמו דוגמאות של דוגמאות וקבצי קול מוגמרים באתר באינטרנט. דוגמאות של דיבור שנוצר משתנות באיכותן. בעוד שחלקם נשמעים טבעיים, אחרים נשמעים שנוצרו על ידי מכונה. מחברי הפיתוח מציינים שהכשרה נוספת בקולות שונים, לרבות עם מבטאים שונים, תשפר את איכות המערכת.

דגימת קול אנושית. אודיו: VALL-E

הקלטה שנוצרה השומרת על רעש חיצוני. אודיו: VALL-E

החוקרים מציינים גם כי האפשרותיצירת קולות זהים למקורים יוצרת אתגרי אבטחה חדשים מכיוון שניתן לנצל אותה על ידי רמאים. הם מאמינים שלפני שהמודל ישוחרר באופן נרחב לציבור, צריך לפתח מערכת שתזהה רשומות שנוצרו בינה מלאכותית.

קרא עוד:

סוד העמידות של הבטון הרומי מתגלה: ניתן לשחזרו

גנטיקאים קבעו כיצד השתנה גיל ההתעברות בבני אדם במשך 250,000 שנים

השמש פתחה את השנה עם הבזק מהמעמד העוצמתי ביותר

Geek Tech Online

הכל על טכנולוגיה וגאדג'טים

ה-AI של מיקרוסופט מחקה כל קול המבוסס על הקלטה של שלוש שניות