מזונות חשובים
- חברות דוהרות למצוא דרכים לגרום לדיבור שנוצר על ידי מחשב להישמע מציאותי יותר.
- NVIDIA חשפה לאחרונה כלים שיכולים ללכוד את צליל הדיבור הטבעי בכך שהם מאפשרים לך לאמן בינה מלאכותית עם הקול שלך.
- אינטונציה, רגש ומוזיקליות הם התכונות שעדיין חסרות לקולות מחשב, אומר מומחה אחד.
דיבור שנוצר על ידי מחשב עשוי להישמע בקרוב הרבה יותר אנושי.
יצרנית חלקי המחשב NVIDIA חשפה לאחרונה כלים שיכולים ללכוד את צליל הדיבור הטבעי בכך שהם מאפשרים לך לאמן AI עם הקול שלך.התוכנה יכולה גם להעביר את המילים של דובר אחד באמצעות קולו של אדם אחר. זה חלק מדחיפה מתפתחת להפוך את הדיבור במחשב למציאותי יותר.
"טכנולוגיית בינה מלאכותית קולית מתקדמת מאפשרת למשתמשים לדבר באופן טבעי, משלבת פניות רבות למשפט אחד ומבטלת את הצורך לחזור על פרטים מהשאילתה המקורית ללא הרף", מייקל זגורסק, מנהל התפעול הראשי של חברת זיהוי הדיבור SoundHound, אמר ל-Lifewire בראיון באימייל.
"התוספת של שפות מרובות, הזמינה כעת ברוב פלטפורמות הבינה המלאכותית הקולית, הופכת את העוזרות הקוליות הדיגיטליות לנגישות במקומות גיאוגרפיים רבים יותר ועבור אוכלוסיות נוספות", הוסיף.
Robospeech Rising
אלקסה של אמזון וה-Siri של אפל נשמעות הרבה יותר טוב מדיבור מחשב מלפני עשור אפילו, אבל הם לא יתחשבו בטעות כקולות אנושיים אותנטיים בקרוב.
כדי לגרום לדיבור מלאכותי להישמע טבעי יותר, צוות המחקר של טקסט לדיבור של NVIDIA פיתח מודל RAD-TTS. המערכת מאפשרת לאנשים ללמד מודל טקסט לדיבור (TTS) עם הקול שלהם, כולל הקצב, הטונאליות, הגוון וגורמים אחרים.
החברה השתמשה במודל החדש שלה כדי לבנות קריינות קולית יותר עם צליל שיחה עבור סדרת הסרטונים I Am AI שלה.
"עם הממשק הזה, מפיק הווידאו שלנו יכול להקליט את עצמו קורא את תסריט הווידאו ולאחר מכן להשתמש במודל הבינה המלאכותית כדי להמיר את הנאום שלו לקולה של המספרת. באמצעות קריינות בסיסית זו, המפיק יוכל לכוון את הבינה המלאכותית כמו שחקן קול משפץ את הדיבור המסונתז כדי להדגיש מילים ספציפיות ומשנה את קצב הקריינות כדי לבטא טוב יותר את הטון של הסרטון", כתבה NVIDIA באתר האינטרנט שלה.
קשה יותר ממה שזה נשמע
הפיכת דיבור ממוחשב להישמע טבעי היא בעיה לא פשוטה, אומרים מומחים.
"אתה צריך להקליט מאות שעות של קול של מישהו כדי ליצור גרסת מחשב שלו", אמר נאזים רג'ימוב, מנכ"ל חברת תוכנת הטקסט לדיבור Kukarella, בראיון ל-Lifewire. "וההקלטה חייבת להיות איכותית, מוקלטת באולפן מקצועי.ככל שיותר שעות של דיבור איכותי נטענו ועובדו, כך התוצאה טובה יותר."
ניתן להשתמש בטקסט לדיבור במשחקים, כדי לסייע לאנשים עם מוגבלות קולית, או כדי לעזור למשתמשים לתרגם בין שפות בקול שלהם.
אינטונציה, רגש ומוזיקליות הן התכונות שעדיין חסרות לקולות המחשב, אמר רג'ימוב.
אם בינה מלאכותית יכולה להוסיף את הקישורים החסרים האלה, דיבור שנוצר על ידי מחשב יהיה "לא ניתן להבחין מקולותיהם של שחקנים אמיתיים", הוסיף. "זו עבודה בתהליך. קולות אחרים יוכלו להתחרות במארחי רדיו. בקרוב תראה קולות שיכולים לשיר ולקרוא ספרי אודיו."
טכנולוגיית דיבור הופכת פופולרית יותר במגוון רחב של עסקים.
"תעשיית הרכב אימצה לאחרונה את הבינה המלאכותית הקולית כדרך ליצור חוויות נהיגה בטוחות ומקושרות יותר", אמר זגורסק.
"מאז, עוזרי קול הפכו להיות נפוצים יותר ויותר, כאשר מותגים מחפשים דרכים לשפר את חוויות הלקוחות ולעמוד בדרישה לשיטות קלות יותר, בטוחות יותר, נוחות יותר, יעילות והיגייניות יותר לאינטראקציה עם המוצרים והשירותים שלהם."
בדרך כלל, AI קולי ממיר שאילתות לתגובות בתהליך דו-שלבי שמתחיל בתמלול דיבור לטקסט באמצעות זיהוי דיבור אוטומטי (ASR) ולאחר מכן הזנת טקסט זה למודל של הבנת שפה טבעית (NLU).
הגישה של SoundHound משלבת את שני השלבים הללו לתהליך אחד למעקב אחר דיבור בזמן אמת. החברה טוענת שהטכניקה הזו מאפשרת לעוזרים קוליים להבין את המשמעות של שאילתות משתמשים, עוד לפני שהאדם סיים לדבר.
התקדמות עתידית בדיבור מחשב, כולל זמינות של מגוון אפשרויות קישוריות מ-Embeded-Only (אין צורך בחיבור ענן) ל-Hybrid (Embeded Plus Cloud) ו-Cloud-Cloud-תעניק יותר בחירה לחברות במגוון תעשיות במונחים של עלות, פרטיות וזמינות של כוח עיבוד , אמר זגורסק.
NVIDIA אמרה שדגמי הבינה המלאכותית החדשות שלה חורגים מעבודת קריינות.
"אפשר להשתמש בטקסט לדיבור במשחקים, כדי לסייע לאנשים עם מוגבלות קולית, או כדי לעזור למשתמשים לתרגם בין שפות בקול שלהם", כתבה החברה. "זה יכול אפילו לשחזר את ההופעות של זמרים איקוניים, תוך התאמה לא רק למנגינה של שיר אלא גם לביטוי הרגשי שמאחורי השירה."