בקרוב, אולי לא תדע שאתה מדבר עם מחשב

תוכן עניינים:

בקרוב, אולי לא תדע שאתה מדבר עם מחשב
בקרוב, אולי לא תדע שאתה מדבר עם מחשב
Anonim

מזונות חשובים

  • היום מתקרב במהירות שבה לא תוכל להבחין בין דיבור שנוצר על ידי מחשב לבין הדבר האמיתי.
  • Google חשפה לאחרונה את LaMDA, מודל שעשוי לאפשר שיחות טבעיות יותר.
  • הפקת דיבור דמוי אדם דורש גם כמויות עצומות של כוח עיבוד.
Image
Image

כרגע, קל לדעת מתי אתה מדבר עם מחשב, אבל זה עשוי להשתנות בקרוב הודות להתקדמות האחרונה בתחום הבינה המלאכותית.

Google חשפה לאחרונה את LaMDA, מודל ניסיוני שלטענת החברה יכול להגביר את היכולת של עוזרי הבינה המלאכותית שלה לשיחה ולאפשר שיחות טבעיות יותר.למד א שואפת בסופו של דבר לשוחח באופן רגיל על כמעט כל דבר ללא כל סוג של הכשרה מוקדמת.

זהו אחד ממספר גדל והולך של פרויקטים של בינה מלאכותית שעלולים לגרום לך לתהות אם אתה מדבר עם בן אדם.

"ההערכה שלי היא שבתוך 12 החודשים הקרובים, משתמשים יתחילו להיחשף ולהתרגל לקולות החדשים והרגשיים יותר האלה", ג'יימס קפלן, מנכ"ל MeetKai, עוזר קול וירטואלי של AI לשיחות מנוע, אמר בראיון באימייל.

"ברגע שזה יקרה, הדיבור המסונתז של היום יישמע למשתמשים כמו שהדיבור של תחילת שנות ה-2000 נשמע לנו היום."

עוזרים קוליים עם אופי

ה-LaMDA של Google בנוי על Transformer, ארכיטקטורת רשת עצבית שהומצאה על ידי Google Research. בניגוד למודלים אחרים של שפות, ה-LaMDA של גוגל הוכשר על דיאלוג אמיתי.

חלק מהאתגר ליצירת דיבור בינה מלאכותית שנשמע טבעי הוא האופי הפתוח של שיחות, כתב אלי קולינס מגוגל בפוסט בבלוג.

Image
Image

"צ'אט עם חבר על תוכנית טלוויזיה יכולה להתפתח לדיון על המדינה שבה התוכנית צולמה לפני שנקבע ויכוח על המטבח האזורי הטוב ביותר של אותה מדינה", הוסיף.

דברים זזים מהר עם דיבור רובוט. אריק רוזנבלום, שותף מנהל ב-Tsingyuan Ventures, המשקיעה בבינה מלאכותית של שיחה, אמר שכמה מהבעיות הבסיסיות ביותר בדיבור בעזרת מחשב נפתרות למעשה.

לדוגמה, קצב הדיוק בהבנת הדיבור כבר גבוה מאוד בשירותים כגון תעתיקים שנעשו על ידי התוכנה Otter.ai או הערות רפואיות שנלקחו על ידי DeepScribe.

"עם זאת, הגבול הבא הוא הרבה יותר קשה", הוסיף.

"שמירה על הבנת ההקשר, שהיא בעיה החורגת הרבה מעבר לעיבוד שפה טבעית, ואמפתיה, כגון מחשבים המקיימים אינטראקציה עם בני אדם צריכים להבין תסכול, כעס, חוסר סבלנות וכו'.על שני הנושאים האלה עובדים, אבל שניהם רחוקים מלהיות משביעי רצון."

רשתות עצביות הן המפתח

כדי ליצור קולות דמויי חיים, חברות משתמשות בטכנולוגיה כמו רשתות עצביות עמוקות, צורה של למידת מכונה שמסווגת נתונים דרך שכבות, מאט מולדון, נשיא צפון אמריקה ב-ReadSpeaker, חברה המפתחת תוכנת טקסט לדיבור, אמר בראיון באימייל.

"שכבות אלה מחדדות את האות, וממיינות אותו לסיווגים מורכבים יותר", הוסיף. "התוצאה היא דיבור סינתטי שנשמע בצורה מוזרה כמו אדם."

טכנולוגיה נוספת בפיתוח היא Prosody Transfer, הכוללת שילוב של קול אחד של קול טקסט לדיבור עם סגנון הדיבור של קול אחר, אמר מאלדון. יש גם למידת העברה, שמפחיתה את כמות נתוני האימון הדרושים להפקת קול עצבי חדש של טקסט לדיבור.

קפלן אמר שהפקת דיבור דמוי אדם דורש גם כמויות אדירות של כוח עיבוד. חברות מפתחות שבבי מאיץ עצבי, שהם מודולים מותאמים אישית שעובדים בשילוב עם מעבדים רגילים.

"השלב הבא בזה יהיה הכנסת השבבים האלה לחומרה קטנה יותר, מכיוון שכרגע זה כבר נעשה עבור מצלמות כאשר נדרשת AI לראייה", הוסיף. "לא יעבור זמן רב עד שסוג זה של יכולת מחשוב תהיה זמינה באוזניות עצמן."

אתגר אחד בפיתוח דיבור מונע בינה מלאכותית הוא שכולם מדברים אחרת, לכן מחשבים נוטים להתקשות להבין אותנו.

"תחשוב על מבטאים של ג'ורג'יה נגד בוסטון נגד צפון דקוטה, ואם אנגלית היא השפה העיקרית שלך או לא", אמרה מוניקה דמה, שעובדת על ניתוח חיפוש קולי ב-MDinc, באימייל. "מחשבה גלובלית, זה יקר לעשות את זה עבור כל האזורים של גרמניה, סין והודו, אבל זה לא אומר שזה לא או לא יכול להיעשות."

מוּמלָץ: