AI יכול עכשיו להבין את הסרטונים שלך על ידי צפייה בהם

תוכן עניינים:

AI יכול עכשיו להבין את הסרטונים שלך על ידי צפייה בהם
AI יכול עכשיו להבין את הסרטונים שלך על ידי צפייה בהם
Anonim

מזונות חשובים

  • החוקרים אומרים שהם יכולים ללמד בינה מלאכותית לתייג סרטונים על ידי צפייה והאזנה.
  • מערכת הבינה המלאכותית לומדת לייצג נתונים כדי ללכוד מושגים משותפים בין נתונים חזותיים ואודיו.
  • זה חלק מהמאמץ ללמד בינה מלאכותית להבין מושגים שבני אדם אינם מתקשים ללמוד אבל המחשבים מתקשים לתפוס אותם.

Image
Image

מערכת חדשה של בינה מלאכותית (AI) יכולה לצפות ולהאזין לסרטונים שלך ולתייג דברים שקורים.

MIT חוקרים פיתחו טכניקה שמלמדת AI ללכוד פעולות משותפות בין וידאו ואודיו.למשל, השיטה שלהם יכולה להבין שמעשה בכי של תינוק בסרטון קשור למילה המדוברת "בכי" בקליפ קול. זה חלק מהמאמץ ללמד בינה מלאכותית איך להבין מושגים שבני אדם אינם מתקשים ללמוד, אבל למחשבים קשה לתפוס.

"פרדיגמת הלמידה הרווחת, למידה מפוקחת, עובדת היטב כאשר יש לך מערכי נתונים שמתוארים היטב ומלאים", אמר מומחה הבינה המלאכותית פיל ווינדר ל-Lifewire בראיון באימייל. "למרבה הצער, מערכי נתונים מלאים לעתים רחוקות, כי לעולם האמיתי יש הרגל רע להציג מצבים חדשים."

Smarter AI

מחשבים מתקשים להבין תרחישים יומיומיים מכיוון שהם צריכים לחתוך נתונים ולא קול ותמונות כמו בני אדם. כאשר מכונה "רואה" תמונה, עליה לקודד את התמונה לנתונים שהיא יכולה להשתמש בהם כדי לבצע משימה כמו סיווג תמונה. בינה מלאכותית יכולה להסתבך כאשר קלט מגיע במספר פורמטים, כמו סרטונים, קטעי אודיו ותמונות.

"האתגר העיקרי כאן הוא, איך מכונה יכולה ליישר את האופנים השונים האלה? כבני אדם, זה קל לנו", אמר אלכסנדר ליו, חוקר MIT ומחבר ראשון של מאמר על הנושא, ב- עדכון חדשותי. "אנחנו רואים מכונית ואז שומעים קול של מכונית שנוסעת ליד, ואנחנו יודעים שזה אותו הדבר. אבל למידת מכונה, זה לא כל כך פשוט."

הצוות של Liu פיתח טכניקת בינה מלאכותית שלדעתם לומדת לייצג נתונים כדי ללכוד מושגים משותפים בין נתונים חזותיים ואודיו. באמצעות הידע הזה, מודל למידה חישובית שלהם יכול לזהות היכן מתרחשת פעולה ספציפית בסרטון ולתייג אותה.

המודל החדש לוקח נתונים גולמיים, כגון סרטונים וכיתובי הטקסט התואמים להם, ומצפין אותם על ידי חילוץ תכונות או תצפיות על אובייקטים ופעולות בסרטון. לאחר מכן הוא ממפה את נקודות הנתונים האלה ברשת, המכונה מרחב הטבעה. המודל מאגד נתונים דומים כנקודות בודדות ברשת; כל אחת מנקודות הנתונים הללו, או הוקטורים, מיוצגת על ידי מילה בודדת.

לדוגמה, סרטון וידאו של אדם מלהטט עשוי להיות ממופה לווקטור שכותרתו "להטוטנות."

החוקרים תכננו את המודל כך שהוא יכול להשתמש רק ב-1,000 מילים כדי לתייג וקטורים. המודל יכול להחליט אילו פעולות או מושגים הוא רוצה לקודד לוקטור בודד, אבל הוא יכול להשתמש רק ב-1,000 וקטורים. המודל בוחר את המילים שלדעתו מייצגות בצורה הטובה ביותר את הנתונים.

"אם יש סרטון על חזירים, המודל עשוי להקצות את המילה 'חזיר' לאחד מ-1,000 הוקטורים. לאחר מכן, אם המודל שומע מישהו אומר את המילה 'חזיר' בקטע אודיו, זה עדיין צריך להשתמש באותו וקטור כדי לקודד את זה", הסביר ליו.

הסרטונים שלך, מפוענחים

מערכות תיוג טובות יותר כמו זו שפותחה על ידי MIT יכולות לעזור להפחית הטיה ב-AI, אמרה מריאן בזדס, ראש מחקר ופיתוח בחברת הביומטריה Innovatrics, ל-Lifewire בראיון באימייל. בזדס הציע שתעשיית הנתונים יכולה לראות מערכות בינה מלאכותית מנקודת מבט של תהליך ייצור.

"המערכות מקבלים נתונים גולמיים כקלט (חומרי גלם), מעבדות אותם מראש, בולעות אותם, מקבלים החלטות או תחזיות וניתוח פלט (מוצרים מוגמרים), " אמר בזדס. "אנחנו קוראים לזרימת התהליך הזה "מפעל הנתונים", וכמו תהליכי ייצור אחרים, הוא צריך להיות כפוף לבקרת איכות. תעשיית הנתונים צריכה להתייחס להטיית בינה מלאכותית כבעיית איכות.

"מנקודת מבט צרכנית, נתונים עם תווית שגויה הופכים למשל חיפוש מקוון אחר תמונות/סרטונים ספציפיים לקשה יותר", הוסיף Beszedes. "עם AI שפותח נכון, אתה יכול לבצע תיוג אוטומטי, הרבה יותר מהיר ונייטרלי מאשר בתיוג ידני."

Image
Image

אבל למודל MIT עדיין יש כמה מגבלות. ראשית, המחקר שלהם התמקד בנתונים משני מקורות בו-זמנית, אבל בעולם האמיתי, בני אדם נתקלים בסוגים רבים של מידע בו-זמנית, אמר ליו

"ואנחנו יודעים ש-1,000 מילים עובדות על סוג זה של מערך נתונים, אבל אנחנו לא יודעים אם ניתן להכליל את זה לבעיה בעולם האמיתי", הוסיף ליו.

החוקרים של MIT אומרים שהטכניקה החדשה שלהם עולה על דגמים דומים רבים. אם ניתן לאמן בינה מלאכותית להבין סרטונים, ייתכן שבסופו של דבר תוכל לדלג על צפייה בסרטוני החופשה של חברך ולקבל במקום זאת דוח ממוחשב.

מוּמלָץ: