מדעי המחשב ופיזיקה

תקציר העבודה
תחום הבינה המלאכותית תופס תאוצה רבה בזמן האחרון, בשל התפתחותו ושילובו ביישומים שונים וחדשים, הנגישים לכל צרכן בשוק. ענף אחד מהתחום הגדול הזה הוא מערכות זיהוי דיבור אוטומטיות. ענף זה התפתח לאורך שנים רבות והשתלב בחיי היום-יום במקומות רבים – העוזרת הקולית, המרת דיבור לטקסט ועוד. אמנם למערכות אלו, כמו לכל מערכת בינה מלאכותית שמנסה לייעל ולעשות את תפקידו של מקצוע אנושי, יש שגיאות בתהליך עבודתן והדיוק שלהן אינו מושלם. גורמים שונים יכולים לגרום לטעויות במערכת זיהוי דיבור, ועדיין לא ברור במדויק מהי השפעתם של גורמים שונים על התוצאות שמניבה המערכת.
מבטאים מהווים את אחד הקשיים המרכזיים לתמלול דיבור, בין אם זה נעשה על ידי מערכת אוטונומית או אפילו בני אדם. לחלק גדול מבני האדם יש מבטא, אשר גורם לדיבור שלהם להיות פחות מובן וברור עבור אנשים שלא רגילים למבטא הזה. כך גם הדין במערכות זיהוי דיבור – אם המערכת לא התאמנה על דוגמאות שמכילות מבטא שכזה, גדל הסיכוי שלה לטעות בזיהוי ולהניב תוצאה שגויה. כיום, השפעתם של המבטאים השונים על מערכות זיהוי דיבור אינם ידועים במדויק. לכן, מטרת מחקר זה הייתה להבין ולכמת את השפעתם של מבטאים מסוימים מארצות הברית על המערכת לזיהוי דיבור הנבדקת, Whisper.
במסגרת המחקר, נבנתה מערכת אשר בעזרתה נעשה ניסוי על קבוצה של כ-6,300 קטעי דיבור, שהוקלטו על ידי דוברים שונים בעלי 8 מבטאים באמריקה. לכל קטע קול בבסיס הנתונים משויך קובץ טקסט המציג את הנאמר בקטע. הניסוי התחיל בהרצת המערכת Whisper על קטעי הקול, ועבור כל קטע קול, נעשתה השוואה בין תוצאת המערכת לבין הטקסט המתאים לקטע מבסיס הנתונים. מטרת השוואה זו היא כימות השגיאה שנעשתה לקטע. עבור חישוב השגיאה משתמשים במדד שגיאות הנקרא WER – Word Error Rate, המודד את כמות השגיאות שעשתה המערכת ביחס לכמות המילים הכוללת.
השגיאות שחושבו משוקללות עבור כל מבטא, ומוצגות, בין השאר, בגרף יחיד הכולל את ה-WER הממוצע של שמונת המבטאים. בגרף המדובר, המבטא New England קיבל את ציון ה-WER הגבוה ביותר (7.9%), כלומר היה הכי קשה לזיהוי, בעוד המבטא עם הציון הנמוך ביותר הוא Northern (4.9%), כלומר היה הכי קל לזיהוי. אחוזי השגיאה שחושבו עבור כל המבטאים שנבדקו נעו בקירוב בין 5-8%.
מסקנות המחקר מראות כי למבטאים שנבדקו אין השפעה משמעותית על השגיאות שמבצעת המערכת ושגורמים אחרים משפיעים באופן יותר משמעותי. נמצא גם שההבדל בין המבטאים קיים אך לא משמעותי (הפרש של כ- ∆ ≈0.03). נקודה חשובה במחקר זה היא שהדיון הוגבל למבטאים אמריקאיים. המערכת עלולה לזהות באופן קרוב למושלם דיבור באנגלית בשלל מבטאים מאמריקה, אך ליפול ולהיכשל כאשר נבדקים מבטאים שונים יותר באופן הדיבור או כבדים יותר כמו מבטא סקוטי, רוסי וכו'.
לכן, מחקר המשך בנושא יכול לעסוק בהשפעה של מבטאים שונים מרחבי העולם על היכולת של המערכת לזהות את הדיבור, כלומר השפעתם על השגיאות שהיא מבצעת. בכך, יורחב הדיון ויאפשר קבלת מידע נוסף ותמונה רחבה יותר לגבי יכולות ומגבלות המערכת Whisper. דבר זה גם יתרום לתחום השפעות המבטאים על מערכות זיהוי דיבור אוטומטיות, שלוקה במידע ומחקר בעת הזו, ויעזור לפתח אותו ולהבינו יותר לעומק.
רועי נתנאל ביטון | הטכניון - מכון טכנולוגי לישראל
תיכון "המושבה" , זיכרון יעקב
חקירת הקשר בין מבטאו של דובר לבין שיעור השגיאה
WER במערכות לזיהוי דיבור
מנחה אישי: ד"ר אמיר עברי
ראש המעבדה: פרופ' דויד מלאך
מורה מלווה: הילרי הרנון

