top of page
Artboard 1.png

זיהוי מאפיינים פסיכואקוסטיים

מתוך מידע המיוצג חזותית

מציגים: ניב דביר ושקד גוטריימן

מנחה: פרופ' אורי מחלב

להסבר מוקלט

מבוא

בשנים האחרונות יש התפתחות טכנולוגית גדולה בעיקר במובנים העוסקים במידע חזותי ושמיעתי ועיבודם ע"י מערכות 'למידה עמוקה'. היינו רוצים להעביר את התחושה של האדם השומע באופן תקין אל אדם בעל לקות שמיעה. פרויקט זה הינו פרויקט מחקרי, אשר מנסה לאתר בדרך חדשנית הנגשת תחושה מוזיקלית לבעלי לקויות שמיעה.

מטרת המחקר

מטרתנו לבדוק האם ניתן להציג את החלקים המשמעותיים לאדם בתחום השמיעתי באמצעות העתקה של אותם מאפיינים מוזיקליים למקבילים אפשריים בתחום הניראה. כל זאת באופן המאפשר לגשר על סוגים שונים של לקויות שמיעה.

תהליך המחקר

באופן פרקטי, בחרנו לצמצם את שאלת המחקר לשני אספקטים מוזיקליים בודדים, מלודיה וגוון. כך נוכל למדוד באופן כמותי את היכולת לקשר בין התמונה לשמע. ניתן לחלק את הפרויקט לשני חלקים מרכזיים:

תהליך הטרנספורמציה {כתיבה} – אלגוריתם הממיר קובץ אודיו לסרטון. האלגוריתם מכיל את כלל השלבים של פירוק האות, ניתוח מאפיינים, יצרית תמונות והרכבה מחדש לסרטון . ניתן לראות בתהליך כמעין מכונת דפוס אוטומטית ובה כל אות מיוצג ע"י פריים, וקטע קול יתורגם בהתאמה לסרטון.

תהליך המדידה {קריאה} – תהליך בקרה העושה שימוש ברשתות נוירונים כתחליף לעין אנושית במטרה לבחון את איכות הטרנספורמציה. איכות זאת תיוצג כיכולת של צופה פוטנציאלי להסיק מידע בנוגע לקובץ השמע המקורי.

ויזואליזציה של סאונד

יישום עקרונות מדעיים לאלגוריתם ההצגה – 'השבלול'

גוון.png

ביטוי עוצמת התדרים כשטח יחסי בתמונה: לכל לכי נגינה (גיטרה, כינור, חליל) ישנו גוון צלילי זהה ואחיד. הגוון מתאפיין ביחס קבוע בין העוצמות של התדרים השונים המרכיבים אותו. כדי שצופה יוכל להבדיל באופן מהיר ופשוט בין תמונות המייצגות גווני צליל שונים, בחרנו לבטא את עוצמות התדרים ברוחב הגרפי של האזור בו הם מסומנים על גבי הספירלה. באופן זה, נוכל לקבל תמונות המשמרות מאפייני צורה כיוון שעובדו מצלילים בעלי אותו הגוון.

מלודיה.png
פרמה.png

התאמה בין צליל לצבע ומיקום(סניסתזיה): אנלוגיה בין מאפייני צבע ומיקום במרחב התמונה לבין התווים המוסיקליים (סולם טנטופוני=דו,רה,מי), כך שכל התדרים המשויכים לתו מסוים יסומנו באותו הצבע ובמיקומים סמוכים.

פיזור גרפי מעגלי לביטוי עוצמת התדרים: כדי לשמור על עיקרון זה פריסת התדרים במישור התמונה מחייבת להתכנס לצורה הספיראלית פרמה.

תיאור המערכת כמעגל משוב

באופן עקרוני ניתן לצפות שלאחר חזרות נשנות של עיבוד ומדידה תתקבל טרנספורמציה אידאלית לייצוג קול בעזרת תמונה.

תהליך.png

עיבוד קובץ השמע לסרטון והצגתו בפני עין אנושית

עיבוד א.png

פירוק הסרטון לתמונות

והצגתו בפני מכונה לומדת

עיבוד ב.png

תוצאות

גרף א.png

רשת ה-DL המוגדרת לבדיקת הנתונים: AlexNet(מלודיה):
סל-מידע:(DataSet) שמונה מנגינות, כל מנגינה מיוצגת ע"י 6-8 קבצי,wav קבצי ה- wav באורך sec  18-25 בממוצע.

גרף ב.png

רשת ה-DL המוגדרת לבדיקת הנתונים: GoogleNet (גוון):
סל-מידע:(DataSet) אחת-עשר כלים כלי מיוצג ע"י 6-8 קבצי  ,wav
קבצי ה- wav באורך sec  8-25 בממוצע.

אף על פי שטרם ניתן לומר בוודאות כי בעתיד יהיה ניתן לייצר ויזואליזציה לאות שמע ברמה שתוכל לתת מענה לצרכים שונים, בניהם עזרה לבעלי מוגבלויות ושיפור תהליכים קוגניטיביים, מתוצאות ראשוניות אלה עולה כי לא ניתן לשלול את האפשרות שהמשך מחקר בנושא יניב פתרונות תמיכה בדרכים שטרם ראינו בעבר.

מסקנות

המסקנה הכללית הנובעת ממחקר זה מצביעה על כך שאכן בשלו התנאים ברמה הטכנולוגית ותשובה חד משמעית כי ניתן להמיר את חווית השמיעה בזו הניראת, נמצאת בהישג יד.

bottom of page