פוסטר 1 | engineeringHIT

זיהוי מאפיינים פסיכואקוסטיים

מתוך מידע המיוצג חזותית

מציגים: ניב דביר ושקד גוטריימן

מנחה: פרופ' אורי מחלב

להסבר מוקלט

מבוא

בשנים האחרונות יש התפתחות טכנולוגית גדולה בעיקר במובנים העוסקים במידע חזותי ושמיעתי ועיבודם ע"י מערכות 'למידה עמוקה'. היינו רוצים להעביר את התחושה של האדם השומע באופן תקין אל אדם בעל לקות שמיעה. פרויקט זה הינו פרויקט מחקרי, אשר מנסה לאתר בדרך חדשנית הנגשת תחושה מוזיקלית לבעלי לקויות שמיעה.

מטרת המחקר

מטרתנו לבדוק האם ניתן להציג את החלקים המשמעותיים לאדם בתחום השמיעתי באמצעות העתקה של אותם מאפיינים מוזיקליים למקבילים אפשריים בתחום הניראה. כל זאת באופן המאפשר לגשר על סוגים שונים של לקויות שמיעה.

תהליך המחקר

באופן פרקטי, בחרנו לצמצם את שאלת המחקר לשני אספקטים מוזיקליים בודדים, מלודיה וגוון. כך נוכל למדוד באופן כמותי את היכולת לקשר בין התמונה לשמע. ניתן לחלק את הפרויקט לשני חלקים מרכזיים:

תהליך הטרנספורמציה {כתיבה} – אלגוריתם הממיר קובץ אודיו לסרטון. האלגוריתם מכיל את כלל השלבים של פירוק האות, ניתוח מאפיינים, יצרית תמונות והרכבה מחדש לסרטון . ניתן לראות בתהליך כמעין מכונת דפוס אוטומטית ובה כל אות מיוצג ע"י פריים, וקטע קול יתורגם בהתאמה לסרטון.

תהליך המדידה {קריאה} – תהליך בקרה העושה שימוש ברשתות נוירונים כתחליף לעין אנושית במטרה לבחון את איכות הטרנספורמציה. איכות זאת תיוצג כיכולת של צופה פוטנציאלי להסיק מידע בנוגע לקובץ השמע המקורי.

ויזואליזציה של סאונד

יישום עקרונות מדעיים לאלגוריתם ההצגה – 'השבלול'

ביטוי עוצמת התדרים כשטח יחסי בתמונה: לכל לכי נגינה (גיטרה, כינור, חליל) ישנו גוון צלילי זהה ואחיד. הגוון מתאפיין ביחס קבוע בין העוצמות של התדרים השונים המרכיבים אותו. כדי שצופה יוכל להבדיל באופן מהיר ופשוט בין תמונות המייצגות גווני צליל שונים, בחרנו לבטא את עוצמות התדרים ברוחב הגרפי של האזור בו הם מסומנים על גבי הספירלה. באופן זה, נוכל לקבל תמונות המשמרות מאפייני צורה כיוון שעובדו מצלילים בעלי אותו הגוון.

התאמה בין צליל לצבע ומיקום(סניסתזיה): אנלוגיה בין מאפייני צבע ומיקום במרחב התמונה לבין התווים המוסיקליים (סולם טנטופוני=דו,רה,מי), כך שכל התדרים המשויכים לתו מסוים יסומנו באותו הצבע ובמיקומים סמוכים.

פיזור גרפי מעגלי לביטוי עוצמת התדרים: כדי לשמור על עיקרון זה פריסת התדרים במישור התמונה מחייבת להתכנס לצורה הספיראלית פרמה.

תיאור המערכת כמעגל משוב

באופן עקרוני ניתן לצפות שלאחר חזרות נשנות של עיבוד ומדידה תתקבל טרנספורמציה אידאלית לייצוג קול בעזרת תמונה.

עיבוד קובץ השמע לסרטון והצגתו בפני עין אנושית

פירוק הסרטון לתמונות

והצגתו בפני מכונה לומדת

תוצאות

רשת ה-DL המוגדרת לבדיקת הנתונים: AlexNet(מלודיה):
סל-מידע:(DataSet) שמונה מנגינות, כל מנגינה מיוצגת ע"י 6-8 קבצי,wav קבצי ה- wav באורך sec 18-25 בממוצע.

רשת ה-DL המוגדרת לבדיקת הנתונים: GoogleNet (גוון):
סל-מידע:(DataSet) אחת-עשר כלים כלי מיוצג ע"י 6-8 קבצי ,wav
קבצי ה- wav באורך sec 8-25 בממוצע.

אף על פי שטרם ניתן לומר בוודאות כי בעתיד יהיה ניתן לייצר ויזואליזציה לאות שמע ברמה שתוכל לתת מענה לצרכים שונים, בניהם עזרה לבעלי מוגבלויות ושיפור תהליכים קוגניטיביים, מתוצאות ראשוניות אלה עולה כי לא ניתן לשלול את האפשרות שהמשך מחקר בנושא יניב פתרונות תמיכה בדרכים שטרם ראינו בעבר.

מסקנות

המסקנה הכללית הנובעת ממחקר זה מצביעה על כך שאכן בשלו התנאים ברמה הטכנולוגית ותשובה חד משמעית כי ניתן להמיר את חווית השמיעה בזו הניראת, נמצאת בהישג יד.

חזרה לפרוייקטים

זיהוי מאפיינים פסיכואקוסטיים

מתוך מידע המיוצג חזותית

מציגים: ניב דביר ושקד גוטריימן

מנחה: פרופ' אורי מחלב

להסבר מוקלט

מבוא

מטרת המחקר

תהליך המחקר

ויזואליזציה של סאונד

יישום עקרונות מדעיים לאלגוריתם ההצגה – 'השבלול'

פיזור גרפי מעגלי לביטוי עוצמת התדרים: כדי לשמור על עיקרון זה פריסת התדרים במישור התמונה מחייבת להתכנס לצורה הספיראלית פרמה.

תיאור המערכת כמעגל משוב

באופן עקרוני ניתן לצפות שלאחר חזרות נשנות של עיבוד ומדידה תתקבל טרנספורמציה אידאלית לייצוג קול בעזרת תמונה.

עיבוד קובץ השמע לסרטון והצגתו בפני עין אנושית

פירוק הסרטון לתמונות

והצגתו בפני מכונה לומדת

תוצאות

רשת ה-DL המוגדרת לבדיקת הנתונים: AlexNet(מלודיה): סל-מידע:(DataSet) שמונה מנגינות, כל מנגינה מיוצגת ע"י 6-8 קבצי,wav קבצי ה- wav באורך sec 18-25 בממוצע.

רשת ה-DL המוגדרת לבדיקת הנתונים: GoogleNet (גוון): סל-מידע:(DataSet) אחת-עשר כלים כלי מיוצג ע"י 6-8 קבצי ,wav קבצי ה- wav באורך sec 8-25 בממוצע.

מסקנות

המסקנה הכללית הנובעת ממחקר זה מצביעה על כך שאכן בשלו התנאים ברמה הטכנולוגית ותשובה חד משמעית כי ניתן להמיר את חווית השמיעה בזו הניראת, נמצאת בהישג יד.

רשת ה-DL המוגדרת לבדיקת הנתונים: AlexNet(מלודיה):
סל-מידע:(DataSet) שמונה מנגינות, כל מנגינה מיוצגת ע"י 6-8 קבצי,wav קבצי ה- wav באורך sec 18-25 בממוצע.

רשת ה-DL המוגדרת לבדיקת הנתונים: GoogleNet (גוון):
סל-מידע:(DataSet) אחת-עשר כלים כלי מיוצג ע"י 6-8 קבצי ,wav
קבצי ה- wav באורך sec 8-25 בממוצע.