بالذكاء الاصطناعي: بنظرة واحدة استمع لشخص ما وسط الضوضاء

في وقتنا الحالي تستطيع سماعات إلغاء الضوضاء العمل بشكل جيد جداً للتخلص من الأصوات المحيطة. لكن هذه الميزة قد لا تتوفر بسهولة في بيئة مرتديها . على سبيل المثال ، يقوم أحدث إصدار من AirPods Pro من Apple تلقائيا بضبط مستويات الصوت عندما تتلقى اتصال ، لكن المستخدم ليس لديه سيطرة تذكر على تحديد من يستمع إليه أو متى يحدث ذلك.

إذا كان هنالك شخص يقف أمامك ويتحدث في محيط به الكثير من الضوضاء ثم يتحرك قرباً وبعداً عنك فعلى الأرجح لن تتمكن من الاستماع لما يقوله بشكل جيد

لحل هذه المشكلة طور فريق من جامعة واشنطن نظاماً للذكاء الاصطناعي يتيح مرتدي سماعات الرأس وبمجرد النظر إلى شخص ما يتحدث لمدة من 3 إلى 5 ثوان إلغاء كافة الأصوات المحيطة ،تسمى هذه التقنية “السماع المستهدف للحديث Target Speech Hearing” ، يقوم النظام بإلغاء كافة الأصوات في البيئة ويشغل فقط صوت المتحدث في الوقت الفعلي حتى عندما يتحرك المستمع في أماكن صاخبة ولم يعد يواجه المتحدث.

قدم الفريق النتائج التي توصل إليها في 14 مايو في هونولولو في مؤتمر ACM CHI حول العوامل البشرية في أنظمة الحوسبة ولا يزال النظام غير متاح تجارياً.

“عادة نميل للتفكير في الذكاء الاصطناعي على أنه روبوتات محادثة على شبكة الإنترنت تجيب الأسئلة لكن في هذا المشروع ، يعمل الذكاء الاصطناعي لتعديل الإدراك السمعي لمرتدي سماعات الرأس بحسب تفضيلاته. بفضل هذه التقنية يمكنك الاستماع لشخص محدد في بيئة صاخبة مهما كان عدد المتحدثين الآخرين.

لاستخدام النظام ، ينقر مرتدي سماعات الرأس المخصصة والمزودة بميكروفونات على زر بينما يوجه رأسه إلى شخص يتحدث. يجب أن تصل الموجات الصوتية من صوت المتحدث إلى الميكروفونات على جانبي سماعة الرأس في وقت واحد ؛ هناك هامش خطأ 16 درجة. ترسل سماعات الرأس هذه الإشارة إلى جهاز كمبيوتر مدمج ، حيث يتعلم برنامج التعلم الآلي الأنماط الصوتية للمتحدث المطلوب.

يلتصق النظام بصوت هذا المتحدث ويستمر في إعادته إلى المستمع ، حتى أثناء تحرك الشخص المستهدف. تتحسن قدرة النظام على التركيز على الصوت المسجل مع استمرار المتحدث في التحدث ، مما يمنح النظام المزيد من بيانات التدريب.

اختبر الفريق نظامه على 21 شخصا ، والذين قيموا وضوح صوت المتحدث المسجل بما يقرب من ضعف الصوت غير المصفى في المتوسط.

يعتمد هذا العمل على بحث “السمع الدلالي” السابق للفريق ، والذي سمح للمستخدمين باختيار فئات صوتية محددة – مثل الطيور أو الأصوات – التي يريدون سماعها وألغوا أصواتا أخرى في البيئة.

في الوقت الحالي ، يمكن لنظام TSH تسجيل متحدث واحد فقط في كل مرة شرط ألا يكون هناك صوت عال آخر قادم من نفس اتجاه صوت المتحدث المستهدف. إذا لم يكن المستخدم راضيا عن جودة الصوت ، فيمكنه تشغيل تسجيل آخر على السماعة لتحسين الوضوح.

يعمل الفريق على توسيع النظام ليشمل سماعات الأذن والمعينات السمعية في المستقبل.

وبالنظر لما تستطيعه هذه التقنية المتقدمة لا استبعد أنها قد تستخدم أيضاً ضمن تقنيات التجسس السمعية في المستقبل القريب ربما حتى قبل استخدامها على النطاق التجاري .

المصدر: جامعة واشنطون


اكتشاف المزيد من مجلة رؤى

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

اثنا عشر − 5 =

هذا الموقع يستخدم Akismet للحدّ من التعليقات المزعجة والغير مرغوبة. تعرّف على كيفية معالجة بيانات تعليقك.