تیمی از پژوهشگران دانشگاه واشنگتن موفق شده اند سیستمی پیشرفته برای هدفون ها طراحی کنند که توانایی شبیهسازی و ترجمه همزمان صدای چند گوینده را بهصورت سهبعدی دارد. این فناوری نوین با عنوان «ترجمه گفتار فضایی» (Spatial Speech Translation) معرفی شده و بر بستر هدفون های نویز کنسلینگ موجود توسعه یافته است. با کمک مجموعهای از میکروفونها و الگوریتمهای پیشرفته، این سیستم قادر است گفتار افراد مختلف را در فضای صوتی تفکیک کرده و نسخه ترجمهشده آن را با تأخیر اندک ۲ تا ۴ ثانیه پخش کند، بدون اینکه جهت صدا یا ویژگی گفتاری آن از بین برود.
دکتر «شیم گولاکوتا»، استاد دانشگاه واشنگتن و نویسنده ارشد این پروژه، تأکید دارد که اغلب فناوریهای فعلی ترجمه صوتی فقط یک سخنگو را در نظر میگیرند، در حالیکه این دستگاه جدید واقع گرایانه تر عمل میکند و برای محیطهایی طراحی شده که چندین نفر همزمان صحبت میکنند. البته در حال حاضر، این سیستم فقط قادر به ترجمه گفتارهای عمومی است و هنوز برای موضوعات تخصصی بهینهسازی نشده است.
این فناوری گام بزرگی در جهت تعامل بین فرهنگی و جهانی شدن ارتباطات انسانی است. توانایی شنیدن ترجمه هم زمان چند نفر در یک فضای سه بعدی، نهتنها تجربه شنیداری طبیعی تری میسازد بلکه کاربردهای بی شماری در جلسات بین المللی، سفرها، و حتی آموزش زبان خواهد داشت. هرچند هنوز محدود به مباحث عمومی است، اما پتانسیل بالای آن نوید آینده ای می دهد که موانع زبانی در ارتباطات حضوری عملاً از بین بروند.
هدفون هوشمند با ردیابی ۳۶۰ درجه و ترجمه چند صدایی، بدون نیاز به فضای ابری
«شیم گولاکوتا» و تیم تحقیقاتیاش از دانشگاه واشنگتن موفق به طراحی سیستمی شدهاند که صدای هر گوینده را با تمام ویژگیهای منحصربه فردش—از جمله تن صدا و جهت انتشار آن—دقیقاً بازسازی میکند. حتی زمانی که افراد سر خود را حرکت میدهند، سیستم همچنان قادر است موقعیت و کیفیت صدای آنها را دنبال کند.
این فناوری دارای سه نوآوری کلیدی است: اول، به محض فعالسازی، میتواند به طور خودکار تعداد افراد حاضر در محیطهای داخلی یا بیرونی را تشخیص دهد. این فرآیند مانند یک رادار ۳۶۰ درجه عمل می کند که به طور مداوم فضای اطراف را اسکن میکند. دوم، پس از شناسایی سخنگویان، سیستم گفتار آن ها را ترجمه کرده و به شکل طبیعی و با حفظ حالت بیانی و بلندی صدا روی دستگاه هایی مانند گوشیهای هوشمند پخش می کند. سوم، برخلاف بسیاری از فناوری های مشابه، این سیستم از ارسال دادهها به فضای ابری اجتناب کرده تا امنیت و حریم خصوصی کاربران در اولویت باقی بماند. نتایج آزمایش ها در ده موقعیت مختلف نشان دادهاند که این فناوری عملکردی دقیق و پایدار دارد.
چیزی که این سیستم را از دیگر ابزارهای ترجمه صوتی متمایز میکند، دقت بالای آن در بازسازی صدای واقعی هر فرد و تأکید بر حفظ حریم خصوصی است. استفاده نکردن از فضای ابری، نشان از دغدغهای جدی در قبال دادههای شخصی دارد، که در دنیای امروز یک مزیت بزرگ محسوب میشود. این فناوری میتواند انقلابی در تجهیزات کنفرانس، سفرهای چندزبانه یا حتی خدمات اورژانسی چندملیتی ایجاد کند.