اخیراً با قرار دادن الکترودهایی روی مغز، امواج مغزی به کلمات ادا شده توسط کامپیوتر ترجمه شدهاند. تکنولوژی حرف زدن هوش مصنوعی میتواند در آینده به افرادی که توانایی حرف زدن ندارند، کمک کند.
زمانی که ما صحبت میکنیم، مغز سیگنالهایی از کورتکس حرکتی به عضلات فک، لبها و حنجره میفرستد تا حرکات آنها را هماهنگ کرده و صدا ایجاد کند.
مغز افکار مرتبط با آنچه میخواهیم بگوییم را به حرکات سیستم صوتی ترجمه میکند. این همان چیزی است که میخواهیم رمزگشایی کنیم.
Edward chang از دانشگاه سان فرانسیسکو کالیفرنیا (UCSF)
او و همکارانش با استفاده از سری الکترودهایی که با جراحی بر روی بخش کنترل کنندهی حرکات در مغز قرار گرفته و همچنین یک شبیهسازی کامپیوتری از سیستم صوتی بدن برای تولید صدا، فرآیندی دو مرحلهای برای رمزگشایی این افکار ایجاد کردند.
آنها طی مطالعه ۵ شرکت کننده را که ضمن برنامهی درمانی تشنج خود، الکترودهایی بر سطح کورتکس حرکتی مغزشان داشتند، مورد بررسی قرار دادند. از این افراد خواسته شد ۱۰۱ جمله را با صدای بلند بخوانند. این جملات شامل عبارات و کلماتی محتوی تمامی صداهای انگلیسی بودند. در این حین تیم تحقیقات سیگنالهای خروجی از کورتکس حرکتی را ثبت میکرد.
تقریباً ۱۰۰ عضلهی مورد استفاده برای تولید صدا و صحبت کردن وجود دارد. این عضلات با ترکیبی از نورونها که به یکباره تحریک میشوند، کنترل میگردند. پس برای فهمیدن این که مغز چه فرمانی به دهان میدهد، به راحتی نمیتوان نقشهی سیگنالها را از یک الکترود به یک عضله کشید. از این رو، تیم تحقیقات برای تولید مجدد صدای یک کلمه از مجموعه سیگنالهای فرستاده شده به لبها، فک و زبان، الگوریتمی را طراحی کرد.
به ادعای تیم تحقیقات، با تنظیم کردن وسیله روی ۲۵ دقیقه صحبت کردن، اجرای صحیح امکانپذیر شد. با افزایش میزان اطلاعات ورودی، عملکرد وسیلهی رمزگشایی کننده نیز بهبود یافت. آنها برای این مطالعه، رمزگشا را طوری روی زبان صحبت کردن هر شرکت کننده تنظیم کردند که از سیگنالهای مغزشان صدا تولید کند.
پس از این که بر اساس سیگنالها فایلهای صوتی تولید شد، محققان از صدها آمریکایی بومی خواستند به جملات خروجی گوش داده و از بین ۱۰، ۲۵ یا ۵۰ گزینه کلمات را انتخاب کنند.
گوش دهندگان هنگامی که میبایست از بین ۲۵ کلمه انتخاب میکردند، ۴۳ درصد از موارد را به طور عالی تشخیص دادند. هنگامی که تعداد کلمات ۵۰ تا گردید، میزان موفقیت در تشخیص ۲۱ درصد شد. یکی از گوشدهندگان یک نسخهی عالی تهیه کرد. طوری که در دامنهی کلمات کوچکتر، ۸۲ جمله و در دامنهی کلمات بزرگتر، ۶۰ جمله را به طور کامل تشخیص داده بود.
بسیاری از کلمات اشتباه شده نیز بسیار مشابه تلفظ کلمهی اصلی بودند (به عنوان مثال rodent به جای rabbit). از این رو در بسیاری از موارد، لب مطلب قابل فهم بود.
Josh chartier از اعضای تیم
به گفتهی او، شبکهی نورونی مصنوعی در رمزگشایی صدای《ش》در Ship عملکرد خوبی داشت؛ اما در مورد صدای 《ب》در Bob به مشکل برخورد.
به گفتهی Marc Slutzky از دانشگاه شمالغربی در Illinois، اگر چندین گزینهی مطرح وجود داشته باشد، جملات را در حد قابل قبول میتوان فهمید؛ اگر گزینهای نباشد، کار سخت خواهد شد. اگر منصفانه در نظر بگیریم، برای استفادهی نهایی طرح در یک بیمار فلج، اگر بیمار هیچ کلمهای نتواند بگوید، حتی صد کلمه هم بسیار ارزشمند خواهد بود. با توجه به این که طی مطالعه محققان توانستند از الگوریتم طراحی شده برای صحبت کردن یک فرد، کلمات شرکتکنندگان دیگر را رمزگشایی کنند؛ احتمالاً استفاده از طرح در آینده امکانپذیر خواهد بود.
تیم تحقیقات همچنین از یک نفر خواست صرفاً با حرکت دادن دهان بدون ایجاد صدا صحبت کردن را تقلید کند. در این حالت، سیستم به خوبی حالت قبل کار نکرد؛ اما همچنان قادر به رمزگشایی قابل فهم برخی کلمات تقلید شده بود. قبلاً وسیلههای مشابهی هم ایجاد شده بود که مستقیماً بدون شبیهسازی حرکت دهان و سیستم صوتی، سیگنالهای مغزی را به صدا ترجمه میکردند. هنوز مشخص نیست کدام راهکار مؤثرتر واقع شود.
این وسیله متکی به سیگنالهای ایجاد صدا نیست. بلکه با سیگنالهای کنترل اعمال حرکتی کار میکند که در افراد فلج هم همچنان فرستاده میشوند. پس این وسیله میتواند در افرادی که قبلاً قادر به صحبت بوده اما این توانایی را در پی جراحی یا اختلالات حرکتی همچون ALS از دست دادهاند نیز مفید واقع گردد. در بیماری
ALS افراد قدرت کنترل عضلات خود را از دست میدهند.