هوش مصنوعی به جای انسان می‌تواند حرف بزند

اخیراً با قرار دادن الکترودهایی روی مغز، امواج مغزی به کلمات ادا شده توسط کامپیوتر ترجمه شده‌اند. تکنولوژی حرف زدن هوش مصنوعی می‌تواند در آینده به افرادی که توانایی حرف زدن ندارند، کمک کند.

زمانی که ما صحبت می‌کنیم، مغز سیگنال‌هایی از کورتکس حرکتی به عضلات فک، لب‌ها و حنجره می‌فرستد تا حرکات آن‌ها را هماهنگ کرده و صدا ایجاد کند.

مغز افکار مرتبط با آنچه می‌خواهیم بگوییم را به حرکات سیستم صوتی ترجمه می‌کند. این همان چیزی است که می‌خواهیم رمزگشایی کنیم.

Edward chang از دانشگاه سان فرانسیسکو کالیفرنیا (UCSF)

او و همکارانش با استفاده از سری الکترودهایی که با جراحی بر روی بخش کنترل کننده‌ی حرکات در مغز قرار گرفته و همچنین یک شبیه‌سازی کامپیوتری از سیستم صوتی بدن برای تولید صدا، فرآیندی دو مرحله‌ای برای رمزگشایی این افکار ایجاد کردند.

آن‌ها طی مطالعه‌ ۵ شرکت کننده را که ضمن برنامه‌ی درمانی تشنج خود، الکترودهایی بر سطح کورتکس حرکتی مغزشان داشتند، مورد بررسی قرار دادند. از این افراد خواسته شد ۱۰۱ جمله را با صدای بلند بخوانند. این جملات شامل عبارات و کلماتی محتوی تمامی صداهای انگلیسی بودند. در این حین تیم تحقیقات سیگنال‌های خروجی از کورتکس حرکتی را ثبت می‌کرد.

تقریباً ۱۰۰ عضله‌ی مورد استفاده برای تولید صدا و صحبت کردن وجود دارد. این عضلات با ترکیبی از نورون‌ها که به یک‌باره تحریک می‌شوند، کنترل می‌گردند. پس برای فهمیدن این که مغز چه فرمانی به دهان می‌دهد، به راحتی نمی‌توان نقشه‌ی سیگنال‌ها را از یک الکترود به یک عضله کشید. از این رو، تیم تحقیقات برای تولید مجدد صدای یک کلمه از مجموعه سیگنال‌های فرستاده شده به لب‌ها، فک و زبان، الگوریتمی را طراحی کرد.

به ادعای تیم تحقیقات، با تنظیم کردن وسیله روی ۲۵ دقیقه صحبت کردن، اجرای صحیح امکان‌پذیر شد. با افزایش میزان اطلاعات ورودی، عملکرد وسیله‌ی رمزگشایی کننده نیز بهبود یافت. آن‌ها برای این مطالعه، رمزگشا را طوری روی زبان صحبت کردن هر شرکت کننده تنظیم کردند که از سیگنال‌های مغزشان صدا تولید کند.

پس از این که بر اساس سیگنال‌ها فایل‌های صوتی تولید شد، محققان از صدها آمریکایی بومی خواستند به جملات خروجی گوش داده و از بین ۱۰، ۲۵ یا ۵۰ گزینه کلمات را انتخاب کنند.

گوش دهندگان هنگامی که می‌بایست از بین ۲۵ کلمه انتخاب می‌کردند، ۴۳ درصد از موارد را به طور عالی تشخیص دادند. هنگامی که تعداد کلمات ۵۰ تا گردید، میزان موفقیت در تشخیص ۲۱ درصد شد. یکی از گوش‌دهندگان یک نسخه‌ی عالی تهیه کرد. طوری که در دامنه‌ی کلمات کوچک‌تر، ۸۲ جمله و در دامنه‌ی کلمات بزرگ‌تر، ۶۰ جمله را به طور کامل تشخیص داده بود.

بسیاری از کلمات اشتباه شده نیز بسیار مشابه تلفظ کلمه‌ی اصلی بودند‌‌ (به عنوان مثال rodent به جای rabbit). از این رو در بسیاری از موارد، لب مطلب قابل فهم بود.

Josh chartier از اعضای تیم

به ‌گفته‌ی او، شبکه‌ی نورونی مصنوعی در رمزگشایی صدای《ش》در Ship عملکرد خوبی داشت؛ اما در مورد صدای 《ب》در Bob به مشکل برخورد.

به گفته‌ی Marc Slutzky از دانشگاه شمال‌غربی در Illinois، اگر چندین گزینه‌ی مطرح وجود داشته باشد، جملات را در حد قابل قبول می‌توان فهمید؛ اگر گزینه‌ای نباشد، کار سخت خواهد شد. اگر منصفانه در نظر بگیریم، برای استفاده‌ی نهایی طرح در یک بیمار فلج، اگر بیمار هیچ کلمه‌ای نتواند بگوید، حتی صد کلمه هم بسیار ارزشمند خواهد بود. با توجه به این که طی مطالعه محققان توانستند از الگوریتم طراحی شده برای صحبت کردن یک فرد، کلمات شرکت‌کنندگان دیگر را رمزگشایی کنند؛ احتمالا‌ً استفاده از طرح در آینده امکان‌پذیر خواهد بود.

تیم تحقیقات همچنین از یک نفر خواست صرفاً با حرکت دادن دهان بدون ایجاد صدا صحبت کردن را تقلید کند. در این حالت، سیستم به خوبی حالت قبل کار نکرد؛ اما همچنان قادر به رمزگشایی قابل فهم برخی کلمات تقلید شده بود. قبلاً وسیله‌های مشابهی هم ایجاد شده بود که مستقیماً بدون شبیه‌سازی حرکت دهان و سیستم صوتی، سیگنال‌های مغزی را به صدا ترجمه می‌کردند. هنوز مشخص نیست کدام راهکار مؤثرتر واقع شود.

این وسیله متکی به سیگنال‌های ایجاد صدا نیست. بلکه با سیگنال‌های کنترل اعمال حرکتی کار می‌کند که در افراد فلج هم همچنان فرستاده می‌شوند. پس این وسیله می‌تواند در افرادی که قبلاً قادر به صحبت بوده اما این توانایی را در پی جراحی یا اختلالات حرکتی همچون ALS از دست داده‌اند نیز مفید واقع گردد. در بیماری
ALS افراد قدرت کنترل عضلات خود را از دست می‌دهند.

هوش مصنوعی به جای انسان می‌تواند حرف بزند

درباره دکتر مجازی

درباره ما