یادگیری ماشین برای زیست مولکولی!

زیست شناس محاسباتی، برونو کوریا، قبلاً در آزمایشگاه خود یک قانون داشت: یادگیری ماشین مجاز نیست! او آن را علمی واقعی نمی دانست. اکنون کوریا از آن برای تشخیص برهم کنش بالقوه بین پروتئین ها – مولکول های پیچیده که مسئول بسیاری از فرآیندهای بیولوژیکی – ۴۰۰۰۰ برابر سریعتر از روش های معمولی استفاده کرده است. ژورنال Nature Methods سیستم خود را در فوریه ۲۰۲۰ نشان داد. Correia درباره عدم تمایل او به یادگیری ماشین گفت: “من اشتباه کردم و خوشحالم که اشتباه کردم.”

چه چیزی نظر او را تغییر داد؟

یادگیری عمیق هندسی، زیر شاخه ای از هوش مصنوعی در حال ظهور است که می تواند الگوهای موجود در سطوح منحنی را بیاموزد.
پروتئین ها با گردآمدن اشکال بی نظم و نامنظم مانند قطعات پازل سه بعدی در کنار هم قرار می گیرند. محققان ده ها سال تلاش کرده اند تا بفهمند چطور این کار را می کنند. مشکل مشهور تاشو پروتئین، که از اواسط قرن بیستم دانشمندان را به چالش کشیده است، با رمزگشایی پیوند بین اسیدهای آمینه سازنده پروتئین و شکل نهایی سه بعدی آن ، دانشمندان را درک می کنند.

در سال ۱۹۹۹، IBM شروع به توسعه خط ابر رایانه های Blue Gene برای مقابله با مشکل تاشو کرد. ۲۰ سال بعد، DeepMind الگوریتم های یادگیری ماشین عمیق مدرن را بر روی آن اعمال کرد.

مقاله مرتبط: یادگیری عمیق

سیستم کوریا-MaSIF- چگونه است؟

سیستم Correia، موسوم به MaSIF (برای اثر انگشت اثر متقابل سطح مولکولی)، با نادیده گرفتن ساختار داخلی مولکول ها، از پیچیدگی ذاتی شکل سه بعدی پروتئین جلوگیری می کند. در عوض این سیستم سطح ۲D پروتئین را برای آنچه محققان اثر انگشت تعامل می نامند اسکن می کند. ویژگی هایی که توسط یک شبکه عصبی آموخته شده را نشان می دهد؛ پروتئین دیگری می تواند در آنجا بپیوندد. ایده این است که وقتی هر دو مولکول به هم می پیوندند، آنچه در اصل به یکدیگر القا می کنند این سطح است. این همان چیزهایی است که شما نیاز دارید.

محمد القریشی، محقق پروتئین دانشکده پزشکی هاروارد که از یادگیری عمیق نیز استفاده می کند، گفت: این بسیار ابتکاری است.

چارچوب متمرکز سطح MaSIF برای پیش بینی اثرات متقابل پروتئین می تواند به طراحی پروتئین de novo (پیدایش خود به خودی) سرعت بخشد، که سعی می کند پروتئین های مفید را از ابتدا به جای تکیه بر تنوع موجود طبیعی ترکیب کند.

مایکل برونشتاین، کارشناس یادگیری عمیق هندسی در امپریال کالج لندن که به توسعه سیستم کمک کرده است، می گوید: این روش می تواند برای زیست شناسی پایه نیز مورد استفاده قرار گیرد.

چگونه سرطان بر خواص پروتئین تأثیر می گذارد؟

او در پاسخ به این سوال گفت: شما می توانید بپرسید که آیا جهش در نتیجه سرطان چیزی را در پروتئین از بین می برد که باعث می شود آن ها به روش دیگری کار کنند، بدون این که به آنچه تصور می شوند، عمل کنند. MaSIF می تواند به سؤالات اساسی پاسخ دهد.

سفر به دنیای دیجیتال

اگر می خواهید درک کنید که یادگیری عمیق چگونه می تواند اثر انگشت پروتئین ایجاد کند، برونشتاین پیشنهاد می کند از اوایل دهه ۲۰۰۰ به دوربین های دیجیتالی نگاه کنید. این مدل ها الگوریتم های تشخیص چهره داشتند که کار نسبتاً ساده ای را انجام می دادند. وی توضیح داد: فقط باید تشخیص دهید که صورت وجود دارد – چشم ها، بینی، دهان – صرف نظر از اینکه بینی طولانی داشته باشد یا بینی کوتاه، لب های کلفت یا لب های نازک داشته باشد.

دوربین های مدرن متنوع تر هستند. آن ها می توانند یک شخص خاص را شناسایی کنند و به شما امکان می دهند به سرعت در کتابخانه عکس خود جستجو کنید تا تمام عکسهای مورد نظر خود را پیدا کنید.

مکانیسم شبکه های عصبی چگونه است؟

این پیشرفت توسط شبکه های عصبی عمیق امکان پذیر است، که به رایانه راهی برای یادگیری ویژگی های ظریف فرد از داده های وارد شده، داده است. این روند شامل بهره وری بسیاری از موارد خاص از یک چهره خاص به شبکه و برچسب زدن همه آن ها به عنوان یک فرد است. لازم نیست از قبل به رایانه بگویید که کدام ترکیب دقیق از خصوصیات – چشمهای سبز، ابروهای پهن، موهای سیاه – به نوعی به چهره شما می افزاید و نه به شخص دیگری. در عوض، شبکه با مثال های مناسب و دارای برچسب مناسب، این تفاوت را یاد می گیرد به اصطلاح به خودش آموزش می دهد.

پروتئین ها در سیستم MaSIF

MaSIF همین کار را برای پروتئین ها انجام می دهد. روش های قبلی برای اثر انگشت مانند الگوریتم های اصلی تشخیص چهره بود. آن ها محققان را ملزم كردند كه الگوهای هندسی مشخصی را از قبل تعریف كنند – مثلاً یك لكه برآمدگی روی سطح پروتئین با یك اندازه و اندازه خاص! در عوض، MaSIF با تعداد معدودی از خصوصیات اساسی سطح شروع می شود: به عنوان مثال، انحنای فیزیکی سطح (به یک دستگیره یا جیب)، بار الکتریکی آن، و اینکه آیا آب را دفع می کند یا جذب می کند. سپس در حین آموزش، شبکه یاد می گیرد که چگونه این ویژگی ها را با اثر انگشت ترکیب کند که الگوهای مختلف سطح بالاتری را تشخیص دهد.

تا همین اواخر، از این نوع یادگیری ماشین نمی توانستند در سطوح منحنی و نامنظم پروتئین ها استفاده کنند. ظهور یادگیری عمیق هندسی این امکان را فراهم کرد. کوریا اعتبار خود را برای جلب توجه روش در طی همکاری دو هفته ای در خانه برونشتاین در فوریه ۲۰۱۸ به برونشتاین اعلام کرد. کوریا، مستقر در Ecole Polytechnique Fédérale de Lausanne، گفت: نتایج دستی ما به جایی نمی رسد.

سایت MaSIF

یک نسخه از سیستم، به نام سایت MaSIF، می تواند کل پروتئین را بررسی کند و پیش بینی کند که پروتئین دیگری به چه صورت ممکن است به هم بپیوندد، رویکردی مشابه نقاشی یک هدف روی بوم خمیده. کوریا گفت: این چیزی است که ما دوست داریم آن را مشکل یک بدن بنامیم. شما می توانید در مورد این به عنوان راهی برای فهمیدن محل های عملکردی پروتئین خاص فکر کنید. سایت MaSIF تقریباً ۲۵٪ بهتر از دو پیش بینی کننده تعامل سایت را در این کار انجام داد.

MaSIF-search

نسخه دیگری از سیستم، با نام MaSIF-search، مسئولیت رسیدگی به آنچه کوریا آن را مشکل ساز می داند، می بر عهده گرفت. به جای پیش بینی اینکه چگونه یک پروتئین در یک مولکول هدف قرار خواهد گرفت (همانطور که معمولاً در شبیه سازی های docking اتفاق می افتد)، سیستم تعامل را مقایسه می کند. اثر انگشت بسیاری از پروتئین ها در مقایسه با سایرین، متناسب است. (در یک سلول شما ۱۰،۰۰۰ پروتئین دارید و بسیاری از آن ها همیشه به یکدیگر می پیوندند.) در مورد این کار، MaSIF از پیش بینی کننده متصل کننده مولکولی پیشرو نیست. تقریباً نیمی از بسیاری از پتانسیل ها را در یک مجموعه تصادفی از ۱۰۰ پروتئین یافت. اما پیش بینی کننده docking برای انجام جستجوی خود به زمان محاسبه تقریبا ۱۰۰ روز نیاز داشت. MaSIF چهار دقیقه طول کشید.

این سرعت گسترده برای تحقیقات اساسی یادگیری ماشین امکانات جالب را ایجاد می کند. از این گذشته، در بدن انسان، پروتئین ها شبکه های عملکردی تشکیل می دهند که ده ها هزار روابط تعاملی دارند. برونشتاین گفت: رسم این نمودارها زمان زیادی را می طلبد.با روش هایMaSIF، ممکن است فقط یک تقریب باشد، اما به شما امکان می دهد حداقل برای نسخه های جدیدی از این شبکه های پروتئین به پروتئین برای هر ارگانیسم بسازید.
برونشتاین

AlQuraishi خاطرنشان كرد كه گرچه رويكرد پوستي MaSIF براي پيش بيني كنش پروتئين معقول است؛ اما نمي تواند پديده اي بنام جاذبه القايي را ضبط كند؛ زیرا شيوه تغيير سطوح مولكولي هنگامي كه به يكديگر نزديك مي شوند شکل (و شيميايي) را تغيير مي دهند. به عبارت دیگر، سطوح دو پروتئین ممکن است اثر انگشت های مکمل را تا زمانی که تقریباً به هم برخورد نکنند، نشان ندهند – عاملی که MaSIF از دست خواهد داد، از آنجا که تناسب ناشی از آن بستگی به ساختار زیر سطحی پروتئین دارد.

آنچه احتمالاً پیشرفت را بهینه می کند دقیقاً این تناسب القا شده است.آنچه در مورد MaSIF تعجب آور است این است که حتی با این نتیجه گیری، هنوز هم خیلی خوب کار می کند.
AlQuraishi

ترکیب مناسب و سایر پویایی های سطح در MaSIF چیزی است که کوریا قصد دارد به کشف آن بپردازد.

برای من آخرین مرز درک عملکرد پروتئین است. احتمالاً من ۱۰ در سال آینده درک خواهم کرد.
کوریا

اما در حال حاضر وی فعالیت مطلوبی دارد: با استفاده از MaSIF و یادگیری ماشین برای اسکن پروتئین ها که سطح SARS-CoV-2 را بررسی می کند، ویروسی که باعث COVID-19 می شود.

ما در تلاشیم تا ببینیم اثر انگشت در این ویروس چیست. به نظر می رسد این ویروس جاهایی دارد که می توانیم علاوه بر مواردی که قبلاً آن ها را می شناختیم، حمله کنیم.

کوریا قبلاً از این اطلاعات در مورد SARS-CoV-2 برای سنتز پروتئین های ضد ویروسی از ابتدا استفاده می کند. او امیدوار است امسال نتایج را منتشر کند.

اگر ما می توانیم پروتئین های جدید را بر اساس اثر انگشت سطح پروتئین ویروسی طراحی کنیم تا مانع از حمله ویروس به سلول های میزبان شویم ، این بسیار هیجان انگیز خواهد بود.این چیزی است که من را از رختخواب خارج می کند!