موفقیت اخیر AlphaFold21 در پیشبینی ساختار سهبعدی پروتئینها از روی توالیهای آنها، یکی از مؤثرترین کاربردهای یادگیری عمیق در زیست شناسی محاسباتی را تا به امروز برجسته میکند.
یادگیری عمیق (DL) امکان یافتن نمایشی از دادهها را با لایههای انتزاعی متعدد با استفاده از مدلهای پیچیده که از چندین لایه از واحدهای محاسباتی غیرخطی تشکیل شدهاند را میدهد.
با توجه به موفقیت DL در طیف گستردهای از حوزههای کاربردی، کارآمدی استفاده از DL به توسعه معماری شبکههای عصبی تخصصی بستگی دارد که میتواند ویژگیهای مهم دادهها مانند موقعیت مکانی (شبکههای عصبی کانولوشنی – CNN)، ماهیت متوالی را به تصویر بکشد.
کاربردهای DL در سایر زمینههای زیستشناسی محاسباتی، مانند زیستشناسی عملکردی، در حال رشد هستند در حالی که سایر حوزهها، مانند فیلوژنتیک، در مراحل اولیه خود هستند.
پژوهشگری به نام «جیمی لین»، در حال توسعه آزمایشهای مبتنی بر خون برای تشخیص زودهنگام سرطان است که از سرطان روده بزرگ شروع میشود.
او پیشگام در توسعه رویکردهای محاسباتی برای استخراج بینش از دادههای ژنومی در مقیاس بزرگ است که رهبری تحلیلهای محاسباتی اولین مطالعات توالییابی ژنومی در انواع مختلف سرطان را بر عهده داشت.
جیمی لین در گفتگویی که با «فیوچر» داشته، اعتقاد دارد که دادههای یادگیری ماشین سنتی بسیار گسترده و کم عمق هستند او می گوید:
«نوع مشکلاتی که یادگیری ماشین اغلب آنها را حل می کند همان چیزی است که انسان میتواند در یک نانوثانیه مانند تشخیص تصویر حل کند.
برای آموزش تشخیص تصویر یک گربه به رایانه، باید میلیاردها میلیارد تصویر برای آموزش داشته باشید، اما هر تصویر از نظر محتوای داده نسبتاً محدود است.
دادههای بیولوژیکی معمولاً برعکس هستند، ما میلیاردها نفر نداریم. ما خوش شانس هستیم که هزاران نفر به دست میآوریم، اما برای هر فرد، ما میلیاردها و میلیاردها نقطه داده داریم و تعداد کمتری از دادههای بسیار عمیق وجود دارد.
راههایی وجود دارد که میتوانید این اطلاعات عمیق را دریافت کرده و آنها را برجسته کنید تا بتوانید از ابزارهای موجود، چه یادگیری آماری یا روشهای یادگیری عمیق، بهره ببرید.
این یک کپی پیست مستقیم نیست، اما راههای زیادی وجود دارد که میتوانید بسیاری از روشهای یادگیری ماشینی را منتقل کنید و آنها را برای مشکلات بیولوژیکی اعمال کنید، حتی اگر نقشه مستقیم یک به یک نباشد.
مولتیومیک، Multiomics یک رویکرد تجزیه و تحلیل بیولوژیکی است که در آن مجموعه دادههای تولید شده توسط چندین فناوری «omics» متمایز، مانند ژنومیکس، رونویسی، پروتئومیکس یا متابولومیک، برای مطالعه زندگی به روشی هماهنگ ادغام میشوند.
ترکیب یادگیری ماشین با دادههای زیست مولکولی، کاری است که بسیاری از شرکتهای بیوتکنولوژی در تلاش برای انجام آن هستند، اما اغلب اوقات ابهامات زیادی در مورد نحوه انجام این کار وجود دارد.
در Freenome ما در حال ادغام یادگیری ماشین و مولتیومیک هستیم. برای انجام این کار، باید هر دو را به خوبی انجام دهید. نکته کلیدی در اینجا این است که شما باید در هر دوی آنها تخصص قوی داشته باشید و سپس بتوانید به زبان هر دو صحبت کنید. شما باید دو زبانه باشید.
شرکتهای زیادی وجود دارند که در یکی از آنها خبره هستند و سپس لایهای از دیگری را میپاشند. به عنوان مثال، شرکتهای فناوری وجود دارند که تصمیم میگیرند که میخواهند وارد بیو شوند، اما تنها کاری که انجام میدهند این است که تعداد انگشت شماری از دانشمندان آزمایشگاه را استخدام میکنند.
از سوی دیگر، شرکتهای زیستشناسی هستند که تعدادی دانشمندان یادگیری ماشینی را استخدام میکنند، سپس آنها اعلام میکنند که اکنون یک شرکت AI/ML هستند.
با این اوصاف، چیزی که واقعاً به آن نیاز است، استحکام نیمکت عمیق در هر دو است. شما به درک بیولوژیکی عمیقی از سیستم، سنجشهای مختلف، ویژگیهای فضای دانش نیاز دارید.
اما شما همچنین باید درک عمیقی از یادگیری ماشینی، علم داده، روشهای محاسباتی و یادگیری آماری داشته باشید و پلتفرمهایی برای اعمال آن داشته باشید.»
لین در رابطه با ویژگیهای کارشناسان یادگیری ماشین ادامه میدهد: «برای کارشناسان یادگیری ماشین، ما افرادی را انتخاب میکنیم که نه تنها برای توسعه جدیدترین الگوریتمها حضور دارند، بلکه میخواهند جدیدترین الگوریتمها را بگیرند و آنها را در سؤالات زیستشناسی به کار ببرند.»
«زیست شناسی آشفته است. ما نه تنها همه روشها را برای اندازهگیری آنالیتهای مختلف نداریم، بلکه به طور مداوم در حال کشف مولکولهای زیستی و ویژگیهای جدید هستیم.
همچنین عوامل مخدوش کننده و نویز زیادی وجود دارد که باید در نظر گرفته شود. این مشکلات عموماً پیچیدهتر از مشکلات یادگیری ماشین استاندارد هستند، جایی که مشکل و فضای دانش به خوبی تعریف شده است.
کارشناسان ML که می خواهند مهارت خود را در زیست شناسی به کار ببرند، باید فروتنی داشته باشند تا در مورد پیچیدگی موجود در زیست شناسی بیاموزند و مایل باشند با شرایط کمتر از بهینه و تفاوت در دسترس بودن داده ها کار کنند.»
به گفتهی لین بهتر است سه گروه افراد در شرکتهای فعال یادگیری عمیق و علم زیستشناسی فعالیت کنند، افرادی که در حوزه زیستشناسی قوی هستند کسانی که در حوزه یادگیری عمیق فعالیت دارند و گروه سوم افرادی هستند که در دو حوزه ورود کردهاند.
به گفتهی وی، زیست شناسان قدرت تخیل بالایی دارند زیرا با چیزهایی کار میکنند که نامرئی هستند.
آنها در حال حاضر از تصاویر زیادی استفاده میکنند برای کمک به تجسم آنچه از نظر مولکولی اتفاق میافتد و آنها شهود زیادی در مورد مکانیسمها و پیچیدگی دارا هستند.
لین در پاسخ به این سوال که چه چیزی الهامبخش دیدگاه خاص شما در مورد ازدواج یادگیری ماشینی و زیستشناسی بوده است؟ میگوید:
« مشکل، جدید نیست، بلکه آخرین تکرار یک مشکل قدیمی است. زمانی که زمینههای زیست شناسی محاسباتی و بیوانفورماتیک برای اولین بار ایجاد شد، همین مشکل وجود داشت.
دانشمندان کامپیوتر، آماردانان، دانشمندان داده و یا حتی فیزیکدانان به حوزه زیست شناسی پیوستند و تفکر کمی خود را به این حوزه آوردند.
در همان زمان، زیستشناسان باید مدلسازی را فراتر از تعیین ژنها بهعنوان تنظیمشده و پایینتنظیمشده شروع میکردند و شروع به نزدیکتر شدن به دادهها از نظر کمی میکردند.
دیجیتالی کردن دادههای بیولوژیکی اکنون بهطور تصاعدی در مقیاس رشد کرده است. مشکل از نظر دامنه حادتر و گستردهتر است، اما چالشهای اساسی یکسان باقی میمانند.»
زیست شناسی محاسباتی و بیوانفورماتیک
زیست شناسی محاسباتی استفاده از رویکردهای ریاضی و محاسباتی برای پرداختن به سوالات نظری و تجربی در زیست شناسی است.
حوزه مرتبط بیوانفورماتیک از ابزارها و رویکردهای محاسباتی برای مفیدتر کردن دادههای بیولوژیکی استفاده میکند.
شناسایی شش ژنوتیپ منحصربهفرد ویروسی