یادگیری عمیق و علم زیست‌ شناسی

بدون دیدگاه

19 آذر 1402

امتیاز دهید

موفقیت اخیر AlphaFold21 در پیش‌بینی ساختار سه‌بعدی پروتئین‌ها از روی توالی‌های آن‌ها، یکی از مؤثرترین کاربردهای یادگیری عمیق در زیست‌ شناسی محاسباتی را تا به امروز برجسته می‌کند.

یادگیری عمیق (DL) امکان یافتن نمایشی از داده‌ها را با لایه‌های انتزاعی متعدد با استفاده از مدل‌های پیچیده که از چندین لایه از واحدهای محاسباتی غیرخطی تشکیل شده‌اند را می‌دهد.

با توجه به موفقیت DL در طیف گسترده‌ای از حوزه‌های کاربردی، کارآمدی استفاده از DL به توسعه معماری شبکه‌های عصبی تخصصی بستگی دارد که می‌تواند ویژگی‌های مهم داده‌ها مانند موقعیت مکانی (شبکه‌های عصبی کانولوشنی – CNN)، ماهیت متوالی را به تصویر بکشد.

کاربردهای DL در سایر زمینه‌های زیست‌شناسی محاسباتی، مانند زیست‌شناسی عملکردی، در حال رشد هستند در حالی که سایر حوزه‌ها، مانند فیلوژنتیک، در مراحل اولیه خود هستند.

پژوهشگری به نام «جیمی لین»، در حال توسعه آزمایش‌های مبتنی بر خون برای تشخیص زودهنگام سرطان است که از سرطان روده بزرگ شروع می‌شود.

او پیشگام در توسعه رویکردهای محاسباتی برای استخراج بینش از داده‌های ژنومی در مقیاس بزرگ است که رهبری تحلیل‌های محاسباتی اولین مطالعات توالی‌یابی ژنومی در انواع مختلف سرطان را بر عهده داشت.

جیمی لین در گفتگویی که با «فیوچر» داشته، اعتقاد دارد که داده‌های یادگیری ماشین سنتی بسیار گسترده و کم عمق هستند او می گوید:

«نوع مشکلاتی که یادگیری ماشین اغلب آنها را حل می کند همان چیزی است که انسان می‌تواند در یک نانوثانیه مانند تشخیص تصویر حل کند.

برای آموزش تشخیص تصویر یک گربه به رایانه، باید میلیاردها میلیارد تصویر برای آموزش داشته باشید، اما هر تصویر از نظر محتوای داده نسبتاً محدود است.

داده‌های بیولوژیکی معمولاً برعکس هستند، ما میلیاردها نفر نداریم. ما خوش شانس هستیم که هزاران نفر به دست می‌آوریم، اما برای هر فرد، ما میلیاردها و میلیاردها نقطه داده داریم و تعداد کمتری از داده‌های بسیار عمیق وجود دارد.

راه‌هایی وجود دارد که می‌توانید این اطلاعات عمیق را دریافت کرده و آن‌ها را برجسته کنید تا بتوانید از ابزارهای موجود، چه یادگیری آماری یا روش‌های یادگیری عمیق، بهره ببرید.

این یک کپی پیست مستقیم نیست، اما راه‌های زیادی وجود دارد که می‌توانید بسیاری از روش‌های یادگیری ماشینی را منتقل کنید و آنها را برای مشکلات بیولوژیکی اعمال کنید، حتی اگر نقشه مستقیم یک به یک نباشد.

مولتیومیک، Multiomics یک رویکرد تجزیه و تحلیل بیولوژیکی است که در آن مجموعه داده‌های تولید شده توسط چندین فناوری «omics» متمایز، مانند ژنومیکس، رونویسی، پروتئومیکس یا متابولومیک، برای مطالعه زندگی به روشی هماهنگ ادغام می‌شوند.

ترکیب یادگیری ماشین با داده‌های زیست مولکولی، کاری است که بسیاری از شرکت‌های بیوتکنولوژی در تلاش برای انجام آن هستند، اما اغلب اوقات ابهامات زیادی در مورد نحوه انجام این کار وجود دارد.

در Freenome ما در حال ادغام یادگیری ماشین و مولتیومیک هستیم. برای انجام این کار، باید هر دو را به خوبی انجام دهید. نکته کلیدی در اینجا این است که شما باید در هر دوی آنها تخصص قوی داشته باشید و سپس بتوانید به زبان هر دو صحبت کنید. شما باید دو زبانه باشید.

شرکت‌های زیادی وجود دارند که در یکی از آنها خبره هستند و سپس لایه‌ای از دیگری را می‌پاشند. به عنوان مثال، شرکت‌های فناوری وجود دارند که تصمیم می‌گیرند که می‌خواهند وارد بیو شوند، اما تنها کاری که انجام می‌دهند این است که تعداد انگشت شماری از دانشمندان آزمایشگاه را استخدام می‌کنند.

از سوی دیگر، شرکت‌های زیست‌شناسی هستند که تعدادی دانشمندان یادگیری ماشینی را استخدام می‌کنند، سپس آنها اعلام می‌کنند که اکنون یک شرکت AI/ML هستند.

با این اوصاف، چیزی که واقعاً به آن نیاز است، استحکام نیمکت عمیق در هر دو است. شما به درک بیولوژیکی عمیقی از سیستم، سنجش‌های مختلف، ویژگی‌های فضای دانش نیاز دارید.

اما شما همچنین باید درک عمیقی از یادگیری ماشینی، علم داده، روش‌های محاسباتی و یادگیری آماری داشته باشید و پلتفرم‌هایی برای اعمال آن داشته باشید.»

لین در رابطه با ویژگی‌های کارشناسان یادگیری ماشین ادامه می‌دهد: «برای کارشناسان یادگیری ماشین، ما افرادی را انتخاب می‌کنیم که نه تنها برای توسعه جدیدترین الگوریتم‌ها حضور دارند، بلکه می‌خواهند جدیدترین الگوریتم‌ها را بگیرند و آنها را در سؤالات زیست‌شناسی به کار ببرند.»

«زیست شناسی آشفته است. ما نه تنها همه روش‌ها را برای اندازه‌گیری آنالیت‌های مختلف نداریم، بلکه به طور مداوم در حال کشف مولکول‌های زیستی و ویژگی‌های جدید هستیم.

همچنین عوامل مخدوش کننده و نویز زیادی وجود دارد که باید در نظر گرفته شود. این مشکلات عموماً پیچیده‌تر از مشکلات یادگیری ماشین استاندارد هستند، جایی که مشکل و فضای دانش به خوبی تعریف شده است.

کارشناسان ML که می خواهند مهارت خود را در زیست شناسی به کار ببرند، باید فروتنی داشته باشند تا در مورد پیچیدگی موجود در زیست شناسی بیاموزند و مایل باشند با شرایط کمتر از بهینه و تفاوت در دسترس بودن داده ها کار کنند.»

به گفته‌ی لین بهتر است سه گروه افراد در شرکت‌های فعال یادگیری عمیق و علم زیست‌شناسی فعالیت کنند، افرادی که در حوزه زیست‌شناسی قوی هستند کسانی که در حوزه یادگیری عمیق فعالیت دارند و گروه سوم افرادی هستند که در دو حوزه ورود کرده‌اند.

به گفته‌ی وی، زیست شناسان قدرت تخیل بالایی دارند زیرا با چیزهایی کار می‌کنند که نامرئی هستند.

آنها در حال حاضر از تصاویر زیادی استفاده می‌کنند برای کمک به تجسم آنچه از نظر مولکولی اتفاق می‌افتد و آن‌ها شهود زیادی در مورد مکانیسم‌ها و پیچیدگی دارا هستند.

لین در پاسخ به این سوال که چه چیزی الهام‌بخش دیدگاه خاص شما در مورد ازدواج یادگیری ماشینی و زیست‌شناسی بوده است؟ می‌گوید:

« مشکل، جدید نیست، بلکه آخرین تکرار یک مشکل قدیمی است. زمانی که زمینه‌های زیست شناسی محاسباتی و بیوانفورماتیک برای اولین بار ایجاد شد، همین مشکل وجود داشت.

دانشمندان کامپیوتر، آماردانان، دانشمندان داده و یا حتی فیزیکدانان به حوزه زیست شناسی پیوستند و تفکر کمی خود را به این حوزه آوردند.

در همان زمان، زیست‌شناسان باید مدل‌سازی را فراتر از تعیین ژن‌ها به‌عنوان تنظیم‌شده و پایین‌تنظیم‌شده شروع می‌کردند و شروع به نزدیک‌تر شدن به داده‌ها از نظر کمی می‌کردند.

دیجیتالی کردن داده‌های بیولوژیکی اکنون به‌طور تصاعدی در مقیاس رشد کرده است. مشکل از نظر دامنه حادتر و گسترده‌تر است، اما چالش‌های اساسی یکسان باقی می‌مانند.»