مقیاس در حال گسترش و پیچیدگی ذاتی دادههای بیولوژیکی، استفاده روزافزون از یادگیری ماشین در زیست شناسی را برای ساختن مدلهای آموزنده و پیشبینیکننده فرآیندهای بیولوژیکی زیربنایی تشویق کرده است.
همه تکنیکهای یادگیری ماشین، مدلها را با دادهها منطبق میکنند. با این حال، روشهای خاص کاملاً متنوع هستند و میتوانند در نگاه اول گیج کننده به نظر برسند.
دو نوع اصلی از روشهای یادگیری ماشین بنام یادگیری نظارت شده و یادگیری بدون نظارت وجود دارد.
الگوریتمهای یادگیری نظارت شده، رابطه بین مجموعهای از متغیرهای ورودی و یک متغیر وابسته یا برچسبها را از نمونههای آموزشی یاد میگیرند و متعاقباً میتوانند برای پیشبینی نتایج نمونههای جدید استفاده شوند.
الگوریتمهای یادگیری بدون نظارت، الگوها را از دادههای بدون متغیر وابسته یا برچسبهای شناخته شده استنباط میکنند.
تحلیل مولفههای خوشهای و اصلی دو روش یادگیری بدون نظارت رایج هستند که برای یافتن الگوها در دادههای با ابعاد بالا استفاده میشوند.
یادگیری عمیق زیرشاخهای از یادگیری ماشینی است که در اصل از علوم اعصاب الهام گرفته شده است و اساساً کلاسی از شبکههای عصبی بزرگ را توصیف میکند. یادگیری عمیق در بسیاری از زمینه ها به کار گرفته شده است که عمدتاً ناشی از افزایش عظیم قدرت محاسباتی و دادههای بزرگ است.
یادگیری عمیق میتواند هم تحت نظارت و هم بدون نظارت باشد، زمینههایی مانند تشخیص تصویر را متحول کرده است و برای کاربردهای ژنومیک، پزشکی و مراقبتهای بهداشتی نویدبخش است.
یادگیری ماشین به طور گسترده در مطالعات بیولوژیکی برای پیشبینی و کشف استفاده شده است.
دادههای omics اطلاعاتی هستند که توسط مطالعاتی که به -omics ختم میشوند تولید میشوند: ژنومیکس، پروتئومیکس، فنومیکس و غیره.
همه چیز با ژنومیک شروع شد، زمانی که زمینه ژنومیک برای اولین بار ظاهر شد، اساساً با ژنتیک متفاوت بود، زیرا به جای تک ژن ها، بر مطالعه کل ژنوم تمرکز داشت.
با افزایش دسترسی به انواع مختلف دادههای omics، استفاده از روشهای یادگیری ماشین، بهویژه رویکردهای یادگیری عمیق، رایجتر شده است.
یکی از زمینههای فرصت برای رویکردهای یادگیری ماشین، پیشبینی ویژگیهای ژنومی است، بهویژه آنهایی که پیشبینیشان با استفاده از رویکردهای فعلی مانند مناطق نظارتی دشوار است.
یادگیری ماشینی برای پیشبینی ویژگیهای توالی پروتئینهای متصل شونده به DNA و RNA، تقویتکنندهها و سایر مناطق تنظیمکننده، بر روی دادههای تولید شده توسط یک یا چند نوع رویکرد omics مانند سایتهای بسیار حساس به DNase I (DNase) استفاده شده است.
یادگیری ماشینی میتواند برای ساخت مدلهایی برای پیشبینی عناصر تنظیمکننده و اثرات متغیر غیرکدکننده بهطور de novo از یک توالی DNA 5 استفاده شود که سپس میتوان آنها را برای مشارکت در تنظیم ژن و در نهایت به صفات/آسیبشناسی قابل مشاهده آزمایش/تأیید کرد.
علاوه بر پیشبینی نواحی تنظیمی، اخیراً، یادگیری تحت نظارت پتانسیل قابلتوجهی را برای حل سؤالات ژنتیکی جمعیت و تکاملی مانند شناسایی مناطق تحت انتخاب خالص یا جابجاییهای انتخابی و همچنین سؤالات مکانی-زمانی پیچیدهتر نشان داده است.
چالشها و چشمانداز آینده
پیشرفتهای عظیم و سریع در روشهای تولید دادههای بیولوژیکی و روشهای یادگیری ماشینی برای تجزیه و تحلیل و کشف دادههای بیولوژیکی پیچیده امیدوارکننده است.
با این حال، چندین مانع وجود دارد. اولاً، تفسیر مدلهای مشتقشده از برخی رویکردهای پیچیده یادگیری ماشینی مانند یادگیری عمیق، اگر غیرممکن نباشد میتواند دشوار باشد.
- در بسیاری از موارد، محققان بیشتر به معنای بیولوژیکی مدل پیشبینیکننده علاقهمند هستند تا اینکه دقت پیشبینیکننده مدل و ماهیت «جعبه سیاه» مدل بتواند مانع از تفسیر شود.
- اطلاعات حاصل از مدل ممکن است نیاز به پردازش بیشتری داشته باشد و باید به دقت با دانش بیولوژیکی مربوطه تفسیر شود.
- گرچه روشهای متعددی برای تفسیر و درک مدلهای پیچیده، مانند روشهای مبتنی بر اغتشاش و روشهای مبتنی بر گرادیان برای تفسیر شبکههای عصبی کانولوشنال (CNN) توسعه داده شده است، تفسیر بسیاری از موارد پیچیده ممکن است هنوز چالشبرانگیز و در حال حاضر دور از دسترس باشد.
- تجزیه و تحلیل مشترک انواع دادههای بیولوژیکی متعدد این پتانسیل را دارد که درک ما از پدیدههای پیچیده بیولوژیکی را بیشتر کند. با این حال، یکپارچهسازی دادهها به دلیل ناهمگونی انواع مختلف دادهها چالش برانگیز است.
- به عنوان مثال، یک نمایه بیانی بردار مقادیر واقعی است و طول بردار برابر با تعداد ژنهای موجود در ژنوم است در حالی که واریانتهای ژنتیکی دستهبندی و با طول ناقل متفاوت هستند.
- استراتژیهای مختلفی برای یکپارچهسازی دادهها در مطالعات مختلف مورد استفاده قرار گرفتهاند، اما بهترین شیوهها در مورد اینکه کدام نوع دادهها را میتوان ادغام کرد و نحوه ادغام دادهها هنوز مورد نیاز است.
- همچنین اجتناب از مشکلاتی مانند پراکندگی، چند خطی و بیش از حد در مطالعات با وضوح بالا مانند مجموعه دادههای omics دشوار است، اگرچه حجم نمونه بزرگتر و روشهای یادگیری ماشین مدرن میتواند تا حدی این مشکلات را کاهش دهد.
- برای افزایش تعداد نمونهها، ممکن است نیاز به ترکیب دادهها از منابع متعدد باشد که ممکن است برای دادههای کیفی مانند پلیمورفیسمهای تک نوکلئوتیدی (SNPs) امکانپذیر باشد.
- اما برای دادههای کمی مانند دادههای بیان ژن به دلیل وجود «پنهان» زیاد میتواند دشوار باشد. اثراتی مانند تغییرات در مراحل توسعه یا اثرات دستهای از روشهای تجربی که میتواند تحلیلها را مخدوش کند.
- این هنوز یک سوال باز است که چگونه دادهها را از منابع مختلف عادی سازی کنیم و کار اضافی روی تولید، اشتراک گذاری و پردازش دادهها ضروری است.
- اگرچه بهبود روشهای یادگیری ماشین و افزایش تعداد نمونههای موجود، نویدبخش افزایش درک ما از پدیدههای پیچیده بیولوژیکی است، ساخت مدلهای یادگیری ماشینی مناسب همچنان میتواند به دلیل عوامل بیولوژیکی پنهان مانند ساختار جمعیت در بین نمونهها یا رابطه تکاملی بین ژنها چالش برانگیز باشد.
- مجموعه دادههای بیولوژیکی باید به دقت تنظیم شوند تا عوامل مخدوش کننده حذف شوند.
- بدون در نظر گرفتن صحیح چنین عواملی، مدلها میتوانند بیش از حد مناسب باشند و منجر به کشف مثبت کاذب شوند.
- برای ساخت مدلهای مناسب، عوامل بیولوژیکی و فنی خاص سناریوی مدلسازی باید در نظر گرفته شوند.
- به عنوان مثال، دادههای بیولوژیکی اغلب نامتعادل هستند مانند مواردی که در برخی بیماریها یا ویژگیهایی که فقط در بخش کوچکی از جمعیت رخ میدهند.
- معمولاً دسترسی به معیارهایی مانند دقت و فراخوانی برای کلاس غیراصلی به جای دقت ساده برای ارزیابی عملکرد مدل برای کلاسهای نامتعادل در دادهها معنادارتر است.
- رویکردهای آماری سنتی هنوز بر زمینه تحقیقات بیولوژیکی تسلط دارند، حتی برای تجزیه و تحلیل دادههای omics بزرگ.
- با این حال، سیل دادههای omics در مقیاسها، سلولها به بافتها، ارگانیسمها به اکوسیستمها و انواع، ژنوتیپسازی، توالییابی مجدد، RNA-seq، توالییابی بی سولفیت (BS-seq) و غیره و روشهای جدید یادگیری ماشینی قدرتمندتر، عالی هستند.
- وعده ارائه بینش بیولوژیکی از دادههای بزرگ و اغلب ناهمگن است. روشهای مختلف یادگیری ماشین ممکن است با مفروضات اساسی در مورد دادهها مطابقت داشته باشد. به عنوان مثال، دو روش محبوب یادگیری عمیق، شبکه عصبی کانولوشن (CNN) و شبکه عصبی بازگشتی (RNN)، برای انواع مختلف داده طراحی شده است.
- هیچ رویکرد یا قانون محاسباتی واحدی برای همه سؤالات زیستی مناسب نیست. در عوض، هر سوال بیولوژیکی پیچیده به رویکردهای یادگیری ماشینی خاصی نیاز دارد.
- یک الگوریتم یادگیری ماشین زمانی که سعی میکند الگوهای کلی را از مثالها تعریف کند، با نشان دادن مثالهایی در وظایف خود بهتر میشود.
- «تام میچل»، یادگیری ماشین را اینگونه تعریف میکند: «مطالعه الگوریتمهای رایانهای که بهطور خودکار از طریق تجربه بهبود مییابند».
- الگوریتم – یک رابطه بین ورودی و خروجی است، مجموعهای از مراحل است که یک ورودی میگیرد و یک خروجی تولید میکند.