یادگیری ماشین و داده‌های بیولوژیک

بدون دیدگاه

14 آذر 1402

امتیاز دهید

مقیاس در حال گسترش و پیچیدگی ذاتی داده‌های بیولوژیکی، استفاده روزافزون از یادگیری ماشین در زیست‌ شناسی را برای ساختن مدل‌های آموزنده و پیش‌بینی‌کننده فرآیندهای بیولوژیکی زیربنایی تشویق کرده است.

همه تکنیک‌های یادگیری ماشین، مدل‌ها را با داده‌ها منطبق می‌کنند. با این حال، روش‌های خاص کاملاً متنوع هستند و می‌توانند در نگاه اول گیج کننده به نظر برسند.

دو نوع اصلی از روش‌های یادگیری ماشین بنام یادگیری نظارت شده و یادگیری بدون نظارت وجود دارد.

الگوریتم‌های یادگیری نظارت شده، رابطه بین مجموعه‌ای از متغیرهای ورودی و یک متغیر وابسته یا برچسب‌ها را از نمونه‌های آموزشی یاد می‌گیرند و متعاقباً می‌توانند برای پیش‌بینی نتایج نمونه‌های جدید استفاده شوند.

الگوریتم‌های یادگیری بدون نظارت، الگوها را از داده‌های بدون متغیر وابسته یا برچسب‌های شناخته شده استنباط می‌کنند.

تحلیل مولفه‌های خوشه‌ای و اصلی دو روش یادگیری بدون نظارت رایج هستند که برای یافتن الگوها در داده‌های با ابعاد بالا استفاده می‌شوند.

یادگیری عمیق زیرشاخه‌ای از یادگیری ماشینی است که در اصل از علوم اعصاب الهام گرفته شده است و اساساً کلاسی از شبکه‌های عصبی بزرگ را توصیف می‌کند. یادگیری عمیق در بسیاری از زمینه ها به کار گرفته شده است که عمدتاً ناشی از افزایش عظیم قدرت محاسباتی و داده‌های بزرگ است.

یادگیری عمیق می‌تواند هم تحت نظارت و هم بدون نظارت باشد، زمینه‌هایی مانند تشخیص تصویر را متحول کرده است و برای کاربردهای ژنومیک، پزشکی و مراقبت‌های بهداشتی نویدبخش است.

یادگیری ماشین به طور گسترده در مطالعات بیولوژیکی برای پیش‌بینی و کشف استفاده شده است.

داده‌های omics اطلاعاتی هستند که توسط مطالعاتی که به -omics ختم می‌شوند تولید می‌شوند: ژنومیکس، پروتئومیکس، فنومیکس و غیره.

همه چیز با ژنومیک شروع شد، زمانی که زمینه ژنومیک برای اولین بار ظاهر شد، اساساً با ژنتیک متفاوت بود، زیرا به جای تک ژن ها، بر مطالعه کل ژنوم تمرکز داشت.

با افزایش دسترسی به انواع مختلف داده‌های omics، استفاده از روش‌های یادگیری ماشین، به‌ویژه رویکردهای یادگیری عمیق، رایج‌تر شده است.

یکی از زمینه‌های فرصت برای رویکردهای یادگیری ماشین، پیش‌بینی ویژگی‌های ژنومی است، به‌ویژه آن‌هایی که پیش‌بینی‌شان با استفاده از رویکردهای فعلی مانند مناطق نظارتی دشوار است.

یادگیری ماشینی برای پیش‌بینی ویژگی‌های توالی پروتئین‌های متصل شونده به DNA و RNA، تقویت‌کننده‌ها و سایر مناطق تنظیم‌کننده، بر روی داده‌های تولید شده توسط یک یا چند نوع رویکرد omics مانند سایت‌های بسیار حساس به DNase I (DNase) استفاده شده است.

یادگیری ماشینی می‌تواند برای ساخت مدل‌هایی برای پیش‌بینی عناصر تنظیم‌کننده و اثرات متغیر غیرکدکننده به‌طور de novo از یک توالی DNA 5 استفاده شود که سپس می‌توان آن‌ها را برای مشارکت در تنظیم ژن و در نهایت به صفات/آسیب‌شناسی قابل مشاهده آزمایش/تأیید کرد.

علاوه بر پیش‌بینی نواحی تنظیمی، اخیراً، یادگیری تحت نظارت پتانسیل قابل‌توجهی را برای حل سؤالات ژنتیکی جمعیت و تکاملی مانند شناسایی مناطق تحت انتخاب خالص یا جابجایی‌های انتخابی و همچنین سؤالات مکانی-زمانی پیچیده‌تر نشان داده است.

چالش‌ها و چشم‌انداز آینده

پیشرفت‌های عظیم و سریع در روش‌های تولید داده‌های بیولوژیکی و روش‌های یادگیری ماشینی برای تجزیه و تحلیل و کشف داده‌های بیولوژیکی پیچیده امیدوارکننده است.

با این حال، چندین مانع وجود دارد. اولاً، تفسیر مدل‌های مشتق‌شده از برخی رویکردهای پیچیده یادگیری ماشینی مانند یادگیری عمیق، اگر غیرممکن نباشد می‌تواند دشوار باشد.

در بسیاری از موارد، محققان بیشتر به معنای بیولوژیکی مدل پیش‌بینی‌کننده علاقه‌مند هستند تا اینکه دقت پیش‌بینی‌کننده مدل و ماهیت «جعبه سیاه» مدل بتواند مانع از تفسیر شود.
اطلاعات حاصل از مدل ممکن است نیاز به پردازش بیشتری داشته باشد و باید به دقت با دانش بیولوژیکی مربوطه تفسیر شود.
گرچه روش‌های متعددی برای تفسیر و درک مدل‌های پیچیده، مانند روش‌های مبتنی بر اغتشاش و روش‌های مبتنی بر گرادیان برای تفسیر شبکه‌های عصبی کانولوشنال (CNN) توسعه داده شده است، تفسیر بسیاری از موارد پیچیده ممکن است هنوز چالش‌برانگیز و در حال حاضر دور از دسترس باشد.
تجزیه و تحلیل مشترک انواع داده‌های بیولوژیکی متعدد این پتانسیل را دارد که درک ما از پدیده‌های پیچیده بیولوژیکی را بیشتر کند. با این حال، یکپارچه‌سازی داده‌ها به دلیل ناهمگونی انواع مختلف داده‌ها چالش برانگیز است.
به عنوان مثال، یک نمایه بیانی بردار مقادیر واقعی است و طول بردار برابر با تعداد ژن‌های موجود در ژنوم است در حالی که واریانت‌های ژنتیکی دسته‌بندی و با طول ناقل متفاوت هستند.
استراتژی‌های مختلفی برای یکپارچه‌سازی داده‌ها در مطالعات مختلف مورد استفاده قرار گرفته‌اند، اما بهترین شیوه‌ها در مورد اینکه کدام نوع داده‌ها را می‌توان ادغام کرد و نحوه ادغام داده‌ها هنوز مورد نیاز است.
همچنین اجتناب از مشکلاتی مانند پراکندگی، چند خطی و بیش از حد در مطالعات با وضوح بالا مانند مجموعه داده‌های omics دشوار است، اگرچه حجم نمونه بزرگتر و روش‌های یادگیری ماشین مدرن می‌تواند تا حدی این مشکلات را کاهش دهد.
برای افزایش تعداد نمونه‌ها، ممکن است نیاز به ترکیب داده‌ها از منابع متعدد باشد که ممکن است برای داده‌های کیفی مانند پلی‌مورفیسم‌های تک نوکلئوتیدی (SNPs) امکان‌پذیر باشد.
اما برای داده‌های کمی مانند داده‌های بیان ژن به دلیل وجود «پنهان» زیاد می‌تواند دشوار باشد. اثراتی مانند تغییرات در مراحل توسعه یا اثرات دسته‌ای از روش‌های تجربی که می‌تواند تحلیل‌ها را مخدوش کند.
این هنوز یک سوال باز است که چگونه داده‌ها را از منابع مختلف عادی سازی کنیم و کار اضافی روی تولید، اشتراک گذاری و پردازش داده‌ها ضروری است.
اگرچه بهبود روش‌های یادگیری ماشین و افزایش تعداد نمونه‌های موجود، نویدبخش افزایش درک ما از پدیده‌های پیچیده بیولوژیکی است، ساخت مدل‌های یادگیری ماشینی مناسب همچنان می‌تواند به دلیل عوامل بیولوژیکی پنهان مانند ساختار جمعیت در بین نمونه‌ها یا رابطه تکاملی بین ژن‌ها چالش برانگیز باشد.
مجموعه داده‌های بیولوژیکی باید به دقت تنظیم شوند تا عوامل مخدوش کننده حذف شوند.
بدون در نظر گرفتن صحیح چنین عواملی، مدل‌ها می‌توانند بیش از حد مناسب باشند و منجر به کشف مثبت کاذب شوند.
برای ساخت مدل‌های مناسب، عوامل بیولوژیکی و فنی خاص سناریوی مدل‌سازی باید در نظر گرفته شوند.
به عنوان مثال، داده‌های بیولوژیکی اغلب نامتعادل هستند مانند مواردی که در برخی بیماری‌ها یا ویژگی‌هایی که فقط در بخش کوچکی از جمعیت رخ می‌دهند.
معمولاً دسترسی به معیارهایی مانند دقت و فراخوانی برای کلاس غیراصلی به جای دقت ساده برای ارزیابی عملکرد مدل برای کلاس‌های نامتعادل در داده‌ها معنادارتر است.
رویکردهای آماری سنتی هنوز بر زمینه تحقیقات بیولوژیکی تسلط دارند، حتی برای تجزیه و تحلیل داده‌های omics بزرگ.
با این حال، سیل داده‌های omics در مقیاس‌ها، سلول‌ها به بافت‌ها، ارگانیسم‌ها به اکوسیستم‌ها و انواع، ژنوتیپ‌سازی، توالی‌یابی مجدد، RNA-seq، توالی‌یابی بی سولفیت (BS-seq) و غیره و روش‌های جدید یادگیری ماشینی قدرتمندتر، عالی هستند.
وعده ارائه بینش بیولوژیکی از داده‌های بزرگ و اغلب ناهمگن است. روش‌های مختلف یادگیری ماشین ممکن است با مفروضات اساسی در مورد داده‌ها مطابقت داشته باشد. به عنوان مثال، دو روش محبوب یادگیری عمیق، شبکه عصبی کانولوشن (CNN) و شبکه عصبی بازگشتی (RNN)، برای انواع مختلف داده طراحی شده است.
هیچ رویکرد یا قانون محاسباتی واحدی برای همه سؤالات زیستی مناسب نیست. در عوض، هر سوال بیولوژیکی پیچیده به رویکردهای یادگیری ماشینی خاصی نیاز دارد.
یک الگوریتم یادگیری ماشین زمانی که سعی می‌کند الگوهای کلی را از مثال‌ها تعریف کند، با نشان دادن مثال‌هایی در وظایف خود بهتر می‌شود.
«تام میچل»، یادگیری ماشین را اینگونه تعریف می‌کند: «مطالعه الگوریتم‌های رایانه‌ای که به‌طور خودکار از طریق تجربه بهبود می‌یابند».
الگوریتم – یک رابطه بین ورودی و خروجی است، مجموعه‌ای از مراحل است که یک ورودی می‌گیرد و یک خروجی تولید می‌کند.