وجود یک پلتفرم در حوزه یادگیری ماشین برای استفاده پژوهشگران و کارشناسان علوم زیستی بسیار کارساز و مفید میتواند باشد.
چنانکه میدانیم یادگیری ماشین (ML) و سایر ابزارهای هوش مصنوعی (AI) میتوانند به طور چشمگیری روند تجزیه و تحلیل دادهها را سرعت بخشند، اما دسترسی و استفاده از اکثر ابزارهای ML برای متخصصان غیر این حوزه دشوار است.
حجم دادههای تولید شده توسط دانشمندان امروزه به دلیل کاهش هزینههای تکنولوژی توالییابی و افزایش مقدار توان محاسباتی موجود، بسیار زیاد است.
اما تجزیه همه این دادهها برای کشف اطلاعات مفید مانند جستجوی یک سوزن مولکولی در انبار کاه است.
از این رو همانطور که اشاره شد روشهای یادگیری ماشین خودکار (AutoML) توسعه یافتهاند که میتوانند طراحی و استقرار ابزارهای ML را خودکار کنند، اما آنها اغلب بسیار پیچیده هستند و به امکاناتی با ML نیاز دارند که تعداد کمی از دانشمندان خارج از حوزه هوش مصنوعی آن را دارا هستند.
گروهی از دانشمندان مؤسسه مهندسی بیولوژیکی Wyss در دانشگاه هاروارد و MIT اکنون این نیاز برآورده نشده را با ساختن یک پلتفرم جدید و جامع AutoML که برای زیست شناسانی با تجربه اندک یا بدون تجربه یادگیری ماشین طراحی شده است، آماده کردهاند.
پلتفرم آنها که BioAutoMATED نام دارد میتواند از توالی اسیدهای نوکلئیک، پپتیدها یا گلیکانها به عنوان داده ورودی استفاده کند.
این پلتفرم یادگیری ماشین در مقاله جدیدی که در Cell Systems منتشر شده است توضیح داده شده است و برای دانلود از GitHub در دسترس است.
این ابزار برای افرادی است که توانایی ساخت مدلهای ML سفارشی خود را ندارند و سؤالاتی مانند این را میپرسند که من این مجموعه دادههای جالب را چگونه میتوانم به یک مدل ML وارد کنم؟
یکی از کارشناسان این موسسه میگوید: «ما تصمیم گرفتیم که باید کاری در این زمینه انجام دهیم، زیرا میخواستیم Wyss در خط مقدم انقلاب بیوتکنولوژی هوش مصنوعی باشد و همچنین میخواستیم توسعه این ابزار توسط زیستشناسان برای زیستشناسان انجام شود.»
البته قبلا سیستمهای AutoML مختلف برای سادهسازی فرآیند تولید مدلهای ML از مجموعه دادهها توسعه یافته شدهاند ولی دارای اشکالاتی هستند.
در میان آنها، این واقعیت که هر ابزار AutoML طراحی شده است تا تنها به یک نوع مدل (به عنوان مثال، شبکههای عصبی) در هنگام جستجو برای یک راهحل بهینه نگاه کند؛ این مدل به دست آمده را به مجموعه محدودی از احتمالات محدود میکند، در حالی که در واقعیت، نوع متفاوتی از مدل در مجموع ممکن است بهینهتر باشد.
مسئله دیگر این است که اکثر ابزارهای AutoML به طور خاص برای گرفتن توالیهای بیولوژیکی به عنوان دادههای ورودی خود طراحی نشدهاند.
برخی از ابزارها توسعه داده شدهاند که از مدلهای زبانی برای تجزیه و تحلیل توالیهای بیولوژیکی استفاده کنند اما این ابزارها فاقد ویژگیهای اتوماسیون هستند و استفاده از آنها دشوار است.
پلتفرم BioAutoMATED به طور خودکار دادههای ورودی را از قبل پردازش میکند، سپس مدلهایی تولید میکند که میتوانند عملکردهای بیولوژیکی را تنها از طریق اطلاعات توالی پیش بینی کنند.
این پلتفرم همچنین دارای تعدادی ویژگی است که به کاربران کمک میکند تشخیص دهند که آیا نیاز به جمعآوری دادههای اضافی برای بهبود کیفیت خروجی دارند یا خیر؟
نوکلئوتیدها و پپتیدها و گلیکانها
تیم برای آزمایش چارچوب جدید خود، نیاز به بررسی داشت تا بفهمد که چگونه تغییر توالی یک RNA به نام محل اتصال ریبوزوم (RBS) بر کارایی که با آن یک ریبوزوم میتواند به RNA متصل شود و آن را به پروتئین ترجمه کند، تحت تأثیر قرار داد.
در مورد باکتری E. coli، آنها دادههای توالی خود را به BioAutoMATED دادند تا مدلی را که توسط الگوریتم DeepSwarm تولید شده بود و میتوانست کارایی ترجمه را به دقت، پیشبینی کند، شناسایی کنند.
این مدل توانست به خوبی مدلهای ایجاد شده توسط یک متخصص حرفهای ML عمل کند اما تنها در 26.5 دقیقه تولید شد و تنها به ده خط کد ورودی از کاربر نیاز داشت. آنها همچنین از BioAutoMATED برای شناسایی مناطقی از دنباله استفاده کردند که به نظر میرسد در تعیین کارایی ترجمه مهمترین هستند و دنبالههای جدیدی طراحی کردند که میتوان آنها را آزمایش کرد.
سپس آنها به سراغ آزمایشات تغذیه دادههای توالی پپتید و گلیکان به BioAutoMATED و استفاده از نتایج برای پاسخ به سؤالات خاص در مورد آن توالیها رفتند.
این سیستم اطلاعات بسیار دقیقی در مورد اینکه کدام اسیدهای آمینه در یک توالی پپتیدی در تعیین توانایی آنتی بادی برای اتصال به داروی ranibizumab (Lucentis) مهمتر هستند تولید کرد و همچنین انواع مختلف گلیکانها را بر اساس توالیهایشان به گروههای ایمونوژن و غیرایمونوژن طبقهبندی کرد.
این تیم همچنین از آن برای بهینهسازی توالی سوئیچهای پایه RNA استفاده کرد و از طراحی سوئیچهای نگهدارنده انگشتی جدید برای آزمایش تجربی با حداقل کدگذاری ورودی از کاربر خبر داد.
در نهایت، آنها توانستهاند نشان دهند که BioAutoMATED به افراد کمک میکند تا الگوها را در دادههای بیولوژیکی تشخیص دهند؛ سوالات بهتری در مورد آن دادهها بپرسند و به آن سوالات سریع پاسخ دهند.
هر مدلی که با کمک BioAutoMATED پیشبینی میشود، مانند هر ابزار ML دیگری باید تا حد امکان در آزمایشگاه تأیید اعتبار شود.
اما این تیم امیدوار است که بتواند بیشتر در مجموعه ابزارهای AutoML در حال رشد ادغام شود و روزی عملکرد خود را فراتر از توالیهای بیولوژیکی به هر جسم توالی مانندی مانند اثر انگشت گسترش دهد.
پژوهشگر دیگری اعتقاد دارد که آموزش ماشین و ابزارهای هوش مصنوعی مدتها است که وجود داشتهاند اما تنها با توسعه اخیر رابطهای کاربرپسندی چون ChatGPT محبوبیت پیدا کردهاند.