پنج روش اصلی بینایی کامپیوتری

بدون دیدگاه

8 اردیبهشت 1400

امتیاز دهید

بینایی کامپیوتری داغ‌ترین زمینه تحقیقاتی در بحث یادگیری عمیق است و در بسیاری از رشته‌های دانشگاهی مانند علوم کامپیوتر، ریاضیات، مهندسی، زیست‌شناسی و روانشناسی کاربرد دارد.

بینایی کامپیوتری نشان‌دهنده درک نسبی از محیط‌های بصری است؛ بنابراین، به دلیل تسلط بین‌حوزه‌ای، بسیاری از دانشمندان معتقدند که این زمینه راه را برای هوش عمومی مصنوعی هموار می‌کند.

تحولات اخیر در شبکه‌های عصبی و رویکردهای یادگیری عمیق، عملکرد دستگاه‌های تشخیص بصری را بسیار پیشرفت داده است.

طبقه‌بندی تصویر

وضوح تصویر شامل چالش‌های مختلفی است، از جمله تغییر بینایی، تغییر مقیاس، تنوع درون طبقه‌ای، تغییر شکل تصویر، انسداد تصویر، شرایط روشنایی و به‌هم‌ریختگی پس‌زمینه.

محققان بینایی کامپیوتری برای طبقه‌بندی تصاویر در دسته‌های مجزا، رویکرد داده محور را ارائه داده‌اند. آن‌ها چند مثال از هر طبقه از تصاویر را در اختیار کامپیوتر قرار داده و الگوریتم‌های یادگیری را گسترش می‌دهند.

به‌طور خلاصه، اولین مجموعه داده آموزشی از تصاویر دارای برچسب جمع می‌شود و سپس در اختیار کامپیوتر گذاشته می‌شود تا داده‌ها پردازش شوند.

CNNs (شبکه عصبی پیچشی) معروف‌ترین معماری‌ای است که برای طبقه‌بندی تصاویر استفاده می‌شود. یک مورد از کاربردهای معمولی CNN، محلی است که شخص تصاویر شبکه را تغذیه می‌کند و شبکه داده‌ها را دسته‌بندی می‌کند. CNN تمایل دارد که با یک اسکنر ورودی که هدف آن تجزیه همه داده‌های آموزش هم‌زمان نیست، شروع به کار کند. به‌عنوان‌مثال، برای واردکردن تصویر 100× 100 پیکسل، یک لایه با 10،000 گره نمی‌خواهد.

تشخیص اشیا

وظیفه شناسایی اشیا درون تصاویر معمولاً شامل خروجی جعبه‌ها و برچسب‌های محدودکننده برای موارد واحد است. شناسایی اشیا با استفاده از طبقه‌بندی و بومی‌سازی در بسیاری از اشیا به‌جای یکشی غالب، با کار طبقه‌بندی تصاویر متفاوت است.

فقط دو نوع طبقه‌بندی اشیا وجود دارد. یکی جعبه‌های محدودکننده اشیا و دیگری جعبه‌های محدودکننده بدون شی (non-object). به‌عنوان‌مثال، در تشخیص وسایل نقلیه، شخص باید تمام وسایل نقلیه، ازجمله دوچرخ و چهارچرخ را در یک تصویر مشخص با جعبه‌های اتصال خود شناسایی کند.

اگر با استفاده از روش Sliding Window تصاویر را طبقه‌بندی می‌کنیم، باید CNN را برای محصولات مختلف تصویر اعمال کنیم. به این دلیل که CNN هر محصول را به‌عنوان شی یا پس‌زمینه طبقه‌بندی می‌کند. سپس ما باید از CNN در تعداد زیادی مکان و مقیاس که ازنظر محاسباتی بسیار پرهزینه هستند استفاده کنیم.

ردیابی شی

ردیابی شی، روند دنبال کردن یک یا چند مورد خاص و موردنظر را نشان می‌دهد. به‌طور سنتی این برنامه در تعاملات ویدئویی و دنیای واقعی که در آن مشاهدات پس از تشخیص اولیه جسم انجام می‌شود، کاربرد دارد.

طبق مدل مشاهده می‌توان آن را به دودسته تقسیم کرد. یکی از آن‌ها روش تولید است که از یک مدل تولیدی برای توصیف خصوصیات ظاهری استفاده می‌شود و از روش افتراقی می‌توان شی و پس‌زمینه را متمایز کرد. عملکرد آن قوی‌تر است و کم‌کم به روش اصلی در ردیابی تبدیل می‌شود.

تقسیم‌بندی معنایی

بینایی کامپیوتری فرآیند تقسیم‌بندی است که تصاویر کل را به گروه‌بندی پیکسلی که می‌تواند برچسب‌گذاری و طبقه‌بندی شود، متمایز می‌کند. تقسیم‌بندی معنایی سعی می‌کند نقش هر پیکسل را در تصویر درک کند.

به‌عنوان‌مثال، اگر منظره‌ای را انتخاب کنیم که بتوانیم افراد، جاده‌ها، ماشین‌ها و شیارها را ببینیم، باید مرزهای هر شی را مشخص کنیم؛ بنابراین، برخلاف طبقه‌بندی، ما به پیش‌بینی متراکم پیکسلی از مدل‌ها نیاز داریم.

تقسیم‌بندی نمونه

نمونه، شامل تقسیم‌بندی مدل‌های مختلف طبقه‌ها مانند برچسب‌گذاری پنج اتومبیل با پنج رنگ مختلف است. در طبقه‌بندی، معمولاً تصویری با یک شی واحد به‌عنوان کانون وجود دارد و وظیفه این است که شناسایی کنید که این تصویر چیست.

مناظر پیچیده‌ای را با چندین شی که با هم همپوشانی دارند و همچنین با پس‌زمینه‌های مختلف مشاهده می‌کنیم. ما نه‌تنها این اشیا دیگر را طبقه‌بندی می‌کنیم بلکه مرزها، اختلافات و روابط آن‌ها را با یکدیگر تشخیص می‌دهیم.

روش‌های استخراج عصاره گیاهان دارویی