بینایی کامپیوتری داغترین زمینه تحقیقاتی در بحث یادگیری عمیق است و در بسیاری از رشتههای دانشگاهی مانند علوم کامپیوتر، ریاضیات، مهندسی، زیستشناسی و روانشناسی کاربرد دارد.
بینایی کامپیوتری نشاندهنده درک نسبی از محیطهای بصری است؛ بنابراین، به دلیل تسلط بینحوزهای، بسیاری از دانشمندان معتقدند که این زمینه راه را برای هوش عمومی مصنوعی هموار میکند.
تحولات اخیر در شبکههای عصبی و رویکردهای یادگیری عمیق، عملکرد دستگاههای تشخیص بصری را بسیار پیشرفت داده است.
طبقهبندی تصویر
وضوح تصویر شامل چالشهای مختلفی است، از جمله تغییر بینایی، تغییر مقیاس، تنوع درون طبقهای، تغییر شکل تصویر، انسداد تصویر، شرایط روشنایی و بههمریختگی پسزمینه.
محققان بینایی کامپیوتری برای طبقهبندی تصاویر در دستههای مجزا، رویکرد داده محور را ارائه دادهاند. آنها چند مثال از هر طبقه از تصاویر را در اختیار کامپیوتر قرار داده و الگوریتمهای یادگیری را گسترش میدهند.
بهطور خلاصه، اولین مجموعه داده آموزشی از تصاویر دارای برچسب جمع میشود و سپس در اختیار کامپیوتر گذاشته میشود تا دادهها پردازش شوند.
CNNs (شبکه عصبی پیچشی) معروفترین معماریای است که برای طبقهبندی تصاویر استفاده میشود. یک مورد از کاربردهای معمولی CNN، محلی است که شخص تصاویر شبکه را تغذیه میکند و شبکه دادهها را دستهبندی میکند. CNN تمایل دارد که با یک اسکنر ورودی که هدف آن تجزیه همه دادههای آموزش همزمان نیست، شروع به کار کند. بهعنوانمثال، برای واردکردن تصویر 100× 100 پیکسل، یک لایه با 10،000 گره نمیخواهد.
تشخیص اشیا
وظیفه شناسایی اشیا درون تصاویر معمولاً شامل خروجی جعبهها و برچسبهای محدودکننده برای موارد واحد است. شناسایی اشیا با استفاده از طبقهبندی و بومیسازی در بسیاری از اشیا بهجای یکشی غالب، با کار طبقهبندی تصاویر متفاوت است.
فقط دو نوع طبقهبندی اشیا وجود دارد. یکی جعبههای محدودکننده اشیا و دیگری جعبههای محدودکننده بدون شی (non-object). بهعنوانمثال، در تشخیص وسایل نقلیه، شخص باید تمام وسایل نقلیه، ازجمله دوچرخ و چهارچرخ را در یک تصویر مشخص با جعبههای اتصال خود شناسایی کند.
اگر با استفاده از روش Sliding Window تصاویر را طبقهبندی میکنیم، باید CNN را برای محصولات مختلف تصویر اعمال کنیم. به این دلیل که CNN هر محصول را بهعنوان شی یا پسزمینه طبقهبندی میکند. سپس ما باید از CNN در تعداد زیادی مکان و مقیاس که ازنظر محاسباتی بسیار پرهزینه هستند استفاده کنیم.
ردیابی شی
ردیابی شی، روند دنبال کردن یک یا چند مورد خاص و موردنظر را نشان میدهد. بهطور سنتی این برنامه در تعاملات ویدئویی و دنیای واقعی که در آن مشاهدات پس از تشخیص اولیه جسم انجام میشود، کاربرد دارد.
طبق مدل مشاهده میتوان آن را به دودسته تقسیم کرد. یکی از آنها روش تولید است که از یک مدل تولیدی برای توصیف خصوصیات ظاهری استفاده میشود و از روش افتراقی میتوان شی و پسزمینه را متمایز کرد. عملکرد آن قویتر است و کمکم به روش اصلی در ردیابی تبدیل میشود.
تقسیمبندی معنایی
بینایی کامپیوتری فرآیند تقسیمبندی است که تصاویر کل را به گروهبندی پیکسلی که میتواند برچسبگذاری و طبقهبندی شود، متمایز میکند. تقسیمبندی معنایی سعی میکند نقش هر پیکسل را در تصویر درک کند.
بهعنوانمثال، اگر منظرهای را انتخاب کنیم که بتوانیم افراد، جادهها، ماشینها و شیارها را ببینیم، باید مرزهای هر شی را مشخص کنیم؛ بنابراین، برخلاف طبقهبندی، ما به پیشبینی متراکم پیکسلی از مدلها نیاز داریم.
تقسیمبندی نمونه
نمونه، شامل تقسیمبندی مدلهای مختلف طبقهها مانند برچسبگذاری پنج اتومبیل با پنج رنگ مختلف است. در طبقهبندی، معمولاً تصویری با یک شی واحد بهعنوان کانون وجود دارد و وظیفه این است که شناسایی کنید که این تصویر چیست.
مناظر پیچیدهای را با چندین شی که با هم همپوشانی دارند و همچنین با پسزمینههای مختلف مشاهده میکنیم. ما نهتنها این اشیا دیگر را طبقهبندی میکنیم بلکه مرزها، اختلافات و روابط آنها را با یکدیگر تشخیص میدهیم.