خلاصه و 1. مقدمه
کارهای مرتبط
MaGGIe
3.1. متینگ نمونه راهنمای ماسکشده کارآمد
3.2. ثبات زمانی ویژگی-مت
مجموعه دادههای متینگ نمونه
4.1. متینگ نمونه تصویر و 4.2. متینگ نمونه ویدیو
آزمایشها
5.1. پیشآموزش بر روی دادههای تصویر
5.2. آموزش بر روی دادههای ویدیو
بحث و مراجع
\ مطالب تکمیلی
جزئیات معماری
متینگ تصویر
8.1. تولید و آمادهسازی مجموعه داده
8.2. جزئیات آموزش
8.3. جزئیات کمی
8.4. نتایج کیفی بیشتر بر روی تصاویر طبیعی
متینگ ویدیو
9.1. تولید مجموعه داده
9.2. جزئیات آموزش
9.3. جزئیات کمی
9.4. نتایج کیفی بیشتر
این بخش فرآیند متینگ تصویر را گسترش میدهد و بینشهای اضافی در مورد تولید مجموعه داده و مقایسههای جامع با روشهای موجود ارائه میکند. ما به ایجاد مجموعه دادههای I-HIM50K و M-HIM2K میپردازیم، تحلیلهای کمی دقیق ارائه میدهیم و نتایج کیفی بیشتری را برای تأکید بر اثربخشی رویکرد خود ارائه میکنیم.
مجموعه داده I-HIM50K از مجموعه داده HHM50K [50] ترکیب شده است که به دلیل مجموعه گستردهاش از متهای تصویر انسانی شناخته شده است. ما از یک مدل MaskRCNN [14] Resnet-50 FPN 3x که بر روی مجموعه داده COCO آموزش دیده بود، برای فیلتر کردن تصاویر تکنفره استفاده کردیم که منجر به زیرمجموعهای از 35,053 تصویر شد. با پیروی از روش InstMatt [49]، این تصاویر در برابر پسزمینههای متنوع از مجموعه داده BG20K [29] ترکیب شدند و سناریوهای چند نمونهای با 2 تا 5 موضوع در هر تصویر ایجاد کردند. موضوعات برای حفظ مقیاس واقعگرایانه و اجتناب از همپوشانی بیش از حد تغییر اندازه و موقعیتیابی شدند، همانطور که با IoU نمونهها که از 30% تجاوز نمیکنند نشان داده شده است. این فرآیند 49,737 تصویر را به دست آورد که به طور میانگین 2.28 نمونه در هر تصویر دارد. در طول آموزش، ماسکهای راهنما با باینری کردن متهای آلفا و اعمال عملیات حذف تصادفی، اتساع و فرسایش تولید شدند. نمونه تصاویر از I-HIM50K در شکل 10 نمایش داده شده است.
\ مجموعه داده M-HIM2K برای آزمایش استحکام مدل در برابر کیفیتهای مختلف ماسک طراحی شد. این شامل ده ماسک به ازای هر نمونه است که با استفاده از مدلهای مختلف MaskRCNN تولید شدهاند. اطلاعات بیشتر در مورد مدلهای استفاده شده برای این فرآیند تولید در جدول 8 نشان داده شده است. ماسکها بر اساس بالاترین IoU با متهای آلفای واقعی با نمونهها مطابقت داده شدند و حداقل آستانه IoU 70% را تضمین کردند. ماسکهایی که این آستانه را برآورده نکردند به طور مصنوعی از واقعیت تولید شدند. این فرآیند منجر به مجموعهای جامع از 134,240 ماسک شد که 117,660 مورد برای ترکیبی و 16,600 مورد برای تصاویر طبیعی بود و معیار استواری برای ارزیابی متینگ نمونه راهنمای ماسکشده فراهم کرد. مجموعه داده کامل I-HIM50K و M-HIM2K پس از پذیرش این کار منتشر خواهد شد.
\ 
\ 
\
:::info نویسندگان:
(1) Chuong Huynh, دانشگاه مریلند، کالج پارک ([email protected])؛
(2) Seoung Wug Oh, Adobe Research (seoh,[email protected])؛
(3) Abhinav Shrivastava, دانشگاه مریلند، کالج پارک ([email protected])؛
(4) Joon-Young Lee, Adobe Research ([email protected]).
:::
:::info این مقاله در arxiv موجود است تحت مجوز CC by 4.0 Deed (Attribution 4.0 International).
:::
\


