MaGGIe introduce seturile de date I-HIM50K și M-HIM2K, conținând peste 180.000 de măști umane sintetizate pentru evaluarea robusteții matting-ului de instanță.MaGGIe introduce seturile de date I-HIM50K și M-HIM2K, conținând peste 180.000 de măști umane sintetizate pentru evaluarea robusteții matting-ului de instanță.

Sintetizarea datelor de matting uman cu instanțe multiple folosind MaskRCNN și BG20K

2025/12/20 02:30

Rezumat și 1. Introducere

  1. Lucrări Conexe

  2. MaGGIe

    3.1. Matting Eficient de Instanțe Ghidat de Mască

    3.2. Consistența Temporală Caracteristică-Matte

  3. Seturi de Date pentru Matting de Instanțe

    4.1. Matting de Instanțe de Imagine și 4.2. Matting de Instanțe Video

  4. Experimente

    5.1. Pre-antrenare pe date de imagine

    5.2. Antrenare pe date video

  5. Discuții și Referințe

\ Material Suplimentar

  1. Detalii de arhitectură

  2. Matting de imagine

    8.1. Generarea și pregătirea setului de date

    8.2. Detalii de antrenare

    8.3. Detalii cantitative

    8.4. Mai multe rezultate calitative pe imagini naturale

  3. Matting video

    9.1. Generarea setului de date

    9.2. Detalii de antrenare

    9.3. Detalii cantitative

    9.4. Mai multe rezultate calitative

8. Matting de imagine

Această secțiune detaliază procesul de matting de imagine, oferind perspective suplimentare asupra generării setului de date și comparații cuprinzătoare cu metodele existente. Intrăm în detaliile creării seturilor de date I-HIM50K și M-HIM2K, oferim analize cantitative detaliate și prezentăm rezultate calitative suplimentare pentru a sublinia eficacitatea abordării noastre.

8.1. Generarea și pregătirea setului de date

Setul de date I-HIM50K a fost sintetizat din setul de date HHM50K [50], cunoscut pentru colecția sa extinsă de matte-uri de imagini umane. Am folosit un model MaskRCNN [14] Resnet-50 FPN 3x, antrenat pe setul de date COCO, pentru a filtra imaginile cu o singură persoană, rezultând un subset de 35 053 de imagini. Urmând metodologia InstMatt [49], aceste imagini au fost compuse pe fundaluri diverse din setul de date BG20K [29], creând scenarii cu instanțe multiple cu 2-5 subiecți pe imagine. Subiecții au fost redimensionați și poziționați pentru a menține o scară realistă și pentru a evita suprapunerea excesivă, așa cum indică IoU-urile instanțelor care nu depășesc 30%. Acest proces a generat 49 737 de imagini, cu o medie de 2,28 instanțe pe imagine. În timpul antrenării, măștile de ghidare au fost generate prin binarizarea matte-urilor alfa și aplicarea operațiilor aleatorii de dropout, dilatare și eroziune. Imagini demonstrative din I-HIM50K sunt afișate în Fig. 10.

\ Setul de date M-HIM2K a fost conceput pentru a testa robustețea modelului față de calități variate ale măștilor. Acesta cuprinde zece măști pe instanță, generate folosind diverse modele MaskRCNN. Mai multe informații despre modelele utilizate pentru acest proces de generare sunt prezentate în Tabelul 8. Măștile au fost potrivite cu instanțele pe baza celui mai mare IoU cu matte-urile alfa de referință, asigurând un prag minim IoU de 70%. Măștile care nu au îndeplinit acest prag au fost generate artificial din referința reală. Acest proces a rezultat într-un set cuprinzător de 134 240 de măști, cu 117 660 pentru imagini compozite și 16 600 pentru imagini naturale, oferind un benchmark solid pentru evaluarea matting-ului de instanțe ghidat de mască. Setul complet de date I-HIM50K și M-HIM2K va fi lansat după acceptarea acestei lucrări.

\ Figura 10. Exemple din setul de date I-HIM50K. (Cel mai bine vizualizat în culori).

\ Tabelul 8. Zece modele cu calitate variată a măștilor sunt utilizate în MHIM2K. Modelele MaskRCNN provin din detectron2 antrenat pe COCO cu setări diferite.

\

:::info Autori:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Această lucrare este disponibilă pe arxiv sub licența CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Oportunitate de piață
Logo Multichain
Pret Multichain (MULTI)
$0.03822
$0.03822$0.03822
+2.68%
USD
Multichain (MULTI) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează [email protected] pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.