MaGGIe eccelle nel rendering dei capelli e nella separazione delle istanze su immagini naturali, superando MGM e InstMatt in scenari complessi con più istanze.MaGGIe eccelle nel rendering dei capelli e nella separazione delle istanze su immagini naturali, superando MGM e InstMatt in scenari complessi con più istanze.

Matting Robusto Guidato da Maschera: Gestione di Input con Rumore e Versatilità degli Oggetti

2025/12/21 02:00

Astratto e 1. Introduzione

  1. Lavori Correlati

  2. MaGGIe

    3.1. Efficient Masked Guided Instance Matting

    3.2. Feature-Matte Temporal Consistency

  3. Instance Matting Datasets

    4.1. Image Instance Matting e 4.2. Video Instance Matting

  4. Esperimenti

    5.1. Pre-training su dati immagine

    5.2. Training su dati video

  5. Discussione e Riferimenti

\ Materiale Supplementare

  1. Dettagli architettura

  2. Image matting

    8.1. Generazione e preparazione del dataset

    8.2. Dettagli training

    8.3. Dettagli quantitativi

    8.4. Ulteriori risultati qualitativi su immagini naturali

  3. Video matting

    9.1. Generazione del dataset

    9.2. Dettagli training

    9.3. Dettagli quantitativi

    9.4. Ulteriori risultati qualitativi

8.4. Ulteriori risultati qualitativi su immagini naturali

La Fig. 13 mostra le prestazioni del nostro modello in scenari complessi, in particolare nel rendering accurato delle regioni dei capelli. Il nostro framework supera costantemente MGM⋆ nella conservazione dei dettagli, specialmente nelle interazioni complesse tra istanze. In confronto con InstMatt, il nostro modello esibisce una separazione delle istanze superiore e un'accuratezza dei dettagli nelle regioni ambigue.

\ La Fig. 14 e la Fig. 15 illustrano le prestazioni del nostro modello e dei lavori precedenti in casi estremi che coinvolgono istanze multiple. Mentre MGM⋆ fatica con il rumore e l'accuratezza in scenari con istanze dense, il nostro modello mantiene un'alta precisione. InstMatt, senza dati di training aggiuntivi, mostra limitazioni in questi contesti complessi.

\ La robustezza del nostro approccio guidato da maschera è ulteriormente dimostrata nella Fig. 16. Qui, evidenziamo le sfide affrontate dalle varianti MGM e SparseMat nel predire le parti mancanti negli input delle maschere, che il nostro modello affronta. Tuttavia, è importante notare che il nostro modello non è progettato come rete di segmentazione delle istanze umane. Come mostrato nella Fig. 17, il nostro framework aderisce alla guida di input, garantendo una previsione precisa dell'alpha matte anche con istanze multiple nella stessa maschera.

\ Infine, la Fig. 12 e la Fig. 11 enfatizzano le capacità di generalizzazione del nostro modello. Il modello estrae accuratamente sia i soggetti umani che altri oggetti dagli sfondi, mostrando la sua versatilità attraverso vari scenari e tipi di oggetti.

\ Tutti gli esempi sono immagini Internet senza ground-truth e la maschera da r101fpn400e viene utilizzata come guida.

\ Figura 13. Il nostro modello produce alpha matte altamente dettagliati su immagini naturali. I nostri risultati mostrano che è accurato e comparabile con i precedenti metodi instance-agnostic e instance-awareness senza costi computazionali elevati. I quadrati rossi ingrandiscono le regioni di dettaglio per ogni istanza. (Meglio visualizzato a colori e con zoom digitale).

\ Figura 14. I nostri framework separano precisamente le istanze in un caso estremo con molte istanze. Mentre MGM causa spesso sovrapposizioni tra istanze e MGM⋆ contiene rumore, il nostro produce risultati paragonabili a InstMatt addestrato sul dataset esterno. La freccia rossa indica gli errori. (Meglio visualizzato a colori e con zoom digitale).

\ Figura 15. I nostri framework separano precisamente le istanze in un singolo passaggio. La soluzione proposta mostra risultati comparabili con InstMatt e MGM senza eseguire la previsione/raffinamento cinque volte. La freccia rossa indica gli errori. (Meglio visualizzato a colori e con zoom digitale).

\ Figura 16. A differenza di MGM e SparseMat, il nostro modello è robusto alla maschera di guida di input. Con l'attention head, il nostro modello produce risultati più stabili agli input delle maschere senza raffinamento complesso tra istanze come InstMatt. La freccia rossa indica gli errori. (Meglio visualizzato a colori e con zoom digitale).

\ Figura 17. La nostra soluzione funziona correttamente con guide di maschere multi-istanza. Quando esistono istanze multiple in una maschera di guida, produciamo comunque l'alpha matte unione corretto per quelle istanze. La freccia rossa indica gli errori o la regione di zoom nel riquadro rosso. (Meglio visualizzato a colori e con zoom digitale).

\ Tabella 12. Dettagli dei risultati quantitativi su HIM2K+M-HIM2K (Estensione della Tabella 5). Il grigio indica il peso pubblico senza riaddestramento.

\ Tabella 12. Dettagli dei risultati quantitativi su HIM2K+M-HIM2K (Estensione della Tabella 5). Il grigio indica il peso pubblico senza riaddestramento. (Continua)

\ Tabella 12. Dettagli dei risultati quantitativi su HIM2K+M-HIM2K (Estensione della Tabella 5). Il grigio indica il peso pubblico senza riaddestramento. (Continua)

\ Tabella 12. Dettagli dei risultati quantitativi su HIM2K+M-HIM2K (Estensione della Tabella 5). Il grigio indica il peso pubblico senza riaddestramento. (Continua)

\ Tabella 13. L'efficacia dei moduli di coerenza temporale proposti su V-HIM60 (Estensione della Tabella 6). La combinazione di Conv-GRU bidirezionale e fusione forward-backward raggiunge le migliori prestazioni complessive sui tre set di test. Il grassetto evidenzia il migliore per ogni livello.

\

:::info Autori:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Questo documento è disponibile su arxiv sotto licenza CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Opportunità di mercato
Logo Mask Network
Valore Mask Network (MASK)
$0.5801
$0.5801$0.5801
+1.16%
USD
Grafico dei prezzi in tempo reale di Mask Network (MASK)
Disclaimer: gli articoli ripubblicati su questo sito provengono da piattaforme pubbliche e sono forniti esclusivamente a scopo informativo. Non riflettono necessariamente le opinioni di MEXC. Tutti i diritti rimangono agli autori originali. Se ritieni che un contenuto violi i diritti di terze parti, contatta [email protected] per la rimozione. MEXC non fornisce alcuna garanzia in merito all'accuratezza, completezza o tempestività del contenuto e non è responsabile per eventuali azioni intraprese sulla base delle informazioni fornite. Il contenuto non costituisce consulenza finanziaria, legale o professionale di altro tipo, né deve essere considerato una raccomandazione o un'approvazione da parte di MEXC.