Meta slipper Sapiens2: 5B-foundation-modell trent på 1 milliard menneskebilder slår forrige generasjon med 21 mIoU

Meta AI har sluppet Sapiens2, andre generasjon av foundation-modellen for menneskefokusert datasyn, ifølge en teknisk gjennomgang fra MarkTechPost 27. april. Modellen kommer i fire størrelser fra 0,4B til 5B parametre, kjører i 1024×768 native oppløsning og har en hierarkisk variant som strekker seg til 4K. 5B-versjonen er den største vision transformeren rapportert til dags dato med 15,72 TFLOPs.

Det reelle skiftet ligger i treningsregimet. Første generasjons Sapiens brukte ren Masked Autoencoder-pretrening (MAE), som lærer pikseldetaljer godt, men mangler høynivå-semantikk. Sapiens2 kombinerer MAE-rekonstruksjon med en kontrastiv DINOv3-basert global loss på CLS-tokenet, og dropper fargeaugmentering på de globale views. Resultatet er at modellen beholder de fargesignalene som er kritiske for albedo-estimering, mens den lærer semantisk struktur fra kontrastiv læring.

Datasettet «Humans-1B» ble destillert fra en pool på rundt 4 milliarder bilder gjennom flere filtreringssteg: bounding box-deteksjon, head-pose-estimering, estetikk-scoring, CLIP-feature-filter og text-overlay-fjerning. Etter dedup og clustering på visuelle embeddings sitter Meta igjen med en milliard bilder med minimum 384 piksler kort side, balansert på pose, klesplagg, lys og etnisitet.

«Selv den minste Sapiens2-0.4B-modellen scorer 79,5 mIoU på body-part segmentering, 21,3 punkter over Sapiens-2B fra første generasjon.» — Meta AI Research, paper-sammendrag

Tallene fra benchmark-suiten er konkrete. 5B-modellen treffer 82,3 mAP på 11K-bilder in-the-wild pose-test (mot 78,3 for forrige generasjon), 6,73° gjennomsnittlig vinkelfeil på normal-estimering (mot 10,73° for forrige SOTA DAViD-L), og 0,012 MAE på albedo. På frosne dense probing-tester slår Sapiens2-5B alle baselinjer, inkludert DINOv3-7B som har 1,5x flere parametre.

For deg som vil prøve modellen, ligger vekter, demoer og repo offentlig. Pose-estimerings-hodet bruker 308 keypoints med tett hånd- (40) og ansiktsdekning (243), så hvis du har slitt med fingre eller mimikk i tidligere modeller, er dette første steget mot en åpen modell som faktisk håndterer det.

Hva bør du gjøre?

Test 0.4B-modellen først lokalt. Den scorer over 5B-versjonen av forrige generasjon på segmentering, og passer på en moderne GPU med 16 GB minne.
Vurder hvilken oppgave du faktisk trenger før du går til 5B eller 4K-varianten. Pose og segmentering konvergerer raskt, mens normal og albedo nyter mer av høyere oppløsning og parametre.
Sjekk lisensvilkår før kommersiell bruk. Meta har historisk lagt restriksjoner på vision-foundation-modellene, så les modellkortet før du integrerer i et produkt.