Brukt server-GPU til 200 dollar kjører LLM bedre enn RTX 3060

Hackaday rapporterer at YouTube-kanalen Hardware Haven har dokumentert et arbitrasje-vindu i annenhåndsmarkedet for enterprise-GPU-er. En NVIDIA V100 16 GB i SXM2-formfaktor koster rundt 100 dollar på eBay fordi den ikke kan plugges direkte i et vanlig PCIe-kort. En adapterkort til 100 dollar løser problemet, og du må også 3D-printe en fan-shroud for å holde kjølingen i sjakk. Den samme V100 i PCIe-versjon koster typisk over 1000 dollar.

Kortet er ikke nytt og dateres tilbake til 2017, men spesifikasjonene står seg. I head-to-head mot en RTX 3060 12 GB leverte V100 flere tokens per sekund og litt høyere effektivitet, men idle-strømforbruket er betydelig høyere. SXM2 er ikke en buss men en alternativ formfaktor for PCIe-signaler, og adapterne ignorerer den proprietære NVLink-funksjonaliteten i sokkelen.

«Det var langt billigere å sette opp en remote gaming-server til niesene mine på denne måten enn å kjøpe diskrete GPU-er og presse dem inn i de små én-liter ex-corpo-desktopene jeg bygget for tre år siden.» — Kommentator på Hackaday som kjører V100 i Proxmox med 100 W-grense og to 8 GB vGPU-instanser

For deg som vil eksperimentere med modeller i 7B til 13B-klassen lokalt, er 16 GB VRAM en sweet spot som åpner for full FP16 på 7B-modeller eller Q4-quants av 13B. Tilsvarende ytelse i ny hardware krever en RTX 3090 brukt til 600-800 dollar eller en 4060 Ti 16 GB til rundt 500 dollar.

>_ NØKKELTALL

100 dollar: V100 16 GB på SXM2-sokkel

100 dollar: Adapter fra SXM2 til PCIe

1000 dollar: Typisk pris for PCIe-versjon av samme kort

Hva bør du gjøre?

Sjekk eBay for «V100 SXM2» og sammenlign med PCIe-versjonen. Pass på at selgere ikke har installert adapter på forhånd uten å oppgi det.
Beregn totalkostnad inkludert adapter, fan-shroud og strømforbruk. V100 har høyere idle-watts enn moderne kort.
Vurder alternativer hvis du vil unngå CUDA-fallgruver: en brukt RTX 3090 24 GB gir mer hodeplass for større modeller. Hailo H10 M.2 koster langt mindre men har bare 8 GB og 4 PCIe-lanes.
Test før du satser stort: kjør Ollama eller llama.cpp på kortet med en kjent modell og sjekk tokens/sek mot egen baseline.

Bakgrunn

SXM2 er NVIDIAs server-formfaktor som ble brukt i Volta-generasjonen (V100, 2017) før den ble erstattet av SXM4 i Ampere og SXM5 i Hopper. Annenhåndsmarkedet for utfaset enterprise-hardware har lenge vært en kanal for hjemme-laber, men prisene reflekterer nå at V100 ikke lenger støttes av nyeste CUDA-versjoner.