Microsoft Foundry Local 1.1: lokal taletranskribering, embeddings og Responses API

Releasen kom 13. mai. Foundry Local er Microsofts cross-platform lokale KI-løsning som lar deg kjøre modeller direkte i applikasjonen din uten skyavhengighet, nettverkslatens eller tokenkost.

Tre nye API-er er hovedinnholdet. Live Transcription API streamer rå PCM-lyd fra mikrofonen og returnerer transkripsjon mens du snakker, med tydelige is_final-markører. Embeddings API støtter både single og batch input, kompatibel med OpenAIs embeddings-format. Responses API gir streaming, multi-turn-samtaler via previous_response_id, verktøykall og multimodal input.

Den mest interessante optimaliseringen ligger på speech-modellen. Microsoft testet over 50 ASR-konfigurasjoner, blant annet Whisper, Nemotron, Parakeet TDT, Canary, Conformer Transducer og Qwen3-ASR, og endte med NVIDIAs Nemotron Speech Streaming. De re-implementerte streaming-pipelinen i ONNX Runtime og brukte post-training kvantisering med importance-weighted k-quant, mixed-precision og round-to-nearest, kombinert med graph-level operatorfusion. Resultat: modellen krympet fra 2,47 GB til 0,67 GB med int4 k-quant, og WER holdt seg innenfor 1 prosent av PyTorch-baseline.

>_ NØKKELTALL

8,20 %: gjennomsnittlig streaming-WER på åtte standard-benchmarks

0,56 s: algoritmisk latens på CPU

0,67 GB: nytt modellfotavtrykk for nemotron-speech-streaming-en-0.6b

4 SDK-er: C#, JavaScript, Python, Rust

Pakken er også slankere. Microsoft byttet ut koffi-FFI med en custom Node-API C-addon for JS-pakken. WebGPU-execution provideren leveres nå som en separat plugin slik at apper som ikke trenger den slipper ekstra vekt. C# SDK-en targeter lavere .NET-versjoner for bredere kompatibilitet.

Hva bør du gjøre?

Verifiser at JS-bundle-størrelsen din krymper. Hvis du bygger en Electron- eller Node-app rundt Foundry Local, kan du nå droppe WebGPU-EP fra default-pakken og laste den eksplisitt.
Test Nemotron Speech Streaming hvis du har en live-transkripsjon-prototyp. Den er foreløpig engelsk-only via nemotron-speech-streaming-en-0.6b, men 0,56 s latens på CPU er konkurransedyktig.
Bytt embeddings-koden over til Foundry Local for sensitive data. API-et følger OpenAI-formatet, så koden er stort sett portabel — eksempelet med ChromaDB i releasen viser oppsettet.