Orthrus gør LLM-inference 6x hurtigere uden at miste en eneste token

Flaskehalsen i autoregressive modeller

Autoregressive language models genererer tokens sekventielt. Hver token afhænger af den forrige. Det er fundamentalt for kvaliteten, men det er også grunden til at inference er langsom og dyr.

Speculative decoding har været standardsvaret i et par år. Man træner en lille draft-model til at gætte de næste tokens, og den store model verificerer. Det virker, men det koster ekstra VRAM til draft-modellen, og acceptance rates falder når reasoning bliver kompleks.

Orthrus - fra University of Oregon, Google DeepMind og Adobe Research - tager en anden vej. I stedet for to separate modeller bruger de én model med to perspektiver.

Dual-view arkitekturen

Kernen i Orthrus er en dual-view arkitektur hvor samme model opererer i to modes samtidig:

Autoregressive view - håndterer context pre-filling og producerer high-fidelity KV-repræsentationer
Diffusion view - genererer multiple tokens parallelt baseret på samme KV cache
Delt KV cache - begge views deler præcis samme cache, hvilket giver O(1) memory overhead
Exact intra-model consensus - en verifikationsmekanisme der garanterer at output er matematisk identisk med standard autoregressive decoding
16% parameter fine-tuning - base LLM forbliver frosset, kun diffusion-hovedet trænes
Trænet på en enkelt 8xH200 node med FlexAttention og FlashAttention-4

Det afgørende er den delte KV cache. Hvor speculative decoding kræver separat hukommelse til draft-modellen, tilføjer Orthrus næsten ingen ekstra memory footprint. Diffusion-viewet piggyback'er på de repræsentationer som det autoregressive view allerede har beregnet.

Diagram over Orthrus dual-view arkitektur: input tokens deler KV cache mellem autoregressive og diffusion view, konsensusmekanisme verificerer output

Benchmarks - tallene der tæller

Orthrus er testet på Qwen3-modeller i flere størrelser. Her er de centrale resultater:

Model	Acceptance length	Speedup vs. baseline
Orthrus-Qwen3-8B	11.7	5.36x (op til 7.8x)
Orthrus-Qwen3-4B	-	5.20x
Orthrus-Qwen3-1.7B	-	4.25x
EAGLE-3	3.5	-
DFlash	7.9	-

En acceptance length på 11.7 betyder at diffusion-viewet i gennemsnit genererer næsten 12 tokens der alle accepteres af verifikationsmekanismen. Til sammenligning rammer EAGLE-3 kun 3.5.

På MATH-500 benchmarket bevarer Orthrus fuld accuracy. Fast-dLLM-v2 - en anden diffusion-baseret metode - lider målbare accuracy drops. Orthrus' fordel bliver større med længere kontekster, hvilket gør den særligt relevant for reasoning-opgaver og lange samtaler.

Hvorfor ikke bare speculative decoding

Speculative decoding (EAGLE-3, Medusa, Lookahead) bruger en separat draft-model der forsøger at forudsige hvad den store model ville sige. Det skaber to fundamentale problemer:

Draft-modellen kræver sin egen VRAM. Ved 8B-skala er det typisk 1-2B ekstra parametre der skal ligge i hukommelsen. Orthrus deler KV cache nativt og tilføjer kun de 16% parametre der udgør diffusion-hovedet.

Acceptance rates i speculative decoding degraderer når opgaven kræver kompleks reasoning. Draft-modellen er for lille til at følge med. Orthrus undgår problemet fordi begge views er samme model - diffusion-viewet har adgang til præcis den samme viden og kapacitet som det autoregressive view.

Tænk på det sådan: speculative decoding er to separate modeller der prøver at blive enige. Orthrus er én model der kigger på problemet fra to vinkler samtidig.

Perspektiv

Orthrus er MIT-licenseret med Qwen3 backbone. Alle checkpoints er tilgængelige på GitHub. Det gør det praktisk at eksperimentere med i dag.

At kun 16% af parametrene fine-tunes betyder at metoden kan appliceres til nye base models uden massiv compute. Det er ikke en fuld re-training - det er et modul der boltes på.

Hvis inference-omkostninger er barrieren for at skalere AI, angriber teknikker som Orthrus problemet på arkitekturniveau frem for bare at kaste mere hardware efter det. En 5-6x speedup uden kvalitetstab ændrer regnestykket fundamentalt for enhver workload der er latency-bound.

Dual-view mønsteret - én model, to decoding-strategier, delt state - kunne blive standard for production inference. Det løser det rigtige problem uden at introducere den kompleksitet som separate draft-modeller medfører.

Kilde: Orthrus (GitHub)