kunstig intelligens

Ny Google-teknologi lover å gjøre AI-modeller langt billigere å kjøre

Googles nye komprimeringsteknikk blir omtalt som årets AI-gjennombrudd. Det kan åpne for mer AI på svakere maskinvare – men neppe bremse behovet for nye datasentre, spår Cobrief-gründer og AI-ekspert Audun Wigun Arbo.

Audun Wigum Arbo (nummer tre fra venstre) med teamet i Cobrief.
Publisert

Google har sluppet Turboquant, en teknikk som ifølge selskapet kan gjøre store språkmodeller betydelig mer effektive i drift gjennom ekstrem komprimering av data.

Etter at nyheten ble sluppet, reagerte aksjekursene i flere databrikkeprodusenter og datasentre negativt.

Flere steder på internettet, og trolig med et glimt i øyet, sammenlignes teknologien med komprimeringsteknikken til den fiktive startupen Pied Piper i den populære TV-serien Silicon Valley fra 2014 til 2019.

Mens Pied Piper reduserte behovet for båndbredde når man streamer videoer uten tap av kvalitet, skal Turboquant-teknologien bidra til å redusere behovet for datakraft i AI-modeller.  

Cobrief-gründer Audun Wigum Arbo omtaler Turboquant som en klar forbedring, men understreker at dette først og fremst er et teknisk fremskritt i hvordan modellene kjøres.

—Turboquant er en bra forbedring, men ganske teknisk. I praksis er det en komprimeringsteknikk som gjør at større og kraftigere modeller kan kjøres raskere og mer effektivt, sier han til Shifter.

Kompleks endring

Bakgrunnen, slik den beskrives av den litauiske tech-eksperten Linas Beliunas på Linkedin, er at løsningen angriper et av de mest krevende punktene i moderne AI, minnebruken i den såkalte KV-cachen, som vokser jo mer tekst modellen skal håndtere.

Han omtaler det som årets AI-gjennombrudd.

Ifølge Beliunas kan Turboquant gi rundt seks ganger mindre KV-cache og opptil åtte ganger raskere attention-kjøring på Nvidias H100-brikker, uten tap i kvalitet i tester med svært lange kontekstvinduer.

En begrensning i dagens AI-modeller er nettopp hvor mye informasjon man kan laste inn i kontekstvinduet i form av tokens.

Per 2026 er det vanligste kontekstvinduet i kommersielle LLM-er 128.000–400.000 tokens, mens avanserte modeller tilbyr 1–2 millioner tokens, og enkelte open‑source gigantmodeller strekker seg opp til 10 millioner tokens.

Dette representerer en tidobling fra 2023–2024‑nivåene og har endret hvordan utviklere jobber med store dokumenter, kodebaser og flerlags konversasjoner.

Todelt effekt

Wigum Arbo mener effekten kan bli todelt. Enten kan selskaper bruke teknologien til å kjøre mer avanserte modeller på samme infrastruktur, eller så kan man flytte AI ned på svakere enheter som tidligere ikke hadde kapasitet. Det kan i teorien styrke utviklingen mot mer AI på laptopper, mobiler og andre enheter nær brukeren, heller enn bare i skyen.

–Alternativt kan man kjøre modeller på enheter med mindre kraftig hardware, som tidligere ikke kunne kjøre lignende modeller.

Beliunas trekker frem at dette kan gjøre kontekstvinduer på 100.000 til 1 million tokens mer praktiske ved å senke kostnadene knyttet til datakraft og analyse (inferens).

Audun Wigum Arbo tror likevel ikke slike effektiviseringsgrep vil redusere behovet for de store datasentrene som nå planlegges og bygges ut.

–Hver gang AI har blitt mer effektivt, har det bare ført til at man trener opp mer krevende modeller. Det kommer nok ikke til å være noe mindre behov for nye datasentre. Optimalisering som dette fører bare til at man kan gjøre enda mer, sier han.