Google's Gemini 2.5 Flash introduceert 'denkbudgetten' die AI-kosten met 600% verlagen
Google heeft Gemini 2.5 Flash gelanceerd, een belangrijke upgrade van zijn AI-aanbod die bedrijven en ontwikkelaars ongekende controle biedt over hoeveel "denken" hun AI uitvoert. Dit nieuwe model, dat vandaag in preview is vrijgegeven via Google AI Studio en Vertex AI, vertegenwoordigt een strategische inspanning om verbeterde redeneercapaciteiten te leveren terwijl concurrerende prijzen worden gehandhaafd in de steeds voller wordende AI-markt.
Het model introduceert wat Google een "denkbudget" noemt — een mechanisme waarmee ontwikkelaars kunnen specificeren hoeveel rekencapaciteit moet worden toegewezen aan het redeneren door complexe problemen voordat een antwoord wordt gegenereerd. Deze aanpak is bedoeld om een fundamentele spanning in de huidige AI-markt aan te pakken: meer geavanceerd redeneren gaat meestal gepaard met hogere latentie en kosten.
Beveiliging van de Super Bowl
„We weten dat kosten en latentie belangrijk zijn voor verschillende ontwikkeltoepassingen, en daarom willen we ontwikkelaars de flexibiliteit bieden om de hoeveelheid denken die het model doet, aan te passen aan hun behoeften,” zei Tulsee Doshi, Product Director voor Gemini-modellen bij Google DeepMind, in een exclusief interview.
Deze flexibiliteit onthult Google’s pragmatische benadering van AI-implementatie, nu de technologie steeds meer wordt ingebed in zakelijke toepassingen waar kosteneffectiviteit essentieel is. Door de denkcapaciteit in of uit te kunnen schakelen, heeft Google wat het zijn "eerste volledig hybride redeneer model" noemt gecreëerd.
Betaal alleen voor de denkcapaciteit die je nodig hebt
De nieuwe prijsstructuur benadrukt de kosten van redeneren in de huidige AI-systemen. Bij het gebruik van Gemini 2.5 Flash betalen ontwikkelaars $0,15 per miljoen tokens voor input. De kosten voor output variëren sterk op basis van de redeneringsinstellingen: $0,60 per miljoen tokens met denken uit, en $3,50 per miljoen tokens met redeneren ingeschakeld.
Dit bijna zesvoudige prijsverschil voor beredeneerde uitgangen weerspiegelt de computationele intensiteit van het "denk" proces, waarbij het model meerdere potentiële paden en overwegingen beoordeelt voordat een antwoord wordt gegenereerd.
„Klanten betalen voor alle denk- en uitvoertokens die het model genereert,” vertelde Doshi. „In de gebruikersinterface van AI Studio kun je deze gedachten zien voordat er een antwoord komt. In de API bieden we momenteel geen toegang tot de gedachten, maar een ontwikkelaar kan zien hoeveel tokens zijn gegenereerd.”
Het denkbudget kan worden aangepast van 0 tot 24.576 tokens, wat fungeert als een maximaal limiet in plaats van een vaste toewijzing. Volgens Google bepaalt het model intelligent hoeveel van dit budget moet worden gebruikt op basis van de complexiteit van de taak, waarbij middelen worden behouden wanneer uitgebreid redeneren niet nodig is.
Hoe Gemini 2.5 Flash presteert: Benchmarkresultaten vergeleken met toonaangevende AI-modellen
Google beweert dat Gemini 2.5 Flash concurrerende prestaties vertoont op belangrijke benchmarks terwijl het een kleiner model heeft dan alternatieven. Bij de Humanity’s Last Exam, een rigoureuze test die is ontworpen om redeneren en kennis te evalueren, scoorde 2.5 Flash 12,1%, wat beter is dan Anthropic’s Claude 3.7 Sonnet.
De introductie van het denkbudget en de flexibele prijsstructuur markeert een belangrijke stap voorwaarts in de AI-industrie, waarmee Google inspeelt op de groeiende vraag naar kostenbeheersing en efficiëntie. Dit stelt ontwikkelaars in staat om AI effectiever in te zetten in hun toepassingen, zonder dat ze zich zorgen hoeven te maken over onvoorspelbare kosten.
Met Gemini 2.5 Flash biedt Google niet alleen een krachtige tool voor ontwikkelaars, maar ook een innovatieve manier om AI in de praktijk te brengen, waarbij de nadruk ligt op zowel functionaliteit als kosteneffectiviteit.
Vertaald met ChatGPT gpt-4o-mini