Verborgen kosten bij AI-implementatie: Waarom Claude-modellen 20-30% duurder kunnen zijn dan GPT in bedrijfsomgevingen

Verborgen kosten bij AI-implementatie: Waarom Claude-modellen 20-30% duurder kunnen zijn dan GPT in bedrijfsomgevingen

Het is een algemeen bekend feit dat verschillende modelfamilies verschillende tokenizers kunnen gebruiken. Echter, er is beperkte analyse uitgevoerd over hoe het proces van "tokenisatie" zelf varieert tussen deze tokenizers. Leidt elke tokenizer tot hetzelfde aantal tokens voor een gegeven invoertekst? Zo niet, hoe verschillen de gegenereerde tokens? Hoe significant zijn deze verschillen?

In dit artikel verkennen we deze vragen en onderzoeken we de praktische implicaties van tokenisatievariabiliteit. We presenteren een vergelijkend verhaal van twee vooraanstaande modelfamilies: OpenAI's ChatGPT versus Anthropic's Claude. Hoewel hun geadverteerde "kosten-per-token" cijfers zeer concurrerend zijn, onthullen experimenten dat Anthropic-modellen 20 tot 30% duurder kunnen zijn dan GPT-modellen.

API-prijzen - Claude 3.5 Sonnet versus GPT-4o

Vanaf juni 2024 is de prijsstructuur voor deze twee geavanceerde modellen zeer competitief. Zowel Anthropic's Claude 3.5 Sonnet als OpenAI's GPT-4o hebben identieke kosten voor uitvoertokens, terwijl Claude 3.5 Sonnet een 40% lagere kostprijs biedt voor invoertokens.

De verborgen "tokenizer-inefficiëntie"

Ondanks de lagere invoertokenprijzen van het Anthropic-model, hebben we geobserveerd dat de totale kosten van het uitvoeren van experimenten (met een vaste set prompts) met GPT-4o veel goedkoper zijn in vergelijking met Claude Sonnet-3.5.

Waarom?

De tokenizer van Anthropic heeft de neiging om dezelfde invoer op te splitsen in meer tokens dan de tokenizer van OpenAI. Dit betekent dat, voor identieke prompts, Anthropic-modellen aanzienlijk meer tokens genereren dan hun OpenAI-tegenhangers. Hierdoor, hoewel de kostprijs per token voor de invoer van Claude 3.5 Sonnet lager kan zijn, kan de verhoogde tokenisatie deze besparingen tenietdoen, wat leidt tot hogere totale kosten in praktische gebruikssituaties.

Deze verborgen kosten ontstaan uit de manier waarop de tokenizer van Anthropic informatie encodeert, vaak met meer tokens om dezelfde inhoud weer te geven. De inflatie van het token aantal heeft een aanzienlijke impact op de kosten en het gebruik van het contextvenster.

Domeinspecifieke tokenisatie-inefficiëntie

Verschillende soorten domeininhoud worden door de tokenizer van Anthropic op verschillende manieren getokeniseerd, wat leidt tot variërende niveaus van verhoogde token aantallen in vergelijking met de modellen van OpenAI. De AI-onderzoekscommunity heeft soortgelijke tokenisatieverschillen opgemerkt. We hebben onze bevindingen getest op drie populaire domeinen, namelijk: Engelse artikelen, code (Python) en wiskunde.

% Token Overhead van Claude 3.5 Sonnet Tokenizer (ten opzichte van GPT-4o) Bron: Lavanya Gupta

Bij het vergelijken van Claude 3.5 Sonnet met GPT-4o varieert de mate van tokenizer-inefficiëntie aanzienlijk tussen de inhoudsdomeinen. Voor Engelse artikelen produceert de tokenizer van Claude ongeveer 16% meer tokens dan GPT-4o voor dezelfde invoertekst. Dit overhead neemt scherp toe met meer gestructureerde of technische inhoud: voor wiskundige vergelijkingen is de overhead aanzienlijk hoger.

Vertaald met ChatGPT gpt-4o-mini