Hvad koster Claude Fable 5 i praksis? Tokenomics og egne målinger

Anthropic har frigivet Claude Fable 5, den mest kapable model, de hidtil har gjort bredt tilgængelig. Den koster 10 dollar per million input-tokens og 50 dollar per million output-tokens. Det er det dobbelte af Opus 4.8, og mange vil nok parkere den alene af den grund.

Det ville være forhastet, for prisen per token siger kun halvdelen. Regningen afhænger lige så meget af, hvor mange tokens modellen bruger på at løse en opgave, og netop dér opfører Fable 5 sig anderledes end sine forgængere. Så i stedet for at nøjes med prislisten gav vi Fable 5 og Opus 4.8 nøjagtig de samme opgaver i et af vores egne repos og målte, hvad der faktisk skete. Det regnestykke kalder vi tokenomics, og et enkelt af tallene sendte os tilbage i rådataene for at tjekke, om det nu kunne passe.

Listepriserne hos Anthropic

Sådan ser listepriserne per million tokens ud på tværs af Anthropics aktuelle modeller.

Model	Input	Output	Cache-læsning	Batch (input/output)
Fable 5	$10	$50	$1,00	$5 / $25
Opus 4.8	$5	$25	$0,50	$2,50 / $12,50
Sonnet 4.6	$3	$15	$0,30	$1,50 / $7,50
Haiku 4.5	$1	$5	$0,10	$0,50 / $2,50

Læg mærke til et par ting i tabellen. Kontekstvinduet på 1 million tokens er med i standardprisen, så en kæmpe kodebase i kontekst koster samme takst per token som en kort besked, og maksimalt output er 128.000 tokens per kald. Den mest praktiske detalje gemmer sig i batch-kolonnen. Kan en opgave vente, koster Fable 5 gennem Batch API det samme som Opus 4.8 i realtid. Topmodellen til næstbedste models pris, hvis du kan leve med ventetiden.

Den nye tokenizer ændrer sammenligningen

Sammenligner man priser på tværs af modelgenerationer, løber man desuden ind i en fælde, for tokens har ikke samme størrelse længere. Fable 5 bruger den tokenizer, der blev indført med Opus 4.7, og ifølge Anthropics egen dokumentation producerer den cirka 30 procent flere tokens for den samme tekst end modeller fra før Opus 4.7; på prissiden angiver de op til 35 procent. En million tokens svarer på den nye tokenizer til omkring 555.000 engelske ord, hvor den gamle nåede cirka 750.000.

"Dollar per million tokens" kan derfor ikke sammenlignes direkte mellem for eksempel Sonnet 4.6 og Fable 5, og slet ikke på tværs af udbydere med hver deres tokenizer. Token-budgetter og max_tokens-grænser, der er målt på ældre modeller, skal måles om; Anthropics count_tokens-endpoint er gratis og viser tallet for præcis den model, du spørger om. Og vil man sammenligne priser, er den eneste enhed, der holder, kroner per opgave.

Sådan testede vi modellen

Prisen per opgave er kun interessant, hvis kvaliteten følger med, så vi testede begge dele. Først målte vi tokenadfærd på tre identiske undersøgelsesopgaver i et af vores egne Next.js-repos. Derefter målte vi kvalitet i en blindtest med tolv fiktive opgaver med kendt facit, fordelt på fem rutineopgaver, fire markant sværere og tre agentiske, hvor modellerne selv skulle finde rundt i filerne med værktøjer. Hvert svarpar i blindtesten blev bedømt af tre uafhængige censorer, der kun så "svar A" og "svar B" og scorede mod facitlisten.

Tokenforbruget på tre identiske opgaver

Repo-opgaverne gik ud på at kortlægge, hvordan sitets strukturerede SEO-data er bygget op, finde og beskrive samtlige Open Graph-billedfiler og krydstjekke artikelregistret mod de faktiske artikelsider for uoverensstemmelser. Prompts og værktøjer var identiske; den eneste forskel var modellen. Tre opgaver er ikke et benchmark, og vi præsenterer det ikke som ét. Men opgaverne ligner det agentarbejde, vi laver hver dag, og mønstret gik igen i alle tre.

Her er totalerne for de tre opgaver.

Måling (3 opgaver i alt)	Opus 4.8	Fable 5
Værktøjskald i alt	33	31
Andel af kald afsendt parallelt	82 %	87 %
Hele filer læst ind	18	7
Andel målrettede del-læsninger	10 %	59 %
Behandlet input i alt	~742.000 tokens	~559.000 tokens
Synlig tekst undervejs	23.150 tegn	15.620 tegn
Estimeret pris per opgave	~$0,55	~$1,01

Den mest markante forskel er læsemønstret. Opus 4.8 læser typisk en hel fil ind, når den skal bruge noget fra den. Det blev til 18 hele filer over de tre opgaver, og kun hver tiende læsning var et målrettet udsnit. Fable 5 finder først de relevante linjer med søgeværktøjer og læser så kun det udsnit, den skal bruge. Mere end halvdelen af dens læsninger var afgrænsede udsnit, og den indlæste kun 7 hele filer. Hver fil, modellen springer over, er tokens, du slipper for at betale for igen og igen i resten af samtalen, og den vane forrenter sig for hver eneste tur i agent-løkken. Alt i alt behandlede Fable 5 25 procent færre input-tokens for at løse de samme opgaver.

Outputtet trækker den anden vej, og det var her, vi måtte tilbage i rådataene. Fable 5 skrev en tredjedel mindre synlig tekst, uden at svarene blev ringere; begge modeller fandt reelle uoverensstemmelser i krydstjek-opgaven, men Fable 5 sprang de indledende "nu har jeg alt, hvad jeg skal bruge"-afsnit over. Alligevel producerede den omkring dobbelt så mange output-tokens som Opus 4.8. Forklaringen holdt ved efterregning. Adaptiv tænkning kan ikke slås fra på Fable 5, og tænkningen faktureres som output-tokens, selv om den som standard slet ikke vises. En stor del af det, vi betalte for, var altså tænkning, vi aldrig så.

Kvaliteten på tværs af sværhedsgrader

Blindtestens fem rutineopgaver omfattede plantede bugs, en rodårsag i logs, en SQL-fælde, kontraktspørgsmål med et enkelt ubesvarligt fælde-spørgsmål og en lille spec-implementering. De fire svære omfattede en concurrency-klasse med fire plantede fejl inklusive en deadlock, et incident hvor den ene services ur går fire minutter foran og forplumrer tidslinjen, en algoritme med et lumsk determinisme-krav og en kontraktberegning med rabatfælde. De tre agentiske foregik i små syntetiske projekter med plantede fejl.

Blindtest (Fable 5 / Opus 4.8)	5 rutineopgaver	4 svære opgaver	3 agentiske opgaver
Korrekthed (0 til 10)	9,2 / 9,2	9,9 / 9,5	10,0 / 9,8
Censorstemmer (Fable/Opus/uafgjort)	6 / 5 / 4	10 / 1 / 1	9 / 0 / 0
Pris per opgave	~$0,25 / ~$0,11	~$0,29 / ~$0,13	~$0,66 / ~$0,33

På rutineopgaverne endte det dødt løb. Begge modeller scorede 9,2 i korrekthed, og censorernes stemmer fordelte sig næsten ligeligt. Fable 5 skrev kortere svar, og Opus 4.8 fik testens eneste hallucinationsanmærkning, men ingen af delene flytter konklusionen. Til den slags opgaver er kvaliteten ens, og så er det svært at forsvare den dobbelte pris.

På de svære opgaver skiltes vandene. Fable 5 tog 10 af censorernes 12 stemmer og scorede 9,9 i korrekthed mod Opus 4.8's 9,5. Tydeligst var det på den opgave, vi selv havde gjort mest ondsindet, nemlig logs fra to services, hvor den enes ur går fire minutter foran, så en naiv læsning frikender den egentlige synder. Fable 5 opdagede skævheden, regnede tidslinjen om og fangede begge fælder. Opus 4.8 fandt samme rodårsag, men præsenterede en tidslinje, der modsagde dens egen konklusion. Bunden er dog høj hos begge. Alle fire plantede concurrency-fejl, inklusive deadlocken, blev fundet af begge modeller.

De agentiske opgaver gav det reneste billede. Fable 5 tog samtlige ni censorstemmer, selv om begge modeller fandt stort set alle de plantede fejl. Forskellen lå i rapporterne. Fable 5 afleverede stramme svar helt på dansk, prioriterede fundene og undgik falsk-positiv-fælderne, mens Opus 4.8 flere gange lod engelsk arbejdstekst sive med ud i den endelige rapport og brugte flere ord på det samme indhold. En ærlig fodnote hører med. De syntetiske projekter var så små, at begge modeller bare læste alle filerne, så her var ingen input-besparelse at hente, og prisen landede på cirka det dobbelte. Den kirurgiske læsning betaler sig først i kodebaser, der er for store til at læse fra ende til anden.

Tokenforbruget fulgte samme logik. På enkeltkald uden værktøjer er der intet kontekst-slæb at spare, og input var da også identisk ned til promillen; en rar sidegevinst, for det bekræfter med egne tal, at Fable 5 og Opus 4.8 deler tokenizer. Fable 5 brugte cirka 40 procent flere output-tokens, mest tænkning, og endte på cirka 2,2 gange prisen per opgave i den testform. Det samlede billede hænger dermed sammen. På rutineopgaver betaler du dobbelt for samme svar, og på de svære og agentiske er det kvalitetsforspringet, der skal tjene merprisen hjem. I vores test gjorde det.

Sådan arbejder Fable 5

De tre repo-opgaver er et lille datagrundlag, men mønstret i dem genkender vi fra det daglige arbejde med modellen, og det stemmer med Anthropics egen beskrivelse af, hvordan Fable 5 adskiller sig fra forgængerne. Den undersøger, før den indlæser. Søgeværktøjer finder de relevante linjer, og først derefter læser den et udsnit. Den arbejder i bredden og afsender flere undersøgelser parallelt i stedet for at jage en hypotese ad gangen, og Anthropic dokumenterer selv, at den uddelegerer mere villigt til subagenter og kan styre langvarige subagenter pålideligt. Den validerer også undervejs. Anthropic fremhæver en markant bedre evne til at ramme rigtigt i første forsøg på komplekse, velspecificerede opgaver, og det matcher vores erfaring, hvor der bliver færre omskrivningsrunder og færre svar, der skal kasseres.

Bagsiden er, at stilen afhænger af effort. På rutineopgaver ved høj effort kan modellen indsamle mere kontekst og overveje længere, end opgaven kræver, og enkeltture er generelt længere end på ældre modeller. Anthropic anbefaler samtidig at forenkle gamle, detaljerede prompts, fordi modellen følger korte instruktioner så godt, at overstyring kan forringe resultatet. Vi er selv begyndt at tænke på den som en erfaren kollega snarere end en hurtigere chatbot. Den orienterer sig billigt i opgaven og siger ikke mere end nødvendigt, men dybden skal du betale for, uanset om du ser den.

Prisen per opgave

Per token koster Fable 5 det dobbelte af Opus 4.8. I vores eksperiment blev det til cirka 1,84x per opgave, hvor mindre kontekst-slæb trækker ned, og altid-tændt tænkning trækker op.

Lægger man de målte tokenmængder sammen med listepriserne, kostede de tre repo-opgaver cirka 1,65 dollar med Opus 4.8 og cirka 3,03 dollar med Fable 5, altså 55 cent per opgave mod en dollar. Den dobbelte tokenpris endte i praksis som cirka 1,84 gange prisen per opgave, fordi besparelsen på input-siden blev delvist ædt op af tænkningen på output-siden.

Til korte, veldefinerede opgaver som vores tre bør man blive på Opus 4.8 og spare de 84 procent. Dér er en billigere model det rigtige valg, og Fable 5 er mest af alt komfort, du betaler ekstra for. Men det er også Fable 5's dårligste gren. Modellen er bygget til de lange, svære opgaver, hvor en fejlsøgning løber over mange trin, eller en refaktorering rører det halve af kodebasen. På den slags opgaver er den dyreste post sjældent tokens. Det er gen-forsøgene, altså kørslen, der skal laves om, og udviklerens time spildt på at verificere et forkert svar. Løser Fable 5 i ét forsøg, hvad en anden model skal bruge to på, er den billigere per løst opgave, selv til dobbelt tokenpris, og så har vi ikke engang regnet mennesketimerne med. Vores måling siger ikke, hvor ofte det sker på netop jeres opgaver. Den siger, at merprisen, der skal tjenes hjem, er mindre, end prislisten antyder.

Pris i forhold til kvalitet

Sætter man blindtestens korrekthedsscorer direkte op mod prisen per opgave, falder den naive beregning ud til Opus 4.8's fordel i alle tre runder. Kvaliteten ligger tæt på loftet hos begge modeller, mens prisen fordobles, så Opus 4.8 leverer flest kvalitetspoint per dollar over hele linjen. Var det hele historien, var der ingen grund til at vælge Fable 5.

Per opgave (Fable 5 / Opus 4.8)	5 rutineopgaver	4 svære opgaver	3 agentiske opgaver
Kvalitetspoint per dollar	37 / 84	34 / 73	15 / 30
Manglende korrekthed (afstand til 10)	0,8 / 0,8	0,1 / 0,5	0,0 / 0,2
Merpris for Fable 5	~$0,14	~$0,16	~$0,33

Beregningen vildleder bare tæt på loftet, for de sidste point er både de sværeste at hente og de mest værdifulde. Regn i stedet på afstanden til det fejlfri svar. På rutineopgaverne efterlod modellerne nøjagtig samme afstand, og dér er merprisen spildt. På de svære opgaver lukkede Fable 5 fire femtedele af den fejlmargin, Opus 4.8 efterlod, for en merpris på 16 cent per opgave, og på de agentiske lukkede den det hele for 33 cent. Over ti svære opgaver koster forspringet altså 1,60 dollar, hvilket er mindre end ét minut af den udvikler, der ellers skulle samle fejlene op. Det er den beregning, der bør afgøre modelvalget, og den falder ud til Fable 5's fordel, så snart fejl koster mennesketid.

Sådan styrer du, hvad Fable 5 koster

Fire håndtag afgør, hvad Fable 5 ender med at koste jer i praksis, og de er vigtigere end selve listeprisen.

Effort er den primære knap. Parametren effort styrer, hvor dybt modellen tænker og arbejder, fra low over medium og high (standard) til xhigh og max. Lavere effort betyder færre og mere konsoliderede værktøjskald, mindre tænkning og kortere svar. Rutineopgaver på low eller medium, det svære på xhigh; gem max til de tilfælde, hvor korrekthed er vigtigere end prisen.
Caching er forskellen på faktura og chokregning. I vores kørsler var omkring tre fjerdedele af alt input cache-læsninger til 1 dollar per million i stedet for 10. Sådan er agent-løkker, hvor den samme kontekst genbesøges tur efter tur. Stabil prompt-struktur, så cachen rammer, er den enkeltfaktor med størst effekt på regningen.
Batch API halverer prisen. Alt, der kan vente til i morgen tidlig, natlige analysekørsler for eksempel, bør køre som batch til 5 og 25 dollar per million, altså Opus 4.8's realtidspris.
Brug modellerne i lag. Fable 5 skal ikke have alle opgaver, lige så lidt som jeres mest erfarne udvikler skal rette stavefejl. Lad billigere modeller tage rutinen, og send de opgaver videre, der kræver topmodellen. Orkestrerer I mange agenter på én gang, gælder det dobbelt, for subagenter på simple delopgaver behøver ikke køre på Fable 5.

To mindre detaljer hører med i totaløkonomien. Afviser Fable 5 en forespørgsel via sine sikkerhedsklassifikatorer (svaret kommer som HTTP 200 med stop-årsagen refusal), faktureres der intet, hvis afvisningen sker før output. Og i beta findes task budgets, hvor du giver modellen et samlet tokenbudget for en hel opgave, som den selv disponerer over undervejs. Det er en mere realistisk styring end et hårdt max_tokens-loft per kald.

Dataopbevaring og compliance

Én ting til, før I skifter produktionstrafik over. Fable 5 er en såkaldt Covered Model hos Anthropic. Det indebærer et krav om 30 dages dataopbevaring, og modellen kan ikke køres under en zero data retention-aftale. Har jeres organisation forhandlet nul opbevaring med Anthropic, typisk af GDPR- eller compliance-hensyn, skal jura og sikkerhed altså ind over, før Fable 5 kan tages i brug. Modellen er tilgængelig på Claude API, AWS, Google Vertex AI og Microsoft Foundry fra lanceringen.

Lav jeres eget regnestykke

Tag metoden med herfra snarere end tallene. Tre identiske opgaver, to modeller og en optælling af tokens kostede under fem dollar i tokenforbrug og gav et bedre beslutningsgrundlag end nogen prisliste. Enhver virksomhed med AI i produktion kan lave samme øvelse på sine egne arbejdsgange. Mål prisen per løst opgave, inklusive gen-forsøg og menneskelig efterkontrol, og vælg model derefter.

Hos syv.ai bygger vi den slags målinger ind i de AI-løsninger, vi leverer, så modelvalget bliver en løbende driftsbeslutning frem for et engangsgæt. Vil I have hjælp til at regne på, hvad Fable 5, eller en helt tredje model, ville betyde for jeres opsætning, så tag fat i os.

Ofte stillede spørgsmål

Hvad koster Claude Fable 5?

Listeprisen er 10 dollar per million input-tokens og 50 dollar per million output-tokens. Cache-læsninger koster 1 dollar per million, og Batch API halverer både input og output til 5 og 25 dollar. Hele kontekstvinduet på 1 million tokens er med i standardprisen, og der er intet tillæg for lange prompts.

Er Fable 5 dobbelt så dyr som Opus 4.8 i praksis?

Per token, ja. Per opgave, ikke helt. Da vi gav de to modeller identiske opgaver, kostede Fable 5 cirka 1,84 gange så meget som Opus 4.8 per opgave, fordi den behandlede markant færre input-tokens. På svære opgaver kan regnestykket vende helt: løser Fable 5 i ét forsøg, hvad en anden model skal bruge to på, er den billigere.

Er Fable 5 bedre end Opus 4.8 i kvalitet?

Ikke på rutineopgaver. I vores blindtest med tolv opgaver og kendt facit scorede de to modeller ens på de fem lette (9,2 mod 9,2 i korrekthed), men Fable 5 vandt de fire svære opgaver med 10 af 12 censorstemmer og tog alle 9 stemmer på de tre agentiske opgaver med værktøjer. Forskellen viser sig først, når opgaven kræver flertrins-ræsonnement, værktøjsarbejde eller indeholder fælder og modstridende information.

Hvorfor fylder min tekst flere tokens på Fable 5 end på ældre modeller?

Fable 5 bruger den tokenizer, der blev indført med Opus 4.7. Ifølge Anthropic giver den cirka 30 procent flere tokens for den samme tekst sammenlignet med modeller før Opus 4.7, på prissiden angivet som op til 35 procent. Token-tal og max_tokens-grænser målt på ældre modeller kan derfor ikke genbruges; mål efter med count_tokens-endpointet.

Kan jeg slå tænkning fra på Fable 5 for at spare penge?

Nej. Adaptiv tænkning er altid slået til på Fable 5 og kan ikke deaktiveres. Tænkningen faktureres som output-tokens, også når den ikke vises i svaret. Det, du kan styre, er dybden. Effort-parametren går fra low over medium og high til xhigh og max og er den primære omkostningsknap.

Hvordan holder jeg omkostningerne nede på Fable 5?

Der er fire håndtag. Sæt effort efter opgaven i stedet for at køre alt på højeste niveau, sørg for, at prompt caching virker (cache-læsninger koster en tiendedel af den normale input-pris), brug Batch API til alt, der ikke haster (50 procent rabat), og lad billigere modeller tage rutineopgaverne, så Fable 5 kun får de opgaver, der kræver den.

Må vi bruge Fable 5 med vores datapolitik?

Fable 5 er en såkaldt Covered Model hos Anthropic med krav om 30 dages dataopbevaring, og den kan ikke køres under zero data retention. Har jeres organisation en aftale om nul opbevaring, skal compliance vurdere modellen, før I skifter. Modellen er tilgængelig på Claude API, AWS, Google Vertex AI og Microsoft Foundry.

Hvad koster Claude Fable 5 i praksis?