Anthropic voorbij OpenAI: Claude Opus 4 codeert zeven uur non-stop en stelt record SWE-Bench score in

Anthropic voorbij OpenAI: Claude Opus 4 codeert zeven uur non-stop en stelt record SWE-Bench score in

Vandaag heeft Anthropic Claude Opus 4 en Claude Sonnet 4 uitgebracht, waarmee de lat voor wat AI kan bereiken zonder menselijke tussenkomst aanzienlijk wordt verhoogd. Het vlaggenschipmodel van het bedrijf, Claude Opus 4, heeft tijdens testen bij Rakuten bijna zeven uur gefocust gewerkt aan een complex open-source refactoring project. Deze doorbraak transformeert AI van een snelle reactietool in een echte samenwerkingspartner die in staat is om projecten die een hele dag duren aan te pakken.

Deze marathonprestatie markeert een kwantumsprong ten opzichte van de minutenlange aandachtsspanne van eerdere AI-modellen. De technologische implicaties zijn diepgaand: AI-systemen kunnen nu complexe software-engineeringprojecten van conceptie tot voltooiing aan, waarbij ze de context en focus gedurende een hele werkdag behouden.

Anthropic beweert dat Claude Opus 4 een score van 72,5% heeft behaald op SWE-bench, een rigoureuze benchmark voor software-engineering, en dat het OpenAI's GPT-4.1 heeft overtroffen, dat bij zijn lancering in april een score van 54,6% behaalde. Deze prestatie vestigt Anthropic als een geduchte concurrent in de steeds drukker wordende AI-markt.

Vergelijkende benchmarks en prestaties

Vergelijkende benchmarks tonen aan dat Claude 4-modellen (links) beter presteren dan concurrenten bij coderings- en redeneertaken, met Claude Opus 4 dat een score van 72,5% behaalt op de kritische SWE-bench test. Deze resultaten benadrukken niet alleen de technische superioriteit van Anthropic's modellen, maar ook de groeiende vraag naar betrouwbare AI-oplossingen in de industrie.

De redeneerrevolutie transformeert AI

De AI-industrie heeft in 2025 een dramatische wending genomen naar redeneermodellen. Deze systemen werken methodisch door problemen heen voordat ze reageren, en simuleren menselijke denkprocessen in plaats van simpelweg patronen te herkennen in trainingsdata. OpenAI initieerde deze verschuiving met zijn “o” serie in december vorig jaar, gevolgd door Google’s Gemini 2.5 Pro met de experimentele "Deep Think" functionaliteit. DeepSeek’s R1-model veroverde onverwacht marktaandeel met zijn uitzonderlijke probleemoplossende capaciteiten tegen een competitieve prijs.

Deze verschuiving signaleert een fundamentele evolutie in hoe mensen AI gebruiken. Volgens het rapport "Spring 2025 AI Model Usage Trends" van Poe steeg het gebruik van redeneermodellen in slechts vier maanden vijfvoudig, van 2% naar 10% van alle AI-interacties. Gebruikers beschouwen AI steeds vaker als een denkpartner voor complexe problemen in plaats van een eenvoudig vraag-antwoord systeem.

Ingebouwde hulpmiddelen en redeneren

Claude’s nieuwe modellen onderscheiden zich door het integreren van toolgebruik direct in hun redeneerproces. Deze gelijktijdige onderzoeks- en redeneerbenadering komt dichter bij menselijke cognitie dan eerdere systemen die informatie verzamelden voordat ze met de analyse begonnen. Het vermogen om te pauzeren, gegevens op te zoeken en nieuwe bevindingen tijdens het redeneerverloop te incorporeren, creëert een natuurlijker verloop in het denkproces.

Door deze innovatieve aanpak kan Claude Opus 4 niet alleen efficiënter werken, maar ook beter inspelen op de behoeften van de gebruiker. Dit maakt het model bijzonder geschikt voor de moderne werkomgeving, waar complexiteit en samenwerking steeds belangrijker worden.

De toekomst van AI in de bedrijfswereld

De prestaties van Claude Opus 4 beloven een nieuwe fase in de integratie van AI in bedrijfsprocessen. Met de mogelijkheid om langdurige en complexe taken zelfstandig uit te voeren, kunnen bedrijven hun efficiëntie en productiviteit aanzienlijk verbeteren. Dit kan leiden tot snellere innovatie en een grotere concurrentiekracht in een steeds digitalere economie.

De ontwikkeling van Claude Opus 4 en de verschuiving naar redeneermodellen markeren niet alleen een technologische vooruitgang, maar ook een verschuiving in de manier waarop we denken over en omgaan met AI. Het is een spannende tijd voor de technologie, waar de samenwerking tussen mens en machine steeds verder wordt versterkt.

Vertaald met ChatGPT gpt-4o-mini