Een handreiking met Gemini 2.5 Pro: waarom het misschien wel de meest bruikbare redeneringsmodel is
De lancering van het nieuwste flagships-taalmodel van Google, Gemini 2.5 Pro, is in eerste instantie overvleugeld door de storm rondom Studio Ghibli's nieuwe AI-afbeeldingen. Maar de praktische tests met echte wereldvoorbeelden laten zien dat Gemini 2.5 Pro echt indrukwekkend is en mogelijk het beste redeneringsmodel is wat we momenteel kennen.
Het ontwikkelen van toepassingen op basis van dit model geeft nieuwe kansen voor het gebruik van generatieve AI en legt Google in de weg naar een leiderpositie in deze sector.
Langzame context met goede codingcapaciteiten
Het uitstekende kenmerk van Gemini 2.5 Pro is zijn zeer lange contextvenster en outputlengte. Het model kan maximaal 1 miljoen tokens verwerken (met 2 miljoen in de nabije toekomst), waardoor het mogelijk wordt om meerdere lange documenten en complete codebestanden naar behoeve van het prompt te laten passen.
Het model heeft ook een outputlimiet van 64.000 tokens in plaats van ongeveer 8.000 voor andere Gemini-modellen.
De lange contextvenster maakt het mogelijk om uitgebreide conversaties aan te gaan, waarbij elke interactie met een redeneringsmodel tienduizenden tokens kan genereren, vooral als het gaat om code, afbeeldingen en video's (ik heb hier last van gehad met Claude 3.7 Sonnet, dat een contextvenster heeft van 200.000 tokens).
Als voorbeeld gebruikte softwareontwikkelaar Simon Willison Gemini 2.5 Pro om een nieuwe functie voor zijn website te maken. Willison zei in zijn blog: 'Het wist mijn complete codebestand te verwerken en ontdekte alle plekken waar ik aan moest werken -18 bestanden in totaal, zoals je kunt zien in de resulterende PR.
Het project duurde ongeveer 45 minuten van start tot finish - gemiddeld slechts drie minuten per bestand dat ik moest veranderen. Ik heb veel andere codinguitdagingen tegen hem aangezet en hij kon ze correct oplossen.'
Multi-modale prompts
Gemini 2.5 Pro is in staat om met meerdere modi te communiceren, zoals tekst, afbeeldingen en video's. Bijvoorbeeld, ik gaf hem de tekst van mijn recente artikel over sampling-based zoekacties en vroeg hem een SVG-graphics te maken die het beschreven algoritme weergeeft.
Gemini 2.5 Pro wist correct sleutelinformatie uit de tekst te extraheren en een stroomdiagram te creëren voor de sampling-en zoekprocedure, inclusief de conditieleidende stappen. (Voor referentie, dezelfde taak nam meerdere interacties met Claude 3.7 Sonnet in beslag en ik moest uiteindelijk het tokenlimiet bereiken).
Ik maakte vervolgens een afbeelding van de gemaakte SVG-afbeelding en vroeg hem deze te verbeteren, maar de resultaten waren teleurstellend. Ik gaf hem een screenshot van de geproduceerde SVG-afbeelding samen met de code en beval hem om het model te verbeteren. De geproduceerde resultaten zijn aanzienlijk beter dan de eerder geproduceerde versie, maar er is nog wel ruimte voor verbeteringen.
Vertaald met Ollama mannix/llama3-8b-ablitered-v3:latest