CoSyn: De open-source tool die visuele AI toegankelijk maakt voor iedereen

CoSyn: De open-source tool die visuele AI toegankelijk maakt voor iedereen

Onderzoekers aan de Universiteit van Pennsylvania en het Allen Institute for Artificial Intelligence hebben een baanbrekend hulpmiddel ontwikkeld dat open-source AI-systemen in staat stelt om de visuele begripscapaciteiten van commerciële modellen zoals GPT-4V en Gemini 1.5 Flash te evenaren of zelfs te overtreffen. Dit zou de concurrentiedynamiek tussen open en gesloten AI-ontwikkeling kunnen herdefiniëren.

De tool, genaamd CoSyn (Code-Guided Synthesis), pakt een kritieke bottleneck in de AI-ontwikkeling aan: het gebrek aan hoogwaardige trainingsdata om machines te leren complexe visuele informatie, zoals wetenschappelijke grafieken, medische diagrammen en financiële documenten, te begrijpen. In plaats van miljoenen afbeeldingen van internet te schrapen — een praktijk die vol auteursrechtelijke en ethische zorgen zit — benut CoSyn de coderingsmogelijkheden van bestaande taalmodellen om synthetische trainingsdata te genereren.

Yue Yang, een recente Ph.D.-afgestudeerde van Penn Engineering en mede-eerste auteur van het onderzoek, legt uit: “We hebben een tekort aan zulke data om het model te trainen. We hebben documenten, grafieken met rijke annotaties nodig om een visueel taalmodel vragen te laten beantwoorden over die afbeeldingen. Die afbeeldingen zijn in feite moeilijker te annoteren dan natuurlijke foto’s, zoals een foto van een hond, een kat of een huis.”

Deze doorbraak komt op een moment dat bedrijven steeds vaker AI-systemen zoeken die in staat zijn complexe visuele informatie te begrijpen en redeneren — capaciteiten die essentieel zijn voor alles, van geautomatiseerde documentverwerking tot AI-agents die onafhankelijk digitale interfaces kunnen navigeren. Het werk werd uitgevoerd tijdens Yang’s stage bij het PRIOR-team aan het Allen Institute for AI en werd ondersteund door het Office of the Director of National Intelligence, de Intelligence Advanced Research Projects Activity en de Defense Advanced Research Projects Agency.

Hoe synthetische datageneratie het grootste trainingsuitdaging van AI oplost

De uitdaging om AI te trainen om tekstrijke afbeeldingen te begrijpen, heeft het veld al lange tijd geteisterd. In tegenstelling tot natuurlijke foto's vereisen wetenschappelijke figuren, grafieken en documenten uitgebreide annotatiewerkzaamheden die zowel tijdrovend als kostbaar zijn. Traditionele benaderingen hebben zich vaak gericht op het oogsten van afbeeldingen en hun alt-tekst beschrijvingen van internet, maar deze methode levert vaak oppervlakkige en juridisch problematische trainingsdata op.

CoSyn kiest voor een fundamenteel andere aanpak door te erkennen dat de meeste tekstrijke afbeeldingen oorspronkelijk zijn gemaakt via code — Python-scripts genereren grafieken, LaTeX rendert wiskundige vergelijkingen en HTML creëert webinterfaces. De inzichten van het onderzoeksteam waren om dit proces om te draaien: gebruik de bewezen coderingsvaardigheden van taalmodellen om de onderliggende code te genereren en voer die code vervolgens uit om realistische synthetische afbeeldingen te creëren.

“Een intuïtie is dat die afbeeldingen zoals grafieken en documenten. We renderen ze vanuit programma's en code, zoals we Python gebruiken om grafieken te genereren. We gebruiken LaTeX of Word om onze documenten te schrijven,” zegt Yang. “Dus wat als we de omgekeerde weg inslaan, zoals we de code genereren omdat het tekstgebaseerde taalmodel al bewezen heeft erg goed te zijn in het schrijven van code.”

Chris Callison-Burch, een computerwetenschapper aan de Universiteit van Pennsylvania, voegt hieraan toe dat deze aanpak niet alleen de uitdagingen van dataverzameling aanpakt, maar ook de manier waarop we AI trainen volledig kan transformeren. Door het genereren van synthetische data kunnen we de noodzaak voor handmatige annotatie verminderen en tegelijkertijd de diversiteit en kwaliteit van de trainingsdata verbeteren.

Met CoSyn opent zich een nieuw tijdperk voor open-source AI, waarbij onderzoekers en ontwikkelaars de mogelijkheid krijgen om krachtige visuele modellen te creëren zonder de beperkingen van traditionele dataverzamelingsmethoden. Deze ontwikkeling kan niet alleen de toegankelijkheid van AI-technologie vergroten, maar ook leiden tot meer transparantie en samenwerking binnen de AI-gemeenschap.

Vertaald met ChatGPT gpt-4o-mini