OpenVision: De Nieuwe Open Source Visie-encoder die Concurrentie Aangaat met OpenAI's CLIP en Google’s SigLIP
De Universiteit van Californië, Santa Cruz, heeft de lancering van OpenVision aangekondigd, een familie van visie-encoders die bedoeld zijn als een alternatief voor modellen zoals OpenAI’s vier jaar oude CLIP en Google’s SigLIP van vorig jaar. Deze ontwikkeling komt op een moment dat de vraag naar krachtige en veelzijdige AI-modellen blijft toenemen. OpenVision belooft niet alleen een verbeterde functionaliteit, maar ook toegankelijkheid voor ontwikkelaars en bedrijven.
Een visie-encoder is een type AI-model dat visuele materialen en bestanden — meestal stilstaande beelden die door de makers zijn geüpload — omzet in numerieke gegevens die door andere, niet-visuele AI-modellen, zoals grote taalmodellen (LLM's), kunnen worden begrepen. Dit is cruciaal voor het mogelijk maken van interactie tussen LLM's en afbeeldingen die door gebruikers zijn geüpload. Hierdoor kunnen LLM's verschillende onderwerpen, kleuren, locaties en andere kenmerken binnen een afbeelding identificeren.
OpenVision: Toegankelijkheid en Flexibiliteit
OpenVision komt met een permissieve Apache 2.0-licentie en biedt een scala van 26 verschillende modellen, variërend van 5,9 miljoen tot 632,1 miljoen parameters. Dit stelt elke ontwikkelaar of AI-modelmaker binnen een onderneming in staat om een encoder te gebruiken die kan worden ingezet voor diverse toepassingen, van het analyseren van beelden op een bouwplaats tot het bieden van begeleiding en probleemoplossing voor huishoudelijke apparaten. De Apache 2.0-licentie maakt gebruik in commerciële toepassingen mogelijk, wat de inzetbaarheid van OpenVision verder vergroot.
De modellen zijn ontwikkeld door een team onder leiding van Cihang Xie, assistent-professor aan UCSC, samen met mede-ontwikkelaars Xianhang Li, Yanqing Liu, Haoqin Tu en Hongru Zhu. Dit project bouwt voort op de CLIPS-trainingspipeline en maakt gebruik van de Recap-DataComp-1B-dataset, een hergecaptioneerde versie van een webbeeldcorpus van een miljard beelden, ondersteund door LLaVA-gedreven taalmodellen.
Scalable Architectuur voor Diverse Toepassingen
Het ontwerp van OpenVision ondersteunt verschillende gebruiksscenario's. Grotere modellen zijn goed geschikt voor server-grade workloads die hoge nauwkeurigheid en gedetailleerd visueel begrip vereisen. Kleinere varianten, sommige met slechts 5,9 miljoen parameters, zijn geoptimaliseerd voor edge-implementaties waar de rekenkracht en het geheugen beperkt zijn. Dit maakt OpenVision veelzijdig en aanpasbaar aan de behoeften van verschillende organisaties.
Daarnaast ondersteunen de modellen adaptieve patchgroottes (8×8 en 16×16), waardoor configureerbare afwegingen tussen detailresolutie en rekenbelasting mogelijk zijn. Dit stelt ontwikkelaars in staat om de prestaties van hun AI-toepassingen te optimaliseren naargelang de specifieke eisen van hun projecten.
Uitstekende Resultaten in Multimodale Benchmarks
In een reeks benchmarks toont OpenVision sterke resultaten in verschillende visie-taal taken. Terwijl traditionele CLIP-benchmarks zoals ImageNet en MSCOCO nog steeds deel uitmaken van de evaluatie, waarschuwt het OpenVision-team tegen het uitsluitend vertrouwen op deze metrics. Hun experimenten tonen aan dat sterke prestaties in beeldclassificatie of -terugwinning niet noodzakelijk leiden tot succes in complexe multimodale redeneertaken.
In plaats daarvan pleit het team voor bredere benchmarkdekking en open evaluatieprotocollen die beter de reële multimodale gebruiksscenario's weerspiegelen. Evaluaties werden uitgevoerd met behulp van twee standaard multimodale frameworks — LLaVA-1.5 en Open-LLaVA-Next — en toonden aan dat OpenVision-modellen consistent gelijk of beter presteren dan zowel CLIP als SigLIP in taken zoals beeldclassificatie en -retrieval.
Toekomstige Implicaties van OpenVision
De lancering van OpenVision kan een significante impact hebben op de manier waarop ontwikkelaars en bedrijven AI-modellen inzetten voor visuele data-analyse. De open source aanpak maakt het niet alleen mogelijk om innovaties sneller te delen en te implementeren, maar biedt ook de kans voor een bredere gemeenschap om bij te dragen aan de ontwikkeling en verfijning van deze technologie. Dit kan leiden tot nieuwe toepassingen en verbeteringen in de effectiviteit van AI-oplossingen in verschillende sectoren.
Vertaald met ChatGPT gpt-4o-mini