Van hallucinaties naar hardware: Lessen uit een real-world project voor computer vision dat misging
Computer vision-projecten verlopen zelden precies zoals gepland, en dit project was daarop geen uitzondering. Het idee was eenvoudig: bouw een model dat naar een foto van een laptop kan kijken en eventuele fysieke schade kan identificeren — dingen zoals gebarsten schermen, ontbrekende toetsen of gebroken scharnieren. Het leek een rechttoe rechtaan toepassing voor beeldmodellen en grote taalmodellen, maar het werd al snel iets gecompliceerder.
Onderweg stuitten we op problemen met hallucinaties, onbetrouwbare uitkomsten en afbeeldingen die niet eens laptops waren. Om deze problemen op te lossen, pasten we een agentisch raamwerk op een atypische manier toe — niet voor taakautomatisering, maar om de prestaties van het model te verbeteren.
In deze blogpost bespreken we wat we hebben geprobeerd, wat niet werkte en hoe een combinatie van benaderingen ons uiteindelijk hielp iets betrouwbaars te bouwen.
Waar we begonnen: Monolithische prompts
Onze aanvankelijke aanpak was vrij standaard voor een multimodaal model. We gebruikten een enkele, grote prompt om een afbeelding in een beeld-capabel groot taalmodel in te voeren en vroegen het om zichtbare schade te identificeren. Deze monolithische promptstrategie is eenvoudig te implementeren en werkt redelijk goed voor schone, goed gedefinieerde taken. Maar real-world data speelt zelden mee.
We stuitten vroegtijdig op drie grote problemen:
Dit was het punt waarop het duidelijk werd dat we moesten itereren.
Eerste oplossing: Mixen van afbeeldingsresoluties
Een ding dat we opmerkte, was hoeveel de beeldkwaliteit de output van het model beïnvloedde. Gebruikers uploadden allerlei soorten afbeeldingen, variërend van scherp en hoogwaardig tot onscherp. Dit leidde ons ertoe om onderzoek te raadplegen dat benadrukt hoe afbeeldingsresolutie diepgaande leermodellen beïnvloedt.
We trainden en testten het model met een mix van hoge en lage resolutie-afbeeldingen. Het idee was om het model veerkrachtiger te maken voor het brede scala aan beeldkwaliteiten dat het in de praktijk zou tegenkomen. Dit hielp de consistentie te verbeteren, maar de kernproblemen van hallucinatie en de behandeling van junkafbeeldingen bleven bestaan.
De multimodale omweg: Tekst-only LLM wordt multimodaal
Aangemoedigd door recente experimenten in het combineren van beeldbeschrijvingen met tekst-only grote taalmodellen, zoals de techniek die in een recente blogpost werd behandeld, besloten we het een kans te geven.
Hier is hoe het werkt:
Hoewel dit in theorie slim is, introduceerde deze aanpak...
Vertaald met ChatGPT gpt-4o-mini