Hoe AI-startup Delphi de overvloed aan gebruikersdata het hoofd bood en opschaling bereikte met Pinecone

Hoe AI-startup Delphi de overvloed aan gebruikersdata het hoofd bood en opschaling bereikte met Pinecone

Delphi, een twee jaar oude AI-startup uit San Francisco, vernoemd naar het oude Griekse orakel, had te maken met een typisch 21e-eeuws probleem: zijn "Digitale Geesten"— interactieve, gepersonaliseerde chatbots die zijn ontworpen op basis van de eindgebruiker en die hun stem kunnen overbrengen aan de hand van hun geschriften, opnames en andere media —dronken in de data.

Elke Delphi kan putten uit een onbeperkt aantal boeken, sociale feeds of cursusmateriaal om in context te reageren, waardoor elke interactie aanvoelt als een direct gesprek. Makers, coaches, kunstenaars en experts gebruikten ze al om inzichten te delen en publiek te betrekken.

AI-schaalproblemen

Maar elke nieuwe upload van podcasts, PDF's of sociale berichten naar een Delphi voegde complexiteit toe aan de onderliggende systemen van het bedrijf. Het was steeds moeilijker om deze AI-alter ego's in real-time responsief te houden zonder het systeem te verstoren.

Gelukkig vond Delphi een oplossing voor zijn schaalproblemen met behulp van de beheerde vector database Pinecone.

Open source kent zijn grenzen

De vroege experimenten van Delphi waren afhankelijk van open-source vectoropslagen. Deze systemen bezweken snel onder de behoeften van het bedrijf. De indexen groeiden in omvang, wat zoekopdrachten vertraagde en opschaling bemoeilijkte.

Latentiepieken tijdens live evenementen of plotselinge contentuploads bedreigden de conversatiestroom.

Erger nog, het kleine maar groeiende engineeringteam van Delphi merkte dat het wekenlang bezig was met het afstemmen van indexen en het beheren van sharding-logica in plaats van productfuncties te bouwen.

Pinecone's volledig beheerde vector database, met SOC 2-naleving, encryptie en ingebouwde namespace-isolatie, bleek een betere weg te zijn.

Elke Digitale Geest heeft nu zijn eigen namespace binnen Pinecone. Dit zorgt voor privacy en naleving, en verkleint het zoekoppervlak bij het ophalen van kennis uit de repository van door gebruikers geüploade data, wat de prestaties verbetert.

De data van een maker kan worden verwijderd met een enkele API-aanroep. Ophaaltijden zijn consequent onder de 100 milliseconden op het 95e percentiel, wat minder dan 30 procent van Delphi's strikte doelstelling van één seconde eind-tot-eind latentie vertegenwoordigt.

“Met Pinecone hoeven we ons geen zorgen te maken of het zal werken,” zei Samuel Spelsberg, medeoprichter en CTO van Delphi, in een recent interview. “Dat geeft ons engineeringteam de vrijheid om zich te concentreren op applicatieprestaties en productfuncties in plaats van op semantische gelijkenis-infrastructuur.”

De architectuur achter de opschaling

In het hart van het systeem van Delphi staat een retrieval-augmented generation (RAG) pijplijn. Inhoud wordt ingevoerd, schoongemaakt en in stukken verdeeld; vervolgens wordt deze ingebed met behulp van modellen van OpenAI, Anthropic of de eigen stack van Delphi.

Die embeddings worden opgeslagen in Pinecone onder de juiste namespace. Op het moment van query haalt Pinecone de meest relevante vectoren in milliseconden op, die vervolgens aan een groot taalmodel worden gevoed om reacties te genereren, een populaire techniek die in de AI-industrie bekend staat als retrieval augmented generation (RAG).

Dit ontwerp stelt Delphi in staat om real-time gesprekken te onderhouden zonder de systeembudgetten te overbelasten.

Zoals Jeffrey Zhu, VP Product bij Pinecone, uitlegde, was een belangrijke innovatie het loslaten van traditionele benaderingen, wat heeft bijgedragen aan de efficiëntie en effectiviteit van hun systeem.

Vertaald met ChatGPT gpt-4o-mini