Databricks maakt declaratief ETL-framework open-source voor 90% snellere pipeline-bouw
Vandaag, tijdens de jaarlijkse Data + AI Summit, heeft Databricks aangekondigd dat het zijn kern declaratieve ETL-framework open-source maakt als Apache Spark Declarative Pipelines. Dit maakt het beschikbaar voor de hele Apache Spark-gemeenschap in een aanstaande release.
Databricks lanceerde het framework als Delta Live Tables (DLT) in 2022 en heeft sindsdien uitgebreid gewerkt om teams te helpen betrouwbare, schaalbare datastromen van begin tot eind te bouwen en te beheren. De beslissing om het open-source te maken versterkt de toewijding van het bedrijf aan open ecosystemen en is een poging om concurrent Snowflake te overtreffen, dat onlangs zijn eigen Openflow-service voor data-integratie heeft gelanceerd — een cruciaal onderdeel van data-engineering.
Declaratieve pipelines: Laat Spark de rest afhandelen
Traditioneel wordt data-engineering geassocieerd met drie belangrijke pijnpunten: complexe pipeline-authenticatie, handmatige operationele overhead en de noodzaak om aparte systemen voor batch- en streaming workloads te onderhouden.
Met Spark Declarative Pipelines beschrijven engineers wat hun pipeline moet doen met SQL of Python, en Apache Spark verzorgt de uitvoering. Het framework houdt automatisch afhankelijkheden tussen tabellen bij, beheert de creatie en evolutie van tabellen en handelt operationele taken af, zoals parallelle uitvoering, checkpoints en herhalingen in productie.
“Je verklaart een reeks datasets en datastromen, en Apache Spark bepaalt het juiste uitvoeringsplan,” zei Michael Armbrust, onderscheiden software-engineer bij Databricks, in een interview.
Het framework ondersteunt batch-, streaming- en semi-gestructureerde data, inclusief bestanden van objectopslag systemen zoals Amazon S3, ADLS of GCS, direct uit de doos. Engineers hoeven alleen real-time en periodieke verwerking te definiëren via een enkele API, met validatie van pipeline-definities vóór de uitvoering om problemen vroegtijdig op te sporen — er is geen noodzaak om aparte systemen te onderhouden.
“Het is ontworpen voor de realiteit van moderne data zoals veranderingsdatafeeds, berichtenbussen en real-time analyses die AI-systemen aandrijven. Als Apache Spark het kan verwerken, dan kunnen deze pipelines het aan,” legde Armbrust uit. Hij voegde eraan toe dat de declaratieve aanpak de nieuwste poging van Databricks markeert om Apache Spark te vereenvoudigen.
Bewezen op schaal
Hoewel het declaratieve pipeline-framework aan de Spark-codebase zal worden toegevoegd, is de kracht ervan al bekend bij duizenden bedrijven die het hebben gebruikt als onderdeel van Databricks’ Lakeflow-oplossing om workloads te verwerken die variëren van dagelijkse batchrapportages tot sub-seconde streamingtoepassingen.
De voordelen zijn vrijwel vergelijkbaar: je verspilt veel minder tijd aan het ontwikkelen van pipelines of onderhoudstaken en behaalt veel betere prestaties, latentie of kosten, afhankelijk van wat je wilt optimaliseren.
Financiële dienstverlener Bloc heeft al geprofiteerd van deze aanpak. Door het gebruik van dit open-source framework kunnen ze hun datastromen efficiënter beheren en tegelijkertijd de operationele kosten verlagen.
De ontwikkeling van deze technologie laat zien hoe Databricks zijn positie in de markt probeert te versterken door tools te bieden die niet alleen krachtig, maar ook gebruiksvriendelijk zijn. Dit kan een belangrijke factor zijn voor bedrijven die hun data-engineeringprocessen willen optimaliseren.
Door de open-source benadering kan de bredere gemeenschap bijdragen aan de verdere ontwikkeling van het framework, wat leidt tot meer innovaties en verbeteringen in de toekomst.
Vertaald met ChatGPT gpt-4o-mini