De open-source aard van OTF's stimuleert collaboratieve innovatie, waardoor gebruikers profiteren van de nieuwste ontwikkelingen op het gebied van datamanagement. Prominente OTF's zoals Apache Iceberg en Delta Lake bieden geavanceerde oplossingen voor data-integriteit en -beheer. Met OTF's kunnen organisaties hun data-analyse en datamanagement capaciteiten aanzienlijk verbeteren.

Organisaties kunnen OTF's benutten om hun dataverwerkingscapaciteiten te verbeteren, waardoor data toegankelijk en betekenisvol wordt. Voordelen van OTF’s zijn onder andere:

Compatibiliteit
Kosteneffectiviteit
Efficiëntie
Flexibiliteit
Governance
Interoperabiliteit
Beveiliging

Deze voordelen maken OTF’s qua gebruik een goede keuze voor data-gedreven organisaties.

Waarom een open tabelformaat gebruiken?
In data-engineering is de keuze van dataopslag- en datamanagement-oplossingen cruciaal voor het succes van data-gedreven initiatieven. OTF’s bieden een enorme reeks voordelen die veel van de uitdagingen aangaan waarmee data-professionals vandaag de dag worden geconfronteerd. Een van de belangrijkste voordelen van het gebruik van OTF’s is het stroomlijnen van datamanagementprocessen. Dit omvat het vereenvoudigen van data-invoer, -opslag en -toegang in diverse data-ecosystemen. Door OTF’s te gebruiken, kunnen organisaties;

de complexiteit verminderen,
de datakwaliteit verbeteren en
de tijd tot inzicht versnellen,

wat de besluitvormingsprocessen en operationele efficiëntie verbetert.

Een ander belangrijk voordeel van OTF’s is hun ondersteuning voor schema-evolutie en multi-tenancy. Naarmate datastructuren in de loop van de tijd evolueren, is het vermogen om zich aan te passen zonder uitgebreide herbewerking of downtime van onschatbare waarde. Doordat OTF’s multi-tenant zijn, meerdere applicaties kunnen tegelijkertijd de data in een OTF-tabel benaderen, wordt het makkelijker deze data te beheren. Dit optimaliseert niet alleen het gebruik van resources, maar zorgt er ook voor dat databeveiliging en governance worden vergemakkelijkt.

Ten slotte bevordert de open-source aard van veel OTF’s een collaboratieve omgeving waarin innovaties en verbeteringen continu worden geïntegreerd. Dit aspect zorgt ervoor dat organisaties die OTF’s gebruiken, kunnen profiteren van de nieuwste ontwikkelingen in datamanagement technologie. Populaire open-source projecten worden ondersteund door een grote gemeenschap van ontwikkelaars en data-professionals die bijdragen aan hun ontwikkeling, stabiliteit en beveiliging. Deze collectieve inspanning resulteert in robuuste, geavanceerde oplossingen die zich kunnen aanpassen aan het voortdurend veranderende landschap van datatechnologie. Door te kiezen voor OTF’s, richten bedrijven zich op een dynamische, vooruitstrevende benadering van datamanagement die zowel schaalbaar als duurzaam is.

Kenmerken van Open Tabelformaten
OTF’s zijn ontworpen om de datamanagement capaciteiten aanzienlijk te verbeteren. Een van de meest opmerkelijke kenmerken van deze indelingen is de ondersteuning voor volledige create, read, update en delete (CRUD) operaties. Deze uitgebreide functionaliteit maakt flexibele datamanipulatie mogelijk en zorgt ervoor dat data lakes en warehouses in real-time kunnen worden bijgewerkt. Het vermogen om updates en deletes uit te voeren, onderscheidt OTF’s van traditionele, op bestanden gebaseerde, opslagsystemen, waar dergelijke operaties inefficiënt zijn.

Schaalbaarheid en de mogelijkheid om OTFs makkelijk te gebruiken met meerdere dataengines zijn andere kenmerken die OTF’s bieden. Als gevolg hiervan kunnen organisaties hun data-ecosystemen effectiever beheren, waardoor data-gedreven inzichten toegankelijker en actiegerichter worden.

Transactionele ondersteuning met ACID-compliancy is een ander belangrijk kenmerk van OTF’s. ACID staat voor Atomicity, Consistency, Isolation en Durability. Het beschrijft een set verwachtingen die ervoor zorgen dat alle database-transacties op een betrouwbare, correcte manier worden verwerkt. Een database wordt als ACID-compliant beschouwd wanneer deze aan de verwachtingen of principes voldoet. ACID-naleving is vooral belangrijk in scenario's waar meerdere transacties gelijktijdig plaatsvinden of wanneer het systeem moet herstellen van gedeeltelijke storingen. OTF's garanderen dat elke transactie succesvol wordt voltooid of volledig wordt teruggedraaid, wat een hoog niveau van databetrouwbaarheid en -vertrouwelijkheid biedt voor kritieke bedrijfsoperaties. Dit kenmerk is instrumenteel in het ondersteunen van complexe dataverwerkingsprocessen en zorgt ervoor dat data-lakes en -warehouses kunnen dienen als een single-source-of-truth voor organisaties.

Belangrijkste typen Open Tabelformaten
Apache Iceberg en Delta Lake behoren tot de meest prominente indelingen en bieden geavanceerde oplossingen voor het beheren van grootschalige data lakes en het waarborgen van dataintegriteit.

Apache Iceberg richt zich op het verbeteren van de databetrouwbaarheid en schaalbaarheid in data lakes. Het biedt robuuste schema-evolutie mogelijkheden, waardoor naadloze aanpassingen aan datastructuren mogelijk zijn zonder bestaande data of queries te verstoren. Het tabelformaat van Iceberg is ontworpen om de query-prestaties van dataengines te verbeteren, waardoor het gemakkelijker wordt om complexe analytische workloads aan te pakken. De compatibiliteit met verschillende dataengines—waaronder Apache Spark, Apache Flink en Presto—verhoogt de veelzijdigheid verder.

Delta Lake introduceert een transactionele opslaglaag die ACID-transacties naar Apache Spark en big data workloads brengt. Het vermogen van Delta Lake om data-integriteit te waarborgen, zelfs bij gelijktijdige lees- en schrijfbewerkingen, maakt het formaat krachtig voor gebruik door data-engineers. De ondersteuning voor schema-handhaving en time-travel (de mogelijkheid om eerdere versies van de data te raadplegen) biedt extra datamanagement en analyse mogelijkheden.

De keuze voor een bepaald type kan afhangen van specifieke usecases en vereisten.

Veelvoorkomende architecturen van OTF’s
De architectuur van OTF’s is cruciaal voor hoe data wordt opgeslagen, benaderd en beheerd binnen het data-ecosysteem van een organisatie. Deze architecturen zijn ontworpen om dataverwerking te optimaliseren en naadloze integratie met bestaande datamanagement tools en frameworks te waarborgen. Een veelvoorkomende architectuur omvat het plaatsen van de tabel op een gedistribueerd bestandsopslagsysteem, zoals Amazon Simple Storage Service (S3), Microsoft Azure Data Lake Storage Gen2 of Google Cloud Storage. Deze opzet maakt efficiënte verwerking van enorme hoeveelheden data mogelijk, terwijl gebruik wordt gemaakt van de schaalbaarheid en duurzaamheid van objectstorage services.

Een ander belangrijk aspect van architecturen van OTF’s is het gebruik van metadata om data bestanden te beheren. Metadata—waaronder informatie over databestanden zoals schema details, partitioneringsdetails en wijzigingslogs—wordt gebruikt om data toegang en query-prestaties te optimaliseren. Door een gecentraliseerde metadata-opslag te onderhouden, kunnen OTF’s efficiënt wijzigingen in de data bijhouden, schema-evolutie ondersteunen en functies zoals tijdreizen en incrementele verwerking mogelijk maken. Deze OTF-mogelijkheden kunnen nieuwe workloads mogelijk maken, zoals AI use-cases en modeltraining.

Veelgestelde vragen
Hoe verbeteren OTF’s data lakes?
OTF’s zijn ontstaan uit de behoefte de efficiëntie en effectiviteit van data lakes te verbeteren. Door een gestructureerde aanpak van gegevensopslag en -beheer te bieden, introduceren OTF’s een laag van organisatie die vaak ontbreekt in traditionele data lakes. Ze bieden een abstractielaag bovenop data lakes en brengen database-achtige functies. Deze gestructureerde aanpak maakt efficiëntere gegevensquery's en analyses mogelijk, omdat gegevens worden opgeslagen op een manier die is geoptimaliseerd voor toegangspatronen en queryprestaties.

Een van de belangrijkste manieren waarop OTF’s data lakes stroomlijnen, is door schema-on-read-mogelijkheden mogelijk te maken. Dit stelt data lakes in staat om gegevens uit verschillende bronnen met verschillende formaten en structuren beschikbaar te stellen, zonder de noodzaak van voorafgaande schema-definitie. Als gevolg hiervan kunnen data-ingenieurs en analisten zich concentreren op het verkrijgen van inzichten uit de gegevens, in plaats van tijd te besteden aan gegevensvoorbereiding en -transformatietaken. Bovendien zorgt de mogelijkheid om schema-validatie bij het schrijven af te dwingen voor gegevenskwaliteit en consistentie, waardoor de kans op fouten in de gegevens wordt verminderd.

OTF’s introduceren ook transactionele ondersteuning en ACID-naleving in data lakes, wat zorgt voor gegevensintegriteit en consistentie. Dit is vooral belangrijk in omgevingen waar gegevens vaak worden bijgewerkt of waar meerdere gebruikers de gegevens gelijktijdig openen en wijzigen. Door atomaire transacties te ondersteunen, zorgen OTF’s ervoor dat data lakes kunnen dienen als een betrouwbare bron voor de organisatie, wat nauwkeurige en tijdige besluitvorming vergemakkelijkt. Bovendien verbeteren functies zoals incrementele verwerking en tijdreizen de flexibiliteit van data lakes, waardoor organisaties veranderingen in de tijd kunnen volgen en historische gegevens kunnen raadplegen indien nodig. Deze mogelijkheden maken OTF’s een onmisbaar hulpmiddel voor het optimaliseren van data lake-operaties en het ontsluiten van het volledige potentieel van gegevensassets.

Hoe moet ik een OTF kiezen?
De drie meest voorkomende OTF’s hebben dezelfde mogelijkheden: Apache Iceberg, Linux Foundation Delta Lake en Apache Hudi. Hun ecosystemen, ontwikkelaars en contributor communities verschillen, dus het kan zinvol zijn om een OTF te kiezen op basis van het beschikbare en ondersteunde ecosysteem voor uw use-cases en specifieke vereisten voor uw workloads. Alle drie de OTF’s ondersteunen ACID-transacties en versiebeheer, schema-evolutie en tijdreizen, en alle drie kunnen complexe query-workloads met hoge prestaties en schrijfbewerkingen van veel gelijktijdige gebruikers aan.
Een nadeel van open source in het algemeen geldt ook voor de keuze voor OTF’s. Er is veel keuze en voor iedere use case kan een ander soort OTF beter bruikbaar zijn. Het is dan zaak een gulden middenweg te vinden.

Teradata VantageCloud Lake en OTF
Teradata-engineers onderzoeken voortdurend opkomende trends en software en lopen voorop in hun bijdragen aan open-source projecten. Teradata was de eerste Multi Parallel Processing relationele database op Linux, we hebben Presto geïncubeerd tot Starburst en hebben bijgedragen aan Jupyter, PyTD, R en vele andere innovaties. Teradata-engineering volgt altijd het voorbeeld van onze klanten. Zien zij een bruikbare innovatie, dan proberen wij deze zo snel mogelijk op te nemen in onze software. Avant-garde Teradata-klanten houden ons constant op de hoogte en helpen ons met het signaleren van nieuwe trends en innovaties. Daarom hebben we in 2019 lees-en-schrijffunctionaliteit toegevoegd aan Teradata Native Object Storage (externe tabellen op object-storage) en hebben we in 2022 het lezen van Delta Lake formaat tabellen op zowel AWS, Azure en Google en eind 2023 voor Iceberg. Vanaf dit jaar kan VantageCloud Lake lezen en schrijven naar deze tabelformaten. Wij zien nog geen grote vraag naar Hudi van onze klanten.

Voor bezoekers

Exposant worden

Sprekers

Blog & Kennis

Selecteer taal

Open Tabelformaten, wat zijn het en waar dienen ze voor?

Teradata

Data Expo

De laatste inzichten en nieuwtjes.

AI: Van slimme assistent tot autonome beslisser!

Alle voor- en nadelen van het gebruik van externe B2B-data op een rij