Je hebt misschien de langdurige aflevering van “I Love Lucy” gezien, waar Lucy en Ethel tijdens een snoepwerkzaamheden chocolaatjes inpakken. De hogesnelheidstransportband start op en daardoor zijn de dames direct uit de diepte. Bovenaan de scène vullen ze hun hoeden, zakken en monden met chocolaatjes, terwijl een steeds langer wordende stoet van uitgepakte gebakjes hun station blijft ontvluchten. Het is hilarisch. Het is ook de juiste analogie voor het begrijpen van het belang van de modieuze datapijplijn.

De efficiënte stroom van kennis van de ene locatie naar de andere – van een SaaS-applicatie naar een kennismagazijn, bijvoorbeeld – is een van de belangrijkste kritische operaties in de hedendaagse data-gedreven onderneming. Nuttige analyse kan immers pas beginnen als de informatie beschikbaar is. De datastroom is vaak precair, omdat er tijdens het transport van het ene systeem naar het andere tal van zaken misgaan: gegevens kunnen beschadigd raken, er kunnen knelpunten ontstaan (waardoor er vertraging ontstaat), of gegevensbronnen kunnen conflicteren en/of er kunnen duplicaten ontstaan. Omdat de complexiteit van de wensen toeneemt en daardoor het aantal kennisbronnen zich vermenigvuldigt, nemen deze problemen toe in omvang en impact.

De datapijplijn: gebouwd voor efficiëntie

Voer de infopijplijn in, software die vele handmatige stappen uit de methode elimineert en een soepele, geautomatiseerde kennisstroom van het ene naar het andere station mogelijk maakt. Het begint met het definiëren van wat, waar en de manier waarop gegevens worden verzameld. Het automatiseert de processen die betrokken zijn bij het extraheren, transformeren, combineren, valideren en laden van gegevens voor verdere analyse en visualisatie. Het biedt end-to-end snelheid door het elimineren van fouten en het bestrijden van knelpunten of latentie. Het kan meerdere datastromen direct verwerken. Kortom, het is een absolute noodzaak voor de hedendaagse data-gedreven onderneming.

Een datapijplijn bekijkt alle data als streaming data en maakt flexibele schema’s mogelijk. Of het nu gaat om statische bronnen (zoals een flat-file database) of om real-time bronnen (zoals online retail transacties), de infopijplijn verdeelt elke datastroom in kleinere brokken die het parallel verwerkt, wat extra rekenkracht oplevert.

De datapijplijn heeft niet het laatste woord bestemming nodig om een kennismagazijn te zijn. Het kan data naar een andere applicatie routeren, zoals een visualisatietool of Salesforce. Beschouw het als de ultieme productielijn. (Als chocolade data was, stel je dan eens voor hoe ontspannen Lucy en Ethel zouden zijn geweest!)

Hoe kan een datapijplijn anders zijn dan ETL?

De termen ETL en datapijplijn worden vaak door elkaar gebruikt. ETL staat voor Extract, Transform en Load. ETL-systemen halen data uit één systeem, transformeren de info en laden de info in een database of datawarehouse. Legacy ETL-pijpleidingen lopen meestal in batches, wat betekent dat de informatie in één grote brok op een geselecteerd moment naar het doelsysteem wordt verplaatst. Normaal gesproken gebeurt dit met regelmatige tussenpozen; u zou bijvoorbeeld de batches zo kunnen configureren dat ze om 12:30 uur ‘s nachts draaien, wanneer het systeemverkeer laag is.

Daarentegen kan “datapijplijn” een bredere term zijn die ETL als een subset omvat. Het verwijst naar een systeem voor het verplaatsen van gegevens van het ene systeem naar het andere. De informatie kan al dan niet getransformeerd worden, en het wordt in real time (of streaming) verwerkt in plaats van in batches. Wanneer de informatie wordt gestreamd, wordt het verwerkt tijdens een continue stroom, wat gunstig is voor gegevens die voortdurend moeten worden bijgewerkt, zoals kennis van een sensor die het verkeer volgt. Bovendien wordt de informatie mogelijk niet in een database of datawarehouse geladen. Het zou worden geladen naar een willekeurig aantal doelen, zoals een AWS-bak of een kennisvijver, of het zou zelfs een webhaak op een ander systeem triggeren om een geselecteerd bedrijfsproces te beginnen.

Wie heeft er een kennispijplijn nodig?

Hoewel een kennispijplijn niet voor elk bedrijf noodzakelijk is, is deze technologie vooral nuttig voor degenen die dat willen:

Grote hoeveelheden of meerdere kennisbronnen genereren, vertrouwen of opslaan…

Onderhouden van gesilodeerde gegevensbronnen

Vereist real-time of zeer geavanceerde gegevensanalyse

Gegevens opslaan in de cloud

Terwijl u bovenstaande lijst scant, zouden de meeste bedrijven waarmee u dagelijks in aanraking komt – en ongetwijfeld ook uw eigen bedrijven – genieten van een kennispijplijn.

Soorten datapijplijnoplossingen

Er zijn verschillende oplossingen voor datapijpleidingen beschikbaar en ze zijn allemaal geschikt voor verschillende doeleinden. Zo zou u mogelijk gebruik willen maken van cloud-native tools als u probeert uw gegevens naar de cloud te migreren.

De volgende lijst toont de meest populaire soorten pijpleidingen die beschikbaar zijn. Merk op dat deze systemen elkaar niet uitsluiten. U zou bijvoorbeeld een kennispijplijn kunnen hebben die geoptimaliseerd is voor zowel de cloud als voor real-time.

Batch. De uitvoering is het meest nuttig voor een keer dat u grote hoeveelheden kennis met een dagelijkse tussenpoos wilt manouvreren, en dat u geen gegevens in realtime hoeft te verplaatsen. Het zou bijvoorbeeld nuttig zijn om uw marketinggegevens te integreren in een groter systeem voor analyse.

Real-time. Deze tools zijn geoptimaliseerd om gegevens in real time te verwerken. Real-time is nuttig als u eenmaal gegevens van een streaming bron verwerkt, zoals de informatie van financiële markten of telemetrie van aangesloten apparaten.

Cloud native. Deze tools zijn geoptimaliseerd om te kunnen werken met gegevens uit de cloud, zoals gegevens uit AWS buckets. Deze tools worden gehost binnen de cloud, waardoor u veel geld kunt besparen op de infrastructuur en de expertise van de verkoper die uw pijplijn host, omdat u gelooft in de infrastructuur en expertise van de verkoper die uw pijplijn host.

Open source. Deze tools zijn het meest nuttig wanneer u een goedkoop alternatief voor een billboardverkoper nodig hebt en u de expertise hebt om de tool voor uw doeleinden te ontwikkelen of uit te breiden. Open-sourcetools zijn vaak goedkoper dan hun commerciële tegenhangers, maar vereisen expertise om de functionaliteit te gebruiken omdat de onderliggende technologie openbaar beschikbaar is en bedoeld is om door gebruikers te worden aangepast of uitgebreid.

De primaire stap zetten

Oké, dus u bent ervan overtuigd dat uw bedrijf een kennispijplijn nodig heeft. Hoe begint men?

U zou een team kunnen inhuren om uw eigen datapijplijn te creëren en te onderhouden. Dit is wat het inhoudt:

Ontwikkelen hoe u op inkomende data kunt letten (of het nu gaat om file-based, streaming of iets anders)

Verbinding maken met en herwerken van gegevens van elke bron om deze in overeenstemming te brengen met het formaat en het schema van zijn bestemming

Het verplaatsen van de informatie naar de doelgegevensbank/het datawarehouse

Velden toevoegen en verwijderen en het schema wijzigen als de bedrijfsvereisten veranderen

Het maken van een voortdurende, permanente inzet voor het onderhoud en de verbetering van de infopijplijn

Reken erop dat de methode kostbaar is, zowel qua middelen als qua tijd. U hebt ervaren (en dus duur) personeel nodig, ofwel ingehuurd ofwel opgeleid en ver weg van andere hoogwaardige projecten en programma’s. Het kan maanden duren om te creëren, wat aanzienlijke kosten met zich meebrengt. Tot slot is het vaak moeilijk om dit soort oplossingen op te schalen, omdat u graag hardware en andere mensen wilt inzetten, die buiten het budget kunnen vallen.

Een eenvoudigere, goedkopere oplossing is het innemen van een positie tijdens een robuuste datapijplijn, zoals Alooma. Hier is waarom:

U krijgt direct, out-of-the-box waarde, waardoor u de tijd die nodig is voor het bouwen van een interne oplossing bespaart.

U hoeft geen middelen te halen uit bestaande projecten of producten om uw datapijplijn te creëren of te onderhouden.

Als of wanneer er problemen ontstaan, heb je iemand die je vertrouwt om het probleem te repareren, in plaats van dat je middelen van andere projecten af moet rukken of dat je niet aan een SLA kunt voldoen.

Het geeft u een kans om uw gegevens te zuiveren en te verrijken…

Het maakt real-time, veilige analyse van kennis mogelijk, zelfs vanuit meerdere bronnen tegelijk, door de informatie op te slaan tijdens een cloud datawarehouse.

U kunt gegevens in beweging visualiseren

U krijgt gemoedsrust van enterprise-grade security en een 100% SOC 2 type II, HIPAA en GDPR-conforme oplossing.

Schemawijzigingen en nieuwe gegevensbronnen worden gemakkelijk opgenomen

Ingebouwde foutafhandeling betekent dat gegevens niet verloren gaan als het laden mislukt.