Być może widzieliście długotrwały odcinek “Kocham Lucy”, w którym Lucy i Ethel dostają pracę przy pakowaniu czekoladek w fabryce cukierków. Szybki przenośnik taśmowy uruchamia się i dzięki temu panie natychmiast wychodzą z głębi. Pod szczytem sceny napełniają swoje kapelusze, kieszenie i usta czekoladkami, podczas gdy coraz dłuższy korowód nie zawiniętych konfitur nadal ucieka z ich stanowiska. To zabawne. To także odpowiedni analog dla zrozumienia znaczenia modnego potoku danych.

Efektywny przepływ wiedzy z jednej lokalizacji do drugiej – na przykład z aplikacji SaaS do magazynu wiedzy – jest jedną z najważniejszych operacji krytycznych w dzisiejszym przedsiębiorstwie opartym na danych. Przydatna analiza może się przecież rozpocząć dopiero wtedy, gdy informacje staną się dostępne. Przepływ danych jest często niepewny, ponieważ istnieje wiele rzeczy, które zawodzą podczas transportu z jednego systemu do drugiego: dane mogą ulec uszkodzeniu, mogą trafić na wąskie gardła (powodując opóźnienia) lub źródła danych mogą być sprzeczne i/lub generować duplikaty. Ponieważ złożoność potrzeb rośnie, a co za tym idzie liczba źródeł wiedzy zwielokrotnia się, problemy te zwiększają skalę i wpływ.

Rurociąg danych: zbudowany z myślą o wydajności

Wprowadź potok informacyjny, oprogramowanie, które eliminuje wiele ręcznych kroków z metody i umożliwia płynny, zautomatyzowany przepływ wiedzy z jednej stacji do kolejnych. Zaczyna się od zdefiniowania co, gdzie i w jaki sposób dane są gromadzone. Automatyzuje procesy związane z pozyskiwaniem, przekształcaniem, łączeniem, walidacją i ładowaniem danych do dalszej analizy i wizualizacji. Zapewnia pełną prędkość poprzez eliminację błędów i walkę z wąskimi gardłami lub opóźnieniami. Może bezpośrednio przetwarzać wiele strumieni danych. Krótko mówiąc, jest to absolutna konieczność dla dzisiejszego przedsiębiorstwa opartego na danych.

Niezależnie od tego, czy pochodzą one ze źródeł statycznych (jak np. baza danych w postaci plików płaskich), czy też ze źródeł działających w czasie rzeczywistym (np. transakcje detaliczne online), strumień danych dzieli każdy z nich na mniejsze części, które są przetwarzane równolegle, co daje dodatkową moc obliczeniową.

Strumień danych nie wymaga, aby ostatnim słowem docelowym był magazyn wiedzy. Może on kierować dane do innej aplikacji, np. do narzędzia wizualizacyjnego lub Salesforce. Rozważ to, ponieważ jest to ostateczna linia produkcyjna. (Gdyby czekolada była danymi, wyobraź sobie, jak zrelaksowane byłyby Lucy i Ethel!)

Czym może różnić się potok danych od ETL?

Powszechnie słyszy się terminy ETL i potok danych używane zamiennie. ETL oznacza Extract, Transform and Load. Systemy ETL pobierają dane z jednego systemu, przekształcają informacje i ładują je do bazy danych lub hurtowni danych. Starsze rurociągi ETL zazwyczaj przebiegają w partiach, co oznacza, że informacje są przenoszone w jednym dużym kawałku w wybranym czasie do systemu docelowego. Zazwyczaj dzieje się to w regularnych, zaplanowanych odstępach czasu; na przykład, można skonfigurować partie do pracy o 12:30 rano dziennie, gdy ruch w systemie jest niewielki.

Natomiast “potok danych” może być szerszym terminem, który obejmuje ETL jako podzbiór. Odnosi się on do systemu przenoszenia danych z jednego systemu do innego. Dane mogą być przekształcane lub nie, i będą przetwarzane w czasie rzeczywistym (lub strumieniowo), a nie wsadowo. Gdy informacja jest przesyłana strumieniowo, jest ona przetwarzana w trakcie ciągłego przepływu, co jest korzystne dla danych wymagających stałej aktualizacji, jak wiedza z czujnika monitorującego ruch. Dodatkowo, informacja może nie zostać załadowana do bazy danych lub hurtowni danych. Byłoby to załadowane do dowolnej liczby celów, jak wiadro AWS lub jeziora wiedzy, lub nawet uruchomić webhook na innym systemie, aby rozpocząć wybrany proces biznesowy.

Kto potrzebuje rurociągu wiedzy?

Chociaż rurociąg wiedzy nie jest koniecznością dla każdej firmy, ta technologia jest szczególnie pomocna dla tych, którzy:

Generować, polegać lub przechowywać duże ilości lub wiele źródeł wiedzy.

Utrzymywanie źródeł danych z silosów

Wymagają analizy danych w czasie rzeczywistym lub bardzo zaawansowanej analizy danych

Przechowywanie danych w chmurze

Skanując powyższą listę, większość firm, z którymi kontaktujesz się na co dzień – a bez wątpienia także te, z którymi kontaktujesz się na co dzień – będzie cieszyć się potokiem wiedzy.

Rodzaje rozwiązań w zakresie rurociągów danych

Dostępnych jest wiele różnych rozwiązań w zakresie rurociągów danych, a każde z nich jest dobrze dopasowane do różnych celów. Na przykład, jeśli próbujesz przenieść swoje dane do chmury, prawdopodobnie chciałbyś skorzystać z rodzimych narzędzi.

Poniższa lista przedstawia najpopularniejsze dostępne rodzaje potoków danych. Należy pamiętać, że te systemy nie wykluczają się wzajemnie. Możliwe, że posiadasz potok wiedzy, który jest zoptymalizowany na przykład dla chmury i czasu rzeczywistego.

Partia. Wykonanie jest najbardziej przydatne, gdy chcesz manewrować dużymi ilościami wiedzy w codziennym odstępie czasu, a nie musisz przenosić danych w czasie rzeczywistym. Na przykład, może to być przydatne do zintegrowania danych marketingowych z większym systemem do analizy.

W czasie rzeczywistym. Narzędzia te są zoptymalizowane do przetwarzania danych w czasie rzeczywistym. Przetwarzanie danych w czasie rzeczywistym jest korzystne w przypadku przetwarzania danych ze źródła strumieniowego, np. informacji z rynków finansowych lub telemetrii z podłączonych urządzeń.

Chmura natywna. Narzędzia te są zoptymalizowane do pracy z danymi w chmurze, takimi jak dane z wiader AWS. Narzędzia te są hostowane w chmurze, co pozwala zaoszczędzić sporo pieniędzy na infrastrukturze i zasobach eksperckich, ponieważ wierzysz w infrastrukturę i doświadczenie sprzedawcy hostującego Twój potok.

Open source. Narzędzia te są najbardziej przydatne, gdy potrzebujesz taniej alternatywy dla sprzedawcy billboardu i masz wiedzę, aby rozwinąć lub rozszerzyć narzędzie do swoich celów. Narzędzia open source są często tańsze niż ich komercyjne odpowiedniki, ale wymagają specjalistycznej wiedzy, aby korzystać z funkcjonalności, ponieważ podstawowa technologia jest publicznie dostępna i ma być modyfikowana lub rozszerzana przez użytkowników.

Wykonanie pierwszego kroku

Ok, więc jesteś przekonany, że twoja firma potrzebuje rurociągu wiedzy. Jak się zaczyna?

Możesz zatrudnić zespół do stworzenia i utrzymania własnego potoku danych we własnym zakresie. Oto, co to oznacza:

Opracowanie jak obserwować przychodzące dane (czy to w formie plików, strumieniowej, czy czegoś innego)

Łączenie się z danymi z każdego źródła i ich obróbka w celu dopasowania do formatu i schematu docelowego

Przenoszenie informacji do docelowej bazy danych/magazynu danych

Dodawanie i usuwanie pól oraz modyfikowanie schematu w miarę zmiany wymagań firmy

Podejmowanie stałego, stałego zobowiązania do utrzymania i ulepszania rurociągu informacyjnego

Liczyć na to, że metoda ta będzie kosztowna, zarówno pod względem zasobów, jak i czasu. Będziesz potrzebował doświadczonego (a tym samym drogiego) personelu, wynajętego lub przeszkolonego i wyciągniętego z dala od innych wartościowych projektów i programów. Stworzenie metody może trwać miesiącami, ponosząc przy tym znaczne koszty. Wreszcie, często trudno jest skalować tego typu rozwiązania, ponieważ chciałbyś mieć sprzęt i innych ludzi, co może być poza budżetem.

Prostszym, tańszym rozwiązaniem jest zajęcie pozycji podczas solidnego potoku danych, jak Alooma. Oto dlaczego:

Otrzymujesz natychmiastową, nieszablonową wartość, oszczędzając czas potrzebny na zbudowanie własnego rozwiązania.

Nie musisz wyciągać zasobów z istniejących projektów lub produktów, aby stworzyć lub utrzymać swój potok danych.

Jeśli lub gdy pojawią się problemy, masz kogoś, komu zaufasz, aby naprawić trudność, zamiast ściągać zasoby z innych projektów lub nie spełniać warunków SLA.

Daje ci to szansę na oczyszczenie i wzbogacenie twoich danych w locie

Pozwala to na bezpieczną analizę wiedzy w czasie rzeczywistym, nawet z wielu źródeł jednocześnie, poprzez przechowywanie informacji w hurtowni danych w chmurze.

Możesz wizualizować dane w ruchu

Spokój ducha dzięki bezpieczeństwu klasy korporacyjnej oraz rozwiązaniu w 100% zgodnemu z SOC 2 Type II, HIPAAA i GDPR.

Zmiany schematu i nowe źródła danych są łatwe do włączenia

Wbudowana obsługa błędów oznacza, że dane nie zostaną utracone w przypadku nieudanego ładowania.