Co to jest i dlaczego to ma znaczenie?

Duże dane to termin określający dużą ilość danych – zarówno ustrukturyzowanych, jak i nieustrukturyzowanych – które zalewają przedsiębiorstwo na co dzień. Ale to nie ilość danych jest ważna. To, co organizacje robią z danymi, ma znaczenie. Duże dane mogą być analizowane w celu uzyskania wglądu, który prowadzi do podejmowania lepszych decyzji i strategicznych ruchów biznesowych.

Historia dużych danych i bieżące rozważania

Podczas gdy wyrażenie “duże dane” jest umiarkowanie nowe, demonstracja spotkania i odkładanie dużej ilości danych na ewentualne dochodzenie jest starsze. Pomysł ten nabrał rozmachu w połowie lat 2000., kiedy to ekspert branżowy Doug Laney ogłosił, że obecnie standardowe znaczenie ogromnych informacji to trzy Vs:

Tom. Stowarzyszenia gromadzą informacje z różnych źródeł, w tym z wymiany biznesowej, z Internetu oraz dane z czujników lub informacji z maszyny do maszyny. Wcześniej odkładanie go na później byłoby problemem – jednak nowe innowacje (na przykład Hadoop) ułatwiły jego wagę.

Velocity. Dane przesyłane są z niespotykaną dotąd prędkością i muszą być przetwarzane w odpowiednim czasie. Tagi RFID, czujniki i inteligentne systemy pomiarowe napędzają potrzebę radzenia sobie z prądami danych w czasie zbliżonym do rzeczywistego.

Różnorodność. Informacje są dostępne w szerokim zakresie – od zorganizowanych, numerycznych informacji w zwyczajowych bazach danych po niezorganizowane zapisy treści, pocztę elektroniczną, wideo, dźwięk, informacje o notowaniach giełdowych i giełdach budżetowych.

W SAS bierzemy pod uwagę dwa dodatkowe wymiary, jeśli chodzi o duże dane:

Zmienność. Niezależnie od rozszerzających się prędkości i asortymentu informacji, strumienie informacji mogą być wyjątkowo sprzeczne z okazjonalnymi szczytami. Czy w internetowych serwisach społecznościowych jest coś pochylonego? Dzień po dniu, regularnie i okazjonalnie aktywowane szczytowe obciążenia informacyjne mogą próbować nadzorować. Znacznie bardziej w przypadku nieuporządkowanych informacji.

Złożoność Obecne informacje pochodzą z wielu źródeł, co utrudnia ich wzajemny kontakt, koordynowanie, oczyszczanie i zmienianie w poprzek ram. Niezależnie od tego, jak to możliwe, ważne jest, aby kojarzyć i łączyć połączenia, systemy progresywne i różne powiązania informacyjne lub informacje mogą szybko kręcić się dziko.