Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Co to jest i dlaczego to ma znaczenie?

Duże dane to termin określający dużą ilość danych – zarówno ustrukturyzowanych, jak i nieustrukturyzowanych – które zalewają przedsiębiorstwo na co dzień. Ale to nie ilość danych jest ważna. To, co organizacje robią z danymi, ma znaczenie. Duże dane mogą być analizowane w celu uzyskania wglądu, który prowadzi do podejmowania lepszych decyzji i strategicznych ruchów biznesowych.

Historia dużych danych i bieżące rozważania

Podczas gdy wyrażenie “duże dane” jest umiarkowanie nowe, demonstracja spotkania i odkładanie dużej ilości danych na ewentualne dochodzenie jest starsze. Pomysł ten nabrał rozmachu w połowie lat 2000., kiedy to ekspert branżowy Doug Laney ogłosił, że obecnie standardowe znaczenie ogromnych informacji to trzy Vs:

Tom. Stowarzyszenia gromadzą informacje z różnych źródeł, w tym z wymiany biznesowej, z Internetu oraz dane z czujników lub informacji z maszyny do maszyny. Wcześniej odkładanie go na później byłoby problemem – jednak nowe innowacje (na przykład Hadoop) ułatwiły jego wagę.

Velocity. Dane przesyłane są z niespotykaną dotąd prędkością i muszą być przetwarzane w odpowiednim czasie. Tagi RFID, czujniki i inteligentne systemy pomiarowe napędzają potrzebę radzenia sobie z prądami danych w czasie zbliżonym do rzeczywistego.

Różnorodność. Informacje są dostępne w szerokim zakresie – od zorganizowanych, numerycznych informacji w zwyczajowych bazach danych po niezorganizowane zapisy treści, pocztę elektroniczną, wideo, dźwięk, informacje o notowaniach giełdowych i giełdach budżetowych.

W SAS bierzemy pod uwagę dwa dodatkowe wymiary, jeśli chodzi o duże dane:

Zmienność. Niezależnie od rozszerzających się prędkości i asortymentu informacji, strumienie informacji mogą być wyjątkowo sprzeczne z okazjonalnymi szczytami. Czy w internetowych serwisach społecznościowych jest coś pochylonego? Dzień po dniu, regularnie i okazjonalnie aktywowane szczytowe obciążenia informacyjne mogą próbować nadzorować. Znacznie bardziej w przypadku nieuporządkowanych informacji.

Złożoność Obecne informacje pochodzą z wielu źródeł, co utrudnia ich wzajemny kontakt, koordynowanie, oczyszczanie i zmienianie w poprzek ram. Niezależnie od tego, jak to możliwe, ważne jest, aby kojarzyć i łączyć połączenia, systemy progresywne i różne powiązania informacyjne lub informacje mogą szybko kręcić się dziko.

Języki

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.