Mówiąc prościej, praca naukowca zajmującego się danymi polega na badaniu danych w celu uzyskania użytecznych informacji.
Szczególne zadania obejmują:
Identyfikacja problemów związanych z analizą danych, które stwarzają najlepsze możliwości dla organizacji.
Określanie właściwych zestawów danych i zmiennych
Gromadzenie dużych zbiorów ustrukturyzowanych i nieustrukturyzowanych danych z różnych źródeł
Czyszczenie i sprawdzanie informacji w celu zapewnienia ich dokładności, kompletności i jednolitości
Tworzenie i stosowanie modeli i algorytmów do wydobywania ogromnych ilości danych
Analiza informacji w celu wykrycia wzorców i trendów
Tłumaczenie informacji w celu uzyskania rozwiązań i możliwości
Przekazywanie wyników zainteresowanym stronom za pomocą wizualizacji i innych środków
W książce Doing Data Science autorzy opisują w ten sposób obowiązki informatyka:
“Ogólnie rzecz biorąc, naukowiec wiedzy to ktoś, kto zna sposób wydobywania znaczenia z danych i ich interpretacji, który potrzebuje zarówno narzędzi, jak i metod ze statystyki i uczenia się maszynowego, także jako człowiek. Spędza mnóstwo czasu w procesie zbierania, czyszczenia i usuwania danych, ponieważ dane nie są czyste. Proces ten wymaga wytrwałości, statystyki i umiejętności w zakresie inżynierii oprogramowania – umiejętności, które są również niezbędne do zrozumienia uprzedzeń w danych, a także do debugowania danych wyjściowych do logowania z kodu.
Po nadaniu danym kształtu, ważną częścią jest eksploracyjna analiza danych, która łączy wizualizację i sens danych. Znajduje wzorce, buduje modele i algorytmy – niektóre z nich mają na celu zrozumienie wykorzystania produktu, a tym samym ogólnego stanu zdrowia towaru, i in. do funkcjonowania prototypów, które ostatecznie wracają do towaru. Może on projektować eksperymenty i może być krytyczną częścią procesu podejmowania decyzji w oparciu o dane. Będzie komunikować się z członkami zespołu, inżynierami i kierownictwem w jasnym języku i z wizualizacjami danych, aby chociaż jej koledzy nie byli zanurzeni w samych danych, zrozumieli ich konsekwencje”.
Źródło: O’Neil, C., i Schutt, R. Doing Data Science. Pierwsze wydanie.
Czy stworzyłbyś uczciwego naukowca od danych?
Aby się tego dowiedzieć, zadaj sobie pytanie: czy jeden…
Posiada stopień naukowy z zakresu matematyki, statystyki, informatyki, zarządzania systemami informatycznymi, czy marketingu?
Masz duże doświadczenie zawodowe w którejkolwiek z tych dziedzin?
Czy jesteś zainteresowany gromadzeniem i analizą danych?
Cieszysz się pracą zindywidualizowaną i rozwiązywaniem problemów?
Dobrze komunikować się werbalnie i wizualnie?
Chcesz poszerzyć swoje umiejętności i walczyć z nowymi wyzwaniami?
Jeśli odpowiedziałeś tak na którekolwiek z tych pytań, znajdziesz tony miłości w dziedzinie nauki o wiedzy.
Naukowcy zajmujący się danymi wymagają wiedzy z zakresu matematyki lub statystyki. Naturalna ciekawość jest dodatkowo ważna, podobnie jak kreatywne i ważne myślenie. Co jesteś w stanie zrobić z tymi wszystkimi danymi? Jakie nieodkryte możliwości kryją się w nich? Chcesz mieć talent do łączenia kropek i pragnienie poszukiwania odpowiedzi na pytania, które jeszcze nie zostały zadane, jeśli chcesz zrozumieć pełny potencjał danych.
Naukowcy zajmujący się danymi są również wysoko wykształceni. zgodnie z branżowymi zasobami KDnuggets, 88 procent naukowców zajmujących się wiedzą ma co najmniej tytuł magistra, a 46 procent doktora.
Potrzebujesz także doświadczenia w programowaniu, aby opracować modele i algorytmy niezbędne do wydobywania ogromnych ilości danych. Python i R to dwa najlepsze środowiska programistyczne dla nauki o danych.
Musisz być kimś w rodzaju przedsiębiorcy. Głowa do strategii biznesowej jest niezbędna. Chociaż będziesz współpracował z innymi specjalistami od danych lub może z interdyscyplinarnym zespołem wykonawców, nie osiągniesz sukcesu, jeśli nie potrafisz opracować własnych metod i zbudować własnej infrastruktury do krojenia i pokrywania w kostkę informacji, które doprowadzą Cię do nowych odkryć i nowych wizji w dłuższej perspektywie.
Musicie być nawet gotowi do przekazania złożonych pomysłów swoim nietechnicznym interesariuszom w sposób, który będzie dla nich zrozumiały. Narzędzia oprogramowania typu data-science mogą pomóc w wizualizacji odkryć, ale potrzebne są również umiejętności komunikacji werbalnej, aby jasno opowiedzieć historię.