Проще говоря, работа специалиста по данным заключается в изучении данных для получения реальных результатов.

Конкретные задачи включают в себя:

Определение проблем анализа данных, которые предоставляют наилучшие возможности для организации.

Определение правильных наборов данных и переменных

Сбор больших наборов структурированных и неструктурированных данных из разрозненных источников

Очистка и проверка информации для обеспечения точности, полноты и единообразия.

Разработка и применение моделей и алгоритмов для добычи массивов данных.

Анализ информации для выявления закономерностей и тенденций.

Интерпретация информации для получения решений и возможностей

доведение результатов до сведения заинтересованных сторон с помощью визуализации и других средств.

В книге “Doing Data Science” авторы так описывают обязанности ученого в области информации:

“В более общем плане, ученый в области знаний – это тот, кто знает способ извлечения смысла из данных и их интерпретации, который нуждается как в инструментах и методах из статистики, так и в машинном обучении, в том числе и как человек”. Она тратит тонны вашего времени в процессе сбора, очистки и обработки данных, потому что данные не являются чистыми. Этот процесс требует настойчивости, статистических данных и навыков инженерии программного обеспечения – навыков, которые также необходимы для понимания предвзятости данных и отладки выхода из кода.

После того, как информация сформирована, важной частью является исследовательский анализ данных, в котором смешиваются визуализация и смысл данных. Она найдет шаблоны, построит модели и алгоритмы, как и в случае с намерением понять использование продукта и, следовательно, общее состояние здоровья товара, и т.д., чтобы функционировать прототипы, которые, в конечном счете, запекают обратно в товар. Она может проектировать эксперименты, и она или он может быть критической частью решения, основанного на данных. Она будет общаться с членами команды, инженерами и руководством на понятном языке и с визуализацией данных, чтобы, хотя ее коллеги не погружаются в сами данные, они поймут последствия”.

Источник: О’Нил, К. и Шутт, Р. Ведение науки о данных. Первое издание.

Вы бы создали честного Ученого по Данным?

Чтобы выяснить это, спросите себя: делает ли он …

Имеете ли вы диплом по математике, статистике, вычислениям, информационным системам управления или маркетингу?

Имеете значительный опыт работы в любой из этих областей?

Интересуетесь сбором и анализом данных?

Наслаждаетесь индивидуальной работой и решением проблем?

Хорошо общаетесь как в устной, так и в визуальной форме?

Хотите расширить свои навыки и бороться с новыми вызовами?

Если вы ответили “да” на любой из этих вопросов, вы найдете тонны любви в области науки о знаниях.

Ученым, изучающим данные, требуются знания в области математики или статистики. Дополнительное значение имеет природное любопытство, а также творческое и важное мышление. Что вы можете сделать со всеми данными? Какие еще не открытые возможности скрыты внутри? Вы хотите иметь умение соединять точки и желание искать ответы на вопросы, которые еще не были заданы, если Вы хотите понять потенциал данных в полной мере.

Ученые в области данных также высокообразованны. В соответствии с отраслевым ресурсом KDnuggets, 88 процентов ученых в области знаний имеют как минимум степень магистра, а 46 процентов – докторскую степень.

Вам также требуется некоторый опыт в программировании, поэтому вы будете разрабатывать модели и алгоритмы, необходимые для добычи хранилищ массивных данных. Python и R – две основные среды программирования для науки о данных.

Вы, должно быть, что-то вроде предпринимателя. Глава бизнес-стратегии жизненно важен. Хотя вы будете работать с другими специалистами по данным или, возможно, с междисциплинарной командой исполнителей, вы не добьетесь успеха, если не сможете разработать свои собственные методы и построить свою собственную инфраструктуру, чтобы нарезать кубиками информацию, которая приведет вас к вашим новым открытиям и новым видениям на более длительный срок.

Вы даже должны быть готовы к передаче сложных идей для ваших нетехнических заинтересованных сторон таким образом, что они будут легко понять. Программные средства Data-science могут помочь вам визуализировать ваши открытия, но вам также понадобятся навыки вербального общения для того, чтобы рассказать историю в ясной форме.