Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

La science des données continue d’évoluer comme l’un des parcours les plus prometteurs et les plus demandés pour les professionnels qualifiés. Aujourd’hui, les professionnels des données qui réussissent comprennent qu’ils doivent aller au-delà des compétences traditionnelles d’analyse de grandes quantités de données, d’exploration de données et de programmation. Afin de découvrir des renseignements utiles pour leurs organisations, les scientifiques des données doivent maîtriser tout le spectre du cycle de vie de la science des données et posséder un niveau de flexibilité et de compréhension permettant de maximiser les rendements à chaque phase du processus.

L’image représente les cinq étapes du cycle de vie de la science des données : Saisir (acquisition de données, saisie de données, réception de signaux, extraction de données) ; entretenir (stockage de données, nettoyage de données, mise en scène de données, traitement de données, architecture de données) ; traiter (exploration de données, classification/classement de données, modélisation de données, résumé de données) ; analyser (analyse exploratoire/confirmatoire, analyse prédictive, régression, exploration de textes, analyse qualitative) ; communiquer (rapport de données, visualisation de données, intelligence économique, prise de décision).

Le terme “data scientist” a été créé à la fin de l’année 2008, lorsque les organisations ont compris qu’elles avaient besoin d’experts en information capables de trier et de disséquer d’énormes quantités d’informations. 1 Dans un article paru en 2009 dans McKinsey&Company, Hal Varian, expert financier central de Google et professeur de sciences des données, de commerce et de finance à l’Université de Berkeley, a anticipé l’importance de l’ajustement à l’impact de l’innovation et de la reconfiguration de diverses entreprises. 2

“La capacité de prendre l’information – d’avoir la possibilité de l’obtenir, de la traiter, d’en concentrer l’incitation, de l’envisager, de la transmettre – sera une capacité colossalement importante dans les décennies à venir”.

– Hal Varian, patron spécialiste des finances chez Google et professeur de sciences des données, de commerce et d’aspects financiers à l’université de Berkeley 3

Les chercheurs d’informations viables peuvent distinguer les enquêtes importantes, rassembler des informations provenant d’un grand nombre de sources diverses, trier les données, interpréter les résultats dans des arrangements et transmettre leurs découvertes d’une manière qui influence décidément les choix des entreprises. Ces aptitudes sont requises dans pratiquement toutes les entreprises, ce qui fait que les chercheurs d’information doués sont progressivement importants pour les organisations.

Que fait un Data Scientist ?

Au cours de la dernière décennie, les chercheurs en information se sont révélés être des ressources fondamentales et sont disponibles dans pratiquement toutes les associations. Ces experts sont des personnes équilibrées, orientées vers l’information et dotées de compétences spécialisées de haut niveau, qui sont aptes à structurer des calculs quantitatifs complexes pour trier et orchestrer un grand nombre de données utilisées pour répondre aux questions et diriger la technique dans leur association. Ces compétences sont associées à une participation à la correspondance et à l’administration qui devrait permettre de transmettre des résultats substantiels à différents partenaires au sein d’une association ou d’une entreprise.

Les spécialistes des données doivent être curieux et axés sur les résultats, et posséder des connaissances exceptionnelles dans le domaine de l’industrie et des compétences en communication qui leur permettent d’expliquer des résultats hautement techniques à leurs homologues non techniques. Ils possèdent un solide bagage quantitatif en statistiques et en algèbre linéaire ainsi que des connaissances en programmation, notamment en matière d’entreposage de données, d’extraction et de modélisation pour construire et analyser des algorithmes.