• Matthieu Lirette-Gélinas

La question qui tue : Ça mange quoi un scientifique des données ?

Peut-être avez-vous déjà entendu parler du terme « scientifique des données » ou « data scientist » en anglais. C’est une appellation relativement récente qui fait encore sourciller! Mais qu’est-ce que ça peut bien faire de ses journées, un scientifique des données? L’appellation a pris son envol en 2012 lorsque le magazine Harvard Business Review l'a qualifiée comme la job la plus « sexy » du 21e siècle[1].

D’où vient l’appellation « data scientist »

Dans la langue de Shakespeare, on utilise le terme « computer science » pour désigner la branche d’étude de l’informatique. Au fur et à mesure que les données sont devenues monnaie courante (on pourrait même dire abondante depuis la fin des années 2000) un besoin de professionnels capables de manipuler et faire parler ces données a émergé. On a donc appelé cette branche « data science » pour faire un parallèle avec « computer science ».


Le cowboy

La science de données consiste donc à utiliser les outils informatiques de plus en plus polyvalents pour traiter les données. Un bon data scientist va donc avoir besoin d’une excellente aisance avec l’informatique en général, ce que plusieurs appellent : des hacking skills. Ils doivent être capable de créer rapidement des scripts, ou mini-programme, en Python pour extraire, nettoyer, forger, combiner et analyser les données. Une personne étant capable de jongler facilement avec des fichiers CSV, XLSX, ou encore capable de se connecter facilement à des bases de données va avoir du succès.


Vous avez peut-être déjà dans votre organisation une personne à qui on s’adresse systématiquement pour poser une question en lien avec les données. Des questions très ponctuelles auxquelles les tableaux de bord déjà déployés ne répondent pas exactement, s’il y en a! C’est souvent la personne qu’on qualifie de « cowboy » parce qu’elle n’a pas peur de se mettre les mains dans les données brutes, sans avoir à passer par un formulaire de demande d’accès à l’information en trois copies soumises à la direction des TI.


Le statisticien

Cependant, être un cowboy n’est pas suffisant quand il est temps d’interpréter les données. Vous l’aurez deviné, une connaissance approfondie des théories statistiques est primordiale. Par exemple, si on vous dit qu’on a obtenu le double des ventes après la mise en place d’une formation auprès des vendeurs, allez-vous vous réjouir? Si vous avez répondu « ça dépend », alors bravo, vous n’êtes pas tombé dans le piège! Pour les autres, comment faites-vous pour savoir si ceci n’était pas dû à un autre facteur, ou pire, tout simplement dû au hasard? C’est le genre de questions auxquelles un statisticien pourra répondre si on lui donne les données bien compilées. Le bon data scientist, quant à lui, devra être capable de compiler l’information ET de répondre correctement à ce genre de questions. Il doit avoir tous les réflexes qu’un statisticien aurait.


Le geek

Cependant, être un cowboy-statisticien n’est pas suffisant. En effet, un statisticien traditionnel fonctionne en émettant des hypothèses, obtient des données par rapport à son hypothèse, analyse et tire une conclusion. Comme les données sont abondantes, il y a aussi des opportunités pour faire l’inverse. C’est là où les techniques d’apprentissage machine (« machine learning » en anglais) viennent à contribution.


Le principe de base est simple : on passe les données dans la moulinette pour découvrir des patterns et des corrélations. Il y a des techniques d’apprentissage supervisé pour lesquelles on fournit une variable réponse, comme les résultats en ventes, et une série de facteurs explicatifs, comme la formation, les tendances du marché, la popularité d’un produit, etc. Les algorithmes essaient alors de trouver les règles qui expliquent la réponse, ou dans ce cas-ci, ce qui explique les hausses et baisses de ventes. Il y a également des techniques d’apprentissage non supervisé qui consistent à donner seulement des facteurs explicatifs sans fournir de réponse. À la fin, on obtient des regroupements naturels dans les données d'éléments qui se ressemblent. Un exemple populaire est la segmentation de clients où l'on cherche à faire émerger des regroupements de gens qui ont les mêmes comportements d’achat.


Un bon data scientist doit être un peu geek et bien connaître ces techniques, puisqu’il y en a des centaines : régression linéaire, régression logistique, forêts aléatoires, SVM, XGBoost, Kmeans, KNN, régression ElasticNet, analyse en composante principale, et bien d’autres. Non seulement, il doit les connaître, mais il doit aussi savoir quelles sont les techniques qui s’appliquent et dans quels contextes, car elles ont toutes leurs forces et faiblesses.


Ses outils

Est-ce que le data scientist a besoin d’un logiciel commercial pour appliquer des techniques d’apprentissage machine? Oui et non. Plusieurs logiciels sont efficaces pour créer une plateforme qui facilite le travail. Les gros joueurs dans ce domaine sont SAS avec Enterprise Miner, Alteryx, IBM avec Watson Studio, RapidMiner et Knime. Ils permettent tous de se connecter à des sources de données variées et d’appliquer des analyses statistiques ainsi que des techniques d’apprentissage machine. J’ai moi-même travaillé près de 10 ans avec IBM SPSS Modeler, l’ancêtre de Watson Studio.


Ils viennent généralement avec une facture salée pour vous punir de ne pas avoir été assez débrouillard. Effectivement, il est possible de faire tout ce travail à l’aide d’outils Open Source se basant sur la programmation en Python. La compagnie Anaconda a d’ailleurs rassemblé tout ce qu’il vous faut en termes de librairie dans une distribution gratuite pour les data scientists. La courbe d’apprentissage est plus à pic au début, mais une pléthore de réponses se trouve à trois cliques de souris grâce à votre ami « la barre de recherche Google ». Plusieurs data scientists travaillent aussi avec le langage de programmation « R ». Celui-ci a été et continue d’être développé par la communauté académique. Il est aussi Open Source et gratuit comme Python. C’est avec « R » qu’on retrouvera le plus de librairies d’analyses en apprentissage machine et d’analyses mathématiques en général. Le désavantage est que le code développé s’exporte moins bien par la suite. Rien d’impossible, mais avec du code en Python, des algorithmes développés pourront être facilement intégrés sur d’autres plateformes étant donné qu'il s'agit d'un langage servant au développement logiciel et développement web.


L’analyste d’affaires

Cependant, être un cowboy-statisticien-geek n’est pas suffisant. Trop souvent, j’ai vu des professionnels se frotter les mains à la vue d’un dataset bien juteux et plonger dedans sans trop savoir ce qu’on y cherche. Le danger bien réel est de pourchasser des corrélations et des patterns dans les données qui ne vous mèneront nulle part. Parfois, c’est carrément le client qui demande d’explorer les données qu’on vient d’obtenir pour « trouver quelque chose d’intéressant ». Le bon data scientist doit résister à la tentation et prendre le temps nécessaire de valider certains éléments avant de commencer.


Comme personne n’est parfait, je peux vous dire qu’il m’est arrivé récemment d’aviser un client d’un problème majeur qui portait à croire qu’il était victime de fraude. Après avoir eu quelques sueurs froides, on a constaté que le système avait introduit des erreurs de capture de données qu’on avait confondues avec un acteur malicieux.


En plus de devoir constamment valider la qualité des données qu’il a, le bon data scientist doit aussi bien assimiler le besoin d’affaires pour orienter ses analyses. Par exemple, certains projets vont mettre l’accent sur une bonne prédiction sans qu’on ait besoin de comprendre comment les facteurs agissent. C’est le cas notamment des analyses en marketing, où on veut simplement un modèle capable de prédire les probabilités qu’un client achète ou non notre produit, et ce, peu importe les raisons. Dans d’autres cas, on cherche à régler un problème comme une surchauffe d’équipements. Une fois qu’on aura trouvé les facteurs influents avec l’apprentissage machine, on va les éliminer plutôt que de prédire les prochaines pannes. Si, en plus, le data scientist a des connaissances dans le domaine d’affaires qui vous préoccupe, il appliquera d’emblée les bonnes techniques. Dans tous les cas, il doit travailler main dans la main avec l’expert du domaine d’affaires.


Alors, la question qui tue encore plus que le titre de cet article : où trouve-t-on un bon data scientist ? C’est plutôt rare de trouver le cowboy-statisticien-geek-analyste-d’affaires qui sera bon dans tous ces domaines! Plusieurs acteurs font le parallèle avec la recherche d’une licorne[2]. Surtout qu’à l’heure actuelle, il existe très peu de programmes de formation en science des données dans les institutions d’enseignement. De plus, les jeunes data scientist auront acquis des techniques d’apprentissage machine en traitant des données souvent aseptisées (déjà, toutes belles et sans erreur). Plusieurs déchantent en arrivant sur le marché de travail et réalisent que 80 % de l’effort consiste à traiter et nettoyer correctement les données.


La meilleure approche demeure la curiosité. Permettez à vos cowboys-geek d’apprendre les statistiques. Permettez à vos analystes-d’affaires-un-peu-geek d’apprendre le langage Python. Internet regorge d’informations. Il y a aussi les offres d’accompagnement de Maverick Analytik où l'on peut vous aider à bâtir cette compétence du futur.


[1] https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

[2] https://www.infoworld.com/article/3429185/stop-searching-for-that-data-science-unicorn.html

37 vues1 commentaire
Maveric Analytik

790, rue Principale Ouest, bur 105
Magog (Québec) J1X 2B3

  • LinkedIn - Maverick Analytik
  • Facebook - Maverick Analytik

TITRE DE L'ARTICLE

Conception

© Maverick Analytik, 2021 - Tous droits réservés

|