En utilisant ce site, vous acceptez que les cookies soient utilisés à des fins d'analyse et de pertinence     Oui, j'accepte  Non, je souhaite en savoir plus

Digital

Imprimer

Réussir une mission de Data Science

Vendredi 5 mai 2017

Par

La Data Science peut permettre de répondre à de nombreux problèmes, mais mal pensé le travail du Data Scientist peut s’averer inexploitable. Pour éviter cela il faut dès le début de la mission bien cadrer les contraintes du problème en réussir les acteurs principaux de la mission.

En 2007, Netflix lance le Netflix challenge: quiconque pourra améliorer la performance de leur algorithme de recommandation de 10% gagnera 1M$. Pendant des années, des chercheurs du monde entier travaillent sur de nouveaux algorithmes pour gagner ce million de dollars. Au bout de 3 ans une équipe réussi le challenge et remporte le prix. Cependant leur algorithme n’a jamais été mis en place chez Netflix. Pourquoi ? La solution gagnante mélange des centaines d’algorithmes différents et il est donc impossible de passer à l’échelle en production sur les milliards de données que possède Netflix. Bien sûr ce ne fut pas un échec totale pour tout le monde : le monde de la recherche à énormément progresser sur les algorithmes de recommandations et Netflix s’est positionné comme une référence mondiale en recommandation. Cependant cette histoire permet de tirer plusieurs leçons : la première est que les contraintes de mise en production de la solution doivent être claire dès le début du projet, la deuxième est que le Data Scientist et le métier doivent communiquer fréquemment en début et en cours de projet et ne pas hésiter à redéfinir les contraintes et direction au fur et à mesure que le projet mûri.

 

Pour que cette communication soit la plus fructueuse possible, il faut pouvoir réunir trois compétences : un data scientist, un ingénieur en informatique, et une connaissance business.

 

Le data scientist apportera ses connaissances mathématiques, statistiques et sa capacité à transformer un problème business en un problème mathématiques et informatique. L’ingénieur en informatique s’assurera de la qualité des données et de la possibilité de passer le travail du data scientist en production c’est à dire de faire en sorte que toute la chaîne, de la récupération des données à la production du résultat, soit réalisée automatiquement, en tout sécurité et en renvoyant des alertes à chaque fois que problèmes surviennent. Enfin la connaissance business apportera ses connaissances sur la définition précise du problème et de ses contraintes.

 

Qu’est-ce qu’une définition précise et ses contraintes ?

 

Par exemple une problématique peut être d’améliorer la satisfaction utilisateur pour réduire le nombre de désabonnement, augmenter le nombre de revisite, augmenter le temps passé en magasin ou sur site, augmenter le panier moyen, … Ces quatre problèmes peuvent déjà constituer quatre missions différentes. En effet la réduction du nombre de désabonnement nécessite de cibler les potentiels churners (les potentiels clients) pour pouvoir ensuite leur personnaliser un message, une augmentation du nombre de revisite peut s’effectuer en contactant chaque utilisateur au moment le plus opportun, l’augmentation du temps passé sur site en proposant à l’utilisateur des chemins personnalisés et enfin l’augmentation du panier moyen par du cross-sell/up-sell. La connaissance métier a donc pour rôle de prioriser les missions. Cela peut également se faire avec le data scientist et l’ingénieur informatique pour identifier les “quick wins” ou effectuer une étude préliminaire pour estimer le gain potentiel de chaque mission.

 

Ensuite, la connaissance business va apporter sa vision du problème, qu’est-ce qui amène selon lui l’utilisateur à se désengager par exemple, quelles sont les informations disponibles, lesquelles sont au contraire indisponibles. Cela permet d’éviter de se lancer dans une mission dans laquelle toutes les informations a priori cruciales sont manquantes et également d’éviter un oubli d’une information majeure.

Enfin il faudra lister les contraintes : quelle est la volumétrie des données, combien de base de données différentes sont à considérer, à quelle fréquence sont rafraîchit les données, à quelle fréquence le modèle devra produire un résultat (une fois par an, par mois, par jour, …), quel temps de calcul peut-on se permettre (plusieurs heures si les calculs s’effectuent chaque nuit par exemple ou quelques millisecondes si l’on veut prédire un résultat en temps réel en cours de navigation), où seront effectué les calculs une fois en production, sur plusieurs ordinateurs dans le cloud, en locale sur l’ordinateur de l’utilisateur ou une autre solution maison ? Toutes ces questions discutées au cours d’un workshop permettront d’assurer un bon déroulé de la mission.

 

Enfin une mission Data Science ne doit pas être rigide. Ces trois personnes doivent continuer de discuter au cours de la mission, toutes les semaines ou deux semaines pour s’assurer que la vision de chacun est toujours alignée avec l’objectif et les contraintes business. De plus en cours de projet, certaines nouvelles contraintes peuvent survenir ou alors l’objectif peut légèrement varier en fonction des résultats intermédiaires, il faut alors être capable de réagir en conséquence pour pouvoir en tirer le meilleur.

 

Retrouvez Romain Warlop sur la formation "Data Scientist

Prochainement

Nouveauté

du Jeudi 5 octobre 2017 au Mardi 29 mai 2018
du Jeudi 23 novembre 2017 au Mercredi 13 décembre 2017

Manager les relations sociales individuelles

Nouveauté

du Jeudi 5 octobre 2017 au Mardi 28 novembre 2017
du Mercredi 15 novembre 2017 au Mardi 12 décembre 2017

Nouveauté

du Mercredi 4 octobre 2017 au Mercredi 6 décembre 2017
du Mercredi 6 décembre 2017 au Jeudi 5 avril 2018

du Mardi 26 septembre 2017 au Mardi 5 décembre 2017
du Mercredi 17 janvier 2018 au Vendredi 23 mars 2018

Manager le dialogue social