Article

16 décembre 2020

6 minutes

Comment bien réussir son projet de data science ?

Dans cet article, Christophe Goudet, data scientist chez Ellisphere revient sur les points essentiels à prendre en compte pour déployer un projet de data science au sein des entreprises.

La révolution technologique de l’IA que nous vivons actuellement apporte chaque jour de nouveaux cas d’usage. On observe des acteurs gagner toujours plus d’avantages concurrentiels grâce à la valorisation de leurs données à travers l’IA. Ainsi, de plus en plus d’entreprises se lancent dans des projets de « data science ». Cela commence généralement par le recrutement ou la promotion interne d’un data scientist qui doit « valoriser » les données de l’entreprise. Cependant, on observe que 50 % des projets de data science échouent avant même d’avoir apporté de la valeur à l’entreprise.

La réussite d’un projet d’IA ne repose pas simplement sur la mise en contact de données avec un data scientist. Elle nécessite la mise en place d’une méthodologie et d’une organisation.

Une réelle problématique métier

La data science gagne en maturité. De plus en plus de formations se créent autour de l’IA. Elles enseignent les cas d’usages typiques de l’IA ainsi que les techniques à appliquer dans ces situations. Cette standardisation crée le risque de proposer des projets non adaptés aux spécificités de l’entreprise. Par exemple, un cas d’école de projet consisterait à créer un modèle de détection de churn (de client qui part à la concurrence). A priori, un tel modèle serait intéressant pour l’entreprise. Quelle entreprise respectable n’a pas envie de garder ses clients actuels ? Cependant, le churn n’est peut-être pas une des problématiques majeures de l’entreprise à ce moment-là. Il y a alors de grandes chances pour que ce modèle ne soit pas utilisé, voire pas déployé.

En gagnant en maturité, le domaine de la data science s’est ainsi doté de ses propres méthodes standards. Ainsi, une certaine situation va générer un certain type de modèle. Cependant, ces techniques standards ne sont pas toujours alignées avec les besoins métier. Ainsi, à partir d’un historique de relation client, un data scientist pourra proposer un modèle de réduction du churn (de clients qui partent à la concurrence). Cependant, le churn n’est peut-être pas du tout un point limitant de l’entreprise. Il y a donc un décalage entre le besoin de l’entreprise et les projets standards de data science.

Avant de se lancer dans un projet de data science, il est essentiel de se poser les bonnes questions. Quels sont les limitations ou points de blocages de mon activité ? De quoi ai-je réellement besoin pour résoudre mes limitations ? Pour ce premier point, on retombe finalement à des évidences de la gestion de projet. Avant de créer un produit, il faut comprendre au mieux le besoin client.

Une métrique alignée avec les besoins

Par définition, un modèle d’intelligence artificielle cherche, grâce aux données, à minimiser l’écart entre sa prédiction et la vraie valeur de la variable qu’il cherche à prédire. Il existe plusieurs manières d’estimer cet écart et cela induit des modèles différents. Il existe également des métriques qui n’entrent pas en compte dans la création du modèle, mais qui estiment la performance globale du modèle. De plus, il y a des standards d’utilisation de métriques selon le type de problème à résoudre. Ce sont ces métriques qu’utilisent les data scientist pour justifier la performance du modèle.

Malheureusement, ces métriques standards ne sont pas toujours compréhensibles et pertinentes pour le métier. Prenons l’exemple d’un système de détection d’entreprises frauduleuses, développé en collaboration avec des clients. Dans le cas présent, le modèle cherche à séparer les entreprises qui ont effectivement fraudé et celles qui n’ont pas fraudé. En interne, nous utilisons une métrique (la ROC) qui mesure le niveau de séparation des entreprises frauduleuses et des entreprises sûres. Cette métrique n’a par contre aucun sens pour le client. À la place, nous avons proposé une métrique qui estime, en fonction du niveau de risque accepté, le nombre de prospects qui seront marqués comme risqué et le taux d’entreprises réellement frauduleuses parmi cet ensemble. Grâce à cela, le client peut estimer le niveau de risque qu’il est prêt à accepter, en fonction de ses contraintes internes (capacités de traitement de dossiers, perte de chiffre d’affaires…).

En identifiant le besoin client, il est essentiel de définir une métrique métier, qui permettra à l’utilisateur final d’estimer la qualité du modèle et ses impacts sur ses activités.

Une performance validée par les experts

Une fois que nous avons identifié un réel problème à résoudre, il va falloir s’assurer que la manière dont on le résout est cohérente avec les connaissances des experts. Il faut alors créer un lien de confiance entre la solution et l’utilisateur. Ainsi, il faut que l’utilisateur et/ou les experts du domaine participent à l’élaboration comme à la validation du système, et nous allons nous assurer que celui-ci reproduit bien les heuristiques standard du domaine. Cela permet également de tester les nouvelles heuristiques que le modèle a trouvées. Ce dernier point est particulièrement détaillé dans un autre de nos articles concernant l’explicabilité des systèmes d’IA.

Lors de la création du score de défaillance d’Ellisphere, mis en production en 2018, il y a eu de nombreuses études pour confirmer la pertinence du score. Des prédictions ont été soumises à des analystes financiers pour comparer leurs analyses des entreprises avec le modèle et comparer, par la même occasion, les arguments. Nous avons ainsi pu vérifier les heuristiques traditionnelles telles que : les entreprises qui ne font pas de profits sont risquées, ou que les entreprises sont particulièrement à risque entre la seconde et la cinquième année de vie puis moins risquées par la suite.

Une solution technique adaptée

La plupart des formations de data scientist ou de blog se concentrent sur les algorithmes, mais ne mentionnent malheureusement que très rarement la phase de déploiement. Comment un modèle statistique peut passer de l’ordinateur personnel du data scientist à un environnement où les utilisateurs finaux pourront interagir ? Les sources qui parlent de déploiement proposent principalement de déployer une web API : une interface web, qui se requête comme un site web, qui renvoie le résultat du modèle si on lui transmet les données d’entrée.

La solution d’une web API fait une hypothèse sur l’entreprise : que celle-ci possède une infrastructure informatique adaptée pour transmettre les données et traiter la réponse. Or une petite PME n’a pas forcément une telle infrastructure. Beaucoup de process peuvent se faire sur Excel et les notions de base de données et de système d’information peuvent être très éloignées de la réalité quotidienne de l’entreprise. Pour qu’un projet d’IA soit réussi, il faut penser dès le commencement à la manière dont l’utilisateur final interagira avec la solution, pour qu’il puisse réellement profiter de ses bénéfices.

Que conclure ?

La valorisation des données d’une entreprise est un enjeu actuel majeur. Cependant, beaucoup d’entreprises n’ont pas encore totalement intégré l’usage des données dans leurs processus, par de la Business Intelligence par exemple. Monter des projets d’IA est alors un sujet compliqué et beaucoup de projets échouent à apporter de la valeur. Quelques règles simples permettent néanmoins de limiter le risque d’échec. Elles recentrent principalement le projet sur le besoin et le contexte, et repoussent la partie data science dans les détails d’implémentation. Finalement, même si l’IA permet aujourd’hui des applications inespérées hier, il faut garder à l’esprit que c’est un outil au service d’un problème concret.

À voir également

Pour les équipes data management

Pour les équipes marketing

Pour les équipes sales

Pour les équipes risques clients

Pour les équipes risques fournisseurs

Pour les équipes conformité

Comment bien réussir son projet de data science ?

Une réelle problématique métier

Une métrique alignée avec les besoins

Une performance validée par les experts

Une solution technique adaptée

Que conclure ?

Dans la même catégorie

DSO interne et DPO client : des indicateurs à prendre en compte dans la gestion du poste client

Transport routier de marchandise : une hausse des défaillances significative

Quelles tendances de la gestion des données en 2023 ?

Inscription à la newsletter

Pour les équipes data management

Pour les équipes marketing

Pour les équipes sales

Pour les équipes risques clients

Pour les équipes risques fournisseurs

Pour les équipes conformité

Comment bien réussir son projet de data science ?

Une réelle problématique métier

Une métrique alignée avec les besoins

Une performance validée par les experts

Une solution technique adaptée

Que conclure ?

Dans la même catégorie

DSO interne et DPO client : des indicateurs à prendre en compte dans la gestion du poste client

Transport routier de marchandise : une hausse des défaillances significative

Quelles tendances de la gestion des données en 2023 ?

Que conclure ?