Qui sommes-nous ?

Métiers & Expertises

Enjeux & Solutions

Blog & Actualités

Nos publications

Contactez-nous

Ellisphere Lab : l’analyse sémantique des articles de presse

Ellisphere Lab : l’analyse sémantique des articles de presse

Ellisphere Lab présente ses travaux concernant l’analyse sémantique des articles de presse. Rencontre avec Heng Li, data scientist architecte du projet chez Ellisphere.

Bonjour Heng, pouvez-vous nous expliquer comment est né ce projet ?

Nous avons commencé à travailler sur l’analyse sémantique des articles de presse en juin 2019. L’objectif de ce projet est de disposer d’une réactivité accrue sur la prédictibilité d’une défaillance d’entreprise ou de difficultés économiques et financières d’un acteur économique.

Ce projet est né d’une réflexion autour de l’analyse d’articles de presse. L’idée était de définir un « sentiment » pour chaque article afin que cela nous permette d’avoir une vision complémentaire du score de défaillance d’entreprise.

La démarche que nous avons souhaité mettre en place consiste à proposer un système capable d’analyser des articles de presse sur une entreprise, et de les qualifier en négatif ou positif. C’est un moyen pour nous d’exploiter de nouvelles informations afin de déceler plus en amont les signaux  de risque de défaillance.

 

Concrètement, comment ça se passe ?

Chez Ellisphere, nous disposons de données qui concernent déjà plus de 25 000 entreprises françaises. Prenons l’exemple d’une entreprise que l’on va nommer X. L’entreprise X a un score de probabilité de défaillance de 3 depuis l’année dernière. Cependant, la semaine dernière, nous avons appris grâce à la presse que cette entreprise est en situation de cessation de paiement. Le dépôt de bilan n’étant pas acté, le score de probabilité de défaillance n’est donc pas encore mis à jour.

Cette analyse nous permet donc d’assurer une complémentarité du score en garantissant à nos clients, une vision précise de la situation des entreprises.

Quand on parle de « sentiment », il faut faire attention. Si l’on prend l’exemple des commentaires laissés sur la plateforme d’Amazon, on peut juger du « sentiment » de ces commentaires sur tel ou tel produit (j’aime ou je n’aime pas ce produit). Cependant, notre approche est différente. Dans notre cas, le « sentiment » sera en lien avec le risque de défaillance en pouvant déceler, grâce à l’analyse de certains articles de presse, les difficultés économiques et financières à venir pour une entreprise.

 

Quelle méthodologie avez-vous appliquée pour aboutir une solution ?

Pour ce projet, nous avons essayé différentes approches. Chacune d’entre-elles nous a permis d’ajuster nos résultats pour finalement opter pour la méthodologie la plus pertinente.

 

Labellisation des articles de presse

En amorce du projet, nous avons opéré un travail de labellisation grâce à nos experts. Ce travail nous a permis d’établir le modèle d’apprentissage autour duquel nous avons pu travailler.

Ce travail de labellisation a consisté à lire ces brèves de presse et ensuite, définir s’ils pouvaient être à l’origine d’une défaillance future (sentiment négatif) ou non (sentiment positif/neutre).

 

Préprocessing des données

Pour rendre notre ensemble de données analysable, nous nous sommes astreints à un préprocessing standard NLP. Cette étape indispensable vise à formater la donnée afin que le modèle d’analyse puisse le scorer.

 

Notre approche : un modèle semi-supervisé

Nous avons ensuite opté pour un modèle semi-supervisé pour estimer un « score » de presse. Une deuxième phase de nettoyage de la donnée a été nécessaire pour aborder cette approche.

Pour arriver à nos fins, nous avons construit deux modèles de langage fondé sur la technologie de deep learning. Un premier communément appelé Word2Vec (utilisé par Google) qui nous permet d’analyser l’ensemble des articles en utilisant aléatoirement un mot pour prédire son contexte.

Par exemple, prenons la phrase « je mange une pomme de terre ». Dans ce cadre le langage va analyser le mot « pomme » et prédire le contexte de l’objet en fonction de son occurrence.

 

Pourquoi avoir opté pour un modèle de langage ? Celui-ci nous permet de traduire notre langage vers une représentation mathématique en gardant le sens sémantique. On a donc utilisé ce modèle de langage comme un dictionnaire associant des mots à des vecteurs.

L’étape suivante a été de créer un réseau de neurones de deux couches cachées pour prédire si l’article faisant mention de difficultés pouvait entraîner une défaillance ou non.

 

Méthodologie du projet

 

Quels résultats

À l’issue de nos expérimentations, nous sommes parvenus à un résultat satisfaisant. Pour les articles avec un sentiment positif, nous avons obtenu une précision de 95 %. Pour les articles indiquant un sentiment négatif, nous avons obtenu 87 % de précision.

Cette analyse est donc en mesure, sur des articles situés hors de son apprentissage, de prédire un sentiment positif ou négatif de manière suffisamment précise.

 

Bons résultats = 1/Résultats aléatoires = 0,5

 

 

Quelles difficultés avez-vous rencontrées dans la création du score de presse ?

La difficulté principale à laquelle nous avons été confrontés est la suivante. Une défaillance est un événement rare. Sur un panel de 100 articles, la probabilité d’avoir un article pouvant signifier une défaillance est faible. Il a donc fallu entraîner l’algorithme afin qu’il soit capable de prédire ce type d’événement. L’étape de labellisation a donc été primordiale dans le paramétrage du score.

Nous avons également dû faire face à plusieurs challenges. Par exemple, il a pu arriver que dans notre corpus d’articles, un article puisse concerner deux entreprises simultanément, dans le cadre du rachat d’une entreprise par une autre. Dans ce cas, le score de presse impacte les deux entreprises.

Nous avons rencontré plusieurs situations d’erreur dans l’étape de backtesting du modèle. Beaucoup d’articles font mention de difficultés financières/économiques sur des entreprises qui n’ont cependant pas fait défaut au bout d’un an (parfois la défaillance arrive 2 ou 3 ans après l’article ou jamais).

Une autre observation que nous avons pu faire concerne la relation entre les articles de presse et les défaillances. En effet, certains articles mentionnent une entreprise quelques jours ou quelques mois avant la défaillance, mais ces derniers ne font pas mention de difficultés particulières.

 

Quelles sont les prochaines étapes de travail ?

Cette analyse sémantique des articles de presse n’est aujourd’hui pas encore implémentée dans la méthodologie de calcul du score de défaillance. Cependant, nous pouvons d’ores et déjà nous en servir comme un système d’alarme pour la surveillance des entreprises.

Au fur et à mesure de l’analyse, la chronologie des articles sera prise en compte pour l’améliorer. Nous travaillons également à la mise en place d’un mécanisme d’« attention » pour perfectionner notre modèle de langage. Pour répondre aux problématiques d’explicabilité, nous allons générer des commentaires expliquant la démarche de l’IA.

Ce modèle nous permet à ce stade de répondre à des enjeux correspondant à nos métiers. Cependant, nous travaillons activement à l’amélioration de ce modèle pour accroître ses performances.

 

Découvrez notre vidéo Ellisphere Lab sur le projet

Vous souhaitez nous contacter ?

Besoin d'une information sur nos solutions ? Envie de nous rejoindre ?
L'équipe Ellisphere est là pour répondre à vos questions.

Nous contacter

Entrez en contact avec l'équipe Ellisphere

Écrivez-nous

Charte transparence

Vous souhaitez connaître le score de votre entreprise ?

Votre score

Newsletter

Découvrez les derniers articles de notre blog

Abonnez-vous