Mise en place d’un Insight Engine

20180803-103015_ONEPLUS_A5010_b9ff4f0603

La mise en place d’un nouvel outil est une activité complexe.

Elle requiert bien sûr que les prérequis techniques soient remplis pour que le système puisse être utilisé: de bonnes performances, une interface agréable, l’accès aux données anciennes comme aux données générées quotidiennement, des connecteurs (passerelles) pour faciliter les saisies ou récupérer de données, …

 

Mais cela ne suffit pas.  

Tout changement requiert une adaptation. Quelquefois cette adaptation est rapide. Si on installe un nouveau poste de travail au laboratoire et qu’il est 3 fois plus rapide sans autre perte, il n’y a pas de problème.

 

Malheureusement, le travail sur les données est souvent d’une autre nature. De nombreux experts comme Pistoia alliance (cf encart 1) estiment que les nouvelles découvertes ne se feront que par le croisement de données inter équipes (Break Silos), inter entreprises (Collaborations) et inter expertises (Sciences translationnelles).

Il faut donc mettre en place un outil qui permet cette fédération et recherche d’information.  Les Insight Engines ou moteurs de recherche intelligents sont un exemple d’outil répondants à ce besoin de fédération. Nous en parlions déjà d’ailleurs sur un de nos précédents articles  “Qu’est ce qu’un insight engine ? ”

L’approche que nous proposons est de comprendre quels sont les différents axes de recherche d’information. La balance coût de L’identification d’information dans l’ensemble des données doit être mis en regard avec le bénéfice en terme de recherche d’information. Reconnaître une information signifie être capable d’y associer une métadonnée provenant d’une source claire et reconnue comme une ontologie ou une master data d’entreprise.

Par exemple, si l’entreprise est structurée par projets, il paraît logique de mettre des efforts sur la détection de codes projets au niveau global. D’autres identifiants comme les codes de composés, les codes d’études, sont plus spécifiques et ne concernent que certains départements. Enfin, d’autres métadonnées comme les  organismes, souche microbiologique, tissus, cibles thérapeutiques, symptômes, … ne sont nécessaires qu’à certaines activités, il convient de faire des efforts pour les détecter uniquement dans des contextes spécifiques ou automatiquement. Mais il ne s’agit pas de définir des choses gravées dans le marbre, il s’agit bien de tester en étant à l’écoute des bénéfices.

 

Grâce à cette approche, les acteurs peuvent échanger des informations pertinentes (car elles sont contextualisées) ou sélectionner rapidement les données à intégrer dans une analyse. L’article THE VALUE OF DATA QUALITY détaille clairement les bénéfices.

Encart 1 : “Life science companies have traditionally developed their own internal infrastructures, which results in a duplication of efforts and in systems that are not interoperable. Collaboration between stakeholders will underpin the future of the life science industry, and overcoming these kinds of barriers is why The Pistoia Alliance was formed. “
Dr. Steve Arlington, President of The Pistoia Alliance

Les projets de mise en place d’un tel outil doivent ainsi être menés avec soin car ils impliquent bien sûr des prérequis techniques, mais aussi :

  • Une gouvernance avec un leadership puissant portant cette vision transverse des données. Bien qu’apportant un bénéfice à chaque acteur, elle n’est a priori  indispensable à aucun. La rationalisation des budgets de R&D qui touche toutes les entreprises pousse à se concentrer uniquement sur l’essentiel.
  • Une écoute des utilisateurs, des bénéfices qu’ils y voient, du coût de ce nouvel usage, par exemple dans certain contexte il est possible de consacrer 5 minutes par jour à l’annotation pour fournir aux managers une vision unifiée des activités et données d’un département. Cette écoute est indispensable pour que l’outil réponde aux besoins. Un spécialiste doit être écouté et sa connaissance utilisée pour améliorer la pertinence de l’outil.  Il est difficile d’être générique sur le coût / bénéfice. Par exemple, selon l’usage (legacy/old data, IP related data, personal data, internal/external, project/strategic data, … ) les attentes sont bien différentes. Notre outil peut s’adapter à l’ensemble des cas évoqués.

Grâce aux Insight Engines, cette gouvernance des données n’est plus théorique.

 

Ces outils permettent de confronter les ontologies et vocabulaires aux données, de manière itérative et de construire un index où l’ensemble des données est qualifiée au mieux. De plus, vos résultats de recherche sont immédiatement disponibles sous forme de visualisations claires et agrégées selon vos besoins. L’ensemble des acteurs à une connaissance du patrimoine des données. Cette approche permet donc d’obtenir du bénéfice très rapidement.

Il ne s’agit pas de construire un nouvel outil de BI sur les données non structurées mais de changer pragmatiquement les usages autours des données car cette approche nécessite que le partage de données soit une pratique en place, dont les règles et bénéfices sont connus.

Ainsi, on trouvera des intérêts à la fois individuels, d’équipe et d’entreprise à avancer dans une meilleure gestion du patrimoine données, indispensable à une stratégie pilotée par les données (encart 2). Cette convergence des intérêts est à notre sens le meilleur driver du changement.

Encart 2 : “Ensuring Quality is recognized as one of the most challenging issues  in Big Data era. Current approaches and solutions emerged both from academia and industry that tackled quality have not reached yet a  convincing level of maturity. Evaluate the importance of assessing quality of Big Data versus the value it generates for its users (e.g. governments,  businesses) is of paramount importance.” “https://www.researchgate.net/publication/326519154_Big_Data_Quality_A_Survey