Menu Fermer

Valorisation des données : De quoi parle-t-on ?

Des données omniprésentes, annoncées comme un nouvel “or noir”. Des tendances fortes soutenant leur production. Il y a là matière à s’interroger: Comment prendre part à cet écosystème et devenir acteur de la valorisation des données?

Nous vous proposons ici un bref tour d’horizon de ce domaine: Ses raisons d’être, les principes de sa mise en œuvre et la diversité de ses applications. Ces aspects méthodologiques et techniques nous serviront de base pour les articles suivants, qui décriront une feuille de route possible pour une mise en œuvre progressive de la valorisation des données.


Cet article est le premier de notre série consacrée à la valorisation des données.


Une matière première à profusion

Parler données en 2019 et pour les années à venir renvoie naturellement à la démesure :

  • En 2020 selon International Data Corporation, la production mondiale de données sera en moyenne de 1,7 Mo par personne… et par seconde.
  • Toujours selon la même source, et dans le même ordre de grandeur que les autres estimations qui ont cours, le volume actuel de données dans le monde – la datasphère – est de 40 zettaoctets. Soit un 4 suivi de 22 zéros. S’il vous prenait l’idée de télécharger au débit très correct de 10 gigabits/secondes cette masse de données, dans le but louable de reconstituer une bibliothèque d’Alexandrie du 3ème millénaire par exemple, cela vous prendrait en fait… un peu plus d’un million d’années. Raté donc. D’autant que l’étude prévoit 175 Zo en 2025, et ainsi de suite.
  • Les grands acteurs du secteur, leurs investissements, les emplois et infrastructures créées, l’impact écologique, non négligeable… tout est à l’avenant ! Sauf peut-être les profits générés, qui peinent encore à atteindre les mêmes sommets.

Qu’importe le volume, c’est la dynamique qui compte !

Notre intérêt n’est pas directement dans ces chiffres. Il se trouve dans les facteurs bien réels qui font le dynamisme de la production et diffusion des données, à savoir principalement :

  • La hausse des rapports performance/coûts en matière de stockage, transfert, et capacité de calcul notamment.
  • L’augmentation du nombre d’utilisateurs.
  • La miniaturisation électronique, permettant entre autres la production d’objets connectés munis de capteurs variés et une forte décentralisation de la production des données.
  • La forte digitalisation des métiers, des espaces urbains et des objets courants, naturellement productrice de données elle-même.

L’impact de ces éléments conjoncturels est omniprésent, jusque dans notre quotidien comme chacun sait. C’est pourquoi il est vital pour tout acteur économique de s’interroger sur les changements à adopter, afin de ne pas se laisser dépasser mais trouver au contraire dans cette situation de nouvelles sources de valeur. Cet enjeu est souvent déjà connu et assez bien compris. Le comment est plus épineux, et c’est précisément l’objectif de cette série que de proposer des éléments de solutions en regard de ce besoin.


Prérequis à la valorisation des données

Que vous partiez d’un besoin précis ou que votre démarche soit plus exploratoire, vous aurez d’une façon ou d’une autre à recenser, modéliser, contrôler la qualité et enrichir éventuellement un ensemble de données à exploiter. Il vous faudra également mettre en place une gouvernance des données adaptée à l’ampleur de vos besoins, afin de piloter et harmoniser ces différents aspects dans la durée.

Cartographie des données : Recenser et modéliser

Le recensement des données s’effectue dans un périmètre préalablement défini, qui est naturellement fonction du besoin à traiter. Ainsi par exemple, un recensement réalisé dans le cadre d’une initiative de mise en conformité aux lois de protections des données, se limitera le plus souvent au périmètre des données à caractère personnel traitées par l’entreprise et ses partenaires, et éventuellement aux autres données qui en dépendent directement.

Le recensement porte non seulement sur les données ciblées, mais également sur les traitements qui y sont appliqués ainsi que les acteurs de ces traitements. L’ensemble des informations recueillies est modélisé pour aboutir à une cartographie suffisamment complète, composée de vues détaillées sur tout ce qui sera utile à l’exploitation des données : Dictionnaires de données, modèles logiques et physiques des données, inventaire et diagramme des traitements, etc.

Améliorer la qualité

Il est bien rare qu’un recensement fasse apparaître un ensemble de données directement exploitable. Le plus souvent on aura affaire à des données partiellement :

  • erronées : Erreurs de saisie, de programmation, de fonctionnement, etc.
  • incomplètes : Certains clients acceptent par exemple qu’on enregistre leur adresse physique, d’autres non. Comment établir des statistiques géographiques dans ces conditions ? Peut-on considérer que le refus de fournir ce renseignement est réparti tout à fait aléatoirement dans une base clients ou bien cela introduit-il au contraire un biais qui faussera les calculs sans qu’on y prête attention ?
  • redondantes : Un même client saisit deux fois avec seulement une faute de frappe entre les deux enregistrements ; une même personne ayant seulement changé de nom suite à une modification de son statut marital ; etc. Des données peuvent également être dupliquées à tort dans plusieurs tables ou bases. Ce n’est pas toujours une erreur en soi mais cela peut être source d’erreurs si les différentes “copies” ne sont pas traitées de manière synchrone.
  • périmées : Client ayant déménagé, logs d’un système démantelé, etc. Cet aspect dépend un peu plus que les autres de l’objectif poursuivi, et les données “historiques” peuvent être sources de valeur longtemps après avoir été produites. Par exemple dans le cas d’un système ayant été remplacé, on peut malgré tout avoir un intérêt à exploiter ses logs afin de mener une étude comparative de fiabilité par rapport au nouveau système. On peut également songer au sujet très actuel de l’exploitation de données météorologiques ou géologiques : Les professionnels ayant effectué et enregistré des mesures dans ces domaines il y a cent ans et plus pouvaient-elles anticiper les outils de gestion des données que nous pouvons à présent appliquer à leurs relevés ?
  • mal stockées : Manque ou excès d’indexation, espace disque et/ou réseau mal adapté, etc.
  • mal sécurisées : Accès inadaptés et source de risque.
  • peu fiables : L’origine des données recensées doit pouvoir être retracée de manière fiable, jusqu’à une source elle-même tout à fait valide. Si tel n’est pas le cas, il est préférable d’établir par exemple une échelle de fiabilité et de classer les données en fonction de celle-ci.

La cartographie des données est ainsi susceptible de révéler un nombre important d’imperfections dans la situation existante. Pour autant, les améliorations à apporter doivent rester à leur tour dans le périmètre prévu initialement. Selon les besoins, on pourra par exemple tout à fait se satisfaire de numéros de téléphones non normalisés, tandis qu’on devra être absolument certains du séparateur décimal de données enregistrées dans une base à usage international.

Les méthodes et techniques disponibles pour atteindre la qualité requise sont nombreux et variés. Ils vont de l’arsenal classique de l’administrateur de bases de données au savoir-faire des statisticiens en passant également par le développement et l’IA. Un sujet à part entière et d’actualité, qui méritera un article dans un avenir proche !

Enrichir si opportun

Il peut arriver que les données cartographiées ne soient pas suffisantes :

  • Soit parce qu’elles ne sont pas directement disponibles tout simplement.
  • Soit parce que leur qualité n’est pas suffisante et qu’y remédier en travaillant sur l’existant s’avère impossible ou trop coûteux.

Dans ce cas, un nouveau besoin apparaît : Trouver puis intégrer le complément de données.

Plusieurs pistes sont à étudier selon le contexte :

  • Recherche de données existantes en interne, mais en dehors du périmètre initial. Cela peut arriver fréquemment dans le cas d’une organisation en silos, si le périmètre adopté au départ n’était pas assez transversal.
  • Mise en place de moyens internes de recueil des données complémentaires. On peut par exemple mettre en place des solutions de mesures d’usage d’une application en ligne afin de compléter des données de fréquentation brute.
  • Recherche de données externes : Open data, places de marchés de jeux de données, etc.

Gouvernance des données

Vous l’aurez d’ores et déjà deviné : l’ensemble des activités que nous venons d’évoquer implique un large spectre de parties prenantes, ce qui nécessite la mise en place d’une gouvernance des données à la mesure de l’initiative concernée.

Ce terme peut paraître particulièrement anachronique en ces temps d’agilité, de souplesse et de documentation minimaliste. Il est certain qu’un cadre et des outils trop complexes et/ou trop rigides seraient inutilement coûteux, difficilement applicables et rapidement obsolètes.

D’un autre côté, si l’on considère les données comme un des biens les plus précieux de l’entreprise, qui de surcroît doit pouvoir être manipulé, échangé et compris par un ensemble hétérogène de collaborateurs, il apparaît évident que des stratégies, règles et procédures de gestion des données doivent être adoptées par tous les acteurs et pilotées de manière claire.

Les objectifs de la gouvernance des données sont multiples :

  • Développer et entretenir l’adhésion à une culture commune à l’égard de la valeur et du traitement des données, parmi les personnes impliquées. Les changements à mener à bien peuvent être critiques et complexes, tant chacun est susceptible de développer indépendamment ses propres habitudes de gestion des données.
  • Superviser la mise en place et l’évolution d’un ensemble structuré et cohérent de règles, procédures et outils (framework) de gestion des données, à l’échelle du besoin à traiter.
  • Assumer la responsabilité du traitement des données par l’organisation, notamment au regard de la loi et des partenaires extérieurs. S’assurer de disposer des solutions permettant de le faire.

Selon le besoin et la situation initiale, la gouvernance des données sera plus ou moins simple et aisée à mettre en œuvre. Cela pourra aller de quelques outils et documents ad-hoc, jusqu’à la mise en place d’organisations prédéfinies beaucoup plus élaborées. Dans tous les cas, l’adhésion de chacun est un dénominateur commun à ne pas négliger.


Valorisation

Les données peuvent être catégorisées selon différents critères : Source, type, taille, volatilité, fréquence de production, et bien d’autres. Nous nous intéressons ici à leur mode de production, en distinguant principalement.

  • La captation de données brutes à partir de sources ayant une finalité autre que la production de données, tels que des phénomènes naturels ou activités humaines : Données de vol en aviation, données démographiques, données de trafic réseau, etc.
  • La création et publication volontaire et consciente de données, sous la forme d’œuvres intellectuelles notamment (au sens large) : Sites web, documents, vidéos numériques, avis, commentaires, etc.
  • La dérivation de données à partir d’autres données : calcul de métadonnées, KPIs, statistiques par exemple.

Ces différentes catégories offrent un moyen parmi d’autres d’illustrer la diversité des situations et approches de valorisation des données :

ValorisationDonnées brutes "telles que captées""Œuvres" numériques créées délibérémentDonnées dérivées d’autres données (par calcul, ou recours à l’IA notamment)
Déclenchement automatique d’actions La miniaturisation et la baisse des coûts de l’électronique, permettent une automatisation accrue, notamment pour la réaction à des captations de données brutes : Déclenchement d’alarmes, régulation de température, mais aussi commandes vocales, authentification, etc.

Evolution des moyens de création, diffusion et contrôle d’œuvres numériques au sens large.

La création de profils personnels en lignes, la publication d’articles, d’opinions, etc, déclenchent par exemple des diffusions d’œuvres en fonction de filtres.

Ici c’est la combinaison de la disponibilité des données, des moyens de captation et de calculs, qui facilite la valorisation.

Il ne s’agit plus de réagir à de la donnée brute, où une singularité suffit à déclencher l’action.

Dans l’automobile par exemple, un grand nombre d’actions automatiques est déclenché à chaque instant à partir d’indicateurs, dérivés des données provenant de capteurs multiples.

Obtention d’informations décisionnelles Voir ce qui concerne les données dérivées, plus loin dans cette ligne.

En l’état, de nombreuses œuvres numériques sont porteuses d’information décisionnelle : comptes-rendus d’études, supports de formation, profils personnels exploitables en RH, etc.

Ici ce sont principalement les moteurs de recherche, listes de diffusions et filtres de contenu automatiques qui donnent accès à ce type de valorisation.

Dérivation et exploitation directe d’indicateurs, à partir de données possédées ou accessibles.

Ce type de valorisation est rendu viable par l’essor des moyens de stockage, transfert et calcul, ainsi que par le développement de la production et de l’échange de données. Il devient même vital dans certains secteurs fortement concurrentiels, où être le premier informé peut constituer un avantage stratégique précieux.

Vente directe

Dans la mesure où existent les possibilités de valorisations ci-dessus, il est naturel qu’un commerce de la donnée ait vu le jour.

Cette marchandisation n’est pas nouvelle – annuaires, dictionnaires métiers ou données météorologiques, se vendent depuis longtemps déjà – mais elle devient tout à fait courante et les places de marché comme Dawex se développent rapidement.

L’avantage des données brutes est, pour le vendeur, un moindre coût de préparation, et pour l’acquéreur, la possibilité d’adapter l’usage à son besoin précis.

Exemple : Données GPS résultant d'une activité particulière (loisirs, etc).

Plateformes de streaming, mais aussi revente de données personnelles volontairement diffusées, ...

Un acteur économique peut souhaiter mettre en vente des indicateurs qu’il est en capacité de produire, sans pour autant diffuser les données sous-jacentes.

Exemples : eCommerceDB, Gartner Magic Quadrants, etc.


Conclusion

Cet aperçu vous aura-t-il permis de vous familiariser avec la valorisation des données ou d’enrichir votre regard sur ce sujet? N’hésitez pas à nous faire part de vos commentaires !

Nous espérons en tout cas que cet article vous aura aidé à entrevoir les opportunités que ce domaine présente pour vous-même.

A suivre dans cette série consacrée à la valorisation des données : Comment tirer parti de la mise en conformité RGPD/LPD ? Des données internes ? De l’open data ? Et plus encore ! Des pistes concrètes de réflexion pour aborder graduellement la valorisation des données avec des investissements maîtrisés et profitables.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *