La surveillance de la qualité des données (Data quality monitoring)

La donnée est-elle le pétrole du XXIe siècle ? À l’image de l’or noir, les données sont source d’énergie et leur transformation permet aux entreprises d’avancer vers le futur. Attention cependant aux risques de marée noire. Si la nécessité d’utiliser les données est dorénavant reconnue par la grande majorité des entreprises, beaucoup d’entre elles peinent à développer des applications à réelle valeur ajoutée. Parmi les raisons de ces échecs, la qualité des données utilisées occupe une place prépondérante. Nous vous donnons dans cet article les clés essentielles pour améliorer la surveillance de la qualité des données en entreprise.

data-screen-1300px

Différents paramètres pour évaluer la qualité des données

Au départ de tout système de traitement de données il y a… les données.  Tenter de dériver des informations à partir de données de mauvaise qualité revient à construire un bâtiment sans fondation. Au mieux vous aurez quelques fissures mais le risque de voir le bâtiment s’effondrer est bien réel. En tout cas, cette expérience est à éviter.

La qualité des données se mesure de différentes manières et plusieurs critères sont à prendre en compte pour évaluer ce paramètre :

  • L’exactitude : Est-ce que la donnée est correcte ?
  • L’exhaustivité : Est-ce que je dispose de l’ensemble des données pertinentes ?
  • L’accessibilité : Est-ce que la donnée est disponible quand j’en ai besoin ?
  • La justesse : Est-ce que ma donnée est précise, quelle est la marge d’erreur (par exemple dans le cadre de senseurs thermiques) ?
  • L’intégrité : Est-ce que la donnée est authentique et n’a pas été altérée ?
  • La pertinence : Est-ce que cette donnée est utile pour obtenir l’information dont j’ai besoin ?
  • La fiabilité : Est-ce que l’ensemble des données répond aux critères de qualité définis ?
  • La cohérence : Est-ce que mes données sont comparables (par exemple utilisation des mêmes systèmes métriques) ?

Dans la pratique, on constate que ces critères sont variables d’une entreprise à l’autre et que les standards peuvent différer. L’importance ici n’est donc pas de respecter à la lettre une doctrine donnée mais plutôt de s’assurer que des directives en matière de qualité des données existent et soient définies très clairement au sein de l’entreprise.

Nécessité d’une stratégie et d’une gouvernance données adaptées

La surveillance de la qualité des données nécessite une reconnaissance de l’importance de la fonction de gouvernance des données. Trop d’entreprises continuent à négliger la gestion et le traitement des données en considérant qu’il s’agit des attributs du département IT. Pour le même prix, vous pouvez demander à votre avocat en droit fiscal de vous défendre si vous êtes accusé de meurtre. Vos chances de succès seront réduites...

Pour assurer la qualité de vos données, il faut une gouvernance des données robuste. Cela implique d’allouer les ressources nécessaires au sein de votre organisation. Si possible, la nomination d’un Chief Data Officer (Directeur des Systèmes de Données) s’avère souvent payante.

En outre, il importe de définir très clairement une Data Quality Policy. Si la surabondance des directives en tous genres nuit gravement à l’efficacité d’une organisation, certains documents de référence sont indispensables. C’est le cas d’un document officiel concernant la qualité des données. Il importe en particulier que les standards en matière de données soient connus. Les termes utilisés doivent être clairement définis afin d’avoir une cohérence parmi les différentes sources de données. Les formes de présentation des données doivent également être connues et harmonisées. Les erreurs liées à des modèles de traitement de données résultent trop souvent des données elles-mêmes et non pas du modèle.

L’adhésion des différents acteurs au sein de l’entreprise se fera grâce au développement d’une culture d’entreprise orientée données (data driven culture). Les intervenants doivent comprendre la valeur ajoutée de l’information qu’ils collectent et qu’ils fournissent.

Selon le cabinet de conseil BCG, une bonne stratégie afin d’assurer la qualité des données s’articule autour de différents axes dont :

  • La structure des données : la façon dont les données sont classifiées et organisées suivant une lexicologie et des unités de mesure appropriées. On observe souvent des utilisations différentes d’un même terme au sein des différents départements d’une organisation. Prenons l’exemple d’un producteur de vin ; le département financier mesurerait les ventes en termes de bouteilles alors que le département marketing les évaluerait en termes de caisses vendues. Un tel manque de communication peut sembler aberrant mais est extrêmement courant dans toute sa banalité ;
  • L’existence de directives et de procédures qui définissent les actions, les rôles, les répartitions de budget ou encore toute autre directive relative à la gouvernance des données. Comme indiqué plus haut, il faut cependant éviter d’enterrer l’organisation sous la paperasse en se limitant à codifier l’essentiel à savoir ce que signifie qualité des données pour l’entreprise. Le document doit définir clairement de quelle manière la qualité des données est évaluée et qui est responsable.
lights-red-1300px

Règles de base à respecter pour assurer la qualité des données

Au-delà de la mise en place de standards clairement établis comme expliqué ci-avant il est important de détecter ou d’éliminer automatiquement les données qui ne respectent pas des contraintes prédéfinies. Ces contraintes peuvent être liées au format (par exemple la donnée doit contenir entre trois et cinq variables) ou simplement au résultat (par exemple la donnée doit être un caractère texte, un nombre positif, etc.). La définition de telles règles de validation permet d’effectuer un premier tri et de séparer le bon grain de l’ivraie dès le début du procédé de traitement des données. C’est une étape fastidieuse mais indispensable. Comme le dit l’adage bien connu des spécialistes données : garbage in, garbage out.  Essayez de faire un grand cru avec un mauvais raisin et vous aurez un sacré mal de tête.

Chez Ryax, nous proposons une plateforme d’automatisation de traitement de données qui intègre certains paramètres pour évaluer la qualité de vos données. Notre produit complète les procédures internes à l’entreprise afin d’assurer une qualité des données optimale pour en extraire tout le potentiel. Contactez-nous si vous souhaitez une démonstration de notre logiciel ou discuter de sa valeur ajoutée pour votre entreprise.

La Ryax Team.