Bon nombre d’entreprises se reposent aujourd’hui sur les data pour leurs processus décisionnels ou leur développement. Veiller à garantir et améliorer leur intégrité, ainsi que leur qualité est donc indispensable pour ces sociétés.

Qu’est-ce que l’intégrité des données?

L’intégrité des données caractérise la fiabilité de l’information en termes de validité physique et logique. Elle est basée sur des paramètres tels que l’exactitude, la validité et la cohérence des données tout au long de leur cycle de vie. Pour l’exprimer simplement, l’intégrité est l’absence de changement involontaire entre deux mises à jour successives des données.

L’intégrité des données caractérise la fiabilité de l’information en termes de validité physique et logique.
Olivier Gschwind

Olivier Gschwinddirector of practices Data Platform (Azure/AWS/GCP/Cloudera) – senior architectUmanis

Les actes de malveillance externes sont le premier fléau auquel nous pensons lorsque nous parlons de changements involontaires. Il s’agit là d’une raison fréquente et particulièrement insidieuse de perte d’intégrité.

Cependant, il ne s’agit pas de la seule cause possible.

La saisie d’une valeur au mauvais format dans l’un des champs d’un formulaire, un problème dans une application modifiant ou supprimant des enregistrements, une maladresse de développeur sont autant d’exemples plausibles.

Pour cette raison, les mécanismes de sécurité qui empêchent des ajouts, modifications ou suppressions incohérentes dans un moteur de gestion de base de données relationnelle s’appellent des «Contraintes d’intégrité».

Quelles sont les différences entre l’intégrité et la qualité des données?

La qualité des données désigne la fiabilité de l’information pour servir un objectif défini (planification, prise de décision, entrainement de modèles de machine learning,…).

Les données sont qualitatives si elles sont complètes et disposent de toutes les caractéristiques et attributs nécessaires. Il s’agit d’informations utilisables pour répondre à des circonstances spécifiques du monde réel.

La qualité des données ne représente qu’une partie de la notion d’intégrité. Cette dernière va couvrir l’ensemble du cycle de vie de la donnée, de son intégration à son exposition.

Quelles sont les conséquences si l’intégrité des données n’est pas garantie?

Aujourd’hui nous parlons bien souvent d’entreprises data-driven, autrement dit de sociétés s’appuyant sur l’analyse des données pour prendre des décisions et orienter leur évolution.

Si les données ne sont pas intègres ou ont été falsifiées de manière intentionnelle ou non, les analyses seront erronées et les décisions impactées.

La capacité à garantir l’intégrité des données est donc devenu un enjeu majeur dans le domaine de la data
Olivier Gschwind

Olivier Gschwinddirector of practices Data Platform (Azure/AWS/GCP/Cloudera) – senior architectUmanis

Lorsqu’une entreprise investit massivement dans sa capacité à être guidée par les données et que ces dernières ne sont finalement pas fiables, l’objectif est manqué.

La capacité à garantir l’intégrité des données est donc devenu un enjeu majeur dans le domaine de la data qu’elle soit Big, Small, Smart, etc.

Comment garantir ou au moins améliorer l’intégrité de ses données?

De nombreuses techniques de vérification ont été empruntées au domaine de la Cybersécurité.

Nous pensons à celles de hachage qui permettent de comparer l’empreinte d’une donnée à deux instants différents, mais aussi à l’encryption durant le transport et le stockage des données.

Le contrôle drastique de l’accès aux données et aux infrastructures, ainsi que le monitoring et les pistes d’audit permettant de détecter toute activité suspicieuse, sont autant d’outil incontournables.

Cependant, les actes malveillants ne sont pas les seuls responsables. La mise en place de mécanismes de contrôle (éléments de formulaire, contraintes d’intégrité) qui agissent comme des garde-fous sont indispensables.

Enfin, n’oublions jamais l’instauration de bonnes pratiques qui sont souvent des actions préventives à développer sur le long terme. «L’attaque vient de l’extérieur mais la faille est souvent créée de l’intérieur», rappelle Olivier Gschwind, practice director Data Platform and senior architect chez Umanis.

Toutes ces techniques doivent être mises en œuvre dans les systèmes d’information et les plateformes de données, que ces dernières soient dans un Cloud privé, public ou On premise.

Au Luxembourg, Umanis accompagne ses clients dans leur transformation en apportant le meilleur de ses expertises dans les domaines de la Data, de l’IA, du Digital et du Cloud. Pour en savoir rendez-vous sur: