Gouvernance des données
Avant de commencer à intégrer et à améliorer les données dans Cognite Data Fusion (CDF), vous devriez définir et mettre en œuvre vos règles de gouvernance des données. La gouvernance des données est un ensemble de principes et de pratiques pour garantir une qualité élevée tout au long du cycle de vie de vos données. C’est un élément important des opérations de données afin d’optimiser constamment vos pratiques en matière de gestion des données.
Nous vous recommandons de nommer un administrateur CDF pour travailler avec le service informatique afin de veiller à ce que CDF respecte les règles de sécurité de votre organisation. Vous pouvez aussi connecter CDF à votre IdP (fournisseur d’identités) et utiliser les identités d’utilisateurs IdP existantes pour gérer l’accès à CDF et les données stockées dans CDF. Nous prenons actuellement en charge Microsoft's Microsoft Entra ID.
Cette unité aborde les outils et fonctionnalités de CDF que vous pouvez utiliser pour vous assurer que vos données sont conformes aux attentes de votre organisation et des utilisateurs.
Gestion des accès sécurisés
Pour contrôler l’accès aux données dans CDF, vous définissez les capacités qu’ont les utilisateurs ou les applications pour travailler avec différents types de ressources dans CDF, par exemple, s’ils peuvent lire une série temporelle ou supprimer un actif.
Au lieu d’affecter des capacités à des applications ou des utilisateurs individuels, vous utilisez des groupes dans CDF pour définir les capacités dont disposent les membres (utilisateurs ou applications) pour travailler avec différentes ressources CDF. Vous associez et synchronisez les groupes CDF avec les groupes d’utilisateurs dans votre fournisseur d’identités (IdP), par exemple Microsoft Entra ID (ME-ID).
Par exemple, si vous voulez que des utilisateurs ou des applications puissent lire, mais pas écrire des données de séries temporelles dans CDF, vous commencez par créer un groupe dans votre IdP pour ajouter les utilisateurs et applications appropriés. Vous créez ensuite un groupe CDF avec les capacités requises, puis associez le groupe CDF et le groupe IdP.
Cela vous permet de gérer et de mettre à jour vos règles de gouvernance des données rapidement et en toute sécurité. Vous pouvez continuer à gérer les utilisateurs et applications dans le service IdP de votre organisation en dehors de CDF.
Traçabilité et intégrité des données
Lorsque vous utilisez des données pour prendre des décisions importantes, il est essentiel de savoir quand les données sont fiables, et que les utilisateurs finaux sachent quand ils peuvent se fier aux données pour prendre des décisions. CDF propose des outils et fonctionnalités pour vous assurer que vos données sont conformes aux attentes de votre organisation et des utilisateurs.
Jeux de données
Les jeux de données permettent de documenter et de suivre la traçabilité des données et de garantir l’intégrité des données, et les tiers peuvent écrire des informations en toute sécurité dans votre projet CDF. Nous vous recommandons d’organiser toutes les données dans des jeux de données CDF afin de toujours savoir d’où viennent les données et qui en est responsable.
Les jeux de données regroupent et suivent les données en fonction de leur source. Par exemple, un jeu de données peut contenir tous les bons de travail provenant de SAP. Généralement, une organisation a un jeu de données pour chaque pipeline d’ingestion de données dans CDF. Chaque objet de données dans CDF ne peut appartenir qu’à un jeu de données.
Un jeu de données est un conteneur d’objets de données avec des métadonnées concernant les données qu’il contient. Vous pouvez, par exemple, utiliser les métadonnées des jeux de données pour documenter qui est responsable des données, charger des fichiers de documentation et décrire la traçabilité des données. Dans CDF, les jeux de données sont un type de ressource distinct.
Généralement, vous définissez par programmation quels objets de données, par exemple, des événements, des fichiers et des séries temporelles, appartiennent à un jeu de données dans les pipelines d’ingestion des données. Les objets de données ne peuvent appartenir qu’à un jeu de données. Vous pouvez donc suivre clairement la traçabilité de chaque objet de données.