Data Governance
Bevor Sie Daten in Cognite Data Fusion (CDF) integrieren und erweitern, sollten Sie Ihre Data-Governance-Richtlinien definieren und implementieren. Data Governance bezeichnet eine Reihe von Grundsätzen und Verfahren, die für hohe Qualität während des Datenlebenszyklus sorgen. Sie ist ein wesentlicher Bestandteil der Datenvorgänge, um Ihre Datenverwaltungspraktiken kontinuierlich zu optimieren.
Wir empfehlen, dass Sie einen CDF-Administrator festlegen, der in Zusammenarbeit mit der IT-Abteilung sicherstellt, dass CDF die Sicherheitspraktiken Ihrer Organisation befolgt. Verbinden Sie CDF zudem mit Ihrem Identitätsprovider (IdP), und verwenden Sie die vorhandenen IdP-Benutzeridentitäten, um den Zugriff auf CDF und die in CDF gespeicherten Daten zu verwalten. Wir unterstützen derzeit Microsoft's Microsoft Entra ID (formerly Azure Active Directory.
In dieser Einheit werden die CDF-Tools und -Funktionen erläutert, mit denen Sie sicherstellen können, dass Ihre Daten den Erwartungen der Organisation und ihrer Benutzer entsprechen.
Sichere Zugriffsverwaltung
Um den Zugriff auf Daten in CDF zu kontrollieren, definieren Sie die Aufgaben, die Benutzer oder Anwendungen bei der Arbeit mit unterschiedlichen Ressourcentypen in CDF ausführen können, z. B. Zeitreihe lesen oder Anlagenteil löschen.
Anstatt einzelnen Benutzern und Anwendungen Aufgaben zuzuweisen, können Sie anhand von Gruppen in CDF festlegen, welche Aufgaben Mitglieder (Benutzer oder Anwendungen) bei der Arbeit mit unterschiedlichen CDF-Ressourcen ausführen dürfen. Sie verknüpfen und synchronisieren die CDF-Gruppen mit Benutzergruppen in Ihrem Identitätsprovider (IdP), wie Microsoft Entra ID (ME-ID).
Wenn Benutzer oder Anwendungen beispielsweise in der Lage sein sollen, Zeitreihendaten in CDF zu lesen, aber nicht zu schreiben, erstellen Sie zunächst eine Gruppe in Ihrem IdP, der Sie dann die jeweiligen Benutzer und Anwendungen hinzufügen. Als Nächstes erstellen Sie eine CDF-Gruppe mit den erforderlichen Aufgaben und verknüpfen die CDF-Gruppe mit der IdP-Gruppe.
Dank dieser Flexibilität können Sie Ihre Data-Governance-Richtlinien schnell und sicher verwalten und aktualisieren. Sie können Benutzer und Anwendungen weiterhin in Ihrem IdP-Service außerhalb von CDF verwalten.
Datenherkunft und -integrität
Wenn Sie betriebliche Entscheidungen aufgrund von Daten treffen, müssen Sie unbedingt wissen, ob die Daten zuverlässig sind. Gleichzeitig müssen Endbenutzer wissen, wann sie sich beim Treffen von Entscheidungen auf Daten verlassen können. CDF bietet Tools und Funktionen, mit denen Sie sicherstellen, dass Ihre Daten den Erwartungen der Organisation und ihrer Benutzer entsprechen.
Datensätze
Über Datensätze können Sie die Datenherkunft dokumentieren und verfolgen, während Dritte ihre Erkenntnisse sicher in Ihr CDF-Projekt zurückschreiben können. Wir empfehlen, dass Sie alle Daten in CDF in Datensätzen organisieren, damit Sie immer wissen, woher Daten stammen und wer für sie verantwortlich ist.
Datensätze gruppieren und verfolgen Daten nach ihrer Quelle. Ein Datensatz kann beispielsweise alle Arbeitsanweisungen von SAP enthalten. In der Regel nutzt eine Organisation einen Datensatz für jede Datenaufnahme-Pipeline in CDF. Jedes Datenobjekt in CDF kann nur einem Datensatz angehören.
Ein Datensatz ist ein Container für Datenobjekte, der Metadaten zu den jeweiligen Daten enthält. Sie können anhand der Metadaten des Datensatzes beispielsweise dokumentieren, wer für die Daten verantwortlich ist, Dokumentationsdateien hochladen und die Datenherkunft beschreiben. In CDF sind Datensätze ein separater Ressourcentyp.
In der Regel legen Sie programmgesteuert in den Datenaufnahme-Pipelines fest, welche Datenobjekte (z. B. Ereignisse, Dateien und Zeitreihen) zu einem Datensatz gehören. Datenobjekte können nur einem Datensatz angehören, sodass Sie die Datenherkunft für jedes Datenobjekt eindeutig verfolgen können.