数据治理
在 Cognite Data Fusion (CDF) 中开始集成和增强数据之前,你应定义并实施数据治理政策。数据治理是一组确保在数据整个生命周期内保持高质量的原则和实践。它是数据操作的重要组成部分,能够持续优化你的数据管理实践。
我们建议指定一位 CDF 管理员与 IT 部门协作,确保 CDF 遵守贵组织的安全实践。另外,将 CDF 连接到 IdP(身份提供者),并使用现有 IdP 用户身份管理对 CDF 以及 CDF 中所存储数据的访问权限。我们目前支持 Microsoft's Microsoft Entra ID (formerly Azure Active Directory。
本单元介绍你可以用来确保数据符合贵组织和用户期望的 CDF 工具和功能。
安全访问管理
为 了控制对 CDF 中数据的访问,你可以定义用户或应用程序拥有哪些功能来处理 CDF 中的不同资源类型,例如,是否能够_读取时间序列_或_删除资产_。
你可在 CDF 中使用组来定义成员(用户或应用程序)拥有哪些功能来处理不同的 CDF 资源,而不必向单个用户或应用程序分配功能。你可以链接并同步 CDF 组与身份提供者 (IdP) 中的用户组,例如 Microsoft Entra ID (ME-ID)。
例如,如果你希望用户或应用程序在 CDF 中对时间序列数据拥有_读取_权限但没有_写入_权限,则应首先在 IdP 中创建一个组,以添加相关用户和应用程序。接下来,你应创建拥有必需功能的 CDF 组,然后链接 CDF 组与 IdP 组。
这种灵活性让你能够快速且安全地管理和更新数据治理政策。在 CDF 之外,你可以继续在贵组织的 IdP 服务中管理用户和应用程序。
数据沿袭和完整性
当你依靠数据作出经营决策时,关键在于你需要知道数据何时可靠,并且最终用户也需要知道他们何时可依靠数据作出决策。CDF 提供了各种工具和功能,确保你的数据符合组织和用户期望。
数据集
数据集让你能够记录和跟踪数据沿袭、确保数据完整性,并允许第三方安全地将其洞察写回你的 CDF 项目。我们建议将 CDF 中的所有数据组织到数据集内,以便始终了解数据来自哪里以及由谁负责。
数据集按数据源对数据进行分组和跟踪。例如,数据集可以包含源自 SAP 的所有工单。通常,组织将为 CDF 中的每个数据接入管道建立一个数据集。CDF 中的每个数据对象都只能属于一个数据集。
数据集是针对数据对象的容器,拥有其所包含数据的元数据。例如,你可以使用数据集元数据记录谁负责该数据、上传文档记录文件和描述数据沿袭。在 CDF 中,数据集是单独的资源类型。
通常,你可使用编程方式在数据接入管道中定义哪些数据对象(例如,事件、文件和时间序列)属于数据集。数据对象只能属于一个数据集,因此你可以清晰地跟踪每个数据对象的数据沿袭。