跳至主要内容

架构和实施步骤

在本单元中,你将从更高层面了解 Cognite Data Fusion (CDF) 和 CDF 架构。你还将了解到实施 CDF 的关键步骤

使用 CDF 平台进行情景化数据操作

  • 情景化流程结合了机器学习、强大的规则引擎和领域知识,以在 CDF 数据模型中相互映射不同来源系统中的资源。

    首先利用机器学习和规则引擎情景化你的数据。然后,让领域专家验证和微调结果。所生成的优化数据和推断得出的洞察是在整个组织扩展 CDF 实施和解决方案的基础,让你能够更深入地了解自己的数据。

  • 数据操作是通过协作自动化管理数据的生命周期的一组工具和实践。

    工具包括提取器、转换器、数据集、质量监控和机器学习模型,数据工程师、数据科学家、数据分析师以及组织中的其他专业人员可通过它们开展合作,以建立、自动完成并持续优化数据管理和决策实践。

你随后将在本课程中更深入地学习情景化和数据操作,但是请先了解基本 CDF 架构

CDF 平台在云端运行,采用如下所示的模块化设计:

CDF 架构

下面的部分介绍实施 CDF 的主要步骤以及它们如何关联不同的 CDF 模块。在后面的单元中,你将学习关于每个步骤的更多细节。

步骤 1:建立数据治理

当你依靠数据作出经营决策时,关键在于你需要知道数据何时可靠,并且最终用户也需要知道他们何时可依靠数据作出决策。

CDF 中开始集成和增强数据之前,你需要定义并实施数据治理政策。我们建议指定一位 CDF 管理员,由其与 IT 部门协作,确保 CDF 遵守贵组织的安全实践。另外,将 CDF 连接到 IdP(身份提供者),并使用现有 IdP 用户身份管理对 CDF 以及 CDF 中所存储数据的访问权限。

通过 CDF 工具和功能,你可以编排和监测数据治理、建立安全的数据访问、跟踪数据世系并确保数据完整性

步骤 2:集成数据

建立数据治理后,系统集成人员可以开始将数据从 IT(信息技术)和 OT(运营技术)数据来源集成到 CDF 中。这些系统可能涉及供应传感器数据的工业控制系统、ERP 系统乃至工程系统中的大型 3D CAD 模型。

提取数据

如果拥有数据源的读取权限,你可以设置系统集成以将数据流式传输到 CDF 数据准备区,从中可以对数据进行归一化和扩充。我们支持诸如 PostgreSQLOPC-UA 等标准协议和接口,以便与数据与现有 ETL 工具和数据仓库解决方案集成。

我们还有为行业特定系统定制的提取器,以及适用于 SQL 兼容型数据库中更加传统的表格数据的标准现成 ETL 工具。通过这种方法,我们可以最大限度地减少提取器中的逻辑,并在云端运行和重新运行数据转换。

转换数据

CDF 数据准备区中,使用原始格式存储数据。通过这种方法,你可以在云端运行和重新运行数据转换,并重新调整数据以适应 CDF 数据模型。我们将在随后的单元中继续介绍数据模型。

通过单独执行提取步骤和转换步骤,能够更轻松地维护集成管道,并降低来源系统上的负荷。我们建议使用现有的 ETL 工具来转换数据,但是我们也提供了 CDF 转换工具作为轻量级转换任务的备选方案。

增强数据

CDF 中的自动交互式情景化工具让你能够结合机器学习、强大的规则引擎和领域专业知识,在 CDF 数据模型中相互映射不同来源系统中的资源。首先利用机器学习和规则引擎情景化你的数据。然后,让领域专家验证和微调结果。

步骤 3:构建解决方案

使用完整的情景化数据,你可以构建合适的应用程序,例如,通过该应用程序,你可以单击 3D 模型中的组件以查看所有相应的时间序列数据,或要求提供管路的所有压力读数。

3D

CDF 中存储的所有信息均可通过新型基于 REST 的 API 获得。除了有详细文档的 APICognite 还提供了连接器SDK,用于多种常见编程语言和分析工具,例如 PythonJavaScriptSparkODataExcelPower BI)和 Grafana。我们还提供了用于 Scala.Net 的社区 SDK。

要依托 CDF 中的数据构建应用程序,你需要依赖明确定义的数据模型作出关于数据结构的假设。这就是我们将在下一个单元中了解的内容,能够让我们对 CDF 数据模型及其资源类型有更深入的认识。

更多信息