架构和实施步骤
在本单元中,你将从更高层面了解 Cognite Data Fusion (CDF) 和 CDF 架构。你还将了解到实施 CDF 的关键步骤。
使用 CDF 平台进行上下文化和数据操作:
-
上下文化流程结合了机器学习、强大的规则引擎和域知识,以在
CDF数据模型中相互映射不同来源系统中的资源。首先利用机器学习和规则引擎上下文化你的数据。然后,让域专家验证和微调结果。所生成的优化数据和推断洞察是在整个组织扩展
CDF实施和解决方案的基础,让你能够更深入地了解自己的数据。
-
数据操作是通过协作和自动化管理数据的生命周期的一组工具和实践。
工具包括提取器、转换器、数据集、质量监控和机器学习模型,数据工程师、数据科学家、数据分析师以及组织中的其他专业人员可通过它们开展合作,以建立、自动完成并持续优化数据管理和决策实践。
你随后将在本课程中更深入地学习上下文化和数据操作,但是请先了解基本 CDF 架构。
CDF 平台在云端运行,采用如下所示的模块化设计:
下面的部分介绍实施 CDF 的主要步骤以及它们如何关联不同的 CDF 模块。在后面的单元中,你将学习关于每个步骤的更多细节。
步骤 1:建立数据治理
当你依靠数据作出经营决策时,关键在于你需要知道数据何时可靠,并且最终用户也需要知道他们何时可依靠数据作出决策。
在 CDF 中开始集成和增强数据之前,你需要定义并实施数据治理政策。我们建议指定一位 CDF 管理员,由其与 IT 部门协作,确保 CDF 遵守贵组织的安全实践。另外,将 CDF 连接到 IdP(身份提供者),并使用现有 IdP 用户身份管理对 CDF 以及 CDF 中所存储数据的访问权限。
通过 CDF 工具和功能,你可以编排和监测数据治理、建立安全的数据访问、跟踪数据沿袭并确保数据完整性。
步骤 2:集成数据
建立数据治理后,系统集成人员可以开始将数据从 IT(信息技术)和 OT(运营技术)数据来源集成到 CDF 中。这些系统可能涉及供应传感器数据的工业控制系统、ERP 系统乃至工程系统中的大型 3D CAD 模型。
提取数据
如果拥有数据源的读取权限,你可以设置系统集成以将数据流式传输到 CDF 数据准备区,从中可以对数据进行归一化和扩充。我们支持诸如 PostgreSQL 和 OPC-UA 等标准协议和接口,以便于数据与现有 ETL 工具和数据仓库解决方案集成。
我们还有为行业特定系统定制的提取器,以及适用于 SQL 兼容型数据库中更加传统的表格数据的标准现成 ETL 工具。通过这种方法,我们可以最大限度地减少提取器中的逻辑,并在云端运行和重新运行数据转换。
转换数据
在 CDF 数据准备区中,使用原始格式存储数据。通过这种方法,你可以在云端运行和重新运行数据转换,并重新调整数据以适应 CDF 数据模型。我们将在随后的单元中继续介绍数据模型。
通过单独执行提取步骤和转换步骤,能够更轻松地维护集成管道,并降低来源系统上的负荷。我们建议使用现有的 ETL 工具来转换数据,但是我们也提供了 CDF 转换工具作为轻量级转换任务的备选方案。
增强数据
CDF 中的自动交互式上下文化工具让你能够结合机器学习、强大的规则引擎和域专业知识,在 CDF 数据模型中相互映射不同来源系统中的资源。首先利用机器学习和规则引擎上下文化你的数据。然后,让域专家验证和微调结果。
步骤 3:构建解决方案
使用完整的上下文化数据,你可以构建合适的应用程序,例如,通过该应用程序,你可以单击 3D 模型中的组件以查看所有相应的时间序列数据,或要求提供管路的所有压力读数。
CDF 中存储的所有信息均可通过新型基于 REST 的 API 获得。除了充分记录的 API,Cognite 还提供了连接器和 SDK,用于多种常见编程语言和分析工具,例如 Python、JavaScript、Spark、OData(Excel、Power BI)和 Grafana。我们还提供了用于 Scala 和 .Net 的社区 SDK。
要依托 CDF 中的数据构建应用程序,你需要依赖明确定义的数据模型作出关于数据结构的假设。