Arquitectura y pasos de implementación
En esta unidad, obtendrá un panorama general de Cognite Data Fusion (CDF) y la arquitectura de CDF. También se les mostrarán los pasos clave para implementar CDF.
Utilice la plataforma CDF para contextualización y operaciones de datos:
-
La contextualización es un proceso que combina el aprendizaje automático, un potente motor de reglas y el conocimiento del dominio para asignar recursos de diferentes sistemas de origen entre sí en el modelo de datos de
CDF.Comience por contextualizar sus datos con el aprendizaje automático y los motores de reglas. Luego, deje que los expertos del dominio validen y ajusten los resultados. Los datos refinados resultantes y los conocimientos inferidos son la base para escalar la implementación y soluciones
CDFen toda su organización, a medida que adquiere una comprensión más profunda de sus datos.
-
Las operaciones de datos son un conjunto de herramientas y prácticas para administrar el ciclo de vida de sus datos a través de la colaboración y la automatización.
Herramientas como extractores, transformadores, conjuntos de datos, monitoreo de calidad y modelos de aprendizaje automático permiten que los ingenieros de datos, los científicos de datos, los analistas de datos y otras disciplinas de su organización trabajen juntos para establecer, automatizar y optimizar continuamente su manejo de datos y prácticas de toma de decisiones.
Aprenderá más sobre la contextualización y las operaciones de datos más adelante en este curso, pero primero, conozcamos la arquitectura básica de CDF.
La plataforma CDF se ejecuta en la nube y tiene un diseño modular, como se ilustra aquí:
Las siguientes secciones presentan los pasos principales para implementar CDF y cómo se relacionan con los diferentes módulos de CDF. En unidades posteriores, aprenderá más detalles sobre cada uno de los pasos.
Paso 1: Configurar la gobernanza de datos
Cuando confía en los datos para tomar decisiones operativas, es fundamental que sepa cuándo los datos son confiables y que los usuarios finales sepan cuándo pueden confiar en los datos para tomar decisiones.
Antes de comenzar a integrar y mejorar los datos en CDF, debe definir e implementar sus políticas de gobernanza de datos. Le recomendamos que designe a un administrador de CDF que pueda trabajar con el departamento de TI para asegurarse de que CDF siga las prácticas de seguridad de su organización. Además, conecte CDF a su IdP (proveedor de identidad) y use las identidades de usuario de IdP existentes para administrar el acceso a CDF y los datos almacenados en CDF.
Con las herramientas y funciones de CDF, puede organizar y supervisar el control de datos, establecer un acceso a datos seguro, realizar un seguimiento del linaje de datos y garantizar la integridad de datos.
Paso 2: Integrar datos
Luego de establecer la gobernanza de datos, los integradores de sistemas pueden comenzar a trabajar para integrar datos en CDF desde las fuentes de datos de TI (tecnología de la información) y OT (tecnología operativa) de su empresa. Estos sistemas pueden variar desde sistemas de control industrial que suministran datos de sensores, pasando por sistemas ERP, hasta modelos CAD 3D masivos en sistemas de ingeniería.
Extraer datos
Con acceso de lectura a las fuentes de datos, puede configurar la integración del sistema para transmitir datos al área de preparación de CDF, donde los datos pueden ser normalizados y enriquecidos. Somos compatibles con protocolos e interfaces estándares, como PostgreSQL y OPC-UA, para facilitar la integración de datos con sus herramientas ETL y sus soluciones de almacenamiento de datos existentes.
También contamos con extractores personalizados para sistemas específicos de la industria y herramientas ETL estándares listas para usar, para datos tabulares más tradicionales en bases de datos compatibles con SQL. Este enfoque le permite minimizar la lógica en los extractores, además de ejecutar y volver a ejecutar transformaciones en datos en la nube.
Transformar datos
En el área de preparación de CDF, los datos se almacenan en su formato original. Este enfoque le permite ejecutar y volver a ejecutar Transformations en los datos en la nube y remodelarlos para que se ajusten al modelo de datos de CDF. Volveremos a hablar sobre el modelo de datos en una unidad posterior.
La separación de los pasos de extracción y transformación facilita el mantenimiento de las canalizaciones de integración y reduce la carga en los sistemas de origen. Recomendamos utilizar sus herramientas ETL existentes para transformar los datos, pero también ofrecemos la herramienta Transformaciones de CDF como alternativa para trabajos de transformación ligeros.
Mejorar datos
Las herramientas automáticas e interactivas de contextualización en CDF le permiten combinar el aprendizaje automático, un potente motor de reglas y experiencia en el dominio para mapear recursos de diferentes sistemas de origen entre sí en el modelo de datos de CDF. Comience por contextualizar sus datos con el aprendizaje automático y los motores de reglas. Luego, deje que los expertos del dominio validen y ajusten los resultados.
Paso 3: Crear soluciones
Con datos completos y contextualizados, puede crear aplicaciones en las que, por ejemplo, puede hacer clic en un componente de un modelo 3D para ver todos los datos de las series cronológicas correspondientes o solicitar todas las lecturas de presión a lo largo de una línea de flujo.
Toda la información almacenada en CDF está disponible a través de una API basada en REST moderna. Además de una API bien documentada, Cognite proporciona conectores y SDK para muchos lenguajes de programación y herramientas de análisis comunes, como Python, JavaScript, Spark, OData (Excel Power BI) y Grafana. También ofrecemos SDK comunitarios para Scala y .Net.
Para crear aplicaciones sobre los datos en CDF, necesitará un modelo de datos bien definido que permite hacer suposiciones sobre la estructura de los datos.