Intégration de données

Pour analyser et contextualiser vos données dans ~~Cognite Data Fusion~~ (~~CDF~~), vous devez mettre en place des pipelines d’intégration des données efficaces entre votre infrastructure de données existante et le modèle de données de ~~CDF~~.

Dans ~~CDF~~, un pipeline d’intégration des données inclut généralement plusieurs étapes pour extraire, transformer et contextualiser les données. Dans cette unité, nous allons étudier chacune de ces étapes en détails.

Pour intégrer les données au modèle de données de ~~CDF~~, vous pouvez utiliser des protocoles et interfaces standard, tels que ~~PostgreSQL~~ et ~~OPC-UA~~, ainsi que ~~Cognite~~ ou des outils d’extraction et de transformation tiers. Les outils sont essentiels pour vos opérations sur les données, et nous vous recommandons d’utiliser une conception modulaire pour vos pipelines d’intégration des données, afin de les rendre aussi gérables que possible.

Extraction de données

Les outils d’extraction se connectent aux systèmes source, et poussent des données sous leur format d’origine vers la zone de transit. Les outils d’extractions de données fonctionnent selon différents modes. Ils peuvent diffuser des données en continu, ou extraire des données par lots vers la zone de transit. Ils peuvent aussi extraire des données directement vers le modèle de données de ~~CDF~~ avec peu ou pas de transformation des données.

Avec un accès en lecture aux sources de données, vous pouvez configurer l’intégration du système pour diffuser des données en continu vers la zone de transit ~~CDF~~ (~~RAW~~), où les données peuvent être normalisées et enrichies. Nous prenons en charge des protocoles et interfaces standard, tels que ~~PostgreSQL~~ et ~~OPC-UA~~, pour faciliter l’intégration des données à vos outils d’ETL et solutions d’entreposage de données existants.

Nous avons également des outils d’extraction conçus sur mesure pour des systèmes spécifiques à certains secteurs et des outils d’ETL standard pour les données tabulaires plus traditionnelles dans les bases de données compatibles SQL.

Nous divisons les systèmes source en deux types principaux :

Systèmes source OT : par exemple, des systèmes de commande industriels avec des données de séries temporelles. L’obtention de données d’OT dans CDF peut être urgente (quelques secondes), et les données doivent souvent être extraites en continu.
Systèmes source IT : par exemple des systèmes d’ERP, des systèmes de fichiers, des bases de données et des systèmes d’ingénierie (modèles de CAO 3D). Les données d’IT changent généralement moins fréquemment (quelques minutes ou quelques heures) que les données d’OT, et peuvent souvent être extraites par lots.

Alternatives à la zone de transit

Les données passent des outils d’extraction à l’API d’intégration de ~~CDF~~. À partir de là, tout se passe sur le cloud. La première étape est la zone de transit de ~~CDF~~ (~~RAW~~), où les données tabulaires sont stockées sous leur format d’origine. Cette approche permet de réduire autant que possible la logique dans les outils d’extraction, et de réaliser plusieurs fois des transformations sur les données sur le cloud.

Si vous données ont déjà été diffusées et stockées sur le cloud, par exemple dans un entrepôt de données, vous pouvez alors intégrer les données à la zone de transit de ~~CDF~~ et transformer les données avec les outils de ~~Cognite's~~. Vous pouvez également transformer les données sur votre cloud et contourner la zone de transit de ~~CDF~~ afin d’intégrer les données directement au modèle de données de ~~CDF~~.

Transformation des données

L’étape de transformation permet de modeler les données et de les déplacer de la zone de transit au modèle de données de ~~CDF~~. C’est généralement cette étape qui nécessite le plus de logique de traitement des données.

La transformation des données inclut typiquement l’une ou plusieurs de ces étapes :

Remodeler les données pour les adapter au modèle de données de ~~CDF~~. Par exemple, lire un objet de données dans ~~CDF RAW~~ et le modeler en un événement.
Enrichir les données avec de nouvelles informations. Par exemple, ajouter des données d’autres sources.
Faire correspondre les données avec d’autres objets de données dans votre recueil.
Analyser la qualité des données. Par exemple, contrôler si toutes les informations requises sont présentes dans l’objet de données.

Nous recommandons d’utiliser vos outils Extract, Transform, Load (ETL) existants pour transformer les données, mais nous proposons également l’outil ~~CDF Transformation~~ pour des tâches de transformation limitées. ~~CDF Transformations~~ permet d’utiliser des requêtes ~~Spark~~ SQL pour transformer les données depuis votre navigateur.

Quel que soit l’outil utilisé, vous transformerez des données du stockage ~~CDF's RAW~~ ou d’un système de transit équivalent vers le modèle de données de ~~Cognite~~, où vous pourrez encore enrichir les données avec de nouvelles relations pour réaliser des analyses en profondeur et obtenir des informations en temps réel.

Amélioration des données

Un élément très important de vos pipelines d’intégration des données est la contextualisation. Ce processus associe l’apprentissage machine, un puissant moteur de règles et la connaissance du domaine afin de mapper entre elles des ressources de différents systèmes source dans le modèle de données ~~CDF~~.

La première partie de la contextualisation consiste à s’assurer que chaque entité partage le même identifiant dans ~~CDF~~, même si elle a différents ID dans les systèmes source. Cette étape est généralement réalisée au stade de la transformation lorsque vous modelez et mettez en correspondance des données entrantes, et les comparez aux ressources existantes de votre recueil.

L’étape suivante du processus de contextualisation consiste à associer des entités entre elles de la même manière qu’elles sont associées dans le monde réelle. Par exemple, un objet dans un modèle 3D peut avoir un ID que vous pouvez mettre en correspondance avec une ressource, et une série temporelle provenant d’un système de surveillance d’instrument peut avoir un autre ID que vous pouvez affecter au même actif.

Les outils de contextualisation interactive dans ~~CDF~~ permettent d’associer l’apprentissage machine, un puissant moteur de règles et la connaissance du domaine afin de mapper entre elles des ressources de différents systèmes source dans le modèle de données ~~CDF~~.

Vous pouvez, par exemple, créer des schémas d’ingénierie interactifs à partir de fichiers source PDF statiques, et mettre en correspondance des entités afin de configurer, d’automatiser et de valider tous vos pipelines de contextualisation depuis votre navigateur sans avoir de code à écrire.

Les données affinées obtenues et les informations utilisées sont la base de la mise à l’échelle de votre implémentation de ~~CDF~~ et de solutions dans votre organisation lorsque vous développez une compréhension plus approfondie de vos données.

Extraction de données​

Alternatives à la zone de transit​

Transformation des données​

Amélioration des données​

Plus d’informations​

Extraction de données

Alternatives à la zone de transit

Transformation des données

Amélioration des données

Plus d’informations