Architecture et mesures d’implémentation
Cette unité propose une présentation approfondie de Cognite Data Fusion (CDF) et de l’architecture de CDF. Vous découvrirez également les principales mesures pour implémenter CDF.
Utilisez la plateforme CDF pour la contextualisation et les opérations de données :
-
La contextualisation est un processus qui associe l’apprentissage machine, un puissant moteur de règles et la connaissance du domaine afin de mapper entre elles des ressources de différents systèmes source dans le modèle de données
CDF.Commencez par contextualiser vos données avec l’apprentissage machine et des moteurs de règles. Puis laissez les experts du domaine valider et affiner les résultats. Les données affinées obtenues et les informations utilisées sont la base de la mise à l’échelle de votre implémentation de
CDFet de solutions dans votre organisation lorsque vous développez une compréhension plus approfondie de vos données.
-
Les opérations de données sont un ensemble d’outils et de pratiques pour gérer le cycle de vie de vos données grâce à la collaboration et à l’automatisation.
Les outils tels que des extracteurs, des transformateurs, des jeux de données, la surveillance de la qualité et des modèles d’apprentissage machine permettent aux ingénieurs des données, aux experts en science des données, aux analystes de données et aux autres métiers au sein de votre organisation de travailler ensemble pour établir, automatiser et optimiser constamment vos pratiques de gestion des données et de prise de décisions.
Dans ce cours, vous allez étudier la contextualisation et les opérations sur les données, mais nous allons commencer par nous intéresser aux bases de l’architecture de CDF.
La plateforme CDF est exécutée sur le cloud, et présente une conception modulaire, comme illustré ci-dessous :
Les sections ci-dessous présentent les principales étapes de l’implémentation de CDF, et leur lien avec les différents modules de CDF. Dans les unités suivantes, vous apprendrez plus de détails sur chacune de ces étapes.
Étape 1 : Configuration de la gouvernance des données
Lorsque vous utilisez des données pour prendre des décisions importantes, il est essentiel de savoir quand les données sont fiables, et que les utilisateurs finaux sachent quand ils peuvent se fier aux données pour prendre des décisions.
Avant de commencer à intégrer et à améliorer des données dans CDF, vous devez définir et implémenter vos règles de gouvernance des données. Nous vous recommandons de nommer un administrateur CDF capable de travailler avec le service informatique afin de veiller à ce que CDF respecte les règles de sécurité de votre organisation. Vous pouvez aussi connecter CDF à votre IdP (fournisseur d’identités) et utiliser les identités d’utilisateurs IdP existantes pour gérer l’accès à CDF et les données stockées dans CDF.
Les outils et fonctionnalités de CDF vous permettent d’orchestrer et de surveiller la gouvernance des données, de mettre en place un accès sécurisé aux données, de suivre la traçabilité des données et de garantir l’intégrité des données.
Étape 2 : Intégration de données
Une fois la gouvernance des données mise en place, les intégrateurs système peuvent commencer à travailler sur l’intégration des données à CDF à partir de vos sources de données IT (technologie de l’information) et OT (technologie opérationnelle). Il peut s’agir de systèmes de commande industriels fournissant des données de capteurs, de systèmes d’ERP ou même de très grands modèles de CAO 3D dans des systèmes d’ingénierie.
Extraction de données
Avec un accès en lecture aux sources de données, vous pouvez configurer l’intégration du système pour diffuser des données en continu vers la zone de transit CDF, où les données peuvent être normalisées et enrichies. Nous prenons en charge des protocoles et interfaces standard, tels que PostgreSQL et OPC-UA, pour faciliter l’intégration des données à vos outils d’ETL et solutions d’entreposage de données existants.
Nous avons également des outils d’extraction conçus sur mesure pour des systèmes spécifiques à certains secteurs et des outils d’ETL standard pour les données tabulaires plus traditionnelles dans les bases de données compatibles SQL. Cette approche permet de réduire autant que possible la logique dans les outils d’extraction, et de réaliser plusieurs fois des transformations sur les données sur le cloud.
Transformation des données
Dans la zone de transit de CDF, les données sont stockées sous leur format d’origine. Cette approche permet de réaliser plusieurs fois des transformations sur les données sur le cloud, et de les remodeler afin de les adapter au modèle de données de CDF. Nous reviendrons sur le modèle de données dans une unité ultérieure.
Le découplage des étapes d’extraction et de transformation facilite le maintien des pipelines d’intégration et la réduction de la charge sur les systèmes source. Nous recommandons d’utiliser vos outils existants pour transformer les données, mais nous proposons également l’outil CDF Transformation pour des tâches de transformation limitées.
Amélioration des données
Les outils de contextualisation automatique et interactive dans CDF permettent d’associer l’apprentissage machine, un puissant moteur de règles et la connaissance du domaine afin de mapper entre elles des ressources de différents systèmes source dans le modèle de données CDF. Commencez par contextualiser vos données avec l’apprentissage machine et des moteurs de règles. Puis laissez les experts du domaine valider et affiner les résultats.
Étape 3 : Création de solutions
Grâce aux données complètes et contextualisées, vous pouvez par exemple créer des applications là où vous pouvez cliquer sur un composant dans un modèle 3D afin d’afficher toutes les données des séries temporelles correspondantes ou de demander tous les relevés de pression le long d’une conduite.
Toutes les informations stockées dans CDF sont disponibles depuis une API moderne basée sur REST. En plus d’une API bien documentée, Cognite fournit des connecteurs et des SDK pour de nombreux langages de programmation et outils d’analyse courants, tels que Python, JavaScript, Spark, OData (Excel Power BI) et Grafana. Nous proposons aussi des SDK communautaires pour Scala et .Net.
Pour créer des applications à partir des données dans CDF, vous devez utiliser un modèle de données bien défini pour formuler des suppositions quant à la structure des données.