Passaggi di architettura e implementazione
Questa unità offre una panoramica generale di Cognite Data Fusion (CDF) e dell'architettura di CDF. Presenta anche i passaggi chiave per implementare CDF.
Utilizzare la piattaforma CDF per la contestualizzazione e le operazioni sui dati:
-
La contestualizzazione è un processo che combina la tecnologia machine learning, un potente motore di regole e una conoscenza del dominio per abbinare tra loro le risorse provenienti da sistemi di origine diversi nel modello dati di
CDF.Iniziare a contestualizzare i dati con i motori di regole e la tecnologia machine learning. A questo punto, gli esperti potranno convalidare e perfezionare i risultati. I dati ridefiniti risultanti e le informazioni dettagliate dedotte sono le basi per scalare le soluzioni e l'implementazione di
CDFnell'organizzazione man mano che si sviluppa una conoscenza più approfondita dei dati.
-
Le operazioni sui dati sono un set di strumenti e procedure per gestire il ciclo di vita dei dati attraverso la collaborazione e l'automazione.
Strumenti come gli estrattori, i trasformatori, i set di dati, il monitoraggio della qualità e i modelli di machine learning consentono agli ingegneri, agli scienziati e agli analisti dei dati dell'organizzazione di collaborare per definire, automatizzare e ottimizzare continuamente le procedure di gestione dei dati e i processi decisionali.
Ulteriori informazioni sulla contestualizzazione e le operazioni sui dati verranno fornite più avanti in questo corso, ma ora passiamo all'architettura di CDF di base.
La piattaforma CDF viene eseguita nel cloud ed è caratterizzata da un design modulare, come illustrato di seguito:
Le sezioni seguenti presentano i passaggi principali necessari per implementare CDF e spiegano come si rapportano ai diversi moduli di CDF. Le unità successive forniranno ulteriori dettagli su ognuno dei passaggi.
Passaggio 1: Impostazione della governance dei dati
Quando ci si affida ai dati per prendere decisioni operative, è fondamentale sapere quando i dati sono affidabili e che gli utenti finali sappiano quando possono affidarsi ai dati per prendere decisioni.
Prima di integrare e arricchire i dati in CDF, è necessario definire e implementare i criteri di data governance. È consigliabile nominare un amministratore CDF che collabori con il reparto IT per garantire la conformità di CDF alle procedure di sicurezza dell'organizzazione. Connettere CDF al provider di identità e utilizzare le identità utente IdP esistenti per gestire l'accesso a CDF e ai dati archiviati in CDF.
Con gli strumenti e le funzionalità di CDF è possibile impostare e monitorare la governance dei dati, stabilire l'accesso ai dati sicuro, tenere traccia della derivazione dei dati e garantire l'integrità dei dati.
Passaggio 2: Integrazione dei dati
Con la governance dei dati, gli integratori di sistemi possono iniziare a integrare i dati in CDF dalle origini dati IT (Information Technology) e OT (Operational Technology). Questi sistemi spaziano dai sistemi di controllo industriali che forniscono i dati dei sensori fino ai voluminosi modelli CAD 3D nei sistemi di ingegneria, passando per i sistemi ERP.
Estrazione dei dati
Con l'accesso in lettura alle origini dati, è possibile impostare l'integrazione di sistemi per eseguire lo streaming dei dati nell'area di gestione temporanea di CDF dove i dati possono essere normalizzati e arricchiti. Supportiamo interfacce e protocolli standard come PostgreSQL e OPC-UA per agevolare l'integrazione dei dati con strumenti ETL esistenti e soluzioni di data warehouse.
Disponiamo anche di estrattori personalizzati per sistemi specifici del settore e di strumenti ETL standard pronti all'uso per dati in formato tabulare più tradizionali in database compatibili con SQL. Questo approccio consente di ridurre al minimo la logica negli estrattori e di eseguire e rieseguire trasformazioni sui dati nel cloud.
Trasformazione dei dati
Nell'area di gestione temporanea di CDF i dati vengono archiviati nel formato originale. Questo approccio consente di eseguire e rieseguire trasformazioni sui dati nel cloud e di rimodellarli in base al modello dati di CDF. Torneremo al modello dati in un'unità successiva.
Separando i passaggi di estrazione e trasformazione si semplifica la gestione delle pipeline di integrazione e si riduce il carico sui sistemi di origine. È consigliabile utilizzare gli strumenti ETL esistenti per trasformare i dati, anche se è disponibile lo strumento Trasformazione di CDF come alternativa per processi di trasformazione meno voluminosi.
Arricchimento dei dati
Gli strumenti di contestualizzazione automatici e interattivi disponibili in CDF consentono di combinare la tecnologia machine learning, un potente motore di regole e la conoscenza del dominio per abbinare le risorse da sistemi di origine diversi tra loro nel modello dati di CDF. Iniziare a contestualizzare i dati con i motori di regole e la tecnologia machine learning. A questo punto, gli esperti potranno convalidare e perfezionare i risultati.
Passaggio 3: Creazione di soluzioni
Con dati completi e contestualizzati, è possibile creare applicazioni in cui, ad esempio, fare clic su un componente in un modello 3D per visualizzare i dati delle serie temporali corrispondenti o richiedere tutte le letture di pressione lungo una linea di flusso.
Tutte le informazioni archiviate in CDF sono disponibili tramite un'API basata su REST moderna. Oltre a un'API documentata correttamente, Cognite fornisce connettori e SDK per moltri strumenti di analisi e linguaggi di programmazione comuni quali Python, JavaScript, Spark, OData (Excel Power BI) e Grafana. Offriamo inoltre community SDK per Scala e .Net.
Per creare applicazioni sui dati in CDF, basarsi su un modello dati ben definito per avanzare ipotesi sulla struttura dei dati.