Vai al contenuto principale

Passaggi di architettura e implementazione

Questa unità offre una panoramica di alto livello di Cognite Data Fusion (CDF) e dell'architettura di CDF. Presenta anche i passaggi chiave per implementare CDF.

Utilizzare la piattaforma CDF per la contestualizzazione e le operazioni sui dati:

  • La contestualizzazione è un processo che combina il machine learning, la conoscenza del dominio e un potente motore di regole per abbinare tra loro risorse provenienti da sistemi di origine diversi nel modello dati di CDF.

    Si inizia dalla contestualizzazione dei dati con i motori di regole e il machine learning. Poi, si lascia che gli esperti convalidino e perfezionino i risultati. I dati ridefiniti risultanti e le informazioni dettagliate dedotte sono le basi per scalare le soluzioni e l'implementazione di CDF nell'organizzazione man mano che si sviluppa una conoscenza più approfondita dei dati.

  • Le operazioni sui dati sono un set di strumenti e procedure per gestire il ciclo di vita dei dati attraverso la collaborazione e l'automazione.

    Strumenti come gli estrattori, i trasformatori, i set di dati, il monitoraggio della qualità e i modelli di machine learning consentono agli ingegneri, ai data scientist e agli analisti dei dati dell'organizzazione di collaborare per definire, automatizzare e ottimizzare costantemente le procedure di gestione dei dati e i processi decisionali.

Ulteriori informazioni sulla contestualizzazione e le operazioni sui dati verranno fornite più avanti in questo corso, ma ora passiamo all'architettura di base di CDF.

La piattaforma CDF viene eseguita nel cloud ed è caratterizzata da un design modulare, come illustrato di seguito:

Architettura di CDF

Le sezioni seguenti presentano i passaggi principali necessari per implementare CDF, spiegando in che modo sono associati ai diversi moduli di CDF. Le unità successive forniranno ulteriori dettagli su ognuno dei passaggi.

Passaggio 1: impostazione della governance dei dati

Quando ci si affida ai dati per prendere decisioni operative, è fondamentale sapere quando questi sono affidabili ed è importante che gli utenti finali sappiano quando possono affidarsi ad essi per prendere decisioni.

Prima di integrare e arricchire i dati in CDF, è necessario definire e implementare i criteri di data governance. È consigliabile nominare un amministratore CDF che collabori con il reparto IT per garantire la conformità di CDF alle procedure di sicurezza dell'organizzazione. Connettere CDF al provider di identità e utilizzare le identità utente IdP esistenti per gestire l'accesso a CDF e ai dati archiviati in CDF.

Con gli strumenti e le funzionalità di CDF è possibile impostare e monitorare la governance dei dati, stabilire l'accesso ai dati sicuro, tenere traccia del data lineage e garantire l'integrità dei dati.

Passaggio 2: integrazione dei dati

Con la governance dei dati, gli integratori di sistemi possono iniziare a integrare i dati in CDF dalle origini dati IT (Information Technology) e OT (Operational Technology). Questi sistemi spaziano dai sistemi di controllo industriali che forniscono i dati dei sensori fino ai voluminosi modelli CAD 3D nei sistemi di ingegneria, passando per i sistemi ERP.

Estrazione dei dati

Con l'accesso in lettura alle origini dati, è possibile impostare l'integrazione dei sistemi per eseguire lo streaming dei dati nell'area di gestione temporanea di CDF dove i dati possono essere normalizzati e arricchiti. Supportiamo interfacce e protocolli standard come PostgreSQL e OPC-UA per agevolare l'integrazione dei dati con gli strumenti ETL esistenti e le soluzioni di data warehouse.

Disponiamo anche di estrattori personalizzati per sistemi specifici del settore e di strumenti ETL standard pronti all'uso per dati in formato tabulare più tradizionali in database compatibili con SQL. Questo approccio consente di ridurre al minimo la logica negli estrattori e di eseguire e rieseguire trasformazioni sui dati nel cloud.

Trasformazione dei dati

Nell'area di gestione temporanea di CDF i dati vengono archiviati nel formato originale. Questo approccio consente di eseguire e rieseguire trasformazioni sui dati nel cloud e di rimodellarli in base al modello dati di CDF. Torneremo al modello dati in un'unità successiva.

Separando i passaggi di estrazione e trasformazione si semplifica la gestione delle pipeline di integrazione e si riduce il carico sui sistemi di origine. È consigliabile utilizzare gli strumenti ETL esistenti per trasformare i dati, anche se è disponibile lo strumento CDF Transformation come alternativa per processi di trasformazione meno voluminosi.

Arricchimento dei dati

Gli strumenti di contestualizzazione automatici e interattivi disponibili in CDF consentono di combinare il machine learning, la conoscenza del dominio e un potente motore di regole per abbinare risorse provenienti da sistemi di origine diversi nel modello dati di CDF. Si inizia dalla contestualizzazione dei dati con i motori di regole e il machine learning. Poi, si lascia che gli esperti convalidino e perfezionino i risultati.

Passaggio 3: creazione di soluzioni

Con dati completi e contestualizzati, è possibile creare applicazioni in cui, ad esempio, fare clic su un componente in un modello 3D per visualizzare i dati delle serie temporali corrispondenti o richiedere tutte le letture della pressione lungo una linea di flusso.

3D

Tutte le informazioni archiviate in CDF sono disponibili tramite un'API basata su REST moderna. Oltre a un'API documentata adeguatamente, Cognite fornisce connettori e SDK per molti strumenti di analisi e linguaggi di programmazione comuni quali Python, JavaScript, Spark, OData (Excel Power BI) e Grafana. Offriamo inoltre community SDK per Scala e .Net.

Per creare applicazioni che fanno uso dei dati in CDF, è necessario disporre di un modello dati ben definito per avanzare ipotesi sulla struttura dei dati. Questo è l'argomento che tratteremo nella prossima unità, dove analizzeremo nel dettaglio il modello dati di CDF e i relativi tipi di risorse.

Ulteriori informazioni