Vai al contenuto principale

integrazione dei dati

Per analizzare e contestualizzare i dati in Cognite Data Fusion (CDF), è necessario definire pipeline di integrazione dei dati efficienti tra l'infrastruttura dati esistente e il modello dati di CDF.

In CDF, una pipeline di integrazione dei dati include in genere passaggi per estrarre, trasformare e contestualizzare i dati. In questa unità analizzeremo nel dettaglio ognuno di questi passaggi.

Per integrare i dati nel modello dati di CDF, è possibile utilizzare le interfacce e i protocolli standard come PostgreSQL e OPC-UA nonché strumenti di trasformazione ed estrattori di Cognite o terze parti. Gli strumenti sono essenziali per le operazioni sui dati, pertanto è consigliabile utilizzare un design modulare per le pipeline di integrazione dei dati per renderle il più gestibili possibile.

Estrazione dei dati

Gli strumenti di estrazione si connettono ai sistemi di origine ed eseguono il pushdown dei dati nel formato originale nell'area di gestione temporanea. Gli strumenti di estrazione dei dati possono funzionare in modalità diverse. Possono eseguire lo streaming dei dati o estrarli in batch nell'area di gestione temporanea. Possono anche estrarre i dati direttamente nel modello dati di CDF con o senza trasformazione dei dati.

Con l'accesso in lettura alle origini dati, è possibile impostare l'integrazione di sistemi per eseguire lo streaming dei dati nell'area di gestione temporanea di CDF (RAW), dove i dati possono essere normalizzati e arricchiti. Supportiamo interfacce e protocolli standard come PostgreSQL e OPC-UA per agevolare l'integrazione dei dati con gli strumenti ETL esistenti e le soluzioni di data warehouse.

Disponiamo anche di estrattori personalizzati per sistemi specifici del settore e di strumenti ETL standard pronti all'uso per dati in formato tabulare più tradizionali in database compatibili con SQL.

Estrazione

Dividiamo i sistemi di origine in due tipi principali:

  • Sistemi di origine OT: ad esempio sistemi di controllo industriali con dati delle serie temporali. Il fattore tempo può essere fondamentale per l’inserimento dei dati OT in CDF (alcuni secondi) e i dati devono spesso essere estratti con continuità.

  • Sistemi di origine IT: ad esempio sistemi ERP, file server, database e sistemi tecnici (modelli CAD 3D). In genere, i dati IT cambiano con minore frequenza (minuti o ore) rispetto ai dati OT e spesso possono essere estratti in processi batch.

Alternative all'area di gestione temporanea

I dati vengono trasmessi in flussi dagli estrattori all'API di inserimento di CDF. Da qui in poi, tutto risiede nel cloud. La prima tappa è l'area di gestione temporanea di CDF (RAW), dove i dati tabulari sono archiviati nel formato originale. Questo approccio consente di ridurre al minimo la logica negli estrattori e di eseguire e rieseguire trasformazioni sui dati nel cloud.

Se sono già stati impostati lo streaming e l’archiviazione dei dati nel cloud, ad esempio in un data warehouse, è possibile integrare questi ultimi nell'area di gestione temporanea di CDF e trasformarli con gli strumenti di Cognite's. In alternativa, è possibile trasformare i dati nel cloud e bypassare l'area di gestione temporanea di CDF per integrare i dati direttamente nel modello dati di CDF.

Trasformazione dei dati

Il passaggio di trasformazione modella i dati e li sposta dall'area di gestione temporanea al modello dati di CDF. Si tratta del passaggio in cui risiede in genere la maggior parte della logica di elaborazione dei dati.

La trasformazione dei dati include di solito uno o più di questi passaggi:

  • Rimodellare i dati per adattarli al modello dati di CDF. Ad esempio, leggere un oggetto dati da CDF RAW e modellarlo in un evento.
  • Arricchire i dati con maggiori informazioni. Ad esempio, aggiungere dati da altre origini.
  • Abbinare i dati ad altri oggetti dati della raccolta.
  • Analizzare la qualità dei dati. Ad esempio, verificare se tutte le informazioni necessarie sono presenti nell'oggetto dati.

È consigliabile utilizzare gli strumenti ETL (Extract, Transform, Load) esistenti per trasformare i dati, anche se è disponibile lo strumento CDF Transformation come alternativa per processi di trasformazione poco voluminosi. Con CDF Transformations, è possibile utilizzare le query SQL Spark per trasformare i dati dall'interno del browser.

Transformations

Indipendentemente dallo strumento utilizzato, si trasformeranno i dati dallo spazio di archiviazione CDF's RAW o da un sistema di gestione temporanea equivalente inserendoli nel modello dati di Cognite, dove è possibile arricchirli ulteriormente con altre relazioni, per ottenere analisi approfondite e informazioni in tempo reale.

Arricchimento dei dati

Un aspetto importante delle pipeline di integrazione dei dati è la contestualizzazione. Questo processo combina il machine learning, la conoscenza del dominio e un potente motore di regole per mappare risorse da sistemi di origine diversi nel modello dati di CDF.

La prima parte della contestualizzazione deve garantire che ogni entità univoca abbia lo stesso identificatore in CDF, anche se ha ID diversi nei sistemi di origine. Questo passaggio viene eseguito per lo più durante la fase di trasformazione quando si modellano e abbinano i dati in entrata e li si confrontano con risorse esistenti nella raccolta.

Il passaggio successivo del processo di contestualizzazione consiste nell'associare le entità tra loro nello stesso modo in cui sono correlate nel mondo reale. Ad esempio, un oggetto all'interno di un modello 3D potrebbe avere un ID mappabile a un asset e una serie temporale di un sistema di monitoraggio strumento può avere un altro ID assegnabile allo stesso asset.

Gli strumenti di contestualizzazione interattivi di CDF consentono di combinare il machine learning, la conoscenza del dominio e un potente motore di regole per mappare tra loro risorse provenienti da sistemi di origine diversi nel modello dati di CDF.

Ad esempio, è possibile creare diagrammi tecnici interattivi da file di origine PDF statici e abbinare entità per impostare, automatizzare e convalidare tutte le pipeline di contestualizzazione dal browser, senza dover scrivere codice.

Contesto del P&ID

I dati ridefiniti risultanti e le informazioni dettagliate dedotte sono le basi per scalare le soluzioni e l'implementazione di CDF nell'organizzazione man mano che si sviluppa una conoscenza più approfondita dei dati.

Ulteriori informazioni