Governance dei dati
Prima di integrare e arricchire i dati in Cognite Data Fusion (CDF), è necessario definire e implementare i criteri di governance dei dati. La governance dei dati è un set di principi e procedure volti a garantire qualità elevata per tutto il ciclo di vita dei dati. È un aspetto fondamentale delle operazioni sui dati per ottimizzare continuamente le procedure di gestione dei dati.
È consigliabile nominare un amministratore CDF che collabori con il reparto IT per garantire la conformità di CDF alle procedure di sicurezza dell'organizzazione. Connettere CDF al provider di identità e utilizzare le identità utente IdP esistenti per gestire l'accesso a CDF e ai dati archiviati in CDF. Attualmente supportiamo Microsoft's Microsoft Entra ID.
Questa unità descrive gli strumenti e le funzionalità di CDF che è possibile utilizzare per assicurarsi che i dati siano in linea con le aspettative degli utenti e dell'organizzazione.
Gestione sicura degli accessi
Per controllare l'accesso ai dati in CDF, definire di quali autorizzazioni dispongono gli utenti o le applicazioni per lavorare con i diversi tipi di risorsa in CDF, ad esempio se sono autorizzati a leggere una serie temporale o a eliminare un asset.
Anziché assegnare autorizzazioni ai singoli utenti e applicazioni, utilizzare i gruppi in CDF per definire quali autorizzazioni assegnare ai membri (utenti o applicazioni) per lavorare su risorse CDF diverse. Collegare e sincronizzare i gruppi di CDF ai gruppi utente nel provider di identità (IdP), ad esempio Microsoft Entra ID (ME-ID).
Ad esempio, se si desidera che le applicazioni o gli utenti siano autorizzati a leggere, ma non a scrivere, i dati delle serie temporali in CDF, è innanzitutto necessario creare un gruppo nel proprio IdP per aggiungere le applicazioni e gli utenti rilevanti. A questo punto, creare un gruppo di CDF con le autorizzazioni necessarie e collegare il gruppo di CDF e il gruppo dell'IdP.
Questa flessibilità consente di gestire e aggiornare i criteri di governance dei dati in modo rapido e sicuro. È possibile continuare a gestire utenti e applicazioni nel servizio IdP dell'organizzazione all'esterno di CDF.
Integrità e derivazione dei dati
Quando ci si affida ai dati per prendere decisioni operative, è fondamentale sapere quando i dati sono affidabili e che gli utenti finali sappiano quando possono affidarsi ai dati per prendere decisioni. CDF dispone di strumenti e funzionalità che è possibile utilizzare per assicurarsi che i dati siano in linea con le aspettative degli utenti e dell'organizzazione.
Set di dati
I set di dati consentono di documentare e monitorare la derivazione dei dati, garantire l'integrità dei dati e consentire a terze parti di scrivere dati di analisi nel progetto CDF. Consigliamo di organizzare tutti i dati in CDF in set di dati per conoscere sempre la provenienza dei dati e chi ne è responsabile.
I set di dati raggruppano e monitorano i dati in base all'origine. Ad esempio, un set di dati può contenere tutti gli ordini di lavoro che hanno origine da SAP. In genere, un'organizzazione dispone di un set di dati per ogni pipeline di inserimento dati in CDF. Ogni oggetto dati in CDF può appartenere a un solo set di dati.
Un set di dati è un contenitore di oggetti dati con metadati sui dati che contiene. Ad esempio, è possibile utilizzare i metadati del set di dati per documentare chi è responsabile dei dati, caricare i file della documentazione e descrivere la derivazione dei dati. In CDF i set di dati sono un tipo di risorsa separato.
In genere, si definisce in modo programmatico nelle pipeline di inserimento dati quali oggetti dati, ad esempio eventi, file e serie temporali, appartengono a un set di dati. Gli oggetti dati possono appartenere a un solo set di dati per poter tracciare chiaramente la derivazione dei dati per ogni oggetto dati.