Vai al contenuto principale

Governance dei dati

Prima di integrare e arricchire i dati in Cognite Data Fusion (CDF), è necessario definire e implementare i criteri di governance dei dati. La governance dei dati è un set di principi e procedure volti a garantire qualità elevata per tutto il ciclo di vita dei dati. È un aspetto fondamentale delle operazioni sui dati per ottimizzare continuamente le procedure di gestione dei dati.

È consigliabile nominare un amministratore CDF che collabori con il reparto IT per garantire la conformità di CDF alle procedure di sicurezza dell'organizzazione. Connettere CDF al provider di identità e utilizzare le identità utente IdP esistenti per gestire l'accesso a CDF e ai dati archiviati in CDF. Attualmente supportiamo Microsoft's Microsoft Entra ID (formerly Azure Active Directory.

Questa unità descrive gli strumenti e le funzionalità di CDF che è possibile utilizzare per assicurarsi che i dati siano in linea con le aspettative degli utenti e dell'organizzazione.

Gestione sicura degli accessi

Per controllare l'accesso ai dati in CDF, è necessario definire di quali autorizzazioni devono disporre utenti o applicazioni per utilizzare diversi tipi di risorse in CDF, ad esempio se sono autorizzati a leggere una serie temporale o a eliminare un asset.

Gruppi

Anziché assegnare autorizzazioni a utenti e applicazioni singolarmente, utilizzare i gruppi in CDF per definire quali autorizzazioni assegnare ai membri (utenti o applicazioni) per lavorare su risorse CDF diverse. Collegare e sincronizzare i gruppi di CDF ai gruppi utente nel provider di identità (IdP), ad esempio Microsoft Entra ID (ME-ID).

Ad esempio, se si desidera che le applicazioni o gli utenti siano autorizzati a leggere, ma non a scrivere, i dati delle serie temporali in CDF, è innanzitutto necessario creare un gruppo nel proprio IdP per aggiungere le applicazioni e gli utenti rilevanti. A questo punto, creare un gruppo di CDF con le autorizzazioni necessarie e collegare il gruppo di CDF e il gruppo dell'IdP.

Questa flessibilità consente di gestire e aggiornare i criteri di governance dei dati in modo rapido e sicuro. È possibile continuare a gestire utenti e applicazioni nel servizio IdP dell'organizzazione all'esterno di CDF.

Integrità dei dati e data lineage

Quando ci si affida ai dati per prendere decisioni operative, è fondamentale sapere quando e in che misura questi sono affidabili. CDF dispone di strumenti e funzionalità che è possibile utilizzare per assicurarsi che i dati siano in linea con le aspettative degli utenti e dell'organizzazione.

Set di dati

I set di dati consentono di documentare e monitorare il data lineage, garantire l'integrità dei dati e consentire a terze parti di inserire le proprie analisi nel progetto CDF. Consigliamo di organizzare tutti i dati in CDF in set di dati per conoscere sempre la provenienza dei dati e chi ne è responsabile.

I set di dati raggruppano e monitorano i dati in base all'origine. Ad esempio, un set di dati può contenere tutti gli ordini di lavoro che hanno origine da SAP. In genere, un'organizzazione dispone di un set di dati per ogni pipeline di inserimento dati in CDF. Ogni oggetto dati in CDF può appartenere a un solo set di dati.

Un set di dati è un contenitore di oggetti dati con metadati sui dati che contiene. Ad esempio, è possibile utilizzare i metadati del set di dati per documentare chi è responsabile dei dati, caricare i file della documentazione e descrivere il data lineage. In CDF i set di dati sono un tipo di risorsa distinto.

Set di dati

In genere, si definisce in modo programmatico nelle pipeline di inserimento dati quali oggetti dati (ad esempio eventi, file e serie temporali) appartengono a un set di dati. Gli oggetti dati possono appartenere a un solo set di dati per poter tracciare chiaramente il data lineage per ogni oggetto dati.

Ulteriori informazioni