Governança de dados
Antes de começar a integrar e aprimorar dados no Cognite Data Fusion (CDF), você precisa definir e implementar suas políticas de governança de dados. A governança de dados é um conjunto de princípios e práticas que garantem alta qualidade ao longo do ciclo de vida dos seus dados. Ela é uma parte fundamental das operações de dados, para otimizar suas práticas de gerenciamento de dados de forma contínua.
Recomendamos que você atribua um administrador do CDF para trabalhar com o departamento de TI e garantir que o CDF siga as práticas de segurança da sua organização. Além disso, conecte o CDF ao seu provedor de identidade (IdP) e use as identidades de usuário do IdP existentes para gerenciar o acesso ao CDF e aos dados armazenados no CDF. No momento, nossa solução é compatível com o Microsoft's Microsoft Entra ID.
Esta unidade aborda as ferramentas e funcionalidades do CDF que você pode usar para garantir que seus dados estejam de acordo com as expectativas da sua organização e dos usuários.
Gerenciamento de acesso seguro
Para controlar o acesso aos dados no CDF, defina quais competências os usuários ou aplicativos têm para trabalhar com diferentes tipos de recursos CDF (por exemplo, se eles podem ler uma série temporal ou excluir um ativo).
Em vez de atribuir competências a usuários e aplicativos individuais, use grupos no CDF para definir quais competências os membros (usuários ou aplicativos) têm para trabalhar com diferentes recursos do CDF. Você pode vincular e sincronizar os grupos do CDF aos grupos de usuários no seu provedor de identidade (IdP), como o Microsoft Entra ID (ME-ID).
Por exemplo, se quiser que usuários ou aplicativos tenham acesso de leitura, mas não de escrita de dados de séries temporais CDF, crie primeiro um grupo no seu IdP para adicionar os usuários e aplicativos pertinentes. Depois, crie um grupo do CDF com as competências necessárias. Vincule esse grupo do CDF ao do IdP.
Essa flexibilidade permite que você gerencie e atualize suas políticas de governança de dados com rapidez e segurança. Você pode continuar a gerenciar usuários e aplicativos no serviço de IdP da sua organização, fora do CDF.
Integridade e linhagem de dados
Ao depender de dados para tomar decisões operacionais, é fundamental que você saiba quando os dados são confiáveis, e que os usuários finais saibam quando podem confiar nos dados para tomar decisões. O CDF tem ferramentas e funcionalidades para garantir que seus dados estejam de acordo com as expectativas de usuários e organizações.
Conjuntos de dados
Os conjuntos de dados permitem que você documente e rastreie a linhagem dos dados, garanta a integridade deles e autorize terceiros a gravar informações de forma segura no seu projeto do CDF. Recomendamos que você organize todos os dados no CDF em conjuntos de dados, para estar sempre ciente de onde eles vêm e quem é o responsável.
Os conjuntos de dados agrupam e rastreiam os dados pela fonte. Por exemplo, um conjunto de dados pode conter todas as ordens de serviço originadas do SAP. Geralmente, uma organização terá um conjunto de dados para cada pipeline de ingestão de dados no CDF. Cada objeto de dados no CDF pode fazer parte de apenas um conjunto de dados.
Um conjunto é um contêiner para objetos de dados, com metadados sobre os dados ele contém. Por exemplo, você pode usar metadados do conjunto de dados para documentar quem é o responsável, carregar arquivos de documentação e descrever a linhagem de dados. No CDF, os conjuntos de dados são um tipo de recurso separado.
Geralmente, é definido de forma programável nos pipelines de ingestão de dados quais objetos de dados, como eventos, arquivos e séries temporais, pertencem a um conjunto de dados. Os objetos de dados podem pertencer a apenas um conjunto de dados, dessa forma você pode acompanhar a linhagem de dados para cada objeto.