Gegevens integreren

Als u uw gegevens in ~~Cognite Data Fusion~~ (~~CDF~~) wilt analyseren en contextualiseren, moet u efficiënte pijplijnen voor gegevensintegratie tot stand brengen tussen uw bestaande gegevensinfrastructuur en het ~~CDF~~-gegevensmodel.

Een pijplijn voor gegevensintegratie in ~~CDF~~ bevat doorgaans stappen om gegevens te extraheren, te transformeren en te contextualiseren. In dit gedeelte gaan we dieper in op elk van deze stappen.

Als u gegevens wilt integreren in het ~~CDF~~-gegevensmodel, kunt u standaardprotocollen en -interfaces gebruiken, zoals ~~PostgreSQL~~ en ~~OPC-UA~~, of gebruikmaken van de extractie- en transformatietools van ~~Cognite~~ of van derden^. De tools zijn essentieel voor uw gegevensbewerkingen en we raden u aan een modulair ontwerp te gebruiken voor uw pijplijnen voor gegevensintegratie, zodat u ze zo goed mogelijk kunt onderhouden.

Gegevens extraheren

De extractietools maken verbinding met de bronsystemen en pushen gegevens in de oorspronkelijke indeling naar het faseringsgebied. Gegevensextractors werken in verschillende modi. Ze kunnen gegevens streamen of gegevens in batches extraheren naar het faseringsgebied. Ze kunnen gegevens ook rechtstreeks extraheren naar het ~~CDF~~-gegevensmodel, met weinig of geen gegevenstransformatie.

Met leestoegang tot de gegevensbronnen kunt u instellen dat de systeemintegratie gegevens naar het ~~CDF~~-faseringsgebied (~~RAW~~) streamt, waar de gegevens kunnen worden genormaliseerd en verrijkt. We ondersteunen standaardprotocollen en -interfaces zoals ~~PostgreSQL~~ en ~~OPC-UA~~ om gegevensintegratie met uw bestaande ETL-tools en datawarehouses te vergemakkelijken.

We hebben ook extractors die op maat zijn gemaakt voor branchespecifieke systemen en standaard kant-en-klare ETL-tools voor meer traditionele tabelgegevens in SQL-compatibele databases.

We onderscheiden twee hoofdtypen bronsystemen:

OT-bronsystemen: bijvoorbeeld industriële besturingssystemen met tijdreeksgegevens. Het ophalen van OT-gegevens voor CDF kan tijdkritisch zijn (enkele seconden) en de gegevens moeten vaak continu worden geëxtraheerd.
IT-bronsystemen: bijvoorbeeld ERP-systemen, bestandsservers, databases en technische systemen (3D CAD-modellen). IT-gegevens veranderen doorgaans minder vaak (minuten of uren) dan OT-gegevens en kunnen vaak in batchtaken worden geëxtraheerd.

Alternatieven voor faseringsgebieden

Gegevens stromen van de extractors naar de ~~CDF~~-invoer-API. Vanaf hieraf gebeurt alles in de cloud. De eerste stop is het ~~CDF~~-faseringsgebied (~~RAW~~), waar tabelgegevens worden opgeslagen in de oorspronkelijke indeling. Met deze aanpak kunt u de logica in de extractors minimaliseren en transformaties (blijven) uitvoeren voor de gegevens in de cloud.

Als u uw gegevens al hebt gestreamd naar en opgeslagen in de cloud, bijvoorbeeld in een gegevenswarehouse, kunt u de gegevens van daaruit integreren in het ~~CDF~~-faseringsgebied en de gegevens transformeren met de tools van ~~Cognite's~~. U kunt de gegevens ook transformeren in uw cloud en het ~~CDF~~-faseringsgebied overslaan om de gegevens rechtstreeks te integreren in het ~~CDF~~-gegevensmodel.

Gegevens transformeren

In de transformatiestap worden de gegevens gevormd en verplaatst van het faseringsgebied naar het ~~CDF~~-gegevensmodel. Dit is de stap waar doorgaans de meeste logica voor gegevensverwerking wordt gehost.

Gegevenstransformatie omvat meestal een of meer van de volgende stappen:

De vorm van de gegevens aanpassen aan het ~~CDF~~-gegevensmodel. Lees bijvoorbeeld een gegevensobject uit ~~CDF RAW~~ en transformeer dit tot een gebeurtenis.
De gegevens verrijken met meer informatie. Voeg bijvoorbeeld gegevens uit andere bronnen toe.
De gegevens koppelen aan andere gegevensobjecten in uw verzameling.
De kwaliteit van de gegevens analyseren. Controleer bijvoorbeeld of alle vereiste informatie aanwezig is in het gegevensobject.

We raden aan om de gegevens te transformeren met uw bestaande ETL-tools (Extract, Transform, Load), maar we bieden ook de ~~CDF Transformation~~-tool aan als alternatief voor minder omvangrijke transformatietaken. Met ~~CDF Transformations~~ kunt u ~~Spark~~ SQL-query's gebruiken om gegevens te transformeren vanuit uw browser.

Ongeacht de tool die u gebruikt: u transformeert gegevens van de ~~CDF's RAW~~-opslag, of een equivalent faseringssysteem, naar het ~~Cognite~~-gegevensmodel, waar u de gegevens verder kunt verrijken met meer relaties voor diepgaande analyse en realtime-inzicht.

Gegevens verbeteren

Een uiterst belangrijk onderdeel van uw pijplijnen voor gegevensintegratie is contextualisatie. Dit proces combineert machine learning, een krachtige engine voor regels en domeinkennis om resources van verschillende bronsystemen aan elkaar te koppelen in het ~~CDF~~-gegevensmodel.

Bij de eerste stap van contextualisatie wordt ervoor gezorgd dat elke unieke entiteit dezelfde id deelt in ~~CDF~~, zelfs als hiervoor verschillende id's bestaan in de bronsystemen. Deze stap wordt meestal uitgevoerd tijdens de transformatiefase wanneer u binnenkomende gegevens vormgeeft en koppelt en vergelijkt met bestaande bronnen in uw verzameling.

De volgende stap in het contextualisatieproces is om entiteiten aan elkaar te koppelen op dezelfde manier als in de fysieke wereld. Een object in een 3D-model kan bijvoorbeeld een id hebben die u kunt koppelen aan een asset, en een tijdreeks van een controlesysteem voor een instrument kan een andere id hebben die u aan dezelfde asset kunt koppelen.

Met de interactieve tools voor contextualisatie in ~~CDF~~ kunt u machine learning, een krachtige engine voor regels en domeinexpertise combineren om resources van verschillende bronsystemen aan elkaar te koppelen in het ~~CDF~~-gegevensmodel.

U kunt bijvoorbeeld interactieve technische diagrammen bouwen op basis van statische PDF-bronbestanden en entiteiten koppelen om al uw pijplijnen voor contextualisatie te configureren, te automatiseren en te valideren vanuit de browser, zonder code te hoeven schrijven.

De resulterende verfijnde gegevens en afgeleide inzichten vormen de basis voor het opschalen van uw ~~CDF~~-implementatie en -oplossingen in uw hele organisatie naarmate u dieper inzicht in uw gegevens ontwikkelt.

Gegevens extraheren​

Alternatieven voor faseringsgebieden​

Gegevens transformeren​

Gegevens verbeteren​

Meer informatie​

Gegevens extraheren

Alternatieven voor faseringsgebieden

Gegevens transformeren

Gegevens verbeteren

Meer informatie