Daten integrieren

Um Ihre Daten in ~~Cognite Data Fusion~~ (~~CDF~~) zu analysieren und zu kontextualisieren, müssen Sie effiziente Datenintegrations-Pipelines zwischen Ihrer vorhandenen Dateninfrastruktur und dem ~~CDF~~-Datenmodell aufbauen.

In ~~CDF~~ enthält eine Datenintegrations-Pipeline in der Regel Schritte zum Extrahieren, Transformieren und Kontextualisieren von Daten. In dieser Einheit werden diese Schritte im Einzelnen vorgestellt.

Für die Integration von Daten in das ~~CDF~~-Datenmodell können Sie Standardprotokolle und -schnittstellen wie ~~PostgreSQL~~ und ~~OPC-UA~~ sowie Extraktions- und Transformationstools von ~~Cognite~~ oder Drittanbietern verwenden. Die Tools sind von entscheidender Bedeutung für Ihre Datenvorgänge. Wir empfehlen, ein modulares Design für Ihre Datenintegrations-Pipelines zu verwenden, um ihre Verwaltung so weit wie möglich zu vereinfachen.

Daten extrahieren

Die Extraktionstools werden mit den Quellsystemen verbunden und übertragen Daten in ihrem ursprünglichen Format an den Bereitstellungsbereich. Datenextraktoren können in verschiedenen Modi ausgeführt werden. Sie können Daten streamen oder in Batches in den Bereitstellungsbereich extrahieren. Außerdem können sie Daten mit nur wenig oder gar keiner Datentransformation direkt in das ~~CDF~~-Datenmodell extrahieren.

Mit Lesezugriff auf die Datenquellen können Sie die Systemintegration so einrichten, dass Daten in den ~~CDF~~-Bereitstellungsbereich (~~RAW~~) gestreamt werden. Dort können Daten normalisiert und angereichert werden. Wir unterstützen Standardprotokolle und -schnittstellen wie ~~PostgreSQL~~ und ~~OPC-UA~~, um die Datenintegration mit Ihren vorhandenen ETL-Tools und Data-Warehouse-Lösungen zu erleichtern.

Wir bieten zudem speziell angefertigte Extraktoren für branchenspezifische Systeme und gebrauchsfertige Standard-ETL-Tools für herkömmliche tabellarische Daten in SQL-kompatiblen Datenbanken.

Wir unterscheiden bei Quellsystemen zwischen zwei Haupttypen:

OT-Quellsysteme: Zum Beispiel industrielle Kontrollsysteme mit Zeitreihendaten. Die Übertragung von OT-Daten an CDF kann zeitkritisch sein (wenige Sekunden), und oft müssen die Daten kontinuierlich extrahiert werden.
IT-Quellsysteme: Zum Beispiel ERP-Systeme, Dateiserver, Datenbanken und Engineering-Systeme (3D-CAD-Modelle). IT-Daten ändern sich in der Regel weniger häufig (Minuten oder Stunden) als OT-Daten und können oft in Batch-Jobs extrahiert werden.

Alternativen für Bereitstellungsbereich

Daten fließen von Extraktoren in die ~~CDF~~-Aufnahme-API. Ab diesem Punkt sind sie in der Cloud gespeichert. Die erste Anlaufstelle ist der ~~CDF~~-Bereitstellungsbereich (~~RAW~~). Dort werden tabellarische Daten in ihrem ursprünglichen Format gespeichert. Mit diesem Ansatz können Sie die Logik in Extraktoren minimieren und Datentransformationen in der Cloud ausführen und wiederholen.

Wenn Sie Ihre Daten bereits in die Cloud streamen und dort speichern, beispielsweise in einem Data Warehouse, können Sie die Daten von dort in den ~~CDF~~-Bereitstellungsbereich integrieren und mit ~~Cognite's~~ Tools transformieren. Alternativ dazu können Sie die Daten in Ihrer Cloud transformieren und den ~~CDF~~-Bereitstellungsbereich umgehen, um die Daten direkt in das ~~CDF~~-Datenmodell zu integrieren.

Daten transformieren

Der Transformationsschritt formatiert die Daten und verschiebt sie aus dem Bereitstellungsbereich in das ~~CDF~~-Datenmodell. Dieser Schritt umfasst in der Regel die meiste Datenverarbeitungslogik.

Die Datentransformation beinhaltet normalerweise mindestens einen der folgenden Schritte:

Daten für das ~~CDF~~-Datenmodell umformatieren. beispielsweise Datenobjekte aus ~~CDF RAW~~ lesen und als Ereignis formatieren.
Daten mit weiteren Informationen anreichern, z. B. Daten aus anderen Quellen hinzufügen.
Daten mit anderen Datenobjekten in Ihrer Sammlung abgleichen.
Qualität der Daten analysieren, beispielsweise prüfen, ob alle erforderlichen Informationen im Datenobjekt vorhanden sind.

Wir empfehlen, die Daten mit Ihren vorhandenen Tools zum Extrahieren, Transformieren und Laden (ETL) zu transformieren. Sie können aber auch unser ~~CDF Transformation~~-Tool als Alternative für einfache Transformationsjobs verwenden. Mit ~~CDF Transformations~~ können Sie ~~Spark~~-SQL-Abfragen nutzen, um Daten in Ihrem Browser zu transformieren.

Unabhängig vom verwendeten Tool transformieren Sie Daten aus dem ~~CDF's RAW~~-Speicher oder einem gleichwertigen Bereitstellungssystem in das ~~Cognite~~-Datenmodell. Dort können Sie die Daten mit weiteren Beziehungen anreichern, um umfassende Analysen und Echtzeiteinblicke zu erhalten.

Daten erweitern

Ein entscheidender Bestandteil Ihrer Datenintegrations-Pipelines ist die Kontextualisierung. Dieser Prozess kombiniert maschinelles Lernen, eine leistungsstarke Regel-Engine und Fachkenntnisse, um Ressourcen aus unterschiedlichen Quellsystemen im ~~CDF~~-Datenmodell einander zuzuordnen.

Im ersten Schritt der Kontextualisierung müssen Sie sicherstellen, dass jede eindeutige Einheit dieselbe ID in ~~CDF~~ aufweist, selbst wenn sie in den Quellsystemen andere IDs hat. Dieser Schritt wird meist während der Transformationsphase ausgeführt, wenn Sie eingehende Daten formatieren und abgleichen und mit vorhandenen Ressourcen in Ihrer Sammlung vergleichen.

Im nächsten Schritt des Kontextualisierungsprozesses verknüpfen Sie Einheiten so miteinander, wie sie in der realen Welt zueinander in Verbindung stehen. Ein Objekt in einem 3D-Modell kann beispielsweise eine ID aufweisen, die Sie einem Anlagenteil zuordnen können, während eine Zeitreihe aus einem System zur Instrumentenüberwachung eine andere ID haben kann, die Sie demselben Anlagenteil zuweisen können.

Dank der interaktiven Kontextualisierungstools in ~~CDF~~ kombinieren Sie maschinelles Lernen, eine leistungsstarke Regel-Engine und Fachkenntnisse, um Ressourcen aus unterschiedlichen Quellsystemen im ~~CDF~~-Datenmodell einander zuzuordnen.

Beispielsweise können Sie interaktive Konstruktionszeichnungen aus statischen PDF-Quelldateien erstellen und Einheiten zuordnen, um alle Kontextualisierungs-Pipelines mit Ihrem Browser einzurichten, zu automatisieren und zu validieren, ohne dass Sie Code schreiben müssen.

Die resultierenden verfeinerten Daten und abgeleiteten Erkenntnisse bilden die Grundlage für die Skalierung Ihrer ~~CDF~~-Implementierung und -Lösungen für Ihre Organisation, während Sie Ihr Verständnis Ihrer Daten vertiefen.

Daten extrahieren​

Alternativen für Bereitstellungsbereich​

Daten transformieren​

Daten erweitern​

Weitere Informationen​

Daten extrahieren

Alternativen für Bereitstellungsbereich

Daten transformieren

Daten erweitern

Weitere Informationen