データを統合する
Cognite Data Fusion(CDF)でデータを分析し、コンテキスト化するためには、既存のデータインフラストラクチャと CDF データモデルの間で効率的なデータ統合パイプラインを確立する必要があります。
CDF では、データ統合パイプラインには通常、データを抽出、変換、コンテキスト化するステップが含まれます。このユニットでは、これらの各ステップを詳しく見ていきます。
CDF データ モデルにデータを統合するには、PostgreSQL や OPC-UA のような標準の プロトコルやインターフェイス、Cognite やサードパーティの抽出・変換ツールを使うことができます。ツールはデータ運用に不可欠なものであり、データ統合パイプラインをできるだけ保守しやすくするために、モジュール式設計にすることをお勧めします。
データを抽出する
抽出ツールはソースシステムに接続し、オリジナルフォーマットのデータをステージング領域にプッシュします。データ抽出ツールはさまざまなモードで動作します。データをストリーミングしたり、ステージング領域にバッチでデータを抽出したりできます。また、データをほとんどまたはまったく変換せずに、CDF データ モデルに直接抽出することもできます。
データ ソースへの読み取りアクセス権があれば、CDF ステージング領域(RAW)にデータをストリーミングするようにシステム統合を設定できます。そこでデータを正規化し、強化することができます。既存の ETL ツールやデータ ウェアハウス ソリューションとのデータ統合を容易にするため、PostgreSQL や OPC-UA のような標準のプロトコルやインターフェイスをサポートしています。
また、業界固有のシステム用にカスタム構築された抽出ツールや、SQL 互換データベース内の従来の表形式データ用の標準的な既製の ETL ツールも用意しています。
ソースシステムは大きく 2 つのタイプに分かれます。
-
OT ソースシステム - たとえば、時系列データを持つ産業制御システム。OT データを CDF に取り込む処理はタイムクリティカルで(数秒)、データは多くの場合、連続的に抽出される必要があります。
-
IT ソースシステム - ERP システム、ファイルサーバー、データベース、エンジニアリングシステム(3D CAD モデル)など。IT データは通常、OT データよりも変更頻度が低く(数分または数時間)、バッチジョブで抽出できることがよくあります。
ステージング領域の選択肢
データは抽出ツールから CDF 取り込み API に流れます。これからは、すべてがクラウドに置かれます。最初は CDF ステージング領域(RAW)です。ここには、表形式のデータがオリジナルのフォーマットで保存されています。このアプローチでは、抽出ツール内のロジックを最小限に抑え、クラウド上のデータに対して変換を実行し、再実行することができます。
クラウド(たとえばデータ ウェアハウス)にデータをストリーミングして保存している場合、そこから CDF ステージング領域にデータを統合し、Cognite's のツールでデータを変換することができます。あるいは、クラウド内でデータを変換し、CDF ステージング 領域をバイパスして、データを直接 CDF データ モデルに統合することもできます。
データを変換する
変換ステップでは、データを形成し、ステージング領域から CDF データ モデルに移動します。これは通常、データ処理ロジックのほとんどをホストするステップです。
データ変換は通常、これらのステップを 1 つ以上含みます。
CDFデータ モデルに合うようにデータを再形成します。たとえば、CDF RAWからデータ オブジェクトを読み取り、それをイベントに変換します。- 情報を増やしてデータを強化します。たとえば、他のソースからデータを追加します。
- データをコレクション内の他のデータオブジェクトと一致させます。
- データの質を分析します。たとえば、必要な情報がすべてデータオブジェクトに存在するかどうかをチェックします。
データ変換には既存の抽出、変換、ロード(ETL)ツールを使用することをお勧めしますが、軽量の変換ジョブ用の代替ツールとして CDF Transformation ツールも提供しています。CDF Transformations を使うと、Spark SQL クエリを使ってブラウザからデータを変換できます。
使用するツールにかかわらず、CDF's RAW ストレージまたは同等のステージングシステムから Cognite データ モデルにデータを変換することになります。そこで、より詳細な分析とリアルタイムの洞察を行うために、より多くの関係でデータをさらに強化することができます。
データを充実させる
データ統合パイプラインで重要なのは、コンテキスト化です。このプロセスでは、機械学習、強力なルール エンジン、ドメイン知識を組み合わせて、CDF データ モデルの中で異なるソース システムからのリソースを相互にマッピングします。
コンテキスト化の最初の部分は、一意のエンティティがソース システムで異なる ID を持っていても、CDF では同じ識別子を共有するようにすることです。このステップは、入力されたデータを整形して一致させ、コレクション内の既存のリソースと比較する変換段階で、主に実行さ れます。
コンテキスト化プロセスの次のステップは、実世界の場合と同じようにエンティティ同士を関連付けることです。たとえば、3D モデル内のオブジェクトには、アセットにマッピングできる ID があるかもしれず、機器監視システムからの時系列には、同じアセットへの割り当てが可能な別の ID があるかもしれません。
CDF のインタラクティブなコンテキスト化ツールを使うと、機械学習、強力なルールエンジン、ドメインの専門知識を組み合わせて、CDF データ モデルの中で異なるソース システムのリソースを相互にマッピングすることができます 。
たとえば、静的な PDF ソースファイルからインタラクティブなエンジニアリング図を作成したり、エンティティのマッチングにより、コードを記述することなく、ブラウザからすべてのコンテキスト化のパイプラインを設定、自動化、検証することができます。
結果として得られる精緻なデータと推論された洞察は、データをより深く理解し、CDF の実装とソリューションを組織全体に拡大するための土台となります。