アーキテクチャと実装のステップ
このユニットでは、Cognite Data Fusion(CDF)と CDF アーキテクチャの高レベルの概要を学びます。また、CDF を実装するための重要なステップについても紹介します。
コンテキスト化とデータ運用には、CDF プラットフォームを使用してください。
-
コンテキスト化とは、機械学習、強力なルール エンジン、ドメイン知識を組み合わせて 、
CDFデータ モデルの中で異なるソース システムからのリソースを相互にマッピングするプロセスのことです。機械学習とルールエンジンを使ってデータをコンテキスト化することから始めましょう。次に、ドメインの専門家に結果の検証と微調整をしてもらいます。結果として得られる精緻なデータと推論された洞察は、データをより深く理解し、
CDFの実装とソリューションを組織全体に拡大するための土台となります。
-
データ運用は、コラボレーションと自動化を通じてデータのライフサイクルを管理するための一連のツールとプラクティスです。
抽出ツール、変換ツール、データセット、品質モニタリング、機械学習モデルなどのツールにより、データエンジニア、データサイエンティスト、データアナリスト、その他の専門家が組織全体で協力して、データ管理と意思決定の実践を確立し、自動化し、継続的に最適化することができます。
コンテキスト化とデータ運用についてはこのコースの後半で詳しく学びますが、まずは基本的な CDF のアーキテクチャを見てください。
CDF プラットフォームはクラウドで動作し、ここに示すようにモジュール式設計になっています。
以下のセ クションでは、CDF を実装するための主なステップと、それらがさまざまな CDF モジュールとどのように関連しているかを紹介します。後のユニットでは、各ステップの詳細を学びます。
ステップ 1:データ ガバナンスを設定する
業務上の意思決定をデータに依存する場合、データがいつ信頼できるかを把握することと、エンドユーザーの側では、意思決定にデータを利用できるタイミングを知ることが重要です。
CDF でデータの統合と拡張を始める前に、データ ガバナンス ポリシーを定義し、実装する必要があります。IT 部門と協力して CDF が組織のセキュリティ慣行に従うように指揮できる CDF の管理者を任命することをお勧めします。また、CDF を IdP(ID プロバイダー)に接続し、既存の IdP ユーザー ID を使って CDF と CDF に保存されているデータへのアクセスを管理します。
CDF のツールと機能を使うことで、データ ガバナンスの調整と監視、安全なデータ アクセスの確立、データ系統の追跡、データ整合性の確保ができます。
ステップ 2:データを統合する
データ ガバナンスが整えば、システム インテグレーターは IT(情報技術)と OT(運用技術)のデータ ソースから CDF にデータを統合する作業を開始することができます。これらのシステムは、センサーデータを供給する産業制御システムから、ERP システム、エンジニアリングシステムの巨大な 3D CAD モデルまで、多岐にわたります。
データを抽出する
データ ソースへの読み取りアクセス権があれば、CDF ステージング領域にデータをストリーミングするようにシステム統合を設定できます。そこでデータを正規化し、強化することができます。既存の ETL ツールやデータ ウェアハウス ソリューションとのデータ統合を容易にするため、PostgreSQL や OPC-UA のような標準のプロトコルやインターフェイスをサポートしています。
また、業界固有のシステム用にカスタム構築された抽出ツールや、SQL 互換データベース内の従来の表形式データ用の標準的な既製の ETL ツールも用意しています。このアプローチでは、抽出ツール内のロジックを最小限に抑え、クラウド上のデータに対して変換を実行し、再実行することができます。
データを変換する
CDF ステージング領域には、データがオリジナルのフォーマットで保存されています。このアプローチでは、クラウド上のデータに対して変換を実行・再実行し、CDF データ モデルに合う ように形を変えることができます。データモデルについては、後のユニットで触れることにします。
抽出ステップと変換ステップを切り離すことで、統合パイプラインのメンテナンスが容易になり、ソースシステムの負荷が軽減されます。データ変換には既存の ETL ツールを使用することをお勧めしますが、軽量の変換ジョブ用の代替ツールとして CDF 変換ツールも提供しています。
データを充実させる
CDF の自動でインタラクティブなコンテキスト化ツールを使うと、機械学習、強力なルール エンジン、ドメインの専門知識を組み合わせて、CDF データ モデルの中で異なるソース システムのリソースを相互にマッピングすることができます。機械学習とルールエンジンを使ってデータをコンテキスト化することから始めましょう。次に、ドメインの専門家に結果の検証と微調整をしてもらいます。
ステップ 3:ソリューションを構築する
完全でコンテキスト化されたデータにより、たとえば、3D モデルのコンポーネントをクリックすると、対応するすべての時系列データが表示されたり、フローラインに沿ったすべての圧力測定値を要求できるようなアプリケーションを構築することができます。
CDF に保存されたすべての情報は、最新の REST ベースの API を通じて利用できます。Cognite は、十分に文書化された API に加え、Python、JavaScript、Spark、OData(Excel Power BI)、および Grafana など、多くの一般的なプログラミング言語や分析ツール用のコネクタや SDK を提供しています。また、Scala と .Net 用のコミュニティ SDK も提供しています。
CDF のデータに基づいてアプリケーションを構築するには、データの構造について仮定を立てるために、明確に定義されたデータモデルに依存します。