アーキテクチャと実装のステップ
このユニットでは、Cognite Data Fusion(CDF)と CDF アーキテクチャの高レベルの概要を学びます。また、CDF を実装するための重要なステップについても紹介します。
コンテキスト化とデータ運用には、CDF プラットフォームを使用してください。
-
コンテキスト化とは、機械学習、強力なルール エンジン、ドメイン知識を組み合わせて、
CDFデータ モデルの中で異なるソース システムからのリソースを相互にマッピングするプロセ スのことです。機械学習とルールエンジンを使ってデータをコンテキスト化することから始めましょう。次に、ドメインの専門家に結果の検証と微調整をしてもらいます。結果として得られる精緻なデータと推論された洞察は、データをより深く理解し、
CDFの実装とソリューションを組織全体に拡大するための土台となります。
-
データ運用は、コラボレーションと自動化を通じてデータのライフサイクルを管理するための一連のツールとプラクティスです。
抽出ツール、変換ツール、データセット、品質モニタリング、機械学習モデルなどのツールにより、データエンジニア、データサイエンティスト、データアナリスト、その他の専門家が組織全体で協力して、データ管理と意思決定の実践を確立し、自動化し、継続的に最適化することができます。
コンテキスト化とデータ運用についてはこのコースの後半で詳しく学びますが、まずは基本的な CDF のアーキテクチャを見てください。
CDF プラットフォームはクラウドで動作し、ここに示すようにモジュール式設計になっています。
以下のセクションでは、CDF を実装するための主なステップと、それらがさまざまな CDF モジュールとどのように関連しているかを紹介します。後のユニットでは、各ステップの詳細を学びます。
ステップ 1:データ ガバナンスを設定する
業務上の意思決定をデータに依存する場合、データがいつ信頼できるかを把握することと、エンドユーザーの側では、意思決定にデータを利用できるタイミングを知ることが重要です。
CDF でデータの統合と拡張を始める前に、データ ガバナンス ポリシーを定義し、実装する必要があります。IT 部門と協力して CDF が組織のセキュリティ慣行に従うように指揮できる CDF の管理者を任命することをお勧めします。また、CDF を IdP(ID プロバイダー)に接続し、既存の IdP ユーザー ID を使って CDF と CDF に保存されているデータへのアクセスを管理します。
CDF のツールと機能を使うことで、データ ガバナンスの調整と監視、安全なデータ アクセスの確立、データ系統の追跡、データ整合性の確保ができます。
ステップ 2:データを統合する
データ ガバナンスが整えば、システム インテグレーターは IT(情報技術)と OT(運用技術)のデータ ソースから CDF にデータを統合する作業を開始することができます。これらのシステムは、センサーデータを供給する産業制御システムから、ERP システム、エンジニアリングシステムの巨大な 3D CAD モデルまで、多岐にわたります。
データを抽出する
データ ソースへの読み取りアクセス権があれば、CDF ステージング領域にデータをストリーミングするようにシステム統合を設定できます。そこでデータを正規化し、強化することができます。既存の ETL ツールやデータ ウェアハウス ソリューションとのデータ統合を容易にするため、PostgreSQL や OPC-UA のような標準のプロトコルやインターフェイスをサポートしています。
また、業界固有のシステム用にカスタム構築された抽出ツールや、SQL 互換データベース内の従来の表形式データ用の標準的な既製の ETL ツールも用意しています。このアプローチでは、抽出ツール内のロジックを最小限に抑え、クラウド上のデータに対して変換を実行し、再実行することができます。
データを変換する
CDF ステージング領域には、データがオリジナルのフォーマットで保存されています。このアプローチでは、クラウド上のデータに対して変換を実行・再実行し、CDF データ モデルに合うように形を変えることができます。データモデルについては、後のユニットで触れることにします。