아키텍처 및 구현 단계
이 단원에서는 Cognite Data Fusion(CDF) 및 CDF 아키텍처를 개괄적인 수준에서 살펴볼 것이며, CDF를 구현하는 주요 단계에 대해서도 알아볼 것입니다.
CDF 플랫폼은 컨텍스트화와 데이터 작업에 사용합니다.
-
컨텍스트화는 머신 러닝, 강력한 규칙 엔진 및 전문 분야 지식을 결합하여 다양한 원본 시스템의 리소스를
CDF데이터 모델에서 서로에게 매핑시키는 프로세스입니다.먼저 머신 러닝 및 규칙 엔진을 사용하여 데이터를 컨텍스트화합니다. 그런 다음 분야별 전문가가 결과를 확인하고 세밀하게 조정합니다. 구체화된 결과 데이터와 유추된 인사이트는 데이터에 대한 보다 심층적인 이해를 발전시킬 때 조직 전체에서
CDF구현 및 솔루션을 확장할 수 있는 기반이 됩니다.
-
데이터 작업은 협업과 자동화를 통해 데이터 수명 주기를 관리하기 위한 도구와 관행의 집합입니다.
추출기, 변환기, 데이터 집합, 품질 모니터링 및 머신 러닝 모델과 같은 도구를 사용하여 조직 전반의 데이터 엔지니어, 데이터 과학자, 데이터 분석가 및 다른 분야 전문가들이 함께 작업하여 데이터 관리 및 의사 결정 관행을 확립하고, 자동화하고, 지속적으로 최적화할 수 있습니다.
이 과정의 뒷부분에서 컨텍스트화와 데이터 작업에 대해 자세히 알아보기 전에, 먼저 기본적인 CDF 아키텍처를 살펴보겠습니다.
CDF 플랫폼은 클라우드에서 실행되며 그림에서 볼 수 있듯이 모듈식 설계입니다.
다음 섹션에서는 CDF를 구현하는 기본 단계와 이러한 단계가 다른 CDF 모듈과 어떤 관계에 있는지 소개합니다. 후속 단원에서는 각 단계에 대해 더 자세히 알아볼 것입니다.
1단계: 데이터 거버넌스 설정
운영과 관련된 결정을 내릴 때 데이터에 의존하는 경우 데이터의 신뢰성을 파악할 수 있는 능력이 중요합니다. 마찬가지로, 최종 사용자도 의사 결정을 내릴 때 데이터의 신뢰성을 파악할 수 있어야 합니다.
CDF에서 데이터를 통합하고 개선하려면 먼저 데이터 거버넌스 정책을 정의하고 구현해야 합니다. IT 부서와 함께 작업하여 CDF가 조직의 보안 실무를 따르도록 보장할 수 있는 CDF 관리자를 지정하는 것이 좋습니다. 또한 CDF를 ID 공급자(IdP)에 연결하고 기존 IdP 사용자 ID를 사용하여 CDF 및 CDF에 저장된 데이터에 대한 액세스를 관리할 수 있습니다.
CDF 도구와 기능을 사용하여 데이터 거버넌스를 조율하고 모니터링할 수 있으며, 안전한 데이터 액세스를 설정하고 데이터 계보를 추적하고 데이터 무결성을 보장할 수 있습니다.
2단계: 데이터 통합
데이터 거버넌스가 마련되면 시스템 통합자가 정보 기술(IT) 및 운영 기술(OT) 데이터 원본에서 CDF로 데이터를 통합하는 작업을 시작할 수 있습니다. 이러한 시스템은 센서 데이터를 제공하는 산업 제어 시스템부터 ERP 시스템, 엔지니어링 시스템의 대규모 3D CAD 모델까지 다양할 수 있습니다.
데이터 추출
데이터 원본에 대한 읽기 액세스 권한이 있으면 시스템 통합을 설정하여 데이터를 CDF 스테이징 영역으로 스트리밍할 수 있으며, 이 스테이징 영역에서 데이터를 정규화하고 보강할 수 있습니다. Cognite는 PostgreSQL 및 OPC-UA 같은 표준 프로토콜 및 인터페이스를 지원하므로 기존 ETL 도구 및 데이터 웨어하우스 솔루션과의 데이터 통합이 용이합니다.
또한 특정 산업 시스템용으로 맞춤 제작된 추출기와 SQL 호환 데이터베이스의 보다 전통적인 테이블 형식 데이터를 위한 표준 상용 제품 ETL 도구도 제공합니다. 이 방식을 통해 추출기의 논리를 최소화하고 클라우드에서 데이터에 대한 변환을 실행 및 재실행할 수 있습니다.
데이터 변환
CDF 스테이징 영역에서는 데이터가 원래 형식으로 저장됩니다. 이 방식을 통해 클라우드에서 데이터에 대한 변환을 실행 및 재실행할 수 있으며 데이터의 형태를 CDF 데이터 모델에 맞게 변경할 수 있습니다. 데이터 모델에 대해서는 나중에 다른 단원에서 다시 다루도록 하겠습니다.
추출과 변환 단계를 분리함으로써 통합 파이프라인을 더 쉽게 유지 관리할 수 있게 만들고 원본 시스템의 부하를 줄일 수 있습니다. 데이터 변환을 위해 기존의 ETL 도구를 사용하는 것을 권장하지만, 가벼운 변환 작업을 위한 대안으로 CDF 변환 도구도 제공합니다.
데이터 향상
CDF의 자동화된 대화형 컨텍스트화 도구를 사용하면 머신 러닝, 강력한 규칙 엔진 및 전문 분야 지식을 결합하여 다양한 원본 시스템의 리소스를 CDF 데이터 모델에서 서로에게 매핑시킬 수 있습니다. 먼저 머신 러닝 및 규칙 엔진을 사용하여 데이터를 컨텍스트화합니다. 그런 다음 분야별 전문가가 결과를 확인하고 세밀하게 조정합니다.
3단계: 솔루션 구축
완전하고 컨텍스트화된 데이터를 사용하면 3D 모델에서 구성 요소를 클릭하여 해당하는 모든 시계열 데이터를 보거나 흐름선을 따라 모든 압력 판독값을 요청할 수 있는 응용 프로그램을 구축할 수 있습니다.
CDF에 저장된 모든 정보는 현대적인 REST 기반 API를 통해 사용할 수 있습니다. Cognite는 잘 문서화된 API 외에도 Python, JavaScript, Spark, OData (Excel Power BI), Grafana 등과 같은 많은 유명한 프로그래밍 언어와 분석 도구를 위한 커넥터 및 SDK를 제공합니다. 또한 Scala와 .Net을 위한 커뮤니티 SDK도 제공합니다.
CDF의 데이터에 기반하는 응용 프로그램을 구축하려면 데이터의 구조에 대해 가정할 수 있는 잘 정의된 데이터 모델이 필요합니다.