Data/Data Engineering

[Data Engineering] 데이터 웨어하우스

밍츠 2022. 9. 10. 17:01

데이터 웨어하우스 (DW, Data Warehouse)

- Data (정보) + Warehouse(창고)

- 조직 내 서로 다른 다양한 소스들의 정보를 집계하고 저장하는 시스템이다.

- 방대한 조직 내에서 분산 운영되는 각각의 데이터베이스 관리 시스템들을 효율적으로 통합하여 조정, 관리하며 효율적인 의사결정 시스템을 위한 기초를 제공하는 실무적인 활용 방법론

 

데이터 웨어하우스 모델링 방법

1. 스타 스키마 (Star Schema)

- 데이터 웨어하우스 스키마 중 가장 단순

- 사실 테이블은 보통 제3 정규형으로 모델링하고, 차원 테이블들은 보통 비정규화된 제2 정규형으로 모델링한다.

 

2. 스노우 플래이크 스키마 (Snow Flake Schema)

- 스타 스키마의 차원 테이블을 제3 정규형으로 정규화한 형태

- 중복 데이터가 없다.

 

Star 스키마와 Snowflake 스키마 비교

- star 스키마 차원 테이블은 정규화되지 않고 Snowflake 스키마 차원 테이블은 정규화된다.

- snowflake 스키마는 차원 테이블을 저장하는 데 공간을 덜 사용하지만 더 복잡하다.

- star 스키마는 팩트 테이블과 차원 테이블만 조인하여 sql 쿼리를 더 간단하고 빠르게 만든다.

- snowflake 스키마에는 중복 데이터가 없어 유지 관리가 더 용이하다.

- snowflake 스키마는 데이터 웨어하우스에 적합하고 start 스키마는 단순한 관계가 있는 데이터마트에 적합하다.

 

OLAP

- 데이터 웨어하우스와 같이 통합되고 중앙집중적인 데이터 저장소에서 대량의 데이터를 고속으로 다차원 분석을 수행하기 위한 소프트웨어이다.

 

OLTP

- 인터넷을 통해 많은 사람들이 대량의 데이터베이스에 접근하여 업무를 수행할 수 있도록 지원한다.