string(27) "/blog/?uid=168&mod=document"

HOME

ABOUT US

Blog

Blog

Blog

Cloud Data Warehouse

2021.03.31

클라우드 데이터웨어하우스의 핵심 중 한가지는 클라우드 시스템의 스토리지와 컴퓨팅 시스템(데이터처리용)의 분리이다. 클라우드 시스템에서 컴퓨팅과 스토리지를 분리함으로 동시 확장이 필요한 모델(On-Premise)보다 경제적으로 데이터웨어하우스(Data Warehouse)를 구축 할 수 있어 현재 많은 기업에서 클라우드 기반의 데이터웨어하우스를 도입하려고 하고 있다.

 

[Cloud Data Warehouse 의 종류]


1. Redshift


 

20210331091756_aeuiqc4.png
▲ AWS에서 제공하는 레드시프트(Redshift) 아키텍쳐 / 출처 : AWS 홈페이지

 


레드시프트(Redshift)는 AWS에서 제공하는 데이터웨어하우스 엔진이다. 레드시프트(Redshift)는 Postgre SQL을 기반 DB로 사용하며 열기반 방식으로 데이터를 압축하여 Cluster 환경에 분산저장하고 있다. Local Storage 를 사용하며 노드 간 통신은 10G네트워크를 사용한다.

레드시프트의 특징은 다음과 같다.

 

20210331091855_tfoifqs.png
 

 

2. BigQuery


 

20210331091917_b7m67y6.png
▲ 빅쿼리 (BigQuery) 서비스 개요 / 출처 : Google Cloud 홈페이지

 


빅쿼리(BigQuery)는 페타바이트급 이상의 데이터에 대해 스케일링 분석(필요시 실시간으로 컴퓨팅 자원을 동적으로 확장)을 가능케 하는 완전 관리형(fully-managed) 서버리스 컴퓨팅 데이터웨어하우스이다. 빅쿼리(BigQuery)는 Dremel 이라는 프로젝트로 시작되었으며 SQL 문을 통해 방대한 양의 구글 내부 데이터를 분석하기 위해 개발되었다. Dremel 이전에는 Hadoop 기반 클러스터를 구축하고 Map Reduce 를 통해서 데이터웨어하우스를 구축하였다. 하지만 Map Reduce방식은 속도가 느려 간단한 분석작업 외에도 불편함이 있어 Dremel 프로젝트는 이 단점을 극복하고자 시작되었다. 빅쿼리는 Dremel 프로젝트를 구글 외부의 사용자도 쓸 수 있도록 서버리스 클라우드 서비스로 만들어졌다.

빅쿼리의 특징은 다음과 같다.

 

 

20210331091952_n3pvlen.png
 

 

3. SnowFlake

 

 

20210331092012_acbcyp9.png
▲ 스노우플레이크(Snowflake) 아키텍쳐 / 출처 = AWS 홈페이지

 

 

스노우플레이크(Snowflake)는 2021년 데이터웨어하우징 서비스를 시작으로 현재는 통합클라우드 데이터플랫폼 회사로 서비스를 확대해나가고 있다. 스노우플레이크는 SaaS모델을 따르는 정형 및 반정형데이터를 위한 분석 데이터웨어하우스로 스토리지, 컴퓨트, 클라우드 3가지 계층으로 구성되어 있다. 스토리지에는 다양한 데이터를 단일한 형식으로 바꾸어 저장하고, 컴퓨트 단계에서 단일화된 데이터를 분석한 후 클라우드를 통해 고객에게 분석한 데이터를 전달한다. 스노우플레이크는 AWS, Google, Microsoft 3사의 퍼블릭 클라우드 서비스 상에서 구동이 되는데 80%이상은 AWS에서 구동 중이다.