JAWS-UG 아키텍쳐전문지부 데이터분석기반 핸즈온에 참가해봤습니다!

JAWS-UG 아키텍쳐전문지부 데이터분석기반 핸즈온에 참가한 감상 블로그입니다.
2020.08.07

안녕하세요 클래스메소드 송영진입니다!

오늘은 2020년 8월 4일에 있었던 JAWS-UG 아키텍쳐전문지부 데이터분석기반 핸즈온에 참가한 감상 블로그입니다.

일본어로 진행된 핸즈온의 내용을 간략하게 정리해보았습니다

목표

이번 핸즈온으로 AWS의 빅데이터 관련 서비스를 사용하여 실제로 분석 파이프 라인을 구축하는 것을 통해서, Data Lake와 빅데이터 분석 기반을 구축이 어떻게 이루어지는지 감을 잡는 것이 목표입니다.

핸즈온 구성

  • 준비
    • AWS 서비스 : Amazon S3, Amazon EC2, AWS CloudFormation
  • 어플리케이션 로그를 지속성 및 장기간 데이터 분석 및 시각화
    • AWS 서비스 : Amazon Kinesis Data Firehose, Amazon S3, Amazon Athena, Amazon QuickSight
  • 클라우드 DWH를 사용한 데이터 분석
    • AWS 서비스 : Amazon Kinesis Data Firehose, Amazon S3, Amazon Redshift, Amazon Redshift Spectrum, Amazon QuickSight
  • 서버리스 데이터 ETL 처리
    • AWS 서비스 : AWS Glue, Amazon Athena

데이터 분석이란?

데이터 분석(Data analysis)은 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리변환모델링하는 과정이다. 데이터 분석은 여러 면과 접근 방식이 있으며 다양한 이름의 다양한 기술을 아우르며 각기 다른 비즈니스, 과학, 사회과학 분야에 사용된다. 오늘날 비즈니스 부문에서 데이터 분석은 의사 결정을 더 과학적으로 만들어주고 비즈니스를 더 효율적으로 운영할 수 있도록 도와주는 역할을 한다.

위의 내용은 위키피디아에 정리되어있는 내용입니다.

데이터 분석은 데이터 과학의 한 종류로 데이터를 수집하고 처리함으로써 유의미한 가치를 창출하는 과정입니다.

데이터 분석을 위해서 데이터 처리를 해야하는데, 데이터 처리 작업 중에서 DWH(Data Warehouse)를 사용한 데이터 처리를 이번 핸즈온에서 사용하게 됩니다.

아키텍처 구성

이번 핸즈온에서 만들 아키텍처의 첫번째 구성은 다음과 같습니다.

이 아키텍쳐는 지속적이고 장기간 저장되는 어플리케이션 데이터를 분석하고 가시화하는 아키텍쳐입니다.

EC2로 서버 인스턴스를 세우고 그 위에서 fluentd라는 데이터 및 로그 수집 서비스를 이용합니다.

수집되는 스트림데이터를 Kinesis Data Firehose를 이용하여 S3에 저장하고 Glue에서는 크롤러를 사용하여 자동으로 스키마를 작성하게 됩니다.

그 뒤에 Athena를 이용하여 분석을 한 뒤 QuickSight로 가시화하는 아키텍쳐입니다.

두번째 아키텍쳐는 클라우드 DWH를 이용한 데이터 분석 아키텍쳐입니다.

Glue와 Athena 대신에 Redshift Spectrum를 사용하여 쿼리를 이용하고 QuickSight로 가시화하는 방식입니다.

세번째 아키텍쳐는 데이터 ETL 처리가 서버리스 환경에서 이루어집니다.

이번에는 Glue를 사용하여 ETL 처리를 하게 됩니다. 데이터 형식을 Apache Parquet로 출력을 한 뒤 파일의 파티셔닝이 이루어지고 그 결과가 S3에 저장이 됩니다.

그 이후에 Athena 또는 Redshift Spectrum을 사용하여 쿼리를 이용하게 됩니다.

감상

이번 핸즈온에서는 시각화까지는 다루지 않았지만 어떤 방식으로 데이터 분석을 진행하기 위한 아키텍쳐를 구성하는지 알게 되는 기회가 되었습니다. 다양한 방법이 있어서 재미있었는데요 그 중에서 Glue와 Redshift의 기능이 막강해서 깜짝 놀랐습니다. 앞으로 있을 DA부 연수의 맛보기 같은 핸즈온이라서 즐겁게 실습했습니다.