[리포트] 빌더와 데이터 사이언티스들을 위한 파일 스토리지 아마존 EFS

reinvent2022 의 file storage for builders and data scientists on efs 세션의 리포트를 작성한 글 입니다.
2022.11.29

안녕하세요 클래스메소드의 수재입니다.
올해는 오프라인으로 re:invent 2022에 참여했습니다.
참가한 세션 중 몇 개의 세션은 리포트를 작성하려합니다.

이번 글에서는 워크로드에서의 스토리지와 올해의 EFS 에 대해 설명한 세션의 리포트를 작성해보겠습니다. (온라인 세션이 올라오면 이미지는 다시 업로드 할 예정입니다)

클라우드 환경에서의 파일 스토리지의 사용 패턴

스토리지 및 IT 관리자나 어플리케이션 관리자 등은 기업용 IT 어플리케이션, 소프트웨어 빌드 환경을 위해서 파일 시스템이 필요하거나
빌더나 데이터 사이언티스트는 머신 러닝이나 SaaS 어플리케이션 제공 등에 파일 시스템이 필요하게 됩니다. 이렇듯 이해관계자에 따라 환경에서 다양한 요구 사항을 가지며 이에 맞는 파일 스토리지를 필요로 합니다.

이러한 워크로드에서 사용되는 서비스들은 대략 3가지 사용 패턴이 있으며 AWS는 이에 대응하는 서비스도 제공하고 있습니다.

  • 네트워크가 연결된 스토리지
    • Amazon FSx
  • 무제한에 가까운 컴퓨팅 규모
    • Amazon FSx
  • Cloud-native한 어플리케이션 및 워크로드
    • Amazon EFS

이렇듯 스토리지는 다양한 워크로드를 지원하는 데 중요한 역할을 하며 이를 클라우드 환경에서 구현한다면 다양한 이점이 있습니다.

빌더를 위한 EFS

빌더는 "무조건 가동하는 환경"을 만드는 것을 목표로 합니다.
이를 위해서 EFS는 다음과 같은 이점을 제공합니다.

  • 상세한 설정이 불필요한 환경
  • 탄력적이며 프로비저닝이 없는 스토리지
  • 어디서든 액세스할 수 있는 데이터
  • 아무런 영향 없이 코스트 최적화가 가능한 서비스

상세한 설정이 불필요한 환경

EFS를 사용하게 된다면 특별한 설정 없이도 간단하게 스토리지의 이름만 정해도 빌더는 다음과 같이 항상 안전하고 걱정 없는 스토리지를 확보할 수 있습니다.

  • 99.99% 의 높은 가용성
    • 데이터를 다양한 리전에 자동으로 복제하는 높은 가용성을 확보할 수 있습니다.
  • 9.99999999999%(9 x 11) 의 높은 내구성
    • 스토리지는 높은 내구성을 가지도록 디자인되어 있으며 자동 백업 보호도 제공합니다.
  • 종합적인 보안
    • 자동 암호화, 파일 액세스 권한, AWS의 통합적인 보안 서비스(IAM, VPC 등)를 이용 가능합니다.
  • 성능 자동 변화
    • 다양한 워크로드에 맞추어 성능을 자동으로 변하게 할 수 있습니다

또한 빌더1는 Amazon EFS를 이용함으로써 지속적인 성능 향상을 얻을 수 있습니다.
실제로 Amazon EFS One Zone을 기준으로 re:invent2021 시기와 지금을 비교해보면 다음과 같은 성능 향상이 있습니다.

re:invent21 re:invent22 비고
Read latencies 1.0 0.25 자주 액세스하는 데이터
Write latencies 2.8 1.7 메타 데이터, 64kb 이상의 파일

또한 일반적인 스토리지 벤치마크의 결과로 Untar Linux kernel 은 테스트 결과가 20프로 감소하고, WordPress의 "Hello World" 까지는 40프로의 테스트 결과 감소가 있었습니다.

특히 빌더가 가장 피하고 싶어하는 인프라스트럭쳐의 프로비저닝도 줄일 수 있습니다.
왜냐하면 우선 EFS는 완전 탄력형 스토리지이기 때문입니다. 필요에 따라 맞추어 자동으로 스케일 업이나 다운을 하는 사실상 무한한 용량을 가집니다.
그리고 이제부터는 처리량도 탄력적으로 설정할 수 있습니다. 즉, 어떠한 계획이나 프로비저닝 없이 처리량이 많은 어플리케이션을 항상 가동할 수 있는 성능을 가집니다.

탄력적이며 프로비저닝이 없는 스토리지(신기능)

전통적인 성능 계획은 쉽지 않습니다.
그래서 프로비저닝 된 처리량이 부족해서 성능이 제한되거나 사용량에 비해 과다한 처리량이 프로비저닝되어 불필요한 비용이 발생하기도 합니다.

이번에 소개하는 탄력적 처리량은 요구사항에 맞게 처리량을 자동으로 확장하는 새로운 처리량 옵션입니다. 이 옵션을 이용하면 성능 계획을 없애고 사용한 만큼만 지불 할 수 있습니다.

어디서든 액세스할 수 있는 데이터

빌더는 작업에서 올바른 아키텍처를 사용하길 바랍니다.
EFS는 EC2, ECS, EKS, Lambda, Fargate 등 다양한 서비스에서 데이터를 필요로 할 때 액세스 할 수 있습니다.

아무런 영향 없이 코스트 최적화가 가능한 서비스(신기능)

빌더는 비용 최적화에 시간이나 에너지를 소비하고 싶지 않습니다.
EFS는 사용량 만큼 지불할 수 있고, 자동 티어링(스토리지 타입의 변경)을 지원합니다.

빌더는 접속이 드문 스토리지에 대해 비용을 절약하길 바랍니다.
EFS는 라이프 사이클을 지정하여 마지막 접속이 7일 이상이라면 자동으로 스토리지 타입을 변경하는 라이프 사이클을 지정할 수 있습니다.
지금까지는 최소 날짜가 7일이었지만 이제는 1일을 기준으로 할 수 있습니다.

데이터 사이언티스트를 위한 EFS

위에서 설명한 4가지 장점은 데이터 사이언티스트에게도 적용됩니다.
johnson & johnson의 사례를 보면 다음과 같습니다.

  • 상세한 설정이 불필요한 환경
    • 기존 솔루션에서 빠르고 쉽게 마이그레이션이 가능했다
  • 탄력적이며 프로비저닝이 없는 스토리지
    • 페타바이트 규모인 온 디맨드 데이터의 확장이 가능했다
  • 어디서든 액세스할 수 있는 데이터
    • 현대적인 아키텍처의 아마존 EKS와 연결이 가능했다
  • 아무런 영향 없이 코스트 최적화가 가능한 서비스
    • 몇 번의 클릭만으로 37%의 코스트 절약이 가능했다

데모

본 세션에서는 탄력적 처리량 옵션에 대한 데모를 진행했습니다.
데모에 대한 내용은 추후에 추가 기재할 예정입니다.

마무리

이번 세션을 통해서 EFS에 대하여 알아보았습니다.
몇 가지 신기능에 대해서도 빨리 알아볼 수 있어 좋았습니다.

긴 글 읽어주셔서 감사합니다.
오탈자 및 내용 피드백은 언제나 환영합니다. must01940 지메일로 연락 주시면 감사합니다!


본 블로그 게시글을 보시고 문의 사항이 있으신 분들은
클래스메소드코리아 (info@classmethod.kr)로 연락 주시면 빠른 시일 내 담당자가 회신 드릴 수 있도록 하겠습니다 !


  1. 이 글에서 말하는 빌더는 환경을 빌드하는 엔지니어를 뜻 합니다.