AI 초보자의 LLM 공부 기록 첫 번째

AI 초보자의 LLM 공부 기록 첫 번째

LLM에 대하여 초보자의 시선으로 알아본 내용을 기록한 글입니다.
Clock Icon2024.09.18

안녕하세요 클래스메소드의 이수재입니다.
생성형 AI가 점점 발달하고 최근에는 OpenAI의 o1 까지 공개되었습니다.
앞으로 어떠한 방식으로든 생성형 AI를 활용하여 생산성을 올리는 스킬이 필요하다고 생각하는 분들도 많습니다.
마찬가지로 저도 생성형 AI의 활용은 앞으로 엔지니어로서 살아남기 위해 필요한 스킬이라고 생각하고 있습니다.

하지만 AI에 관해서는 지식이 하나도 없기때문에... 쉽고 빠르게 익히는 실전 LLM이라는 책을 베이스로 공부한 내용을 글로 남기려합니다.
해당 책을 공부한 이유로는 단순히 지식으로서 아는 것으로 그치지않고 실제로 모델을 튜닝하여 제 업무의 생산성을 높이는 것 까지가 목표이기 때문입니다.

내용에 대한 피드백은 must01940 지메일로 보내주시면 감사합니다.

생성형(Generative) AI 란?

생성형 인공 지능(생성형 AI)은 대화, 이야기, 이미지, 동영상, 음악 등 새로운 콘텐츠와 아이디어를 생성할 수 있는 AI의 일종입니다. AI 기술은 이미지 인식, 자연어 처리(NLP), 번역과 같이 새로운 컴퓨팅 작업에서 인간 지능을 모방하려고 시도합니다. - 생성형 AI란 무엇인가요?(AWS)

복잡하고 다양한 주제를 학습하고 이를 토대로 새로운 문제를 해결하는 AI를 말합니다.
많이 사용하고 있는 ChatGPT나 Claude 등이 대표적인 예입니다.

이러한 생성형 AI를 활용하면 글이나 이미지를 작성하거나 음악, 프로그래밍 코드, 논리적인 문제 풀이 등 인간이 학습하여 내놓을 수 있는 수많은 결과물을 AI로 생성할 수 있습니다.

AWS와 생성형 AI

AWS에서도 생성형 AI에 대해 다음과 같은 다양한 서비스를 제공하고 있습니다.

  • Amazon Q Developer
  • Amazon Q in QuickSight
  • Amazon Bedrock
  • Amazon SageMaker JumpStart
  • AWS HealthScribe

또는 SageMaker를 활용하여 직접 모델을 학습시키는 것도 가능합니다.

자연어 처리(NLP)와 트랜스포머, 언어 모델링

AI 의 발전과 개요를 이해하기 위해서는 이 내용에 대해 보충을 하자면
자연어 처리(NLP)는 말 그대로 인간의 언어(자연어)를 처리하기 위한 기술입니다.
트랜스포머는 2017년에 Google Brain 팀에서 발표한 자연어 처리를 위한 AI 딥러닝 아키텍처(모델)입니다. 이 아키텍처는 이후 자연어 처리의 표준이 되었습니다.

언어 모델링은 언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당(assign)하는 모델입니다.[^1]
즉, 주어진 단어들을 바탕으로 앞으로 올 단어를 예측하는 작업을 말합니다.
일반적으로 자동 인코딩 작업과 자기회귀 작업이라는 언어 모델링 작업이 있습니다.

자동 인코딩 언어 모델은 문장의 어느 부분이든 누락된 단어를 채우도록 모델에 요청합니다.
입력 내용으로부터 기존 문장을 재구성하도록 훈련됩니다.
자동 인코딩 언어 모델은 문장의 양방향 표현을 생성하며 문장 분류 또는 토큰 분류에 탁월합니다.
예로는 BERT가 있습니다.

자기회귀 언어 모델은 주어진 문장의 바로 다음에 가장 가능성 있는 토큰을 생성합니다.
이전 토큰만을 기반으로 다음 토큰을 예측하도록 훈련됩니다.
트랜스포머 모델의 디코더 부분에 해당하며 텍스트 생성에 이상적인 모델입니다.
예로는 GPT가 있습니다.

그래서 LLM(Large Language Model) 이란?

방대한 양의 텍스트 데이터를 학습하는 생성형 AI 모델입니다.
트랜스포머 아키텍처를 활용해 프롬프트를 이해하고 답변을 생성합니다.
대표적으로 ChatGPT가 여기에 해당합니다.
사람 언어의 복잡성과 뉘앙스를 잘 포착할 수 있고 언어 관련 작업에서 뛰어난 성능을 발휘합니다.

LLM은 자기회귀거나 자동 인코딩 또는 두 가지의 조합이 될 수 있는 언어 모델입니다.
광범위한 학습 데이터셋을 바탕으로 거의(혹은 전혀) 파인튜닝이 필요 없을 만큼 높은 정확도로 언어 작업을 수행할 수 있습니다.

기존의 트랜스포머 아키텍처는 seq2seq 모델이었으며 인코더와 디코더라는 주요 요소가 있었습니다.
인코더는 텍스트의 이해, 디코더는 텍스트의 생성에 적합하였습니다.
현재는 기존 트랜스포머 아키텍처의 인코더와 디코더로 각각 분해하여 더 효율적인 모델을 생성하고 있습니다.

LLM의 작동 원리

  • 사전 훈련(pre-trainig) : 대량의 텍스트 데이터를 베이스로 일반적인 언어와 단어 간의 관계를 배우고 이해하는 작업입니다.
  • 전이 학습(transfer learning) : 사전 훈련된 LLM을 가져와 실제 작업을 위한 데이터를 활용하여 학습하도록 하는 작업입니다.
  • 파인 튜닝(fine-tuning) : 전이 학습의 한 형태로 LLM을 작업에 특화된 상대적으로 작은 크기의 데이터셋에서 훈련시켜 특정 작업에 맞추어 더 세밀하게 조정하는 작업입니다.
  • 어텐션(attention) : 가장 중요한 정보를 우선시하고 강조할 수 있는 매커니즘입니다.
  • 임베딩(embedding) : 다른 단어와의 의미와 관계를 포착하는 방식으로 단어, 구절, 토큰을 나타냅니다.
  • 토큰화(tokenization) : 텍스트를 가장 작은 이해 단위인 토큰으로 분해하는 과정입니다. 의미를 내포한 정보 조각이며 어텐션 계산에 입력으로 사용되어 LLM이 실제로 학습하고 작동하게 됩니다.

전이 학습과 파인 튜닝에 대한 상세한 내용은 다음 블로그를 참고해주세요.

https://hi-ai0913.tistory.com/32

정리하자면 LLM은 큰 말뭉치에서 사전 훈련되고 때로는 특정 작업을 위해 더 작은 데이터셋에서 파인튜닝됩니다.
토큰 간의 의존성과 관계를 어텐션을 사용하여 파악하면 빠른 훈련과 텍스트의 효율적인 처리가 가능해집니다.

어텐션은 LLM의 핵심 요소이며 더 상세한 내용은 다음 글을 참고해주세요.

https://brunch.co.kr/@harryban0917/279

마무리

서두에 소개한 책의 챕터 1까지 LLM에 대해서 간략하게 알아보았습니다.
책에는 많이사용되는 LLM(ChatGPT, BERT, T5 등)도 소개되어 있지만 해당 글에서는 넘어가도록 하겠습니다.
이어서 LLM을 활용한 의미 기반 검색에 대하여 알아봅니다.

긴 글 읽어주셔서 감사합니다.
오탈자 및 내용 피드백은 must01940 지메일로 보내주시면 감사합니다.

[^1] : 출처 : 딥 러닝을 이용한 자연어 처리 입문(위키독스)

この記事をシェアする

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.