
LLM 서비스에 대한 착각과 진실
안녕하세요 클래스메소드의 이수재입니다.
이제는 모든 분야에서 LLM 서비스가 사용되고 있고, 일상 생활에서도 자연스럽게 사용하고 있습니다.
하지만 많이 사용하고 있지만 그만큼 제대로 사용하고 있지 않은 부분도 많은 것 같습니다.
과거[1]와 비교하여 지금의 LLM은 어떤 부분이 바뀌었고, 어떻게 하면 더 잘 사용할 수 있을지 알아봅니다.
과거의 LLM과 비교하면?
기술의 발전은 빠른 속도로 이루어지고 있기에 트렌드나 추세를 놓친다면 같은 돈을 내고도 다른 사람들보다 만족도가 조금 낮을 수 있습니다.
따라서 과거와 비교한 LLM의 차이점을 간략하게 소개하자면 다음과 같습니다.
(비교를 위한 부분이므로 그냥 넘기셔도 괜찮습니다.)
멀티 모달 대응
이전의 LLM은 주로 텍스트만을 취급했지만 현재의 모델은 영상, 음성, 코드, 표, PDF 등 여러 형식의 데이터를 이해하고 생성할 수 있는 '멀티모달'한 능력을 가지고 있습니다.
추론 능력과 일관성 향상
초기의 LLM은 사실 관계를 잘못 이해하거나 이를 계기로 모순된 답변을 하는 경우가 많아 '그럴듯한 거짓말(할루시네이션,인공지능 환각)'을 하는 것이 문제였습니다. 그러나 새로운 모델이 개발되어 갈수록 논리적 추론과 일관성 있는 답변이 가능해졌기 때문에 할루시네이션 발생 빈도는 점차 감소되었습니다.
장문 컨텍스트 처리 강화
2022년경의 모델은 수천 토큰(몇 페이지 정도)까지만 문맥을 유지할 수 있었지만, 현재는 10만~100만 토큰(수백 페이지~서적 1권 분량)을 처리할 수 있는 모델도 등장하고 있습니다.
이를 통해 긴 문서 요약, 분석, 비교 등이 가능해졌습니다.
툴 이용 및 에이전트 기능 통합
최신의 LLM은, 외부 툴(계산기, 검색 엔진, 코드 실행 환경등)과 제휴[2]하여, 단순한 대화 뿐만 아니라 실제 태스크를 자율적으로 해내는 「AI 에이전트」로서의 활용[3]이 진행되고 있습니다.
따라서 과거에 비하여 업무의 효율성이 많이 상승되었습니다.
개인화와 기억 기능 도입
위에서 말한 AI 에이전트와 이어지는 내용이지만 일부 LLM에서는 사용자의 취향이나 과거의 채팅 기록을 기억해두고 보다 개인화된 응답이 가능하게 되어가고 있습니다.
이것에 의해 단순한 「챗봇」에서 「개인 어시스턴트」로의 진화가 진행되고 있습니다.
알려진 착각과 진실
1. LLM은 인간처럼 이해한다
착각: 사람들은 종종 LLM이 인간처럼 언어나 개념을 진정으로 "이해"한다고 생각합니다.
진실: LLM은 데이터의 패턴을 기반으로 텍스트를 생성합니다. 그들은 의식, 자기 인식, 또는 진정한 이해를 가지고 있지 않습니다. 즉, 단순히 여러 데이터를 토대로 "이렇게 대답하는 것는 케이스가 더 많다"의 결과로 답변을 하는 것이지 이해를 하고 대답하는 것은 아닙니다. [4]
2. LLM은 항상 진실을 말한다
착각: 사람들은 LLM이 자신 있게 들리기 때문에 대답이 정확해야 한다고 믿을 수 있습니다.
진실: LLM은 그럴듯하게 들리지만 거짓이거나 꾸며낸 정보를 생성할 수 있습니다. 때로는 출처로 가져오는 정보 자체가 오래되었거나 없는 정보를 있는 것 처럼 가져오기도 합니다.
3. LLM은 실시간 정보에 액세스한다
착각: 사용자들은 LLM들이 최신의 정보 및 사건을 알고 있거나 실시간으로 인터넷을 탐색하여 가장 최신의 정보를 토대로 답변한다고 생각합니다.
진실: 대부분의 LLM은 정적 데이터셋에서 학습되며 외부 도구나 API에 명시적으로 연결되지 않는 한 실시간 액세스가 불가능합니다. 그리고 실시간 정보를 기반으로 대답하는 경우 정확도가 다소 떨어지는 경향이 있습니다.
4. LLM에게는 의도나 감정이 있다
착각: 일부 사용자는 감정, 목표 또는 의도가 있다고 생각하여 LLM을 의인화 합니다.
진실: LLM은 의식이나 감정 상태가 없는 수학적 모델입니다. 위에서 말했듯 가장 확률이 높은 답변을 제안하는 것이지 의도 등을 가지고 대답하는 것이 아닙니다. 모델의 답변을 보고 사용자가 그렇게 판단하는 것일 뿐입니다.
5. LLM은 기본적으로 안전하고 중립적이다
착각: 사람들은 LLM이 편견이 없고 모든 상황에서 안전하게 사용할 수 있다고 생각합니다.
진실: LLM은 훈련 데이터에 존재하는 편견을 반영할 수 있으며 적절한 안전장치 없이 유해하거나 부적절한 콘텐츠를 생성할 수 있습니다. 실제로 인종 차별이나 정치적 편향 등 데이터에 따라서 중립적이지 않고 위험한 답변이 나오기도 합니다.
6. LLM이 전문가를 대체할 수 있다
착각: 일부 사람들은 LLM이 의사, 변호사 또는 기타 전문가를 완전히 대체할 수 있다고 믿습니다.
진실: 향후 많은 직업이 대체될 가능성은 있지만 지금 단계의 LLM은 정보 검색과 요약에 도움을 주는 정도로 도메인별 판단과 책임이 부족합니다. 따라서 현재의 서비스 수준만으로 완벽히 대체하는 것은 아직 불가능합니다. 다만 특정 용도(요약, 번역, 코드 생성, 아이디어 내기 등)에서는 이미 실용 가능한 레벨이기 때문에 업종에 따라 업무 효율화에 큰 도움을 줍니다.
7. 더 큰 모델 = 더 똑똑한 모델
착각: 사람들은 더 큰 모델이 항상 더 좋거나 더 똑똑하다고 생각합니다.
진실: 큰 크기의 모델이 일반적인 지식(도메인)에 대해서 보다 정확한 답변을 하는 것은 사실입니다. 다만 특정 도메인에 대해 답변의 퀄리티를 높이기 위해서는 학습 데이터 품질, 미세 조정, 정렬과 같은 다른 요소들도 마찬가지로 중요합니다.
따라서 어느 부분에 특화된 모델이 필요한 경우 커스터마이징하는 과정이 필요합니다.
8. LLM은 그냥 검색 엔진과 같다
착각: 검색 엔진을 대신하여 정보를 찾는 정도로만 사용할 수 있다고 생각합니다.
진실: 실제로 LLM은 정보를 검색할 뿐만 아니라 문맥을 이해하고 창의적인 문장이나 코드를 생성하는 능력을 가지고 있습니다.
9. 어떤 언어로 검색하더라도 결과는 같다
착각: 어떤 언어로 검색하더라도 모든 데이터를 참조하기 때문에 결과는 같다고 생각합니다.
진실: 데이터를 참고할 때 입력받은 언어로 된 데이터를 우선적으로 참고하는 경우가 많습니다. 하지만 참고하는 데이터의 양을 비교하더라도 영어로 된 자료가 더 많기 때문에 영어로 검색하였을 때 답변의 품질이나 정확도 등이 더 좋은 경우가 많습니다.
더 효율적으로 쓰기
위에서 설명한 착각하기 쉬운 부분들을 고려하여 더 효율적으로 쓰기 위한 방법을 소개하자면 다음과 같습니다.
1. LLM은 인간처럼 이해한다 - 프롬프트 템플릿 + 인터프리터
질문이 모호하면 엉뚱한 답변이 나올 수 있습니다.
예시로 "이 코드 어떻게 생각해?" 보단 "이 코드에서 오류가 나는 이유가 뭐야?" 같이 명확히 지정해주는 것이 좋습니다.
명확한 프롬프트를 만들기 어렵다면, 프롬프트 템플릿을 저장하거나 반복적으로 사용하는 방식으로 개선 가능합니다.
각 LLM의 Instructions을 지정하여 "내가 원하는 답변 스타일"을 미리 알려주거나 코드를 작성하는 경우에는 Code Interpreter 등을 이용하여 복잡한 데이터나 수식을 정확하게 처리하는 것이 좋습니다.
2. LLM은 항상 진실을 말한다 - 제공된 정보에 대한 사실 확인하기
최소한의 검증으로 ChatGPT가 제공한 정보는 신뢰할 수 있는지 정도는 확인해보는 것을 추천합니다. 특히 숫자, 통계, 인용 등은 반드시 확인이 필요합니다.
도움이 되는 툴로는 Browse with Bing으로 실시간으로 웹 검색을 통해 출처 기반의 정보를 확인하거나,
Link Reader 플러그인을 이용하면 웹사이트 링크를 입력하여 링크의 내용을 요약하거나 분석할 수 있습니다.
3. LLM은 실시간 정보에 액세스한다 - 검색 엔진 관련 플러그인
실시간 뉴스, 주가, 날씨 등 최신 정보가 필요할 때 LLM을 사용하려는 경우에는 Browse with Bing, Gemini in Chrome 등
브라우저와 LLM이 연동되는 서비스를 사용하거나 WebPilot 플러그인, FiscalNote 플러그인 등 도움이 되는 플러그인을 사용하는 것이 좋습니다.
4. LLM에게는 의도나 감정이 있다 - 페르소나 부여하기, Custom GPTs, Custom Gems 사용하기
LLM에게 기대하는 대답이 특정한 역할을 가지길 원하는 경우, 역할이나 페르소나 등을 먼저 부여하고 질문을 하는 것이 좋습니다.
예로 들면 "당신은 심리 상담사입니다. 질문자의 감정에 공감하고 심리 파악에 도움이 되는 답변을 해주세요" 등과 같이 직접적으로 역할을 지정할 수 있습니다.
Custom GPTs나 Custom Gems와 같이 LLM의 플러그인을 사용하면 이러한 페르소나를 더 쉽게 부여하고 관리할 수 있습니다.
5. LLM은 기본적으로 안전하고 중립적이다 - 안전 설정 + 사용자 설정
각 LLM 서비스에는 리스크를 관리하기 위해 안전 필터와 같은 안전 설정 기능을 제공하고 있습니다.
이러한 기능은 금지어나 민감한 주제를 제한하거나 유해 콘텐츠를 감지하고 차단하는 기능을 제공하고 있습니다.
6. LLM이 전문가를 대체할 수 있다 - 전문 도구 사용하기
전문가 수준의 분석이 필요한 경우, 외부 도구와 연동하여 보조 역할로 활용할 수 있습니다.
예로 들면 다음과 같은 도구들을 도입하여 사용할 수 있습니다.
- Code Interpreter: 데이터 분석, 통계, 그래프 생성 등 전문가 수준의 작업 가능
- Wolfram 플러그인: 수학, 과학, 기술 계산에 특화
- Zapier 플러그인: 다양한 앱(예: Gmail, Google Sheets 등)과 연동하여 자동화 가능
7. 더 큰 모델 = 더 똑똑한 모델 - 도메인 특화 GPT 만들기
상용 LLM이 범용적으로 사용할 수 있는 대신 특정 도메인에 대해서는 신뢰하기 힘든 경우가 있습니다.
이러한 경우에는 특정 분야에 특화된 모델을 직접 만들거나 찾아서 사용할 수 있습니다.
상용 LLM의 경우 마켓플레이스에 특정 도메인을 위한 플러그인을 제공하거나 모델 마켓플레이스에서는 특정 도메인에 특화된 모델을 구매하는 것도 가능하니 검토해보는 것이 좋습니다.
8. LLM은 그냥 검색 엔진과 같다 - 창의적 작업에 특화된 도구 활용
검색 엔진과 다르게 LLM은 다양한 형태의 결과물을 제공할 수 있습니다.
이러한 특성을 이용하여 그림이나 글, 음악 등 다양한 창의적 작업에 도입하여 활용하는 것도 좋은 사용 방법입니다.
9. 어떤 언어로 검색하더라도 결과는 같다 - 다국어 번역 플러그인 + 영어 프롬프트 활용
검색을 영어로 하는 습관을 들이는 것이 좋습니다. 이러한 결과를 한국어나 원하는 언어로 번역하여 확인하는 것도 좋습니다.
예로 들면 다음과 같은 프롬프트로 시작하는 것도 좋습니다.
- Prompt: "Please answer in English for better accuracy, then translate to Korean."
마무리
이상으로 LLM에 대한 착각과 진실에 대하여 간단하게 알아보았습니다.
LLM은 하루가 다르게 빠르게 발전하고 있어서 위에서 설명한 지금은 지원하지 않는 기능 도 가까운 시일내에 모두 처리가 가능해질 지도 모릅니다.
그러니 항상 트렌드 등을 잘 파악하고 LLM을 효율적으로 사용하는 것이 좋습니다.
긴 글 읽어주셔서 감사합니다.
오탈자 및 내용 피드백은 must01940 지메일로 보내주시면 감사합니다.
문의 사항은 클래스메소드 코리아로!
클래스메소드 코리아에서는 다양한 세미나 및 이벤트를 진행하고 있습니다.
진행중인 이벤트에 대해 아래 페이지를 참고해주세요.
AWS에 대한 상담 및 클래스 메소드 멤버스에 관한 문의사항은 아래 메일로 연락주시면 감사드립니다!
Info@classmethod.kr