허허의 오늘은 뭐 먹지?

LLM(Large Language Model)이란? 본문

AI

LLM(Large Language Model)이란?

luminovus 2025. 1. 22. 23:25
LLM은 최근 AI 트랜드의 기본이다.
다시한번 정리해보려고 한다.
 

LLM(Large Language Model)이란?

LLM은 대규모 데이터를 학습하여 자연어를 이해하고 생성하는 언어 모델이다. 수십억에서 수천억 개 이상의 매개변수를 보유하며, 인간과 유사한 수준으로 문장을 이해하고 적절한 답변을 생성하거나 텍스트를 생성할 수 있다.

주요 특징:

  • 대규모 데이터 학습: 웹, 책, 논문 등 방대한 텍스트 데이터를 기반으로 학습하여 다양한 문맥과 언어 패턴을 이해한다.
  • 확장 가능성: GPT, GPT-3, GPT-4 같은 모델은 대규모 병렬 처리와 분산 컴퓨팅 기술로 더 큰 데이터와 매개변수를 학습할 수 있다.
  • 다목적 활용: 질문 답변, 글쓰기, 번역, 요약 등 다목적 작업을 수행할 수 있다.

LLM의 발전 과정

LLM은 초기 자연어 처리(NLP) 모델에서 출발하여 점진적으로 발전해왔다. 초기에는 RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory) 같은 모델이 주로 사용되었으나, 이들의 한계를 극복하기 위해 트랜스포머(Transformer) 아키텍처가 등장했다. 트랜스포머는 병렬 처리가 가능하고, 긴 문맥을 처리할 수 있다는 장점을 가지고 있어 현대 LLM의 기반이 되었다.

주요 발전 단계:

  1. Word2Vec 및 GloVe: 단어를 벡터로 표현해 단어 간 관계를 파악하는 모델.
  2. Transformer 기반 모델: 2017년 Google이 발표한 트랜스포머 논문을 기점으로 NLP 모델이 혁신적으로 발전했다.
  3. BERT: 2018년에 등장한 BERT(Bidirectional Encoder Representations from Transformers)는 양방향 문맥 이해를 통해 언어 표현력을 크게 향상시켰다.
  4. GPT 계열: BERT가 주로 문장을 이해하는 데 중점을 두었다면, GPT 계열 모델은 언어 생성 능력까지 강화한 모델이다.

BERT와 LLM의 관계

BERT는 LLM의 초기 단계에서 중요한 기반이 되는 모델로, 현대 LLM 개발에 큰 영향을 미쳤다. 둘의 관계는 다음과 같다:

  1. 공통점:
    • 둘 다 트랜스포머 아키텍처를 기반으로 한다.
    • 대규모 데이터를 학습해 언어를 이해하고 처리한다.
    • 자연어 처리(NLP) 작업에서 높은 성능을 발휘한다.
  2. 차이점:
    • 목적:
      BERT는 텍스트를 "이해"하는 데 중점을 두며, 주로 분류, 문장 매칭, 질문 답변 등의 작업에 활용된다.
      GPT 계열 LLM은 텍스트를 "생성"하는 데 강점을 가지며, 문장 생성, 글쓰기, 창의적 작업에 적합하다.
    • 구조:
      BERT는 트랜스포머의 인코더를 사용해 양방향 문맥을 학습한다.
      GPT 계열 모델은 트랜스포머의 디코더를 사용해 순차적으로 언어를 생성한다.
    • 양방향성:
      BERT는 문맥을 양방향으로 학습하므로 특정 문장이나 단어를 더 깊이 이해할 수 있다.
      GPT는 한 방향(순차적)으로 학습해 다음 단어를 예측하는 데 초점을 맞춘다.
반응형

'AI' 카테고리의 다른 글

몇가지 시나리오에 따른 gpt 프롬프트 샘플  (0) 2025.01.22
gpt 프롬프트 작성 가이드  (0) 2025.01.22
정확성 지표 Recall@1 이란?  (0) 2025.01.22
온디바이스 AI 구현 전략  (0) 2025.01.22
행동 데이터 기반 추천  (0) 2025.01.22
Comments