허허의 오늘은 뭐 먹지?

BLEU란? 본문

AI

BLEU란?

luminovus 2025. 1. 22. 22:47

BLEU(Bilingual Evaluation Understudy)는 기계 번역의 품질을 평가하는 지표다.

BLEU 점수는 기계 번역 시스템이 생성한 번역과 인간이 생성한 참조 번역 간의 유사성을 측정한다.

BLEU는 문장 단위보다는 전체 텍스트의 품질을 평가하는 데 더 효과적이다.

BLEU는 주로 n-gram 기반 접근 방식을 사용하여 참조 번역과 기계 번역 간의 겹치는 단어 및 구문을 계산한다.

 

주요특징

  1. n-gram 매칭: BLEU는 단어의 연속적인 그룹인 n-gram을 사용하여 번역 품질을 평가한다. 예를 들어, 1-gram은 단어 하나, 2-gram은 두 단어의 조합을 의미하며, BLEU는 1-gram에서 4-gram까지 다양한 n-gram을 사용하여 평가한다.
  2. Precision 계산: 각 n-gram에 대해 기계 번역의 n-gram이 참조 번역의 n-gram과 얼마나 겹치는지 비율을 계산한다. 이는 참조 번역에 얼마나 일치하는지를 나타낸다. BLEU는 모든 n-gram의 평균 precision을 계산한다.
  3. Brevity Penalty: 기계 번역이 너무 짧은 경우를 방지하기 위해 도입된 개념이다. 번역이 참조 번역보다 짧으면 패널티를 부여하여 점수를 낮춘다. 이를 통해 기계 번역이 참조 번역의 길이에 맞추도록 유도한다.
  4. Cumulative BLEU Score: 최종 BLEU 점수는 모든 n-gram의 precision과 brevity penalty를 결합하여 계산된다.. BLEU 점수는 0에서 1 사이의 값으로 나타나며, 1에 가까울수록 번역 품질이 높음을 의미한다.

 

예제는 다음과 같다.

예제 설명

  • 참조 번역 (Reference Translation): 인간 번역자가 번역한 문장
  • 기계 번역 (Candidate Translation): 기계 번역 시스템이 번역한 문장

참조 번역:

  1. "The cat is on the mat."
  2. "There is a cat on the mat."

기계 번역:

  1. "The cat is on the mat."

Step 1: n-gram 생성

1-gram (단어 하나):

  • 참조 번역: ["The", "cat", "is", "on", "the", "mat"], ["There", "is", "a", "cat", "on", "the", "mat"]
  • 기계 번역: ["The", "cat", "is", "on", "the", "mat"]

2-gram (단어 두 개 조합):

  • 참조 번역: ["The cat", "cat is", "is on", "on the", "the mat"], ["There is", "is a", "a cat", "cat on", "on the", "the mat"]
  • 기계 번역: ["The cat", "cat is", "is on", "on the", "the mat"]

Step 2: Precision 계산

  • 1-gram Precision:
    • 기계 번역: ["The", "cat", "is", "on", "the", "mat"]
    • 참조 번역과 겹치는 1-gram: ["The", "cat", "is", "on", "the", "mat"]
    • Precision = 겹치는 1-gram 수 / 기계 번역의 1-gram 수 = 6 / 6 = 1.0
  • 2-gram Precision:
    • 기계 번역: ["The cat", "cat is", "is on", "on the", "the mat"]
    • 참조 번역과 겹치는 2-gram: ["The cat", "cat is", "is on", "on the", "the mat"]
    • Precision = 겹치는 2-gram 수 / 기계 번역의 2-gram 수 = 5 / 5 = 1.0

Step 3: Brevity Penalty (BP) 계산

기계 번역의 길이(단어 수) = 6 참조 번역의 길이(단어 수) = 6 (최단 참조 번역)

  • BP = 1 (기계 번역 길이가 참조 번역과 같거나 길 경우)

Step 4: BLEU 점수 계산

  • BLEU 점수는 각 n-gram Precision의 기하 평균에 BP를 곱한 값입니다.
    • BLEU = BP * exp((log(1-gram precision) + log(2-gram precision)) / 2)
    • BLEU = 1 * exp((log(1.0) + log(1.0)) / 2)
    • BLEU = 1 * exp(0)
    • BLEU = 1

따라서, 이 예제에서의 BLEU 점수는 1.0이다.

이는 기계 번역이 참조 번역과 완벽히 일치함을 의미한다.

실제 번역 작업에서는 여러 참조 번역과 다양한 n-gram을 사용하여 더 복잡한 BLEU 점수를 계산하게 된다.

반응형

'AI' 카테고리의 다른 글

LLM(Large Language Model)이란?  (0) 2025.01.22
정확성 지표 Recall@1 이란?  (0) 2025.01.22
온디바이스 AI 구현 전략  (0) 2025.01.22
행동 데이터 기반 추천  (0) 2025.01.22
AIOps vs LLMOps vs MLOps  (0) 2025.01.22
Comments