Notice
Recent Posts
Recent Comments
Link
허허의 오늘은 뭐 먹지?
BLEU란? 본문
BLEU(Bilingual Evaluation Understudy)는 기계 번역의 품질을 평가하는 지표다.
BLEU 점수는 기계 번역 시스템이 생성한 번역과 인간이 생성한 참조 번역 간의 유사성을 측정한다.
BLEU는 문장 단위보다는 전체 텍스트의 품질을 평가하는 데 더 효과적이다.
BLEU는 주로 n-gram 기반 접근 방식을 사용하여 참조 번역과 기계 번역 간의 겹치는 단어 및 구문을 계산한다.
주요특징
- n-gram 매칭: BLEU는 단어의 연속적인 그룹인 n-gram을 사용하여 번역 품질을 평가한다. 예를 들어, 1-gram은 단어 하나, 2-gram은 두 단어의 조합을 의미하며, BLEU는 1-gram에서 4-gram까지 다양한 n-gram을 사용하여 평가한다.
- Precision 계산: 각 n-gram에 대해 기계 번역의 n-gram이 참조 번역의 n-gram과 얼마나 겹치는지 비율을 계산한다. 이는 참조 번역에 얼마나 일치하는지를 나타낸다. BLEU는 모든 n-gram의 평균 precision을 계산한다.
- Brevity Penalty: 기계 번역이 너무 짧은 경우를 방지하기 위해 도입된 개념이다. 번역이 참조 번역보다 짧으면 패널티를 부여하여 점수를 낮춘다. 이를 통해 기계 번역이 참조 번역의 길이에 맞추도록 유도한다.
- Cumulative BLEU Score: 최종 BLEU 점수는 모든 n-gram의 precision과 brevity penalty를 결합하여 계산된다.. BLEU 점수는 0에서 1 사이의 값으로 나타나며, 1에 가까울수록 번역 품질이 높음을 의미한다.
예제는 다음과 같다.
예제 설명
- 참조 번역 (Reference Translation): 인간 번역자가 번역한 문장
- 기계 번역 (Candidate Translation): 기계 번역 시스템이 번역한 문장
참조 번역:
- "The cat is on the mat."
- "There is a cat on the mat."
기계 번역:
- "The cat is on the mat."
Step 1: n-gram 생성
1-gram (단어 하나):
- 참조 번역: ["The", "cat", "is", "on", "the", "mat"], ["There", "is", "a", "cat", "on", "the", "mat"]
- 기계 번역: ["The", "cat", "is", "on", "the", "mat"]
2-gram (단어 두 개 조합):
- 참조 번역: ["The cat", "cat is", "is on", "on the", "the mat"], ["There is", "is a", "a cat", "cat on", "on the", "the mat"]
- 기계 번역: ["The cat", "cat is", "is on", "on the", "the mat"]
Step 2: Precision 계산
- 1-gram Precision:
- 기계 번역: ["The", "cat", "is", "on", "the", "mat"]
- 참조 번역과 겹치는 1-gram: ["The", "cat", "is", "on", "the", "mat"]
- Precision = 겹치는 1-gram 수 / 기계 번역의 1-gram 수 = 6 / 6 = 1.0
- 2-gram Precision:
- 기계 번역: ["The cat", "cat is", "is on", "on the", "the mat"]
- 참조 번역과 겹치는 2-gram: ["The cat", "cat is", "is on", "on the", "the mat"]
- Precision = 겹치는 2-gram 수 / 기계 번역의 2-gram 수 = 5 / 5 = 1.0
Step 3: Brevity Penalty (BP) 계산
기계 번역의 길이(단어 수) = 6 참조 번역의 길이(단어 수) = 6 (최단 참조 번역)
- BP = 1 (기계 번역 길이가 참조 번역과 같거나 길 경우)
Step 4: BLEU 점수 계산
- BLEU 점수는 각 n-gram Precision의 기하 평균에 BP를 곱한 값입니다.
- BLEU = BP * exp((log(1-gram precision) + log(2-gram precision)) / 2)
- BLEU = 1 * exp((log(1.0) + log(1.0)) / 2)
- BLEU = 1 * exp(0)
- BLEU = 1
따라서, 이 예제에서의 BLEU 점수는 1.0이다.
이는 기계 번역이 참조 번역과 완벽히 일치함을 의미한다.
실제 번역 작업에서는 여러 참조 번역과 다양한 n-gram을 사용하여 더 복잡한 BLEU 점수를 계산하게 된다.
반응형
'AI' 카테고리의 다른 글
LLM(Large Language Model)이란? (0) | 2025.01.22 |
---|---|
정확성 지표 Recall@1 이란? (0) | 2025.01.22 |
온디바이스 AI 구현 전략 (0) | 2025.01.22 |
행동 데이터 기반 추천 (0) | 2025.01.22 |
AIOps vs LLMOps vs MLOps (0) | 2025.01.22 |
Comments