BLEU란?

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

허허의 오늘은 뭐 먹지?

BLEU란? 본문

BLEU란?

luminovus 2025. 1. 22. 22:47

BLEU(Bilingual Evaluation Understudy)는 기계 번역의 품질을 평가하는 지표다.

BLEU 점수는 기계 번역 시스템이 생성한 번역과 인간이 생성한 참조 번역 간의 유사성을 측정한다.

BLEU는 문장 단위보다는 전체 텍스트의 품질을 평가하는 데 더 효과적이다.

BLEU는 주로 n-gram 기반 접근 방식을 사용하여 참조 번역과 기계 번역 간의 겹치는 단어 및 구문을 계산한다.

주요특징

n-gram 매칭: BLEU는 단어의 연속적인 그룹인 n-gram을 사용하여 번역 품질을 평가한다. 예를 들어, 1-gram은 단어 하나, 2-gram은 두 단어의 조합을 의미하며, BLEU는 1-gram에서 4-gram까지 다양한 n-gram을 사용하여 평가한다.
Precision 계산: 각 n-gram에 대해 기계 번역의 n-gram이 참조 번역의 n-gram과 얼마나 겹치는지 비율을 계산한다. 이는 참조 번역에 얼마나 일치하는지를 나타낸다. BLEU는 모든 n-gram의 평균 precision을 계산한다.
Brevity Penalty: 기계 번역이 너무 짧은 경우를 방지하기 위해 도입된 개념이다. 번역이 참조 번역보다 짧으면 패널티를 부여하여 점수를 낮춘다. 이를 통해 기계 번역이 참조 번역의 길이에 맞추도록 유도한다.
Cumulative BLEU Score: 최종 BLEU 점수는 모든 n-gram의 precision과 brevity penalty를 결합하여 계산된다.. BLEU 점수는 0에서 1 사이의 값으로 나타나며, 1에 가까울수록 번역 품질이 높음을 의미한다.

예제는 다음과 같다.

예제 설명

참조 번역 (Reference Translation): 인간 번역자가 번역한 문장
기계 번역 (Candidate Translation): 기계 번역 시스템이 번역한 문장

참조 번역:

"The cat is on the mat."
"There is a cat on the mat."

기계 번역:

"The cat is on the mat."

Step 1: n-gram 생성

1-gram (단어 하나):

참조 번역: ["The", "cat", "is", "on", "the", "mat"], ["There", "is", "a", "cat", "on", "the", "mat"]
기계 번역: ["The", "cat", "is", "on", "the", "mat"]

2-gram (단어 두 개 조합):

참조 번역: ["The cat", "cat is", "is on", "on the", "the mat"], ["There is", "is a", "a cat", "cat on", "on the", "the mat"]
기계 번역: ["The cat", "cat is", "is on", "on the", "the mat"]

Step 2: Precision 계산

1-gram Precision:
- 기계 번역: ["The", "cat", "is", "on", "the", "mat"]
- 참조 번역과 겹치는 1-gram: ["The", "cat", "is", "on", "the", "mat"]
- Precision = 겹치는 1-gram 수 / 기계 번역의 1-gram 수 = 6 / 6 = 1.0
2-gram Precision:
- 기계 번역: ["The cat", "cat is", "is on", "on the", "the mat"]
- 참조 번역과 겹치는 2-gram: ["The cat", "cat is", "is on", "on the", "the mat"]
- Precision = 겹치는 2-gram 수 / 기계 번역의 2-gram 수 = 5 / 5 = 1.0

Step 3: Brevity Penalty (BP) 계산

기계 번역의 길이(단어 수) = 6 참조 번역의 길이(단어 수) = 6 (최단 참조 번역)

BP = 1 (기계 번역 길이가 참조 번역과 같거나 길 경우)

Step 4: BLEU 점수 계산

BLEU 점수는 각 n-gram Precision의 기하 평균에 BP를 곱한 값입니다.
- BLEU = BP * exp((log(1-gram precision) + log(2-gram precision)) / 2)
- BLEU = 1 * exp((log(1.0) + log(1.0)) / 2)
- BLEU = 1 * exp(0)
- BLEU = 1

따라서, 이 예제에서의 BLEU 점수는 1.0이다.

이는 기계 번역이 참조 번역과 완벽히 일치함을 의미한다.

실제 번역 작업에서는 여러 참조 번역과 다양한 n-gram을 사용하여 더 복잡한 BLEU 점수를 계산하게 된다.

'AI' 카테고리의 다른 글

LLM(Large Language Model)이란? (0)	2025.01.22
정확성 지표 Recall@1 이란? (0)	2025.01.22
온디바이스 AI 구현 전략 (0)	2025.01.22
행동 데이터 기반 추천 (0)	2025.01.22
AIOps vs LLMOps vs MLOps (0)	2025.01.22

'AI' Related Articles

Comments

허허의 오늘은 뭐 먹지?

BLEU란? 본문

BLEU란?

예제 설명

Step 1: n-gram 생성

Step 2: Precision 계산

Step 3: Brevity Penalty (BP) 계산

Step 4: BLEU 점수 계산

'AI' 카테고리의 다른 글

티스토리툴바