BLEU — Bilingual Evaluation Understudy，双语评估替补

事实

用 n-gram 重合度评估译文质量的指标。

人话

BLEU 像 KTV 机器打分：歌词对上就加分，少唱一截还要扣分。

常评机器翻译和摘要，出分快但不懂语义好坏。

相关概念

Machine Translation
BLEU 最早用于自动评估机器翻译输出质量。

N-gram LM
BLEU 依赖连续词片段的重合度来计分。

WER
BLEU 和 WER 都是基于表面匹配的自动指标。

LLM-as-a-judge
LLM-as-a-judge 可补足 BLEU 不懂语义的问题。