用 n-gram 重合度评估译文质量的指标。
BLEU 像 KTV 机器打分:歌词对上就加分,少唱一截还要扣分。
常评机器翻译和摘要,出分快但不懂语义好坏。
Machine TranslationBLEU 最早用于自动评估机器翻译输出质量。
N-gram LMBLEU 依赖连续词片段的重合度来计分。
WERBLEU 和 WER 都是基于表面匹配的自动指标。
LLM-as-a-judgeLLM-as-a-judge 可补足 BLEU 不懂语义的问题。