用于评测 AI 解决真实软件工程任务的基准。
软件工程基准把 AI 拉进老小区修水管:图纸不全、管线乱,漏水真得堵上。
它比较编程助手,能否读懂仓库并修好真 bug。
Agentic Coding软件工程基准常检验编码代理能否完成真实改动。
Leaderboard它的分数常被整理成榜单,方便横向比较模型。
Benchmark Contamination若题目进了训练数据,评测分数就可能虚高。
AI QA Testing测试用例常作为判据,确认修复没有把项目改坏。