Software Engineering Benchmark — 软件工程基准测试

事实

用于评测 AI 解决真实软件工程任务的基准。

人话

软件工程基准把 AI 拉进老小区修水管：图纸不全、管线乱，漏水真得堵上。

它比较编程助手，能否读懂仓库并修好真 bug。

相关概念

Agentic Coding
软件工程基准常检验编码代理能否完成真实改动。

Leaderboard
它的分数常被整理成榜单，方便横向比较模型。

Benchmark Contamination
若题目进了训练数据，评测分数就可能虚高。

AI QA Testing
测试用例常作为判据，确认修复没有把项目改坏。