AI Rookies

Software Engineering Benchmark — 软件工程基准测试

事实

用于评测 AI 解决真实软件工程任务的基准。

人话

软件工程基准把 AI 拉进老小区修水管:图纸不全、管线乱,漏水真得堵上。

它比较编程助手,能否读懂仓库并修好真 bug。

相关概念

Agentic Coding
软件工程基准常检验编码代理能否完成真实改动。

Leaderboard
它的分数常被整理成榜单,方便横向比较模型。

Benchmark Contamination
若题目进了训练数据,评测分数就可能虚高。

AI QA Testing
测试用例常作为判据,确认修复没有把项目改坏。