代码Agent的苦涩教训！首次拆解上下文检索，直指自动化软件瓶颈_SWE-bench_评测

来源：市场资讯

（来源：新智元）

新智元报道

编辑：LRST

【新智元导读】ContextBench首次从「过程」评测代码智能体，不再只看是否修好代码，而是追踪它是否精准找到并真正使用了关键代码片段，揭示了当前模型多读少用、被关键词误导、复杂架构无效等深层问题，推动AI助手向更可靠、可解释的方向进化。

在自动化软件工程（Automated Software Engineering）领域，以SWE-bench为代表的评测基准已成为衡量大语言模型代码能力的事实标准，SWE-bench、SWE-bench Pro、Multi-SWE-bench、SWE-PolyBench等代码库级评测推动了代码智能体快速进步。返回搜狐，查看更多

新浪财经

代码Agent的苦涩教训！首次拆解上下文检索，直指自动化软件瓶颈