2026年4月5日 IT频道最新文章 IT频道最新文章

代码Agent的苦涩教训!首次拆解上下文检索,直指自动化软件瓶颈

来源:市场资讯

(来源:新智元)

新智元报道

编辑:LRST

【新智元导读】ContextBench首次从「过程」评测代码智能体,不再只看是否修好代码,而是追踪它是否精准找到并真正使用了关键代码片段,揭示了当前模型多读少用、被关键词误导、复杂架构无效等深层问题,推动AI助手向更可靠、可解释的方向进化。

在自动化软件工程(Automated Software Engineering)领域,以SWE-bench为代表的评测基准已成为衡量大语言模型代码能力的事实标准,SWE-bench、SWE-bench Pro、Multi-SWE-bench、SWE-PolyBench等代码库级评测推动了代码智能体快速进步。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()