CMU 研究人员推出 WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了四个真实的网络应用程序,用于训练自主代理执行特定任务。为了模拟人类问题解决,WebArena 还嵌入了工具和知识资源作为独立的网站。WebArena 引入了一个基准测试,将高级逼真自然语言命令解释为具体的基于 Web 的交互。
项目地址:https://github.com/web-arena-x/webarena
研究人员使用自然语言命令评估了多个代理的性能,并发现目前的大型语言模型在处理复杂任务时存在问题。因此,他们认为这些模型缺乏主动探索和错误恢复的关键能力。整个研究工作已在 Paper, Project Page 和 Github 上公开。
产品特点:
- 提供逼真的 Web 环境,模拟真实世界网站的功能和数据
- 嵌入工具和知识资源,使智能体能够模拟人类问题解决能力
- 提供基准测试,测试高级逼真自然语言命令的解释和交互能力
- 提供已注释程序,验证任务功能的正确性
相关标签: CMU 研究人员推出 WebArena 为实用代理提供真实可复现的网络环境
评论列表 (条)