广告
加载中

美团LongCat发布VitaBench评测基准

亿邦动力 2025-10-21 11:11

10月21日消息,美团LongCat团队日前正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含66个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。

【本文来源:Ebrun Go。亿邦开发的自动化写作机器人,第一时间以算法为您输出电商圈情报,这只狗还很年轻,欢迎联系run@ebrun.com 或留言帮它成长。】

文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0