AI智能体(Agent)已经进入新的阶段了。
之前很多面向C端市场的AI智能体,比如ChatGPT的GPTs、百度的文心智能体、字节的扣子、Kimi+等,都以智能助手定位为主,像是不同角色的AI聊天机器人,虽然有一定实用性,但离贾维斯那种智能程度的个性化助手还很远。
我们希望AI是好用的工具,但又不仅仅是工具,它可以作为一个深度了解我们的合作伙伴,在生活、工作、娱乐等广泛的场景中自主灵活地提供帮助。
根据Sam Altman的AGI层级框架理论,当前的AI系统已经从第一级“聊天机器人”发展到第二级“推理器”,能够进行更复杂的分析和解决问题,比如o1模型就更擅长推理,可以执行高难度的Python任务。而第三级的AI智能体将标志着AI在自主性和决策能力方面的重大飞跃。
这样的AI智能体已经初见雏形了。10月23日,升级版Claude 3.5 Sonnet推出新功能Computer Use,让AI可以像人一样使用计算机,比如查看屏幕、点击按钮和输入文本。
很快,国内AI也迎头赶上。10月24日,智谱发布AutoGLM模型,网页版插件AutoGLM-Web可以模拟用户访问网页、自动完成高级检索、总结与内容生成等。
相对应的,手机端AutoGLM的Phone Use能力,意味着只需要简单的文字/语音指令,AI就可以像人一样操作手机,目前可适配微信、淘宝、美团、小红书、大众点评、12306、携程和高德地图等8款应用。
AutoGLM Web现已通过“智谱清言”插件对外发布,手机端AutoGLM还在内测中,同样可以在智谱清言申请体验,暂时仅支持安卓系统。
说到这,安卓手机的优势已然体现。作为编辑部唯一的安卓用户,我在获得内测资格的第一时间下载了AutoGLM App。
由于AutoGLM需要读取手机屏幕界面信息,在使用前需要用户授予无障碍、悬浮窗、麦克风、录屏等相关权限,并且为了保护用户隐私,每次重新启动App时,都要用户开启无障碍权限。
AutoGLM主页是一个对话页面,点击通话键就可以说出指令,右侧是文字输入,上方可设置常用指令。
我们可以让AutoGLM通过手机导航、网购、点外卖、订酒店车票,也可以在微信上聊天、评论朋友圈、总结公众号文章和小红书笔记、在大众点评写评价等。
需要注意的是,出于内测安全性的考虑,现阶段能力范围以外的App/任务场景将会被直接拒绝,无法尝试执行。
那么AutoGLM到底好不好用,手机+AI真的有这么惊艳吗?来看看我和AutoGLM相伴的一天。
任务一:给领导朋友圈点赞
我刷朋友圈的频次不高,有时错过了刚发布的时机,过了3天才看到领导的朋友圈,这时候点赞感觉好像有点刻意,怕点完领导就来问我稿子怎么样了。
借着测试AI的名头,我打算让AI给领导所有的朋友圈都点赞一遍。
先来试试给最新的朋友圈点赞评论。
语音输入指令后,如果识别转录不准确,有3秒的时间可以手动修改。只见AutoGLM打开微信,进入搜索,输入领导名字缩写首字母,找到多个联系人。这时候AutoGLM给我反馈,需要我确认是给谁点赞。
找对了人,AutoGLM迅速点进领导朋友圈,给第一条昨晚发布的猫猫照片点了赞,和我操作手机的路径一样。
然后我停留在这条朋友圈,点击AutoGLM的悬浮球,又命令它写条评论“猫猫可爱捏”。它在发送前提示我“涉及重要操作,是否继续执行”,我点击继续,评论就发出去了。
整个操作还是比较流畅的OK,虽然没有我手动的速度快,但我想批量操作才是AI解放双手的魅力时刻。
接下来我要求AutoGLM给领导所有的朋友圈点赞,前面操作还是一样,不过这次AutoGLM并没有按照顺序挨个点赞,而是上下滑动浏览后,选择性地挑了5条点赞,然后告诉我任务完成了。
看来目前AutoGLM还不能执行耗时太长的任务,点赞几十条朋友圈可能还是难为AI了。
任务二:叫两位同事来会议室
我的工作其实有很多时间花在沟通交流上,微信、企业微信、飞书、石墨文档等多个应用来回切换。当我坐在会议室,打算找两位同事来讨论的时候,我突然想到可以让AutoGLM试试:“叫荣荣和阿虎来会议室找我。”
AutoGLM没有丝毫犹豫地打开了微信,先找到荣荣,在对话框输入 “你过来会议室一下”,然后请求我的确认再发送,同样的信息也发给了阿虎。
你猜怎么着,很快阿虎就来了会议室。进门看到我拿着手机拍,立马就意识到不对劲,是我在测试AI。
另一位同事荣荣有点警惕性,但不多,她只是不知道我在哪个会议室,所以没来。
学会了吗?下次不用手动@几位同事重复操作了,直接一声令下,AI召唤,使命必达。
任务三:点满足4个要求的外卖
平时我挑外卖可能20分钟都选不出来吃什么,好吃的嫌贵,便宜的不健康,健康的难吃。现在让AI帮我点外卖,一分钟就能下单——
其实我用AutoGLM试了好几次,最开始只有两个要求:“中午想吃面,帮我看一下附近有没有30分钟内能送来的。”
第一次手机定位没有开启,AutoGLM打开美团后还在上一个位置附近搜索“面”。
我手动打开定位后,重新输入一遍指令,这次AutoGLM找对地方了,但在结果排序中却选择了“销量优先”,给我挑了第一家超市的康师傅香辣牛肉面。
第三次,我提出了四个具体的要求:“中午想吃面,找一下附近30分钟内能送到的,然后要不辣的,价格在25元以下。”
有点难度,不过AutoGLM表现不错,在搜索时添加了“炒面”,根据综合排序选择了第一家牛肉面馆,正好是我收藏的店。它上下滑动看了一圈菜单,告诉我有青椒牛肉板面、土豆牛肉盖饭、牛肉炒刀削等等,问我想吃哪一个。
我回答说想吃牛肉炒刀削,但不出意外要出意外了,语音识别不准确,变成了“想吃呢”,我还没来得及修改文字,AutoGLM就跳转了。
此时我的同事们已经手动点好麦当劳了,我就不信AI点不上了,又尝试了一次。
同样的指令,AutoGLM依旧选择了这家牛肉面馆。不同的是,这下直接点了鸡蛋炒拉面,在我同意后,跳转到了支付界面,显示任务完成。
我手动点了支付,28分钟后,一碗AI帮我点的炒拉面已经拿到手了,真香。
用AI点外卖的过程比较曲折,尤其是在指令不太明确的时候。
我想很多用户的习惯可能和我一样,不是一次性说完所有需求,而是先说“点外卖”,然后提出“减脂期有什么推荐”“想吃小炒菜了”诸如此类的问题,AI需要在多次交互中理解用户意图,这方面能力还有待提升。
任务四:写大众点评、淘宝复购
一般我写评价的原则是真的好吃我才力荐,真的难吃我必吐槽。上次在公司附近吃的一家泰国菜不错,当时没空写评价,这回我找到AutoGLM帮帮忙,写100字以上的好评。
店名“泰狮”被AutoGLM语音识别成“泰师”,我想应该能搜到就没修改,结果它笨笨的,明明搜索结果第一个就是正确答案,还是两眼一抹黑,说没找到店铺,写不了好评。
我猜这和点外卖类似,都需要反复唤起明确需求,有一点点麻烦。
任务五:公众号文章总结
AI总结文章内容的功能已经很常见了,不过一般都需要手动复制文章链接,或者使用浏览器插件在线总结。
手机端AI替我阅读还是第一次使用,AutoGLM能按照指令,准确搜索到“AI新榜”公众号最新一篇文章,大概花了15秒总结了这篇6000字的文章。可能是因为文章比较长,第一次总结字数比较多,没生成完就突然中止了,第二次尝试变短了一些,就能正常显示了。
AutoGLM可以一次总结多篇文章内容,还能显示阅读量和点赞数。能不能同时总结多个公众号的内容呢?我测了一下,不行,就像我不能同时浏览三个公众号主页,AI模拟我的操作也不行。
等等,我突然发现三折叠手机+AI的用法了,一个屏幕不够AI阅读的,我可以让AI同时打开三个窗口看,还减少了退出跳转可能出现的问题。
任务六:小红书找菜谱
说到小红书,的确是我的高频使用App,AutoGLM现在可以帮我在小红书点赞、收藏、评论,但请问这些都让AI做了,那我刷小红书图啥呢?
我猜想也许视障群体可以用AutoGLM配合无障碍功能更方便地使用小红书,但我不知道实际体验怎么样,有用过的朋友欢迎在评论区分享。
如果有什么需要AI替我刷小红书的场景,搜菜谱算是一个,尤其在备菜的时候手忙脚乱,经常忘了下一步怎么做。比如我可以让AutoGLM赶紧搜一下糖醋排骨的做法,它很贴心地为我挑选了“最简单的做法”,自动播放教程视频。
任务七:高德地图打车
AutoGLM还支持用高德地图导航、打车等功能,好消息,我一直用的就是高德地图;坏消息,我加班打车从企业微信下单。
测都测了,给大家一测到底。我试着让AutoGLM帮我打车到家附近的商场,输入的指令是“打车到月星环球港”,奇怪的是,它显示我输入中含有不恰当内容。不懂,我改成了附近的金沙江路地铁站才成功的,AutoGLM能理解我是想从现在这个位置打车,选好了终点就等我手动确认了。
一点建议
我用AutoGLM体验测试了这么多任务,总的来说,AI替我操作手机还是能节省一些时间的,尤其在自己专注于一件事、不想打开手机分心的时候,重复繁琐的任务就可以交给AI去执行。
但目前AI智能体在Computer Use或Phone Use的能力上都还在发展初期,相对于我们手动操作来说,未必效率更高,比如语音识别有时不灵敏、不准确,且执行速度较慢。
过于复杂的任务,AI也难以一次完成,需要再提升技术能力以及用户多次交互。比如我尝试过预制朋友圈,“选择最近的一张照片发到朋友圈,并添加现在的位置,但不要发布,退出,保存为草稿”,AutoGLM不会退出,还是让我确认是否发布。
除了AutoGLM支持的8个常用App,我希望AI能操作的应用范围能更加广泛,比如加入音乐App,“播放适合工作的古典乐歌单”,AI会自动打开QQ音乐等App搜索歌单进行播放;或者在路上听到一段喜欢的旋律,直接说“这是什么歌,收藏一下”,AI会调用听歌识曲功能,标记红心。
征集了一下同事需求,她们还希望AI帮忙完成手游的日常打卡任务,我也投一票@智谱。
可以看到,手机+AI的应用探索越来越深入了,不仅是微软、谷歌等AI科技公司,很多手机厂商也在努力把大模型装进手机系统,推出了类似的AI功能。比如荣耀最新的Magic7,可以让YOYO智能体帮忙点咖啡。苹果也计划在未来进一步集成ChatGPT服务到Siri中。
OpenAI首席产品官Kevin Weil近日预测,AI智能体将在2025年“成为主流”。
对此,有人质疑说AI智能体没有应用场景,因为不敢让AI代替自己发消息、操作手机或电脑,担心有隐私安全风险。我同意这点,我相信技术能力会逐步迭代提升,但用户的使用习惯和安全信任问题需要时间来适应,更需要政府、法律监管以及行业自律的共同努力。
注:文/卷毛,文章来源:AI新榜,本文为作者独立观点,不代表亿邦动力立场。
文章来源:AI新榜