8月25日上午10时,百度大脑语言与知识技术峰会在线上召开。
会议主要分享了百度语言与知识技术的十年发展历程、最新突破、产品新发布以及未来挑战。
可以看到,百度在自然语言(NLP)上下了一盘大棋,且野心很大。
百度为什么布局NLP?因为语言与知识技术是人工智能认知能力的核心。换句话说,NLP是“人工智能皇冠上的明珠”。
众所周知,人工智能是近几年最热门的话题,也是未来的大势所趋:得人工智能者得天下。但让机器拥有人一样的心智,越来越趋近“智能”,还是道阻且长。这期间存在重重沟通障碍,其中,语言不通是核心障碍。
语言是意义的基石和载体:正如老话所说,语言命名万物。语言不在了,人类赖以生存的整个意义世界和体系瞬间崩塌殆尽。所以,人工智能想要“智”,必须掌握人类的语言。
然而人类发展到今天,语言博大精深。我们早就习惯了用同一句话表达不同的意思:不同语境下,相同的语句可能有截然不同的意义。但对于并不具有人类心智机器来说,理解这些歧义难上加难。
在早期,最先出现的语言处理系统SHRDLU等,都具有局限性:当处于“真空环境”,用有限的词汇对话、处理时,可以正常运行,然而,当把这个系统应用于充斥着不确定性的现实世界时,它们并不能胜任工作。
比如,“我们把青草给兔子,因为它们饿了”和“我们把青草给兔子,因为它们熟透了”有同样的结构。但是代词“它们”在第一句中指的是“兔子”,在第二句中指的是“青草”。如果不了解动物和植物的属性,无法区分。
所以,语言是人工智能路上的最大障碍。也正因如此,如果解决了人和机器的沟通障碍,也就掌握了打开人机交互通道的钥匙。
因此,不难理解百度等巨头在NLP上的加码:事实上,NLP不仅仅是帮助计算机学习人类的语言,更是在帮助计算机掌握人的心智——了解人类的思维体系和沟通方式。
所以,从2010年,百度成立自然语言处理部开始,一直不断加码。比如,数据匮乏、算力不足历来是语言与知识技术研发中面临的瓶颈。
为突破瓶颈,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——千言,解决数据稀缺问题。
千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。
不止如此。正如百度CTO王海峰的回顾,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势。”
可以看到,百度NLP不仅在技术突破上成就斐然,在产品落地上也做出了一定成绩。
01
百度技术突破
百度NLP的成绩怎么样?
可以看到,十年来,百度大脑语言与知识技术成果颇丰:获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。
同时,技术不断突破创新的同时,也在产品上创新探索,具有可落地性,为具体产业赋能。
而此次会议,王海峰全面分享了百度语言与知识技术完整布局和最新成果。
首先,百度打造了世界上最大规模知识图谱。
知识图谱是机器认知世界的重要基础:相当于教幼童时代的机器“看图识字”。而百度拥有超过50亿实体和5500亿事实,并在不断演进和更新。如今,百度知识图谱应用于各行各业,每天的调用次数超过400亿次。
其次,在融入知识的基础上,语言理解能力不断增强。
2019年3月,百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,曾登顶全球权威数据集GLUE榜单,首次突破90分大关,刷新榜单历史。基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。
不止如此,语言生成是语言与知识技术中的重要组成部分。
基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。
除此之外,百度在应用系统层面,对话系统和机器翻译等成绩卓著。
百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO等,并推出智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。
如今,百度翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
同时,这些技术以平台化的方式输出,通过赋能,持续提升产业智能化水平。
02
百度NLP落地应用
如果一项技术不能落地,那它就只能居于空中楼阁。百度NLP显然不是这样的海市蜃楼:相反,它积极落地,并已生根开花。
正如百度方面表示:“我们一直致力于将语言与知识技术凝聚成一系列技术平台和产品,在应用中产生大量价值,为广大开发者和产业实践者提供以语言与知识技术为核心驱动的系列产品。”
在具体的场景中,NLP有具体的应用。
比如,百度推出的语义理解技术与平台文心,基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的NLP算法集、端到端开发套件和平台,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级NLP模型。文心经过了大量真实应用场景的淬炼,具备优秀的工业级落地实力。
再比如,百度全新发布的智能文档分析平台TextMind,基于OCR、NLP技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。
与此同时,百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体人更快、更好地创作,切中媒体人的“痛点”。
智能对话定制与服务平台UNIT升级,有更智能的任务式对话理解、极致便捷的表格问答和融合通用的新对话引擎。此次UNIT全新升级的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。
全新发布的AI同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。
吴甜现场展示了如何只用一台电脑和一部手机快速搭建一套同传服务,只需点点鼠标、打几个字,就能快速获得专业的同传服务。
吴华还发布了百度语言与知识技术算力共享计划,通过百度AI STUDIO平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。
正如百度技术委员会主席吴华表示:
“未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。我们计划在未来3年,面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”
注:文/科技唆麻,公众号:科技唆麻(ID:techsuoma),本文为作者独立观点,不代表亿邦动力网立场。
文章来源:科技唆麻