加载中

Gemini: 我们规模最大、能力最强的 AI 模型

Google Cloud 2023/12/12 10:53

长期以来,我们一直希望从人们理解世界和与世界互动的方式中汲取灵感,建立新一代AI模型。AI给人的感觉将不再仅仅是一款智能软件,它将更加有用且直观,就像是一个专业的帮手或助理。当我们推出Gemini时,我们离这一愿景又近了一步,这是我们迄今为止构建的最强大、最通用的模型。

Gemini 是包括Google Research在内的Google各团队间进行广泛合作的成果。它从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。

Gemini也是我们迄今为止最灵活的模型,从数据中心到移动设备,它能够在所有设备上高效运行。其先进的功能将显著改善开发者和企业客户通过AI构建和扩展的方式。

我们针对三种不同的尺寸对第一代Gemini 1.0进行了优化:

Gemini Ultra—我们规模最大且功能最强大的模型,适用于高度复杂的任务。

Gemini Pro— 我们适用于各种任务的最佳模型。

Gemini Nano— 我们端侧设备上最高效的模型。

先进的性能

我们一直在对Gemini模型进行严格的测试并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中,Gemini Ultra的性能有30项都超过了目前最先进的水平。

Gemini Ultra的得分率为90.0%,是第一个在MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU综合使用了数学、物理、历史、法律、医学和伦理等57个科目,用于测试世界知识和解决问题的能力。

针对MMLU,我们新的基准测试方法让Gemini能够利用其推理能力在回答困难问题之前更加仔细地思考,从而比仅凭第一印象就直接回答问题有显著的改善。

下一代的能力

到目前为止,创建多模态模型的标准方法是分别训练不同模态的组件,然后将它们拼接在一起,以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务,但在概念性更强、更复杂的推理方面却显得力不从心。

我们将Gemini设计为原生多模态,从一开始就在不同模态上进行预训练。然后,我们利用额外的多模态数据对其进行微调,以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理,远远优于现有的多模态模型,其能力几乎各个领域都是最先进的。

1-复杂的推理

Gemini 1.0具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容。

它拥有通过阅读、过滤以及理解信息,从数十万份文件中提取见解的卓越能力,将有助于在从科学到金融等多个领域以数字化速度实现新的突破。

2-理解文本、图像、音频及更多

Gemini 1.0经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。

3-高级编码能力

我们的第一代Gemini可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++ 和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。

更加可靠、可扩展和高效

我们使用由Google设计的TPUs v4和v5e在通过AI优化过的基础设施上对Gemini 1.0进行了大规模训练。我们将其设计为最可靠、可扩展性最强且推理最高效的模型来进行训练。

在TPUs上,Gemini的运行速度明显快于早期规模更小、性能更弱的模型。这些定制设计的AI加速器一直是Google服务数十亿用户的AI赋能产品的核心,如Search、YouTube、Gmail、Google Maps、Google Play和Android。它们还使得世界各地的公司能够经济高效地训练大规模的AI模型。

今天,我们还发布了迄今为止功能最强大、效率最高且可扩展性最强的TPU系统Cloud TPU v5p,旨在为训练前沿AI模型提供支持。新一代TPU将加速Gemini的开发,帮助开发者和企业客户更快地训练大规模生成式AI模型,从而更快推出新产品和新功能。

111111111111.png

Google数据中心内一排Cloud TPU v5p AI加速器超级计算机。

以责任和安全为核心

在Google,我们致力于在所有工作中以大胆而负责任的方式推进AI。在Google AI原则和我们所有产品的强大的安全政策的基础上,我们正在增加新的保护措施,以满足Gemini的多模态能力。在开发的每一个阶段,我们都会考虑潜在的风险,并努力进行测试和降低这些风险。

Gemini拥有迄今为止Google所有AI模型中最全面的安全评估,包括偏见和毒性评估。我们对网络攻击、说服力和自主性等潜在风险领域进行了创新性的研究,并应用了Google Research一流的对抗性测试技术,帮助我们在部署Gemini之前检测关键的安全问题。

让Gemini普及全球

Gemini 1.0现已在多种产品和平台上推出:

Google产品中的Gemini Pro

我们通过Google的产品将Gemini带给数十亿人。

从今天开始,Bard将使用Gemini Pro的微调版本来进行更高级的推理、规划和理解等。这是Bard自推出以来最大的升级。

它将在170多个国家和地区提供英语服务,并且我们计划在未来几个月内扩展不同的模态,并支持新的语言和地区。

我们还在Pixel上使用Gemini。Pixel 8 Pro是首款搭载Gemini Nano的智能手机,它可以支持录音应用中的“总结”等新功能,并在Gboard中推出“智能回复”功能,从WhatsApp开始,明年还将推出更多信息应用。

未来几个月,Gemini将应用于我们更多的产品和服务,如Search、Ads、Chrome和Duet AI。

用Gemini打造您的产品

从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。

Google AI Studio是一款基于网络的免费开发者工具,可使用API密钥快速创建原型并启动应用程序。当需要一个完全托管的AI平台时,Vertex AI允许对Gemini进行定制,提供全面的数据控制,并受益于Google Cloud功能,实现企业安全性、保密性、隐私性以及数据治理和合规性。

Android开发者还可以通过AICore使用我们端侧任务最高效的模型Gemini Nano。AICore是 Android 14中的一项新的系统功能,从Pixel 8 Pro设备开始支持。注册获得AICore预览。

Gemini时代:推动创新未来

这是AI发展过程中的一座重要里程碑,也标志着Google迈进新纪元的开始,我们将继续快速创新,并以负责任的方式不断提升我们模型的能力。

迄今为止,我们已经在Gemini上取得了巨大进展。我们正在努力进一步扩展其未来版本的各种功能,包括在规划和记忆方面取得进展,以及通过增加上下文窗口来处理更多信息并提供更好的响应。

我们对负责任的AI为世界带来的无限可能感到兴奋,我们的创新未来将提高创造力、扩展知识、推动科学发展,并将改变全球数十亿人的生活和工作方式。


更多资源请参考:

1、聚焦Google Cloud热点资讯、客户案例及精彩活动,请访问 Google Cloud 专区

2、Google Cloud 零售行业解决方案


文章来源:亿邦动力

微信
朋友圈

这么好看,分享一下?

朋友圈 分享
+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭