【亿邦原创】近日,大模型独角兽阶跃星辰已于近日完成B轮融资,总融资金额达数亿美元。此次融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。据了解,这笔融资将用于继续投入基础模型研发,强化多模态和复杂推理能力,并通过产品和生态加大覆盖C端应用场景,提供丰富的用户体验。
阶跃星辰于2023年4月在上海市徐汇区成立,由微软前全球副总裁姜大昕博士创办,具有极高的人才密度,ResNet作者之一的AI科学家张祥雨、拥有丰富大规模集群与系统建设经验的AI系统专家朱亦博等AI大牛都先后加入阶跃星辰。目前公司研发人员占比80%以上。
在国内大模型「六小强」中,阶跃星辰是最为低调的一家。过去10个月阶跃星辰一共发布了11个自研基座模型,包含千亿参数语言大模型Step-1、万亿参数语言大模型Step-2、图像理解大模型Step-1V、图像生成大模型Step-1X、多模态理解大模型Step-1.5V、视频生成大模型Step-Video、语音复刻和生成大模型Step-tts-mini、语音识别大模型Step-Asr,以及近期发布的国内首个千亿参数端到端语音大模型Step-1o Audio等。其中,Step-2是国内首个由大模型创业公司发布的万亿参数模型。
根据阶跃星辰创始人、CEO姜大昕的规划,阶跃星辰实现AGI的技术路线是:“单模态 — 多模态 — 多模理解和生成的统一 — 世界模型 —AGI”。
首先,要做到基座模型能力国内领先,主打「万亿+多模态」。其次, 发力「超级模型」+「超级应用」。
除了大力研发及做模型,阶跃星辰还战略聚焦“超级模型+超级应用”,通过自研+生态合作,围绕基座大模型的能力为C端用户打造创新体验。
阶跃星辰推出的智能助手「跃问」,支持多模态交互,可帮助用户解决工作和生活场景下的各种问题,更好地进行内容创作。跃问的多模态智能视觉搜索功能「拍照问」,是国内首个集成到iPhone 16相机控制键中的大模型应用产品能力;此外,在金融财经、内容创作和智能终端等领域,阶跃星辰通过跟合作伙伴达成深度合作,共同在垂直场景为用户打造创新的C端应用体验。
公开资料显示,在内容创作领域,阶跃星辰先后与中文在线、中国知网达成战略合作,探索如何利用大模型技术激发网络文学小说创作、大众知识服务场景的生产和需求;而在智能终端领域,今年手机厂商已经纷纷推出「AI手机」,试图重构应用开发生态和多模态、Agent等全新的用户交互体验。阶跃星辰目前是荣耀和OPPO等头部手机厂商的大模型技术合作方。
越来越多的开发者正在基于阶跃星辰的多模态大模型创造更丰富的C端应用功能和体验,通过AI原生应用挖掘并满足新的消费场景。数据显示,2024年下半年阶跃星辰多模态API的调用量增长了超45倍。
当前大模型投资市场环境竞争激烈。一位持续跟进大模型融资的投资人表示,能在此时敲定新一轮融资,并获得多家不同属性的知名和专业投资机构的青睐,说明资本市场看好阶跃星辰基座模型的技术领先性、产品差异化和商业化潜力,均衡的股东结构也会让阶跃未来有更大发挥空间。
附Step系列通用大模型介绍:
语言大模型
•Step-2万亿参数语言大模型:采用MoE架构,聚焦深度智能的探索,这是国内首个由创业公司发布的万亿参数语言大模型。Step-2在语言生成上对细节有极强的控制力,模型能够更好地理解和遵循人类指令。2024年 11月,在「最难LLM评测榜单」LiveBench上,阶跃Step-2万亿参数大模型拿下中国第一,是唯一进入榜单前十名的中国语言大模型,位列全球第五。
•Step-1千亿参数语言大模型:两个月一次性训练成功,已完成充分打磨,在逻辑推理、中文知识、英文知识、数学、代码方面的性能全面超越GPT-3.5。
•Step-1-flash极速版大模型:能够处理通用领域的任务,上下文长度为8K。在首字延迟和输出速度上表现优异。
多模态大模型
•Step-1V多模态大模型:性能比肩GPT-4V,可以精准描述和理解图像中的文字、数据、图表等信息,并根据图像信息实现内容创作、逻辑推理、数据分析等多项任务。2024年 11月,LMSYS Org发布了大模型竞技场Chatbot Arena最新榜单,Step-1V上榜,位列视觉领域中国大模型第一,总分跟Gemini-1.5-Flash-8B-Exp-0827持平,超过国内所有大模型公司。
•Step-1.5V多模态大模型:在Step-1V的基础上进行了迭代,具备更强大的多模态理解能力,实现了从图像理解到视频理解的跨越升级。
•Step-1.5v-turbo视频理解模型:具备出色的视频理解能力,能够准确识别视频中的物体、人物和环境。此外,它还能够「读懂空气」,理解视频的整体氛围和人物情绪。最重要的是,它能「听懂人话」,具备突出的指令跟随能力,维持稳定的格式化输出。
•Step-1X图像生成大模型:具有强大语义理解与图像创意实现能力,可用于各种图像创作和设计任务。
•Step-Video视频生成大模型:支持文生视频,可生成1080P长达10s的高清视频,在语义理解、指令遵循、运动、中国风美学生成上效果突出。
•Step-tts-mini语音复刻和生成大模型 :只需上传5s音频,step-tts-mini就够精准捕捉并复现个体独特的音色特征,并将情绪真实地传达出来,为用户提供更加自然、生动的语音生成与音色复刻体验。
•Step-asr语音识别大模型 :能识别不同的口音并将语音精准转化为文字,满足用户多场景需求。
•Step-1o Audio语音大模型:国内首个千亿参数端到端语音大模型,支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,提供超自然、高智商、高情商的便捷交互体验。
亿邦持续追踪报道该情报,如想了解更多与本文相关信息,请扫码关注作者微信。
文章来源:亿邦动力