广告
加载中

多模态大模型这条赛道 阿里云开始拉速度了

张帅 2025-12-23 08:47
张帅 2025/12/23 08:47

邦小白快读

EN
全文速览

文章重点介绍了阿里云在多模态大模型领域的快速进展和实用信息。

1. 万相2.6系列模型发布,支持角色扮演、音画同步、多镜头生成和声音驱动等功能,是国内首个支持角色扮演的视频模型,用户可体验Sora2级别的能力。

2. 模型已广泛应用于AI漫剧、广告设计和短视频创作等场景,提供多模态视觉创作能力。

3. 阿里云开源了Qwen系列模型,全球下载量超7亿,开发者可免费使用覆盖多种参数尺寸和语言的模型。

4. 实操案例包括智能硬件如雷鸟V3 AI眼镜识别准确率达98%,听力熊V8交互频次翻倍,用户可直接应用提升效率。

文章揭示了阿里云模型对品牌营销和产品研发的启示。

1. 品牌营销方面,多模态模型在广告设计中的应用提升创意效率,如创维电视实现99%意图识别精度的深度内容搜索,助力品牌精准触达用户。

2. 产品研发方面,消费趋势显示多模态输入输出需求增长,品牌可研发互动产品,如雷鸟眼镜融合Qwen-VL提升用户体验。

3. 用户行为观察显示模型在短视频创作和AI漫剧领域普及,品牌可借势开发多模态内容。

4. 合作机会:品牌商可借助阿里云开源模型定制解决方案,降低研发成本,提升品牌竞争力。

文章提供了阿里云模型带来的市场机会和可操作策略。

1. 增长市场:多模态模型在自动驾驶、具身智能和智能硬件领域应用增长,如比亚迪等车企采用Qwen-VL模型提升数据标注效率。

2. 机会提示:卖家可参与开源生态,利用Qwen模型开发应用,或合作开发新商业模式如AI漫剧和广告设计服务。

3. 风险提示:模型依赖阿里云平台,需评估平台稳定性;同时,模型寡头化风险存在,但开源降低门槛。

4. 合作方式:卖家可借助扶持政策如开源模型免费使用,提升业务效率,例如在金融场景压缩定损流程至分钟级。

文章强调了阿里云模型对工厂生产和数字化的实用价值。

1. 产品生产需求:多模态模型可用于产品原型生成和测试,如车企基于Qwen-VL定制世界模型,提升设计精度。

2. 商业机会:工厂可集成AI模型降低生产成本,如Qwen-VL模型在数据标注阶段提升效率50%以上,减少标注和迭代成本。

3. 推进数字化启示:工厂可借力模型处理海量图像数据,推进电商和数字化,如元戎等厂商落地方案,优化生产流程。

4. 案例启示:具身智能企业合作阿里云加速工程化落地,工厂可借鉴提升自动化水平。

文章分析了行业趋势和阿里云提供的解决方案。

1. 行业发展趋势:多模态模型成为产业主流,调用量大规模增长,服务商需关注相关技术如视频生成和语音理解。

2. 新技术:阿里云万相模型集成了多模态联合建模等创新,支持文生视频、图生视频等10多种能力,服务商可应用提升服务。

3. 客户痛点:传统CV模型语义理解弱、泛化差,阿里云Qwen-VL模型提升检索准确率50%以上,解决效率低下问题。

4. 解决方案:服务商可基于开源模型如Qwen系列提供定制服务,如在金融场景提升材料解析效率70%,满足多样化需求。

文章阐述了阿里云平台策略的启示和运营要点。

1. 商业对平台的需求:开发者需要多样模型,阿里云提供全尺寸开源覆盖0.5B至480B参数,满足不同部署要求。

2. 平台的最新做法:三位一体战略包括闭源模型领先、全开源降低应用门槛、体系化工程落地产业,如开源300多款模型吸引生态。

3. 平台招商:通过开源模型下载量超7亿,全球开发者依赖Qwen系列,平台可借鉴吸引合作伙伴。

4. 运营管理:体系化AI工程确保模型稳定,涉及数据标注、算力调度等全链路,平台需优化风向规避如模型寡头化风险。

文章探讨了产业动向和政策启示等研究价值点。

1. 产业新动向:多模态模型竞争加剧,阿里云万相模型跻身全球前三,引发模型马太效应。

2. 新问题:模型寡头化风险存在,但阿里开源降低门槛,促进中小玩家参与底层开发。

3. 政策法规建议:开源模型可能影响全球技术平衡,如美国专家担忧削弱技术领导力,启示政策需支持创新。

4. 商业模式:阿里云闭源-开源-落地模式可借鉴,闭源模型作为核心引擎,开源模型下载量超Llama系列,形成高粘性网络效应。

返回默认

声明:快读内容全程由AI生成,请注意甄别信息。如您发现问题,请发送邮件至 run@ebrun.com 。

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

Quick Summary

The article highlights Alibaba Cloud's rapid progress in multimodal large models and practical applications.

1. The Wanxiang 2.6 series model has been released, supporting role-playing, audio-visual synchronization, multi-shot generation, and voice-driven features. It is China's first video model enabling role-play, offering users Sora2-level capabilities.

2. The model is already widely used in AI-generated comics, advertising design, and short video creation, providing versatile multimodal visual creation tools.

3. Alibaba Cloud has open-sourced the Qwen series, with over 700 million global downloads, allowing developers free access to models of various parameter sizes and languages.

4. Practical cases include smart hardware like the RayNeo V3 AI glasses achieving 98% recognition accuracy and the Listening Bear V8 doubling interaction frequency, enabling users to directly apply these tools to improve efficiency.

The article reveals insights for brands in marketing and product development using Alibaba Cloud's models.

1. In marketing, multimodal models enhance creative efficiency in advertising design. For example, Skyworth TV achieved 99% intent recognition accuracy in deep content search, helping brands target users more precisely.

2. For product R&D, consumer trends show growing demand for multimodal input/output. Brands can develop interactive products, such as RayNeo glasses integrating Qwen-VL to improve user experience.

3. User behavior indicates widespread use of models in short videos and AI comics, allowing brands to leverage multimodal content creation.

4. Collaboration opportunities: Brands can use Alibaba Cloud's open-source models to customize solutions, reducing R&D costs and boosting competitiveness.

The article outlines market opportunities and actionable strategies enabled by Alibaba Cloud's models.

1. Growth markets: Multimodal models are expanding in autonomous driving, embodied intelligence, and smart hardware. For instance, BYD and other automakers use Qwen-VL to improve data labeling efficiency.

2. Opportunities: Sellers can engage in the open-source ecosystem, develop applications with Qwen models, or explore new business models like AI comics and ad design services.

3. Risks: Dependence on Alibaba Cloud's platform requires stability assessment. While model oligopoly risks exist, open-source lowers entry barriers.

4. Collaboration methods: Sellers can leverage support policies like free open-source model usage to enhance efficiency, such as compressing financial claim processes to minutes.

The article emphasizes the practical value of Alibaba Cloud's models for factory production and digitization.

1. Production needs: Multimodal models aid in prototype generation and testing. For example, automakers use Qwen-VL to customize world models, improving design accuracy.

2. Business opportunities: Factories can integrate AI models to cut costs. Qwen-VL boosts data labeling efficiency by over 50%, reducing annotation and iteration expenses.

3. Digitization insights: Models help process large-scale image data, advancing e-commerce and digitization. Companies like Yuanrong implement solutions to optimize production workflows.

4. Case studies: Embodied intelligence firms partner with Alibaba Cloud to accelerate engineering deployment, offering factories examples to enhance automation.

The article analyzes industry trends and solutions offered by Alibaba Cloud.

1. Industry trends: Multimodal models are becoming mainstream, with surging usage. Service providers should focus on technologies like video generation and speech understanding.

2. New technologies: Alibaba Cloud's Wanxiang model integrates innovations like multimodal joint modeling, supporting over 10 capabilities including text-to-video and image-to-video, enabling service enhancements.

3. Customer pain points: Traditional CV models suffer from weak semantic understanding and poor generalization. Qwen-VL improves retrieval accuracy by over 50%, addressing inefficiencies.

4. Solutions: Providers can use open-source models like Qwen for customized services, such as boosting document parsing efficiency by 70% in financial scenarios to meet diverse needs.

The article explains Alibaba Cloud's platform strategy insights and operational key points.

1. Business demands: Developers need diverse models. Alibaba Cloud offers full-scale open-source coverage from 0.5B to 480B parameters, meeting various deployment needs.

2. Platform strategies: A three-pronged approach includes leading in proprietary models, fully open-sourcing to lower barriers, and systematic industrial deployment, e.g., open-sourcing 300+ models to attract ecosystems.

3. Partner attraction: With over 700 million open-source model downloads, global developers rely on the Qwen series, providing a model for platforms to attract collaborators.

4. Operations management: Systematic AI engineering ensures model stability, covering full-chain aspects like data labeling and compute scheduling. Platforms must optimize risks such as model oligopoly.

The article explores industry movements and policy implications with research value.

1. Industry trends: Multimodal model competition intensifies. Alibaba Cloud's Wanxiang ranks among the top three globally, accelerating the Matthew effect in models.

2. New issues: Model oligopoly risks exist, but Alibaba's open-source approach lowers barriers, enabling smaller players to engage in foundational development.

3. Policy suggestions: Open-source models may shift global tech balances, with U.S. experts warning of weakened leadership, highlighting the need for policies that support innovation.

4. Business models: Alibaba Cloud's proprietary-open-source-deployment model is replicable. Proprietary models act as core engines, while open-source downloads exceed Llama series, creating high-stickiness network effects.

Disclaimer: The "Quick Summary" content is entirely generated by AI. Please exercise discretion when interpreting the information. For issues or corrections, please email run@ebrun.com .

I am a Brand Seller Factory Service Provider Marketplace Seller Researcher Read it again.

万相2.6系列模型的发布,再度印证了一件事,只要阿里云提提速,全球大模型产业就会上一个强度。

阿里云将大模型战火烧到了多模态领域,这在行业预期之内。今年以来,多模态模型的调用量大规模增长,因为随着大模型的加速落地,行业很快发现,文本能解决的问题有限,现实世界天然就是多模态的输入输出形态,多模态模型预计成为未来一段时间产业竞争的主线。

行业预期之外的是,阿里云在多模态领域的追赶和落地效率。以往阿里云并不以多模态模型见长,不过就像谷歌联合创始人谢尔盖・布林所言,真正解决问题的是算法改进,过去十年里,算法层面的进步,其实跑得比算力提升还快。

阿里目前没有披露整体算法的技术细节,有据可查的是,通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。

在AI军备竞赛中,新模型往往只是阿里云的冲锋号,更值得关注的,是阿里云三位一体的“打击”能力:首先拿出世界第一梯队级别的闭源模型,掌握技术和商业的主动权,然后做该领域的全开源,应用门槛大幅降低,应用生态加速繁荣,最后是让AI落地到产业,阿里云提供体系化的工程能力。

大模型,阿里云为何这么“卷”

在所有关于AI的叙事逻辑中,模型都是原点,但是,对于要不要自研模型,纵使头部厂商也有分歧。

例如早期OpenAI和微软的合作,凭借对OpenAI的前瞻性投资,微软拿到了GPT大模型的优先使用权,但OpenAI并不满足于成为微软体系内的模型供应商,双方早期紧密的绑定关系早已出现裂痕。

AWS信奉模型自由,“没有一个大模型能满足所有客户”,于是AWS引入各大模型托管到自家平台,然而,顶级模型具有稀缺性,要么在竞争对手那,要么模型企业倾向于自己提供服务,用户无法获得最好的模型体验。

和微软、AWS不同,阿里云坚定地走上了另一条路,坚定自研大模型,寻根究底的话,在于不同厂商对模型的认知不同。如果把模型视作最根本的核心竞争力,那么就必然要掌握在自己手中,反之则可以通过合作等方式来补足。

阿里云的观点是,未来模型将运行在所有计算设备中,并具备可持久记忆,端云联动的运行状态,甚至可以随时更新参数,自我迭代,类似今天的OS运行在各种环境之中。

对于一个操作系统级别的新技术,阿里巴巴理所当然地选择举全公司之力投入。随着时间的推移,微软和亚马逊也纷纷加大自研模型的投入,不再过度依赖其他模型厂商的供应,这也从侧面印证了阿里云早期战略预判的正确性。

回到模型本身,自研领先的闭源模型,对云厂商而言不仅是技术的象征,更是一种战略级资源。通义千问旗舰模型Qwen3-Max性能超过GPT5、Claude Opus 4等,跻身全球前三,顶尖闭源模型吸引了大量开发者、企业和合作伙伴在其上构建应用,形成高粘性网络效应,阿里云得以在产业链上占据主动权。

再以万相2.6系列为例,国内用户也能使用到Sora2级别的能力,其不仅是全球功能最全的视频生成模型,该系列模型面向专业影视制作和图像创作场景进行了全面升级,也是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能。

模型领域有突出的马太效应,一步领先,步步领先。万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域。

自研领先闭源模型,是云厂商从技术能力到商业生态、从竞争壁垒到战略主动权的核心引擎,也是未来竞争格局中最关键的筹码。

阿里开源的意义,还是被低估了

中国厂商素来在开源技术圈声量不大,拿得多贡献得少,到了大模型时代,阿里云成为国内最早开源自研大模型的“大厂”,也是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商,业界率先实现“全尺寸、全模态”的全面开源。

阿里内部达成共识,通义千问选择开放路线,是为了打造AI时代的Android。在LLM时代,开源模型创造的价值和能渗透的场景,会远远大于闭源模型。

海外企业反而开始秘而不宣,不论是OpenAI、Anthropic这些大模型厂商,还是谷歌等巨头,甚至一开始走开源路线的Meta,都走上了闭源路线。

从2023年至今,阿里通义团队已开源300多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列。

「全模态」指的是开源文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等;「全尺寸」指的是开源模型覆盖0.5B、0.6B、1.5B、1.7B、3B、4B、7B、8B、14B、30B、32B、72B、110B、235B、480B等参数,同时Qwen支持中、英、法、德、西、俄、日、韩、越、阿拉伯等119种语言及方言。

阿里提供了各种场景下的更好模型,这是由市场决定的,客户需求分散,行业场景千差万别,预算、时延、部署要求完全不同,某种程度上和AWS“没有一个大模型能满足所有客户”的理念类似,但是阿里云优先由自己来提供大语言模型、多模态模型,以及不同尺寸、不同成本、不同部署形态的模型组合。

对于全球开发者而言,Qwen开源模型已经成为依赖,美国AI专家Nathan Lambert发出“硅谷建立在Qwen之上”的惊叹,谷歌前CEO施密特甚至表示担心这将削弱美国技术领导力,因为大多数国家和公司会选择开源的中国开源大模型。

截至目前,通义千问Qwen衍生模型数量已突破18万,远超Meta Llama系列模型;通义千问Qwen在全球下载量超7亿,据彭博统计,截至2025年10月,千问Qwen下载量也已超越Llama模型,通义成为事实意义上的全球第一AI开源模型。

开源对于阿里云也大有裨益,作为AI和云计算市场的追赶者,开源模型让更多企业和开发者参与,也让阿里云成为底层规范和实践的参考,吸引更多的用户使用阿里云生态,这是一个双赢局面。

在一个高度依赖算力、数据和资本的赛道里,大模型天然有走向“寡头化”的风险。少数公司掌握最强模型、最先进算力,其余玩家只能围绕API做应用,行业创新的天花板被提前锁死。

阿里的开源,在某种程度上拉低了这条门槛。它让更多开发者、中小企业和行业玩家,有机会直接参与到底层模型与工程体系中,而不是永远停留在调用者的位置。

体系化AI工程,大模型深入产业场景

过去一年,阿里云AI算力增长超5倍,AI存力增长4倍多,头部车企正在基于Qwen-VL定制了自己的VLA和世界模型,数十家具身智能企业在和通义进行合作,甚至连竞争对手在进行具身领域的技术探索中,也使用了Qwen系列模型。

这说明,阿里云的能力边界早已超出模型之外,有了顶级闭源模型作标杆,开源模型实现能力下沉和生态繁荣,阿里云让前沿模型转化为产业价值的关键,就在于体系化的AI服务。

过去两年中,产业链厂商都在加速推出各类工具和服务,以支持生成式AI的完整工程化流水线,不再局限于对生成式AI模型进行简单的提示(prompt)调用,而是蔓延到数据准备、模型训练/精调、模型管理、评估、观测等模型全生命周期工具。

以时下火热的自动驾驶和具身智能为例,需要多模态模型端到端的服务。其中,汽车自动驾驶需处理采集车与量产车回传的海量图像数据,传统CV小模型的语义理解弱、泛化差、准确率低。

采用通义千问多模态大模型Qwen3-VL后,可一次性为图像打上数百个语义标签,泛化能力与检索准确率较传统方案提升50%以上,车企既可直接调用其云端服务处理难例场景,又可依托其开源开放特性自主微调模型,大幅降低标注与迭代成本。该方案已落地比亚迪、卓驭、元戎等厂商。

在具身智能研发中,Qwen-VL在云端数据标注阶段,可显著提升标注效率与数据质量,在端侧,面向Vision-Language-Action(VLA)架构的具身智能企业基于Qwen-VL开展后训练,加速了具身智能系统的工程化落地与高效迭代。

工程化能力的优势就在于它将模型的能力转化为可复用、可扩展、可落地的业务工具,极大降低了标注成本、训练成本和迭代时间,同时保证了系统的稳定性与可控性。

智能硬件也是多模态模型一个充满想象空间的市场,雷鸟V3 AI眼镜融合Qwen-VL、Qwen-Audio,AI识别准确率达98%;创维电视和闺蜜机依托Qwen-VL与CosyVoice,实现99%意图识别精度的深度内容搜索;听力熊V8基于Qwen-Omni和Qwen-VL能力,通过拍照触发AI讲解,交互频次翻倍。多模态能力正让AI深度融入物理世界,重塑终端体验。

此外,在金融场景非结构化数据的处理阶段,Qwen-VL可实现材料解析效率提升70%以上,定损、投研等流程从小时级压缩至分钟级。

结合如上实践来看,体系化AI工程的核心,就是把大模型的能力从实验室搬到产业场景,其中涉及到复杂的场景拆解和能力重组,它不仅包括模型本身的训练和优化,还涵盖数据采集与标注、算力调度、分布式训练、推理加速、微调与定制化部署等全链路能力,这也是阿里云作为云厂商的先天优势。

三位一体的全栈AI体系,使得阿里云有能力完成AI价值传导的闭环,真正把大模型从实验室推向现实世界,把能力优势转化为产业竞争力,也让整个行业的格局随之重塑。

注:文/张帅,文章来源:钛媒体(公众号ID:taimeiti),本文为作者独立观点,不代表亿邦动力立场。

文章来源:钛媒体

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0