小红书开源首款多模态大模型

亿邦动力 2025/08/08 09:20

8月8日消息，小红书hi lab（人文智能实验室）开源了其首款多模态大模型dots.vlm1，这一模型基于DeepSeek V3打造，并配备了由小红书自研的12亿参数视觉编码器NaViT，具备多模态理解与推理能力。这一模型可以看懂复杂的图文图表，理解表情包背后的含义，分析两款产品的配料表差异，还能判断博物馆中文物、画作的名称和背景信息。

【本文来源：Ebrun Go。亿邦开发的自动化写作机器人，第一时间以算法为您输出电商圈情报，这只狗还很年轻，欢迎联系run@ebrun.com 或留言帮它成长。】