在人工智能技术日新月异的今天,多模态生成技术正成为推动数字内容产业变革的核心驱动力。2025年9月19日,国内多模态AI领域的明星企业生数科技宣布完成数亿元人民币规模的A轮融资,这一消息迅速在科技和投资界引起广泛关注。本轮融资由博华资本领投,百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等老股东持续跟投,建发新兴投资等产业合作方加码入场。这不仅是生数科技成立两年多来完成的第四轮融资,更标志着中国在多模态AI领域的技术实力已跻身全球第一梯队。本文将全面剖析生数科技的发展历程、技术突破、商业化成果及未来前景,探究这家年轻企业如何在全球AI竞赛中脱颖而出,以及其将如何重塑数字内容生产和消费方式。

资本加持下的成长之路:从清华实验室到全球AI独角兽
生数科技的崛起轨迹堪称中国AI创业企业的典范。成立于2023年3月的生数科技,核心团队源自清华大学人工智能研究院,并汇聚了来自北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校的技术人才,以及阿里巴巴、腾讯、字节跳动等科技公司的产业专家。这种”学术顶尖+产业实战”的团队构成,为生数科技在技术创新与商业化落地之间保持了难得的平衡。
资本市场的青睐是生数科技快速成长的重要助推力。查阅公开资料可以发现,生数科技在短短两年多时间里已经完成了四轮融资:2023年6月完成天使轮融资,由蚂蚁集团领投,BV百度风投和卓源资本跟投,融资金额近亿元人民币,投后估值已达1亿美元;随后在8月完成天使+轮融资;2024年3月完成Pre-A轮融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI等机构跟投;而此次A轮数亿元融资的完成,进一步巩固了其在多模态AI领域的领先地位。值得注意的是,北京市人工智能产业投资基金作为战略投资者,从天使轮开始便持续加码,体现了政府资本对这家技术驱动型企业的长期看好。
生数科技的技术积累可追溯至创始团队在扩散模型(Diffusion Model)领域的多年深耕。团队从事生成式人工智能和贝叶斯机器学习研究已有20余年,早在2022年9月就提出了基于Transformer的网络架构U-ViT,比伯克利团队提出的DiT(Diffusion Transformer)架构早了三个月。这项将Transformer与扩散模型融合的创新,后来被OpenAI的DALL·E 2、Stability.ai的Stable Diffusion等国际知名项目采用,展现出团队的前瞻性技术视野。
2023年3月,生数科技开源了全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上与Stable Diffusion直接对齐,并支持图生文、图文联合生成等更通用的图文任务。这一开源举措不仅确立了生数科技在全球多模态领域的学术地位,也为后续商业化产品的快速迭代奠定了坚实基础。
技术突破与产品创新:从U-ViT架构到Vidu的全球成功
生数科技的技术核心竞争力源于其在多模态原生架构上的前瞻性布局。与传统单模态AI不同,多模态大模型需要同时处理文本、图像、视频、3D等多种数据类型,对模型架构设计提出了极高要求。生数科技从创立之初就坚持”原生多模态”技术路线,其核心创新U-ViT架构通过将Transformer与扩散模型深度融合,成功解决了多模态数据统一表示与处理的难题。
在技术实现上,生数科技展示了惊人的工程化能力。公司从算法原理、算法架构到工程实现、数据准备,打造了多维度、全方位的基础建设,拥有在大规模GPU集群上高效训练的经验。据公开资料显示,其图文模型的参数量从最初开源版的1B(10亿)逐步扩展至3B、7B、10B甚至更大规模,使得模型在美学质量、风格多样性和语义理解能力等方面持续提升。这种”Scale up”能力为后续3D生成和视频生成模型的开发铺平了道路。
Vidu作为生数科技的旗舰产品,集中体现了公司的技术创新实力。2024年4月,生数科技发布中国首个全面对标OpenAI Sora的视频大模型Vidu,并于同年7月在全球上线。Vidu首创了”参考生”图片/视频概念,用户可以通过提供参考图来精确控制生成内容的主体特征和风格,极大提升了生成内容的一致性和可用性。这一创新使Vidu在商业内容创作领域取得关键突破,上线仅8个月就实现了年度经常性收入(ARR)突破2000万美元的亮眼成绩。
产品数据方面,截至2025年9月,Vidu已覆盖全球200多个国家和地区,拥有超过3000万用户和6000家开发者及企业客户,累计生成视频数量超过4亿条,其中核心功能”参考生视频”和”参考生图”的生成量已超过1亿。更引人注目的是,这些生成内容中商业素材占比超过50%,表明Vidu已经跨越了从”技术演示”到”生产力工具”的关键门槛。广告、电商、影视宣发、动漫制作和IP打造成为Vidu最主要的商业化落地场景。
2025年9月,生数科技推出Vidu Q1参考生图模型,支持多达7张参考图同时输入,达到国内多图参考数量的上限,并在多主体一致性和高还原度方面取得关键突破。这一进展意味着AI生图技术正从单主体简单场景向多主体复杂场景演进,为更专业的商业创作提供了可能。
商业化落地与产业影响:多模态AI如何重塑内容产业
生数科技的商业化路径呈现出多元化特征,采取”B端+C端”双轮驱动战略。在B端市场,公司通过MaaS(Model as a Service)模式向企业客户提供API服务,已与京东、亚马逊、飞书、央视动漫、安踏、飞鹤、荣耀、联想等多家行业头部企业达成合作。同时,生数科技也开发了面向创意工作者的垂直工具产品,如视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft,通过订阅制收费实现C端变现。
从产业影响角度看,生数科技的崛起标志着中国AI企业在全球多模态领域已具备与国际巨头同台竞技的实力。在文生视频领域,随着OpenAI的Sora、Pika等海外产品的出现,赛道已进入”第二阶段”——技术能力差距逐渐缩小,用户体验和商业化速度成为决定胜负的关键。生数科技Vidu模型的表现证明,中国团队不仅能在技术层面与国际顶尖水平保持同步,更能在商业化落地上展现出更快的节奏和更强的适应性。
多模态生成技术对内容产业的变革效应已经显现。传统数字内容生产流程通常需要专业设备、复杂软件和大量人力投入,成本高、周期长。而Vidu等多模态大模型的出现,正在大幅降低内容创作门槛,提高生产效率。据生数科技透露,其生成的视频素材已被广泛应用于广告制作、电商展示、影视预演、动漫分镜等场景,帮助客户将内容制作周期从过去的数周缩短至几分钟,成本降至传统方法的百分之一甚至更低。
特别值得关注的是,生数科技通过”参考生“技术解决了AI生成内容一致性难以控制的行业痛点。在广告营销等领域,品牌形象的跨场景、跨内容一致性至关重要。Vidu的参考生功能使品牌方能够通过提供参考图确保所有生成内容保持统一的风格和元素,这大大提升了AI生成内容的商业实用价值。据官方数据,参考生视频和参考生图的生成量已占Vidu总生成量的25%,但在商业场景中的采用率却超过70%,充分证明了这一技术的市场认可度。
未来挑战与发展前景:多模态AI的下一站在哪里
完成A轮融资后,生数科技明确了资金用途:重点投入模型研发和技术创新,探索多模态大模型的智能上限和应用广度,同时加强产品拓展、用户服务、产业合作和全球商业布局。首席执行官骆怡航博士表示,多模态生成技术目前仍处于早期阶段,未来三年将全面渗透各行各业的内容生产与消费环节,展现出巨大的市场空间与全球性增长潜力。
从技术发展角度看,生数科技面临的核心挑战主要来自三个方面:一是长视频生成能力的突破,目前AI生成的视频长度和复杂度仍有限制;二是多模态交互体验的优化,如何实现文本、图像、视频、3D等模态间的无缝转换和协同创作;三是生成内容的可控性和可预测性提升,满足专业创作场景的精细需求。据了解,生数科技已将长视频生成能力作为近期重点攻关方向,这将是决定其能否在影视级内容生产领域取得突破的关键。
行业竞争态势也日益激烈。国际方面,OpenAI、Google、Meta等科技巨头持续加大多模态AI投入;国内互联网大厂和AI创业公司也纷纷布局这一领域。生数科技的优势在于其原生多模态架构的先发优势和已经形成的商业化规模效应。特别是Vidu模型已经建立的3000万用户生态和行业合作伙伴网络,构成了较强的竞争壁垒。
从更宏观的视角看,生数科技的案例揭示了AI产业化的某些共性规律:一是学术研究与工程实践的紧密结合至关重要,团队早期的学术积累为后续产品开发奠定了坚实基础;二是技术创新必须与商业场景深度耦合,Vidu参考生功能的设计直接针对了商业内容创作的痛点需求;三是全球化视野决定了市场天花板,生数科技从产品设计之初就瞄准全球市场,覆盖200多个国家的用户群体为其提供了宝贵的数据反馈和规模效应。
展望未来,随着多模态生成技术不断成熟,其应用场景将进一步拓展至教育、医疗、工业设计等更多领域。生数科技作为中国多模态AI的领军企业,能否在保持技术领先的同时,构建可持续的商业模式和产业生态,将决定它能否从当下的明星创业公司成长为真正具有全球影响力的AI巨头。无论如何,生数科技的发展历程已经证明,在人工智能这场全球竞赛中,中国团队完全有能力在前沿技术领域取得突破并实现快速产业化,这或许是最具启示意义的地方。