2024年4月,清华大学东谈主工智能商议院副院长、生数科技创举东谈主兼首席科学家朱军初度发布中国版Sora——视频大模子Vidu。一年后抖音风 反差,2025年3月29日,中关村论坛上,Vidu高可控 AI 视频大模子 Q1庄重推出。
这次升级的重要在于“高可控”,采访中,朱军诠释称:Q代表quality,代表模子的高可控,具体包括多主体细节可控、音效同步可控、画质增强。本色视频生成经过中,位置可控一直是毒手贫瘠,以往模子持续无法精确按照领导生成。如今,Vidu Q1 借助融入参考图的视觉领导,在语义领导的基础上,已毕了对场景中扮装位置属性的更精确猖狂。
可控主体数目的增多亦然一项时刻冲破。以往,AI 视频生成在面临较多主体时,精确生成的难度极大。Vidu Q1 增多了可控主体数目,并在多主体一致性以及安妥物理司法等方面已毕冲破。另外抖音风 反差,Vidu Q1 的音效同步可控功能不错基于语义领导,在生成视频画面的同期生成精确可控的音效,猖狂每段音效的曲直与出现的时分点。
从Vidu1.0到Vidu Q1,一年时天职,大说话模子赛谈冉冉插足洗牌期,而视频大模子赛谈仍处于郁勃成恒久,快手可灵、字节即梦、MiniMax海螺AI不停迭代,OpenAI Sora庄重上线,HeyGen、Pika、爱诗科技等完成融资。而所有这个词东谈主工智能范畴随同时刻的升级,发展旅途冉冉从单一模态跨向多模态、跨模态,东谈主机交互与产业期骗的界限冉冉更正。
相较视频大模子专注于视频数据的特征,多模态大模子可解决文本、图像、视频等多种数据,通过数据对皆、交融与搭伙象征时刻,实施视觉问答等复杂任务。关于多模态赛谈的发展,朱军对第一财经记者示意,Vidu基座一初始即是多模态大模子,生数的定位亦然多模态,视频仅仅弘扬体式之一,这次更新的音频功能与机器东谈主可控数据操作均代表着不同的模态,对公司来讲,底层架构基本雷同,无用过多修改即可已毕多种情势。
现在生数Vidu的营业化主见主要包括面向C端的SaaS与面向B端的MaaS情势,朱军以为,2025年是视频大模子营业化快速发展的一年,破钞者对视频的需求额外遍及,这亦然视频大模子与大说话模子不同之处。朱军判断,现在头部视频模子平台各有特点与营业化旅途,暂时莫得走到大说话模子那么“卷”的状况。
谈及DeepSeek效应是否会在视频赛谈出刻下,朱军对记者示意,视频大模子有时率不会出现肖似DeepSeek这种后果超越的模子抖音风 反差,因为行业照旧将DeepSeek主打的后果上风进行试验了,厂商更期待的是视频模子愈加可控、愈加好用,步入视频范畴的“ChatGPT时刻”。