重构世界,奔赴未来。
日前,2024中国生成式AI大会在北京隆重举办,jn江南平台受邀出席大会,集团副总裁朱伟亮相大模型专场论坛,现场发表《音视频多媒体大模型市场洞察与落地实践》主题演讲,并宣布万兴天幕音视频多媒体大模型将于4月28日正式公测。
目前,万兴天幕音视频多媒体大模型文生视频能力已实现不同风格、丰富场景及主体的连贯性,一键生成时长支持60秒+。同时,万兴“天幕”还具备视频生视频、文生音乐、视频配乐、文生音效、文生图、图生图等原子能力。
万兴“天幕”从何而来,具有哪些差异化特点?大模型2.0时代下,如何从国内“百模混战”之中脱颖而出?此次大会,朱总接受媒体访问,就媒体关注的热点问题进行了现场解答,快速Mark一下吧!
1、大模型2.0时代有哪些阶段性的差异特点?
大体上来说,有以下三个特点:
-
1.0时代的大模型更多还是以文字、语言和图片为核心,2.0时代则是视频大时代,视频大模型越来越重要,并将得到长足发展;
-
随着视频大模型、基础大模型的崛起,我们的垂直大模型,特别是聚焦视频创作场景的音视频多媒体大模型,也将会在今年迎来长足发展;
-
今年视频类应用有望迎来爆发式增长,也就是说,AI视频大模型的落地应用会越来越多、越来越快。
2、万兴从什么时候开始布局视频大模型赛道?
万兴从2003年成立就一直在做视频编辑这件事情,当时我们给出的定位的叫「简约而不简单」,就是说,我们希望让普通用户通过使用软件工具,很方便地完成繁琐的视频制作工作。
所以,早在2015年,我们就已经着手组建技术团队开始做智能算法,做了很多探索,也收获了一些落地成果,比如:智能调色、防抖、降噪等,这些都是「简约而不简单」的体现,也是最初智能操作的体现。
再到2022年,随着生成式AI的爆火,我们快速进行了AI技术迭代,并于同年年底推出万兴爱画。紧接着,我们开始组建大模型团队。经过2023年一年的打磨时间,我们在2024年1月30日正式发布万兴天幕音视频多媒体大模型,并将大模型原子能力集成到自有产品矩阵中,开放给用户使用。
3、为什么叫“天幕”?
二十多年来,我们一直在做视频创意这件事,最后所产出的视频一定是要通过屏幕去播放、去呈现给大众的。而如今,随着生成式AI的到来,屏幕上所呈现出来的内容将无限宽广,所以我们把它叫做「以“天”为“幕”,世界都是你创意的舞台」。
还有“天幕”的logo,也是源于上世纪人们观看电影的场景:晒谷坪上放一个大幕布,后面一台电影机,满目星空之下,一群人端着小板凳,坐在坪上望向幕布,充满欢声笑语……置身于这样一个巨大的宇宙星空下看世界,给人一种非常心旷神怡的感觉,并且很容易能够激发人们的无限想象空间。所以,我们叫它“天幕”。
4、面向大模型2.0时代,“天幕”是否会有新的技术路线?
我们会根据实际需要,选择合适的技术路线。
目前,万兴“天幕”还是聚焦数字创意垂类创作场景,基于15亿创作者及100亿本土化高质量音视频数据沉淀,以音视频生成式AI技术为基础,具有多媒”、垂直解决方案以及本土化数据三大特点,全链条赋能全球创作者,让大模型应用落地更有针对性、更具实效。
5、生成视频类大模型未来的竞争壁垒将会在什么地方?
首先,生成视频类的大模型,可以分成两类或者分成两个层级:
第一个层级是做基础模型,比如Sora这种。基础模型就像行业分析,要大力出奇迹,这是很重要的一个竞争点,包括大算力、大数据,以及大量的优秀算法人才等。
第二个层级是做垂类模型。它是通过一些基础数据的训练以后,在这个基础上,再做一些微调精调的训练。这当中,数据就非常关键了。
其次,我们再来看看行业和应用驱动。基础模型方面,需要有非常庞大数据量的训练和适宜修改。而垂类模型,如果想要从大模型时代脱颖而出的话,还是要坚持「应用为王」——通过一个爆款应用,快速实现爆发式增长。
6、Sora为国内大模型生态的发展带来了哪些影响?
从最早的「文生文字」到「文生图片」,到现在「文生视频」出来以后,其实视频是人类信息交互信息密度最高的一种方式,在现在这个大家都在用视频做交互的时代,通过「文生视频」能够很快地产出视频,这对于信息的传递能够产生很大程度的提效。因而,Sora它对整个行业的影响必然是巨大的、积极的。
从具体表现上来看,相对于通用类的视频,我们认为,短视频行业所受到的影响可能会更快和更直接,这也是万兴目前视频创意业务重点在发力的一个方向,主要体现在降本增效方面。
7、国内大模型目前属于一个怎样的发展阶段?
不管是文本模型、图像模型还是视频模型,国内真正的原创大模型其实还不算多,甚至可以说很少。特别是视频大模型,包括我们在做的万兴“天幕”,也还没有到L0最基础的模型级别。
因而,从模型基础的级别来讲,国内与Sora的距离还比较远,需要投入更多的资源,去快速进行技术迭代。
8、万兴天幕相较于Sora有哪些差异化的特点?
万兴天幕相较于Sora有哪些差异化的特点?
目前,万兴“天幕”的模型能力和Sora确实还存在一定差距,尤其是文生视频效果这块,Sora作为行业标杆,是我们正在努力看齐的目标。
同时,相较于Sora这类基础模型,万兴天幕更多是偏向于细分的垂类行业,需要聚焦到每一个具体的用户场景,去帮助用户解决实际问题,给用户带来价值。文生视频、文生3D视频是万兴天幕偏向于通用一点的能力;但像AI歌手、数字人播报等能力,就是在具体细分场景中的落地体现,属于纯应用,比如:万兴播爆就是重点解决「跨境电商出海口播视频制作」的问题。
我们希望万兴的每一款产品,都是「技术+应用」的结合,能够解决某个细分领域的具体问题,让产品用户真正获得价值。
9、国内大模型如何用最快的时间去追赶差异?
Sora发布后,更多为我们呈现出的是一个「世界模型」的概念, 这为国内做视频模型的我们提供了一条很好的指引路径,主要有三个方面:
-
一是做大模型算法开发方面,其框架等各方面都开源了,或者说有公开了,让大家能看得到、窥探得到,但是里面很多的细节需要我们去做深入研究,才能补齐差距。
-
二是在数据方面,特别是围绕我们中国本土的一些数据,目前其实在全球来看都还不算太多。我们也看了Sora很多的一些视频,其实在对于含中国元素和对中文的理解上,相对来说比英文的会稍微弱点,因此大数据中文量的数据是我们的一个机会,甚至是我们“弯道超车”的机会。
-
三是算力方面,对于视频来说,需要几亿甚至几十亿数量级的训练,如果要实现快速迭代的话,算力本土化也会是我们很重要的一个因素。
也就是说,如果我们能够在现有的框架下面,快速去用自己的科研力量补齐差距;同时,在本土数据和全球数据的双向加持下,再将我们的算力本土化,或将会对整个国内大模型研发的快速发展会有很好的帮助。
10、万兴天幕的视频训练量在行业里有哪些优势?
一方面,我们在视频创意领域已经深耕二十余年,本身就已经具备了丰富的数据积累,这是我们训练视频大模型的基础。
另一方面,我们通过战略合作,共建天幕开放生态,来不断扩充本土化数据库。再基于自身做视频理解、内容理解的算法能力积累,我们打造了一个视频内容理解到文字生成生产管理平台「数据生产管理平台1.0」。
也就是说,我们拥有丰富的数据积累,拥有数据加工处理能力,还组建了一个近100人的驻场数据标注人工团队。基于这三点,「数据」相对是我们的一个优势。