打印页面

首页 > 垂直频道公司研究新闻中心科技频道 所想即所见,所言即所闻,可灵AI打开全民创作新入口

所想即所见,所言即所闻,可灵AI打开全民创作新入口

“以前画一张概念图要一两天,现在可能只需几分钟。它开阔了我的创作领域,带来了巨大的可能性。”在近日举办的首届香港国际AI艺术节现场,著名监制、视觉特效总监马文的一席话,道出了许多创作者的心声。艺术节上,由可灵AI联动全球顶尖艺术家完成的三支短片在“AI创作全球生态论坛”首映,引得不少观众当场掏出手机,用一段文字、一张图片、一段话,几分钟就生成一个属于自己的有声有色的故事。

这并非魔法,而是可灵AI近期两大技术突破——大一统多模态模型“可灵O1”与2.6版本“音画同出”能力共同作用的结果。它们正悄然改变一个事实:视频创作,正在从专业技能变为人人可及的日常表达。

企业供图

角度不再“变脸”

过去用AI做视频,常有种“拼乐高”的感觉:想增减内容?用A工具;想修改风格?切B模型;想延长镜头?再找C插件。流程割裂不说,角色还经常“变脸”——角色上一秒是黑发,下一秒变金发,连衣服褶皱都对不上。

全球首个大一统多模态视频模型可灵O1的发布,解决了这种“碎片化”困境。它基于MVL(多模态视觉语言)理念,打破了传统单一视频生成任务的模型边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合于同一个全能引擎之中,使得用户无需在多个模型及工具间跳转,即可一站式完成从生成到修改的全部创作流程。

用户只需输入自然语言指令,比如:“把这张白天的照片改成夜晚”,“给主角换一条红裙子”,“给视频背景加烟花”,可灵O1就能读懂诉求,自动完成像素级语义重构。

更关键的是,O1有了“导演思维”——它能记住角色是谁、穿什么、站在哪。哪怕镜头切换,主角的脸、衣服、配饰等主体特征都不会乱。用户还可以自由组合多个不同主体,或将主体与参考图混搭。

同步升级的可灵图像O1模型,也主打特征高度一致,用户既可以通过纯文本生成图像,也可上传最多10张参考图进行融合再创作,可灵图像O1模型能做到主体元素稳定不偏差、画面氛围始终统一等。

不论是视频还是图像,可灵O1系列对系列短剧、广告电商、品牌IP等用户来说,简直是刚需,真正实现了从灵感构思到最终输出的“一站式闭环”。

“动得真”也“说得清”

如果说O1解决了“改得顺”的问题,那么可灵2.6模型的“音画同出”能力,则让角色真正“活”了起来——不仅动作精准,更能开口说话、发出环境音效,且声音与画面节奏严丝合缝。

传统AI视频工作流是“先生成无声画面,再人工配音”,极易造成“画面一套、声音一套”的割裂体验。而可灵2.6彻底重构了这一流程:用户输入文本或图片+提示词,即可一键生成包含人声、音效、环境声的完整视频。语音当前支持中英文,单次生成最长10秒。

其突破体现在三大维度:音画协同,语音节奏、环境音与画面动作紧密呼应,实现深度语义对齐;音频质量,人声干净、层次丰富,接近专业混音效果;语义理解,能准确把握复杂剧情与口语表达,输出逻辑严密的音画内容。

更令人惊喜的是其音色控制能力。模型支持生成说话、对话、旁白、唱歌、Rap等多种声音类型,并可混合环境音效。这意味着,创作者不仅能决定角色说什么,还能决定用什么语气、什么情绪、搭配何种背景音乐。

一位用户在现场体验:输入“一只猫在雨夜的屋顶上唱爵士”,几秒后,视频中猫咪不仅做出慵懒坐姿,还真的“喵呜”哼起旋律,雨滴声、远处车流声清晰可辨。

人机协作,而非取代

当然,技术再强,也绕不开一个根本问题:AI会取代创作者吗?

艺术节上,图灵奖得主约翰·爱德华·霍普克罗夫特的回答很直接,他指出当前AI本质是“模式识别”,是强大的工具。以钢琴演奏为例,“一位真正的钢琴家不是在演奏琴键,他是在诠释整部作品,传递某种信息。而让音乐如此伟大的,正是这种内蕴的信息。如果由AI系统来弹奏,这种信息是不存在的。AI不会取代艺术家,但会改变他们工作的方式。”霍普克罗夫特说。

可灵显然认同这一点。可灵系列模型的愿景是“让每个人都能用AI讲出好故事”,这个愿景的主语是人。

艺术节上,可灵AI产品及运营负责人温园旭在AI创作全球生态论坛系统演示了可灵O1模型的核心能力,并直指当下模型行业的痛点,“语言的描述存在天然的局限性,要真正实现‘让每个人都能用AI讲出好故事’的愿景,必须对基础模型能力进行全方位提升,定义人类和AI交互的全新方式。”

可灵正在赋予创作者更高自由度的控制权——你可以调节动作幅度、修改镜头节奏、删除不满意帧,甚至叠加多段生成结果,让声音和画图“同频”,让静态图角度复制任意目标动作。

AI负责执行,创作者负责审美和情感。

艺术节上展映的三支短片——《进化于灵与智之间》《东方奇谭 x 云端寻窟》《1432:未来前史》,均由艺术家与可灵超级创作者联动完成。它们不仅是技术展示,更是对未来创作范式的预演。

或许未来的某一天,我们回看今天,会发现——那个“用一张图讲一个有声有色故事”的时代,正是从可灵的这次升级开始的。

文章来源:http://www.bbtnews.com.cn/2025/1230/580284.shtml