首页 > 垂直频道公司研究新闻中心科技频道所想即所见，所言即所闻，可灵AI打开全民创作新入口

所想即所见，所言即所闻，可灵AI打开全民创作新入口

2025年12月30日 14:45

“以前画一张概念图要一两天，现在可能只需几分钟。它开阔了我的创作领域，带来了巨大的可能性。”在近日举办的首届香港国际AI艺术节现场，著名监制、视觉特效总监马文的一席话，道出了许多创作者的心声。艺术节上，由可灵AI联动全球顶尖艺术家完成的三支短片在“AI创作全球生态论坛”首映，引得不少观众当场掏出手机，用一段文字、一张图片、一段话，几分钟就生成一个属于自己的有声有色的故事。

这并非魔法，而是可灵AI近期两大技术突破——大一统多模态模型“可灵O1”与2.6版本“音画同出”能力共同作用的结果。它们正悄然改变一个事实：视频创作，正在从专业技能变为人人可及的日常表达。

企业供图

角度不再“变脸”

过去用AI做视频，常有种“拼乐高”的感觉：想增减内容？用A工具；想修改风格？切B模型；想延长镜头？再找C插件。流程割裂不说，角色还经常“变脸”——角色上一秒是黑发，下一秒变金发，连衣服褶皱都对不上。

全球首个大一统多模态视频模型可灵O1的发布，解决了这种“碎片化”困境。它基于MVL（多模态视觉语言）理念，打破了传统单一视频生成任务的模型边界，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务，融合于同一个全能引擎之中，使得用户无需在多个模型及工具间跳转，即可一站式完成从生成到修改的全部创作流程。

用户只需输入自然语言指令，比如：“把这张白天的照片改成夜晚”，“给主角换一条红裙子”，“给视频背景加烟花”，可灵O1就能读懂诉求，自动完成像素级语义重构。

更关键的是，O1有了“导演思维”——它能记住角色是谁、穿什么、站在哪。哪怕镜头切换，主角的脸、衣服、配饰等主体特征都不会乱。用户还可以自由组合多个不同主体，或将主体与参考图混搭。

同步升级的可灵图像O1模型，也主打特征高度一致，用户既可以通过纯文本生成图像，也可上传最多10张参考图进行融合再创作，可灵图像O1模型能做到主体元素稳定不偏差、画面氛围始终统一等。

不论是视频还是图像，可灵O1系列对系列短剧、广告电商、品牌IP等用户来说，简直是刚需，真正实现了从灵感构思到最终输出的“一站式闭环”。

“动得真”也“说得清”

如果说O1解决了“改得顺”的问题，那么可灵2.6模型的“音画同出”能力，则让角色真正“活”了起来——不仅动作精准，更能开口说话、发出环境音效，且声音与画面节奏严丝合缝。

传统AI视频工作流是“先生成无声画面，再人工配音”，极易造成“画面一套、声音一套”的割裂体验。而可灵2.6彻底重构了这一流程：用户输入文本或图片+提示词，即可一键生成包含人声、音效、环境声的完整视频。语音当前支持中英文，单次生成最长10秒。

其突破体现在三大维度：音画协同，语音节奏、环境音与画面动作紧密呼应，实现深度语义对齐；音频质量，人声干净、层次丰富，接近专业混音效果；语义理解，能准确把握复杂剧情与口语表达，输出逻辑严密的音画内容。

更令人惊喜的是其音色控制能力。模型支持生成说话、对话、旁白、唱歌、Rap等多种声音类型，并可混合环境音效。这意味着，创作者不仅能决定角色说什么，还能决定用什么语气、什么情绪、搭配何种背景音乐。

一位用户在现场体验：输入“一只猫在雨夜的屋顶上唱爵士”，几秒后，视频中猫咪不仅做出慵懒坐姿，还真的“喵呜”哼起旋律，雨滴声、远处车流声清晰可辨。

人机协作，而非取代

当然，技术再强，也绕不开一个根本问题：AI会取代创作者吗？

艺术节上，图灵奖得主约翰·爱德华·霍普克罗夫特的回答很直接，他指出当前AI本质是“模式识别”，是强大的工具。以钢琴演奏为例，“一位真正的钢琴家不是在演奏琴键，他是在诠释整部作品，传递某种信息。而让音乐如此伟大的，正是这种内蕴的信息。如果由AI系统来弹奏，这种信息是不存在的。AI不会取代艺术家，但会改变他们工作的方式。”霍普克罗夫特说。

可灵显然认同这一点。可灵系列模型的愿景是“让每个人都能用AI讲出好故事”，这个愿景的主语是人。

艺术节上，可灵AI产品及运营负责人温园旭在AI创作全球生态论坛系统演示了可灵O1模型的核心能力，并直指当下模型行业的痛点，“语言的描述存在天然的局限性，要真正实现‘让每个人都能用AI讲出好故事’的愿景，必须对基础模型能力进行全方位提升，定义人类和AI交互的全新方式。”

可灵正在赋予创作者更高自由度的控制权——你可以调节动作幅度、修改镜头节奏、删除不满意帧，甚至叠加多段生成结果，让声音和画图“同频”，让静态图角度复制任意目标动作。

AI负责执行，创作者负责审美和情感。

艺术节上展映的三支短片——《进化于灵与智之间》《东方奇谭 x 云端寻窟》《1432：未来前史》，均由艺术家与可灵超级创作者联动完成。它们不仅是技术展示，更是对未来创作范式的预演。

或许未来的某一天，我们回看今天，会发现——那个“用一张图讲一个有声有色故事”的时代，正是从可灵的这次升级开始的。

责任编辑：刘浩天

文章来源：http://www.bbtnews.com.cn/2025/1230/580284.shtml