Character.AI分享了其在生成式视频领域的研究成果。该公司研发出一种名为TalkingMachines的新型自回归扩散模型中鼎策略,仅凭一张图片和一个语音信号,就能实时生成由音频驱动的AI角色视频。有了这项技术,该公司正逐步实现与AI角色进行“FaceTime式”的视觉互动。
需要明确的是,目前中鼎策略这仍处于研究阶段。虽然已有研究论文和视频演示,但该技术尚未能在Character.AI应用中使用。
倘若这项技术最终能应用到Character.AI应用中,用户将能与AI展开更具沉浸感的角色扮演,参与互动式故事创作,还能实现视觉化的世界构建。
全新的TalkingMachines模型基于扩散Transformer(DiT)技术构建,该技术本质上就像一位艺术家,能从随机噪声中创作出精细的图像中鼎策略,并不断优化直至完美。Character.AI所做的,是让这一过程变得极快,仿佛实时发生。
为取得突破,TalkingMachines运用了多项关键技术,包括流匹配扩散(Flow-Matched Diffusion)、音频驱动交叉注意力(Audio-Driven Cross Attention)、稀疏因果注意力(Sparse Causal Attention)以及非对称蒸馏(Asymmetric Distillation)。
流匹配扩散技术通过大量动作训练,涵盖从微妙的面部表情到更夸张的肢体动作,确保AI角色的动作更加自然。而音频驱动交叉注意力技术则大放异彩,它让AI不仅能听到话语,还能理解音频中的节奏、停顿和语调变化,并将其精准转化为嘴部动作、点头和眨眼。
借助稀疏因果注意力技术,Character.AI能以更具成本效益的方式处理视频帧;而通过非对称蒸馏技术,视频能实时生成,营造出仿佛在进行FaceTime通话的效果。
Character.AI强调,这项研究突破不仅局限于面部动画。它表示,这是迈向实时互动视听AI角色的一大步。该模型支持多种风格,包括逼真的人类形象、动漫角色以及3D虚拟形象,并能实现自然的聆听与说话阶段流畅衔接。
目前,这一功能尚未准备好在应用中上线,Character.AI表示仍处于研究阶段。若公司最终推出此功能,无疑将成为首批(若非首家)实现这一目标的公司之一,这无疑是AI竞赛中的一个重要里程碑。
嘉正网提示:文章来自网络,不代表本站观点。