ComfyUI-InfiniteTalk整合包
一个基于 ComfyUI 的自定义节点,用于生成音频驱动的视频。它通过将音频轨道与视频素材同步,
生成具有唇部同步效果的视频,特别适合制作角色配音、动画或虚拟人物视频。
配置要求:16G以上显卡可用
核心特性
1. 无限时长生成:突破传统数字人视频 5-15 秒的限制,可生成数小时的连贯视频,生成 30 秒视频约需 20 分钟(48G 显存)。
2. 精准唇形同步:采用稀疏帧配音技术,确保音频与口型高度匹配,优于同类项目 MultiTalk,音频 CFG 值 3-5 时效果最佳。
3. 多模态输入:
• 图像+音频(I2V):单张图片结合音频即可生成会说话或唱歌的视频,适合快速创作。
• 视频+音频(V2V):支持视频输入,模拟原始摄像机运动,生成自然流畅的口型同步视频。
• 文本+音频:配合 TTS 系统,可从文本直接生成视频。
4. 自然动作协调:同步头部运动、身体姿态和面部表情,减少手部/身体扭曲,提升真实感。
5. 多样化玩法:支持图片唱歌、视频对口型、电商主播虚拟化等,适用于多种创意场景。