当前位置: 首页 AI工具

MOSS-TTSD播客语音

栏目:AI工具 作者:fanq_shop 时间:2025-09-18 14:05:57

微信图片_20250918140332_145_58.png

一个由上海创智学院、复旦大学和模思智能的OpenMOSS团队开发的开源双语对话语音合成模型,支持中英文对话生成。

该项目基于Qwen3-1.7B-base模型续训,采用离散化语音序列建模(XY-Tokenizer),

通过约100万小时单人语音和40万小时对话语音数据训练,能够生成高拟人度的自然、富有表现力的对话语音,特别适用于AI播客制作。


配置要求:8G以上显卡可用


一、特点: 1.高表现力对话语音:生成自然流畅的对话语音,准确捕捉对话中的韵律、语调和情感,模拟真实对话场景。 2.零样本双人音色克隆:支持零样本语音克隆,可根据对话脚本自动生成两位对话者的语音,并实现精准的说话者切换。 3.长语音生成:支持最长 960秒 的单次语音生成,避免拼接带来的不自然过渡,适合长篇内容。 4.多场景应用:适用于 AI 播客、访谈、新闻报道、电商直播等场景,生成高质量对话语音。 5.完全开源:基于 Apache 2.0 许可,支持免费商业使用,代码、模型和演示均公开。 二、技术: 1.模型架构:基于 Qwen3-1.7B-base 模型续训,采用离散化语音序列建模,通过八层 RVQ(残差矢量量化) 将语音信号转为离散 token 序列。 2.XY-Tokenizer:创新的语音离散化编码器,采用双阶段多任务学习: 3.第一阶段:训练自动语音识别(ASR)和重建任务,保留语义和粗粒度声学信息。 4.第二阶段:固定编码器,训练解码器,通过重建和 GAN 损失补充细粒度声学信息。 5.在 1kbps 比特率和 12.5Hz 帧率下,高效建模语义和声学信息,性能优于同类 Codec。 6.数据训练:使用约 100万小时 单人语音和 40万小时 对话语音数据训练,结合 110万小时 中英文 TTS 数据,增强语音表现力。 7.Podever 播客工具:提供自动化播客生成管道,可从 PDF、URL 或长文本生成高质量播客片段。 三、应用场景: 1.AI 播客:生成自然对话语音,模拟真实播客场景。 2.新闻报道:为新闻内容生成吸引人的对话式语音。 3.电商直播:为数字人生成自然对话语音,提升观众互动。 4.教育与研究:支持语言研究和对话系统开发。


资源失效请添加番茄资源网v:jay2005007或者(番茄资源网永久地址发布页www.fanq.site,收藏我回家不迷路

资源获取:

通过网盘分享的文件:【更多资源www.fanq.site】


阅读:9次

我要留言

  

分类栏目