mini omni,语言模型思考时听到、交谈和流媒体传输

配置要求:16G以上显卡可用
一个轻量级、开源的多模态大型语言模型(MLLM),具备以下核心能力: 端到端语音输入 :无需手动打字,直接“说话”提问; 流式音频输出 :边思考边说,实现自然对话节奏多模态理解 :可处理文本 + 图像 + 音频等多种输入;它打破了传统 LLM 只能靠文字交互的局限,真正实现了“听得到、看得见、说得出 ”的全息 AI 对话体验!
主要特点 :
1.实时语音交互:无需额外的自动语音识别(ASR)或文本转语音(TTS)模型,支持直接语音到语音的对话,降低延迟。
2.边思考边说话:能够同时生成文本和音频输出,实现更自然的对话体验。
3.多模态支持:处理文本、语音输入,并通过流式音频输出响应,支持多模态交互。
4.高效训练:采用三阶段训练流程(模态扩展、适配训练、整体微调),基于 Qwen2-0.5B 模型,仅需少量数据即可实现语音能力。
5.数据集:引入 VoiceAssistant-400K 数据集,专门用于优化语音助手的输出,支持多语言理解(依赖 Whisper 音频编码器)。
资源失效请添加番茄资源网v:jay2005007或者(番茄资源网永久地址发布页www.fanq.site,收藏我回家不迷路
资源获取:
通过网盘分享的文件获取【更多资源www.fanq.site】
