mini omni,语言模型思考时听到、交谈和流媒体传输

栏目：AI工具作者：fanq_shop 时间：2025-09-19 22:43:05

微信图片_20250919224024_158_58.png

配置要求：16G以上显卡可用

一个轻量级、开源的多模态大型语言模型（MLLM），具备以下核心能力：端到端语音输入：无需手动打字，直接“说话”提问; 流式音频输出：边思考边说，实现自然对话节奏多模态理解：可处理文本 + 图像 + 音频等多种输入;它打破了传统 LLM 只能靠文字交互的局限，真正实现了“听得到、看得见、说得出 ”的全息 AI 对话体验！

https://github.com/gpt-omni/mini-omni

主要特点 :
实时语音交互：无需额外的自动语音识别（ASR）或文本转语音（TTS）模型，支持直接语音到语音的对话，降低延迟。
边思考边说话：能够同时生成文本和音频输出，实现更自然的对话体验。
多模态支持：处理文本、语音输入，并通过流式音频输出响应，支持多模态交互。
高效训练：采用三阶段训练流程（模态扩展、适配训练、整体微调），基于 Qwen2-0.5B 模型，仅需少量数据即可实现语音能力。
数据集：引入 VoiceAssistant-400K 数据集，专门用于优化语音助手的输出，支持多语言理解（依赖 Whisper 音频编码器）。

资源失效请添加番茄资源网v：jay2005007或者(番茄资源网永久地址发布页www.fanq.site，收藏我回家不迷路

资源获取:

通过网盘分享的文件获取【更多资源www.fanq.site】

mini omni,语言模型思考时听到、交谈和流媒体传输

我要留言

分类栏目