Releases · wwbin2017/bailing · GitHub

8000 Releases · wwbin2017/bailing · GitHub

More Web Proxy on the site http://driver.im/

31 May 00:12

wwbin2017

新增aigc能力 Latest

Latest

新增aigc能力

Full Changelog: v0.0.2...v0.0.3

Assets 2

14 Mar 12:49

wwbin2017

v0.0.2

百聆是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别 (ASR)、语音活动检测 (VAD)、大语言模型 (LLM) 和语音合成 (TTS) 技术，这是一个类似GPT-4o的语音对话机器人，通过ASR+LLM+TTS实现，提供高质量的语音对话体验，端到端时延800ms。百聆旨在无需GPU的情况下，实现类GPT-4o的对话效果，适用于各种边缘设备和低资源环境。

🚀 流畅对话体验：低延迟、不卡顿，几乎像真人对话一样自然，百聆使用了多个开源模型，确保高效、可靠的语音对话体验。
🖥 轻量级部署：无需高端硬件，甚至不需要 GPU，通过优化，可本地部署，仍能提供类GPT-4的性能表现。
🔧 模块化设计：ASR、VAD、LLM和TTS模块相互独立，可以根据需求进行替换和升级。
🧠 智能记忆功能：具备持续学习能力，能够记忆用户的偏好与历史对话，提供个性化的互动体验。
🛠 工具调用能力：灵活集成外部工具，用户可通过语音直接请求信息或执行操作，提升助手的实用性。
📅 任务管理：高效管理用户任务，能够跟踪进度、设置提醒，并提供动态更新，确保用户不错过任何重要事项。

Assets 2

04 Oct 03:14

wwbin2017

v0.0.1 Pre-release

Pre-release

百聆是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别 (ASR)、语音活动检测 (VAD)、大语言模型 (LLM) 和语音合成 (TTS) 技术，这是一个类似GPT-4o的语音对话机器人，通过ASR+LLM+TTS实现，提供高质量的语音对话体验，端到端时延800ms。百聆旨在无需GPU的情况下，实现类GPT-4o的对话效果，适用于各种边缘设备和低资源环境。

语音输入：通过 FunASR 进行准确的语音识别。
语音活动检测：使用 silero-vad 过滤无效音频，提升识别效率。
智能对话生成：依靠 deepseek 提供的强大语言理解能力生成自然的文本回复，极具性价比。
语音输出：通过 edge-tts 将文本转为语音，为用户提供逼真的听觉反馈。
支持打断：配置打断策略，支持关键字和语音打断

Assets 2

0