摘要:
以[小落同学](https://x.oddmeta.net "小落同学")而言,她支持天气预报,会议调度,智能家居控制等多种智能体功能,她的做法是部署多个不同的智能体,也即:启动多个oddagent,每个oddagent配置一个智能体配置,并绑定一个端口,然后前置一个工作流接受用户输入,并根据用户的输出再导到不同的oddagent过去处理。 阅读全文
以[小落同学](https://x.oddmeta.net "小落同学")而言,她支持天气预报,会议调度,智能家居控制等多种智能体功能,她的做法是部署多个不同的智能体,也即:启动多个oddagent,每个oddagent配置一个智能体配置,并绑定一个端口,然后前置一个工作流接受用户输入,并根据用户的输出再导到不同的oddagent过去处理。 阅读全文
posted @ 2026-01-07 09:02
程序员老奥
阅读(108)
评论(0)
推荐(0)
前阵子我把Kokoro整合到OddTTS里,给我的小落同学项目用起来了,结合 Moonshine(语音识别)+ Kokoro(语音合成),可以实现完全的本地端到端语音对话,但是由于我的电脑配置太差(十年前的老笔记本),所以还是想再把OddASR的模型再给换一个更轻量级的试试看效果,这个Moonshine的数据看上去不错,后面准备把它整合一下到OddASR,放到小落同学上去跑跑看效果。
为OddTTS加了一下变声的功能,用的是ffmpeg的方案,时延稍微增加一点,但是还可以接受。
我自己也在做一个类似的东西,叫**小落同学**。看到 Pika AI Selves 的时候,第一反应是:终于有人跟我想到一块去了。第二反应是:但我们的路数不太一样。
OpenSpec 能保证 AI 理解了你的需求,但不能保证代码完全正确。用这套工具不会让你完全放手,只是把 debug 的环节从"改 prompt 重跑"变成了"review 代码"——后者通常更高效。
实测效果: - 5 万字文本 → 约 2.5 小时音频 - 纯 CPU 推理,不需要显卡 - 8 种音色切换(Kokoro 引擎) - 中英混合朗读自然 - 中途停止后可以从断点继续
很多人第一次接触语音合成(TTS),想到的是讯飞、百度这些云端API。但仔细一算:调用一次要花钱、网不好会卡顿、隐私数据还要传出去——这对于普通用户来说,门槛实在太高了。
前两天针对轻量级TTS引擎Kokoro做了一些测试,测试下来发现效果居然挺好的,而且自带8种音色的支持,纯CPU跑,速度还快,测完了我就停不下来了,当时就想把它整合到我的OddTTS项目[1],今天周末终于有空,于是就简单搞了一下,现在已经在我的小落同学[2]上用上了。
对于个人开发者和小型团队来说,一个理想的TTS方案应该满足三个条件:轻量到能在CPU上跑、免费可商用、效果足够自然。
浙公网安备 33010602011771号