会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
君子博学而日参省乎己 则知明而行无过矣
博客园
首页
新随笔
联系
订阅
管理
公告
#
[置顶]
我的新的栖居小站
摘要: 诗曰:试问岭南应不好,此心安处是吾乡 https://chenying99.github.io/ 欢迎来访
阅读全文
posted @ 2018-09-13 14:19 刺猬的温驯
阅读(338)
评论(0)
推荐(1)
#
[置顶]
最优化局部极小点的条件(二)
摘要: 回忆一下关于元实值函数的的求导问题,函数的一阶导数为 函数的梯度正好是导数的转置,即;函数的二阶导数,也称为hessian矩阵,可表示为: 对于向量,和约束集中的某个点,如果存在一个实数使得对于所有,仍然在约束集内...
阅读全文
posted @ 2015-12-28 04:57 刺猬的温驯
阅读(4844)
评论(0)
推荐(1)
#
[置顶]
最优化方法及其数学模型(一)
摘要: 最优化方法广泛的体现于自然界及人类社会中,它“先天地生,独立而不改,周行而不殆“,正如神正论者说,当前世界是上帝所创造的可能世界中最好的世界;生物的生存及进化都遵循着最优化的原则,从而形成当今我们世界的众生万物;——于人类社会中,这种原则有过之而无不及,它源于人类的一种贪婪的想法,它企图在一定...
阅读全文
posted @ 2015-12-18 22:42 刺猬的温驯
阅读(2969)
评论(0)
推荐(1)
#
[置顶]
企业搜索引擎开发之连接器connector(三十)
摘要: 连接器里面采用的什么样的数据结构,我们先从Document迭代器开始入手,具体的Document迭代器类都实现了DocumentList接口,该接口定义了两个方法public interface DocumentList { public Document nextDocument() throw...
阅读全文
posted @ 2014-06-15 18:36 刺猬的温驯
阅读(567)
评论(0)
推荐(0)
[置顶]
企业搜索引擎开发之连接器connector(二十九)
摘要: 在哪里调用监控器管理对象snapshotRepositoryMonitorManager的start方法及stop方法,然后又在哪里调用CheckpointAndChangeQueue对象的resume方法获取List guaranteedChanges集合下面跟踪到DiffingConnector...
阅读全文
posted @ 2014-06-15 18:02 刺猬的温驯
阅读(852)
评论(0)
推荐(0)
#
[置顶]
solr&lucene3.6.0源码解析(四)
摘要: 本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下:如果我们强行将上面的类图纳入某种设计模式语言的话,本人姑且将之归入桥接模式(Bridge)吧;QParserPlugin插件的行为依赖于QParser的具...
阅读全文
posted @ 2014-01-07 11:55 刺猬的温驯
阅读(950)
评论(4)
推荐(0)
#
[置顶]
solr&lucene3.6.0源码解析(三)
摘要: solr索引操作(包括新增 更新 删除 提交 合并等)相关UML图如下从上面的类图我们可以发现,其中体现了工厂方法模式及责任链模式的运用UpdateRequestProcessor相当于责任链模式中的处理器角色,我们通过如下的对象图也许更能反映多个UpdateRequestProcessor类型的处...
阅读全文
posted @ 2014-01-02 00:16 刺猬的温驯
阅读(566)
评论(0)
推荐(0)
#
[置顶]
Hibernate源码解析(一)
该文被密码保护。
阅读全文
posted @ 2013-09-07 01:46 刺猬的温驯
阅读(2)
评论(0)
推荐(0)
#
[置顶]
Spring源码解析(一)
该文被密码保护。
阅读全文
posted @ 2013-08-23 00:35 刺猬的温驯
阅读(5)
评论(0)
推荐(0)
#
[置顶]
WEB数据挖掘(十五)——关联规则与序列模式(3)
该文被密码保护。
阅读全文
posted @ 2013-07-09 22:32 刺猬的温驯
阅读(2)
评论(0)
推荐(0)
[置顶]
WEB数据挖掘(十四)——关联规则与序列模式(2)
该文被密码保护。
阅读全文
posted @ 2013-07-09 22:31 刺猬的温驯
阅读(2)
评论(0)
推荐(0)
#
[置顶]
WEB数据挖掘(十)——Aperture数据抽取(6):在Aperture中使用RDF2Go
摘要: 本人翻译自 http://sourceforge.net/apps/trac/aperture/wiki/RDF2Go在Aperture中使用RDF2GoAperture是基于RDF2Go建立的,它是一个抽象层,允许Aperture易于与流行的RDF存储引擎如Sesame, Jena工作。支持的RD...
阅读全文
posted @ 2013-06-14 11:37 刺猬的温驯
阅读(591)
评论(0)
推荐(0)
#
[置顶]
WEB数据挖掘(八)——Aperture数据抽取(4):Aperture整体结构
摘要: 为了更好的使用Aperture组件,我们需要熟悉他的整体流程以及相关API接口下面是关于Aperture组件的通用结构,文章翻译自 http://sourceforge.net/apps/trac/aperture/wiki/GeneralStructure本人翻译得不伦不类,因为本人的汉语和英语都...
阅读全文
posted @ 2013-06-12 20:32 刺猬的温驯
阅读(665)
评论(0)
推荐(0)
#
[置顶]
WEB数据挖掘(四)——实体识别
该文被密码保护。
阅读全文
posted @ 2013-06-06 23:17 刺猬的温驯
阅读(2)
评论(0)
推荐(0)
2026年6月22日
#
TTS 中的音素对齐:从显式时长建模到注意力机制的全面解析
摘要: 全文沿"显式时长建模 → 隐式对齐学习 → 弱显式对齐(Alignment Prior)"主线展开,附加一节专题分析注意力机制本身的对齐矛盾。 摘要 音素对齐(phoneme alignment,又称文本-语音对齐,speech-text alignment)是 TTS 系统的核心问题之一:模型必须
阅读全文
posted @ 2026-06-22 16:08 刺猬的温驯
阅读(18)
评论(0)
推荐(0)
语音克隆模型的难点之一:音素对齐及交叉注意力早期失效问题 (兼论旋转位置编码)——F5-TTS、SupertonicTTS、VoxFlash-TTS 对比
摘要: 本文深入分析 TTS 扩散模型中音素对齐的核心难点,重点讨论交叉注意力在扩散早期时间步的失效问题,以及 F5-TTS、SupertonicTTS、VoxFlash-TTS 三个系统各自的解决思路。 前言 语音合成系统需要解决一个基本问题:把变长的文本序列映射到变长的音频序列。这个问题看起来简单,但在
阅读全文
posted @ 2026-06-22 16:04 刺猬的温驯
阅读(134)
评论(0)
推荐(1)
掩码扩散语音克隆:参考音频为什么会被噪声"污染"?
摘要: 掩码扩散(Masked Diffusion)是当前语音克隆中架构最简洁的参考音频注入方式之一,F5-TTS 和 VoiceBox 均采用了这个思路。但这个方案内部存在一个值得深入分析的结构性问题:在 DiT 的全局双向自注意力中,参考音频区域会被待生成区域(噪声)反向污染,这会如何影响音色提取质量?
阅读全文
posted @ 2026-06-22 16:00 刺猬的温驯
阅读(10)
评论(0)
推荐(0)
扩散模型语音克隆:参考音频注入的五种方式
摘要: 语音克隆的核心是让模型"听懂"参考音频里的音色,并将其迁移到新的内容上。在扩散模型框架下,如何把参考音频的信息注入生成过程,是系统设计的关键选择之一。本文梳理当前主流的五种注入方式,分析各自的机制、优缺点和代表系统。 前言 不同的注入方式,决定了模型以什么方式"感知"目标音色: 是通过一个压缩的向量
阅读全文
posted @ 2026-06-22 15:57 刺猬的温驯
阅读(9)
评论(0)
推荐(0)
扩散模型的"训练-推理鸿沟":Exposure Bias 全景分析
摘要: 摘要:扩散模型(Diffusion Probabilistic Models)和流匹配(Flow Matching)模型在语音合成、图像生成、视频生成等任务中取得了显著成果。然而,训练与推理之间存在一个长期被忽视的结构性问题——曝光偏差(Exposure Bias)。本文梳理该方向从 2023 年至
阅读全文
posted @ 2026-06-22 15:00 刺猬的温驯
阅读(11)
评论(0)
推荐(0)
VoxFlash-TTS 部署实践:从安装到语音克隆的完整流程
摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践(本文) 本文是「语音合成技术系列」第六篇,也是本系列的收尾篇。前五篇铺垫
阅读全文
posted @ 2026-06-22 14:02 刺猬的温驯
阅读(14)
评论(0)
推荐(0)
本地部署 TTS 方案横向对比:Fish Speech、CosyVoice 2、GPT-SoVITS 与 VoxFlash-TTS
摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比(本文) 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第五篇,从工程选型角度横向对比当前主流
阅读全文
posted @ 2026-06-22 14:01 刺猬的温驯
阅读(24)
评论(0)
推荐(0)
TTS 推理速度为什么这么慢:序列长度问题与扩散模型的计算瓶颈
摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢(本文) 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第四篇,深入分析 TTS 推理慢的根本
阅读全文
posted @ 2026-06-22 14:01 刺猬的温驯
阅读(5)
评论(0)
推荐(0)
语音克隆是怎么实现的:零样本克隆与 Speaker Embedding
摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:第三篇:语音克隆是怎么实现的(本文) 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第三篇,介绍语音克隆的实现原理
阅读全文
posted @ 2026-06-22 13:59 刺猬的温驯
阅读(6)
评论(0)
推荐(0)
主流 TTS 架构对比:Tacotron、FastSpeech、VITS 与扩散模型
摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比(本文) 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第二篇,深入对比当前主流 TTS 架构
阅读全文
posted @ 2026-06-22 13:58 刺猬的温驯
阅读(9)
评论(0)
推荐(0)
下一页
博客园
© 2004-2026
浙公网安备 33010602011771号
浙ICP备2021040463号-3