君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

#

摘要: 诗曰:试问岭南应不好,此心安处是吾乡 https://chenying99.github.io/ 欢迎来访 阅读全文
posted @ 2018-09-13 14:19 刺猬的温驯 阅读(338) 评论(0) 推荐(1)

#

摘要: 回忆一下关于元实值函数的的求导问题,函数的一阶导数为 函数的梯度正好是导数的转置,即;函数的二阶导数,也称为hessian矩阵,可表示为: 对于向量,和约束集中的某个点,如果存在一个实数使得对于所有,仍然在约束集内... 阅读全文
posted @ 2015-12-28 04:57 刺猬的温驯 阅读(4844) 评论(0) 推荐(1)

#

摘要: 最优化方法广泛的体现于自然界及人类社会中,它“先天地生,独立而不改,周行而不殆“,正如神正论者说,当前世界是上帝所创造的可能世界中最好的世界;生物的生存及进化都遵循着最优化的原则,从而形成当今我们世界的众生万物;——于人类社会中,这种原则有过之而无不及,它源于人类的一种贪婪的想法,它企图在一定... 阅读全文
posted @ 2015-12-18 22:42 刺猬的温驯 阅读(2969) 评论(0) 推荐(1)

#

摘要: 连接器里面采用的什么样的数据结构,我们先从Document迭代器开始入手,具体的Document迭代器类都实现了DocumentList接口,该接口定义了两个方法public interface DocumentList { public Document nextDocument() throw... 阅读全文
posted @ 2014-06-15 18:36 刺猬的温驯 阅读(567) 评论(0) 推荐(0)

摘要: 在哪里调用监控器管理对象snapshotRepositoryMonitorManager的start方法及stop方法,然后又在哪里调用CheckpointAndChangeQueue对象的resume方法获取List guaranteedChanges集合下面跟踪到DiffingConnector... 阅读全文
posted @ 2014-06-15 18:02 刺猬的温驯 阅读(852) 评论(0) 推荐(0)

#

摘要: 本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下:如果我们强行将上面的类图纳入某种设计模式语言的话,本人姑且将之归入桥接模式(Bridge)吧;QParserPlugin插件的行为依赖于QParser的具... 阅读全文
posted @ 2014-01-07 11:55 刺猬的温驯 阅读(950) 评论(4) 推荐(0)

#

摘要: solr索引操作(包括新增 更新 删除 提交 合并等)相关UML图如下从上面的类图我们可以发现,其中体现了工厂方法模式及责任链模式的运用UpdateRequestProcessor相当于责任链模式中的处理器角色,我们通过如下的对象图也许更能反映多个UpdateRequestProcessor类型的处... 阅读全文
posted @ 2014-01-02 00:16 刺猬的温驯 阅读(566) 评论(0) 推荐(0)

#

该文被密码保护。 阅读全文
posted @ 2013-09-07 01:46 刺猬的温驯 阅读(2) 评论(0) 推荐(0)

#

该文被密码保护。 阅读全文
posted @ 2013-08-23 00:35 刺猬的温驯 阅读(5) 评论(0) 推荐(0)

#

该文被密码保护。 阅读全文
posted @ 2013-07-09 22:32 刺猬的温驯 阅读(2) 评论(0) 推荐(0)

该文被密码保护。 阅读全文
posted @ 2013-07-09 22:31 刺猬的温驯 阅读(2) 评论(0) 推荐(0)

#

摘要: 本人翻译自 http://sourceforge.net/apps/trac/aperture/wiki/RDF2Go在Aperture中使用RDF2GoAperture是基于RDF2Go建立的,它是一个抽象层,允许Aperture易于与流行的RDF存储引擎如Sesame, Jena工作。支持的RD... 阅读全文
posted @ 2013-06-14 11:37 刺猬的温驯 阅读(591) 评论(0) 推荐(0)

#

摘要: 为了更好的使用Aperture组件,我们需要熟悉他的整体流程以及相关API接口下面是关于Aperture组件的通用结构,文章翻译自 http://sourceforge.net/apps/trac/aperture/wiki/GeneralStructure本人翻译得不伦不类,因为本人的汉语和英语都... 阅读全文
posted @ 2013-06-12 20:32 刺猬的温驯 阅读(665) 评论(0) 推荐(0)

#

该文被密码保护。 阅读全文
posted @ 2013-06-06 23:17 刺猬的温驯 阅读(2) 评论(0) 推荐(0)

2026年6月22日 #

摘要: 全文沿"显式时长建模 → 隐式对齐学习 → 弱显式对齐(Alignment Prior)"主线展开,附加一节专题分析注意力机制本身的对齐矛盾。 摘要 音素对齐(phoneme alignment,又称文本-语音对齐,speech-text alignment)是 TTS 系统的核心问题之一:模型必须 阅读全文
posted @ 2026-06-22 16:08 刺猬的温驯 阅读(18) 评论(0) 推荐(0)

摘要: 本文深入分析 TTS 扩散模型中音素对齐的核心难点,重点讨论交叉注意力在扩散早期时间步的失效问题,以及 F5-TTS、SupertonicTTS、VoxFlash-TTS 三个系统各自的解决思路。 前言 语音合成系统需要解决一个基本问题:把变长的文本序列映射到变长的音频序列。这个问题看起来简单,但在 阅读全文
posted @ 2026-06-22 16:04 刺猬的温驯 阅读(134) 评论(0) 推荐(1)

摘要: 掩码扩散(Masked Diffusion)是当前语音克隆中架构最简洁的参考音频注入方式之一,F5-TTS 和 VoiceBox 均采用了这个思路。但这个方案内部存在一个值得深入分析的结构性问题:在 DiT 的全局双向自注意力中,参考音频区域会被待生成区域(噪声)反向污染,这会如何影响音色提取质量? 阅读全文
posted @ 2026-06-22 16:00 刺猬的温驯 阅读(10) 评论(0) 推荐(0)

摘要: 语音克隆的核心是让模型"听懂"参考音频里的音色,并将其迁移到新的内容上。在扩散模型框架下,如何把参考音频的信息注入生成过程,是系统设计的关键选择之一。本文梳理当前主流的五种注入方式,分析各自的机制、优缺点和代表系统。 前言 不同的注入方式,决定了模型以什么方式"感知"目标音色: 是通过一个压缩的向量 阅读全文
posted @ 2026-06-22 15:57 刺猬的温驯 阅读(9) 评论(0) 推荐(0)

摘要: 摘要:扩散模型(Diffusion Probabilistic Models)和流匹配(Flow Matching)模型在语音合成、图像生成、视频生成等任务中取得了显著成果。然而,训练与推理之间存在一个长期被忽视的结构性问题——曝光偏差(Exposure Bias)。本文梳理该方向从 2023 年至 阅读全文
posted @ 2026-06-22 15:00 刺猬的温驯 阅读(11) 评论(0) 推荐(0)

摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践(本文) 本文是「语音合成技术系列」第六篇,也是本系列的收尾篇。前五篇铺垫 阅读全文
posted @ 2026-06-22 14:02 刺猬的温驯 阅读(14) 评论(0) 推荐(0)

摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比(本文) 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第五篇,从工程选型角度横向对比当前主流 阅读全文
posted @ 2026-06-22 14:01 刺猬的温驯 阅读(24) 评论(0) 推荐(0)

摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢(本文) 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第四篇,深入分析 TTS 推理慢的根本 阅读全文
posted @ 2026-06-22 14:01 刺猬的温驯 阅读(5) 评论(0) 推荐(0)

摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比 第三篇:第三篇:语音克隆是怎么实现的(本文) 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第三篇,介绍语音克隆的实现原理 阅读全文
posted @ 2026-06-22 13:59 刺猬的温驯 阅读(6) 评论(0) 推荐(0)

摘要: 系列文章导航 第一篇:语音合成技术发展简史 第二篇:主流 TTS 架构对比(本文) 第三篇:语音克隆是怎么实现的 第四篇:TTS 推理速度为什么这么慢 第五篇:本地部署 TTS 方案横向对比 第六篇:VoxFlash-TTS 部署实践 本文是「语音合成技术系列」第二篇,深入对比当前主流 TTS 架构 阅读全文
posted @ 2026-06-22 13:58 刺猬的温驯 阅读(9) 评论(0) 推荐(0)