proxy路由规则设置；实时会议转写 + 说话人区分语音 AI 场景初探；

proxy路由规则设置；

proxy路由规则设置中outboundTag、port、portocol、inboundTag、enabled、domain、IP。逐个解释这些参数是什么，有什么作用

outboundTag（出口标签）
在proxy核心里，每一个出站都有一个 tag，比如：
proxy：FQ流量；direct：本地 / 国内 / 局域网；block：广告 / 黑洞；
port（端口）
目标端口（destination port）⚠️ 不是本地proxy端口；例如写 0-65535：不过滤端口、443：只匹配 HTTPS、11434：只匹配 Ollama；
protocol（协议）
传输层 / 应用层协议类型；禁 BT、只proxy HTTP、UDP 单独分流（DNS / QUIC）；
大多数情况，👉 留空即可（除非你明确知道自己在干嘛）；
inboundTag（入口标签）
这条流量是“从哪里进来的”；比如：系统proxy、SOCKS proxy、HTTP proxy、透明proxy（TUN）；
👉 多入口场景下区分来源；
domain（域名）
按“域名”匹配流量比如：domain:example-example.com匹配这个域名的就会走这个规则；
IP（IP 地址）
按“目标 IP”匹配流量比如：geoip:cn匹配这个ip的就会走这个规则；

实时会议转写 + 说话人区分语音 AI 场景初探；

且“实时 + 区分说话人 + 转文字”是完全可落地的，但要理清思路；

核心能力拆解

这个需求至少包含 3 个子问题，使用不同的模型及技术栈：

实时语音转文字（ASR Streaming）
说话人分离 / 说话人分段（Diarization）
说话人身份映射（张三 / 李四）

            同一条音频流
                    │
                    │
                   VAD（可选）
        ┌───────────┼───────────┐
        │           │           │
       ASR     Diarization   Voiceprint
    （说了啥） （谁在说）   （这个人是谁）
                    │
                    │
            时间对齐 / 回填修正

这个 VAD 是可选的，它主要是以下几个作用：

过滤纯静音、不送 GPU、不浪费算力
触发切块边界、句子结束、停顿检测
稳定延迟、避免 ASR 无限 buffer

考虑到ASR不强依赖VAD，Diarization用VAD反而会变差，应用场景基本上都是有人不断在说话的会议场景，暂时不用VAD

posted @ 2026-02-06 18:02 asphyxiasea 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

proxy路由规则设置；实时会议转写 + 说话人区分语音 AI 场景初探；

proxy路由规则设置；

实时会议转写 + 说话人区分语音 AI 场景初探；

核心能力拆解

公告