proxy路由规则设置;实时会议转写 + 说话人区分语音 AI 场景初探;
proxy路由规则设置;
proxy路由规则设置中outboundTag、port、portocol、inboundTag、enabled、domain、IP。逐个解释这些参数是什么,有什么作用
- outboundTag(出口标签)
在proxy核心里,每一个出站都有一个 tag,比如:
proxy:FQ流量;direct:本地 / 国内 / 局域网;block:广告 / 黑洞; - port(端口)
目标端口(destination port)⚠️ 不是本地proxy端口;例如写 0-65535:不过滤端口、443:只匹配 HTTPS、11434:只匹配 Ollama; - protocol(协议)
传输层 / 应用层协议类型;禁 BT、只proxy HTTP、UDP 单独分流(DNS / QUIC);
大多数情况,👉 留空即可(除非你明确知道自己在干嘛); - inboundTag(入口标签)
这条流量是“从哪里进来的”;比如:系统proxy、SOCKS proxy、HTTP proxy、透明proxy(TUN);
👉 多入口场景下区分来源; - domain(域名)
按“域名”匹配流量 比如:domain:example-example.com匹配这个域名的就会走这个规则; - IP(IP 地址)
按“目标 IP”匹配流量 比如:geoip:cn匹配这个ip的就会走这个规则;
实时会议转写 + 说话人区分语音 AI 场景初探;
且“实时 + 区分说话人 + 转文字”是完全可落地的,但要理清思路;
核心能力拆解
这个需求至少包含 3 个子问题,使用不同的模型及技术栈:
- 实时语音转文字(ASR Streaming)
- 说话人分离 / 说话人分段(Diarization)
- 说话人身份映射(张三 / 李四)
同一条音频流
│
│
VAD(可选)
┌───────────┼───────────┐
│ │ │
ASR Diarization Voiceprint
(说了啥) (谁在说) (这个人是谁)
│
│
时间对齐 / 回填修正
这个 VAD 是可选的,它主要是以下几个作用:
- 过滤纯静音、不送 GPU、不浪费算力
- 触发切块边界、句子结束、停顿检测
- 稳定延迟、避免 ASR 无限 buffer
考虑到ASR不强依赖VAD,Diarization用VAD反而会变差,应用场景基本上都是有人不断在说话的会议场景,暂时不用VAD
浙公网安备 33010602011771号