proxy路由规则设置;实时会议转写 + 说话人区分语音 AI 场景初探;

proxy路由规则设置;

proxy路由规则设置中outboundTag、port、portocol、inboundTag、enabled、domain、IP。逐个解释这些参数是什么,有什么作用

  1. outboundTag(出口标签)
    在proxy核心里,每一个出站都有一个 tag,比如:
    proxy:FQ流量;direct:本地 / 国内 / 局域网;block:广告 / 黑洞;
  2. port(端口)
    目标端口(destination port)⚠️ 不是本地proxy端口;例如写 0-65535:不过滤端口、443:只匹配 HTTPS、11434:只匹配 Ollama;
  3. protocol(协议)
    传输层 / 应用层协议类型;禁 BT、只proxy HTTP、UDP 单独分流(DNS / QUIC);
    大多数情况,👉 留空即可(除非你明确知道自己在干嘛);
  4. inboundTag(入口标签)
    这条流量是“从哪里进来的”;比如:系统proxy、SOCKS proxy、HTTP proxy、透明proxy(TUN);
    👉 多入口场景下区分来源;
  5. domain(域名)
    按“域名”匹配流量 比如:domain:example-example.com匹配这个域名的就会走这个规则;
  6. IP(IP 地址)
    按“目标 IP”匹配流量 比如:geoip:cn匹配这个ip的就会走这个规则;

实时会议转写 + 说话人区分语音 AI 场景初探;

且“实时 + 区分说话人 + 转文字”是完全可落地的,但要理清思路;

核心能力拆解

这个需求至少包含 3 个子问题,使用不同的模型及技术栈:

  • 实时语音转文字(ASR Streaming)
  • 说话人分离 / 说话人分段(Diarization)
  • 说话人身份映射(张三 / 李四)
            同一条音频流
                    │
                    │
                   VAD(可选)
        ┌───────────┼───────────┐
        │           │           │
       ASR     Diarization   Voiceprint
    (说了啥) (谁在说)   (这个人是谁)
                    │
                    │
            时间对齐 / 回填修正

这个 VAD 是可选的,它主要是以下几个作用:

  • 过滤纯静音、不送 GPU、不浪费算力
  • 触发切块边界、句子结束、停顿检测
  • 稳定延迟、避免 ASR 无限 buffer

考虑到ASR不强依赖VAD,Diarization用VAD反而会变差,应用场景基本上都是有人不断在说话的会议场景,暂时不用VAD

posted @ 2026-02-06 18:02  asphyxiasea  阅读(1)  评论(0)    收藏  举报