敏感信息检测之数据库表列

之前的文章讲述了对敏感信息文本text的检测思路(如下)。
敏感信息文本检测
关于敏感信息检测技术的理论知识

1、那么对数据库表列column中敏感字段的检测,核心的检测方案一样的(正则、算法、大模型的组合),不同的是,在数据库场景,需要同时考虑column-name 和 column 的value ,并都对两者进行检测,将检测结果进行加权。

2、数据流图:
数据库表

[SELECT * FROM table LIMIT 20]

行数据 (rows) + 列名 (cols)

┌─────────────────┬─────────────────┐
│ 字段名分析 │ 字段值分析 │
│ │ │
│ column_name_ │ analyze_value() │
│ score(col) │ │
│ │ ├─ 手机号检测 │
│ 语义相似度 │ ├─ 身份证检测 │
│ name_conf │ └─ 银行卡检测 │
│ (0-1) │ │
│ │ value_conf │
│ │ (0 or 1) │
└─────────────────┴─────────────────┘
↓ ↓
name_conf(40%) value_conf(60%)
↓ ↓
└──────┬─────────┘

final_score = 0.6value_conf + 0.4name_conf

输出结果

3、github代码:
https://github.com/Momoko-X/Sec-farming/blob/main/Sec_tool/Sensitive_scan/DBSenScan.py

4、运行效果:
image

posted @ 2025-12-10 10:54  Momoko-X  阅读(4)  评论(0)    收藏  举报