敏感信息检测之数据库表列

之前的文章讲述了对敏感信息文本text的检测思路（如下）。
敏感信息文本检测
 关于敏感信息检测技术的理论知识

1、那么对数据库表列column中敏感字段的检测，核心的检测方案一样的（正则、算法、大模型的组合），不同的是，在数据库场景，需要同时考虑column-name 和 column 的value ，并都对两者进行检测，将检测结果进行加权。

2、数据流图：
数据库表
↓
[SELECT * FROM table LIMIT 20]
↓
行数据 (rows) + 列名 (cols)
↓
┌─────────────────┬─────────────────┐
│ 字段名分析 │ 字段值分析 │
│ │ │
│ column_name_ │ analyze_value() │
│ score(col) │ │
│ │ ├─ 手机号检测 │
│ 语义相似度 │ ├─ 身份证检测 │
│ name_conf │ └─ 银行卡检测 │
│ (0-1) │ │
│ │ value_conf │
│ │ (0 or 1) │
└─────────────────┴─────────────────┘
↓ ↓
name_conf（40%） value_conf（60%）
↓ ↓
└──────┬─────────┘
↓
final_score = 0.6value_conf + 0.4name_conf
↓
输出结果

3、github代码：
https://github.com/Momoko-X/Sec-farming/blob/main/Sec_tool/Sensitive_scan/DBSenScan.py

4、运行效果：

posted @ 2025-12-10 10:54 Momoko-X 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

敏感信息检测之数据库表列

公告