摘要: 一 大模型面临的主要安全风险 数据安全和隐私:大模型在训练过程中,需要处理大量敏感数据,这可能导致数据泄露和侵犯隐私的风险 幻觉和错误输出:大模型有时输出与事实不符的内容。这可能是因为模型在训练过程中缺乏对事实判断和推理能力 对抗性攻击:大模型容易受到提示注入、样本对抗等对抗性攻击,攻击者通过微小的 阅读全文
posted @ 2026-04-03 12:58 sunshine_coast 阅读(10) 评论(0) 推荐(0)
摘要: 推荐产品的评测分为算法、内容、功能和A/B测试(线上流量验证)、生态监控几个层级,分别看下具体的层级的验证点和方法. 一、算法离线指标评测表 评估维度 核心指标 基线值 实际值 是否达标 评估工具 备注 排序能力 AUC(ROC曲线下面积) 0.82 scikit-learn 主要衡量全局排序好坏 阅读全文
posted @ 2026-03-31 17:28 sunshine_coast 阅读(7) 评论(0) 推荐(0)
摘要: 背景: 昨天先把本地代码都已提交本地仓库(未推送到远程仓库),然后又去配置SSH方式访问github,昨天配置完SSH后仍未推送代码到远程仓库; 今天使用git bash命令来推送代码,一直报下错误: Enter passphrase for key '/c/Users/xx/.ssh/id_ed2 阅读全文
posted @ 2026-03-27 14:16 sunshine_coast 阅读(1) 评论(0) 推荐(0)
摘要: 一、大模型的核心能力和评测维度 1.什么是大模型? 大模型中的大是指参数大,那么参数是什么? 参数在大模型的基础结构中,主要指两种东西: 权重(Weights):这是参数最主要的部分。权重决定了不同神经元(可以理解为处理信息的基本单元)之间连接的“强度”。 偏置(Biases):可以理解为每个神经元 阅读全文
posted @ 2026-03-27 10:51 sunshine_coast 阅读(3) 评论(0) 推荐(0)
摘要: 一、模型验证与性能评估 模型验证方法:确保评估的信服力 方法一:留出法 定义:将数据集一次性划分为训练集、验证集和测试集。强调测试集必须与训练集完全隔离,且只能用于最终评估,不饿能用于其他阶段 留出法数据集划分标准:70/15/15 案例:假设原始数据集D包含4369条商品评论,我们将分两步进行划分 阅读全文
posted @ 2026-03-25 13:06 sunshine_coast 阅读(11) 评论(0) 推荐(0)
摘要: 1.背景 承接文章:AI-使用DeepEval评测自己构建的RAG系统(二),从运行的评测结果来看,存在如下需要优化点: - 1.检索上下文为空 : actual_output 显示"上下文中没有提供关于'大语言模型LLM是什么,有什么特点'的任何信息。"- 2.Contextual Relevan 阅读全文
posted @ 2026-03-25 09:33 sunshine_coast 阅读(2) 评论(0) 推荐(0)
摘要: 基于AI-使用DeepEval评测自己构建的RAG系统(一) 的基础上,让AI帮忙分析了存在的问题和需要优化改进点,按照问题优先级列出,先重点关注高优先级的,清单如下: 一、高优先级问题 1. 安全性问题 - API密钥硬编码 :现在通过环境变量或配置文件获取API密钥,避免了硬编码的安全风险。 A 阅读全文
posted @ 2026-03-24 11:05 sunshine_coast 阅读(11) 评论(0) 推荐(0)
摘要: 1.使用tensorflow加载数据,并进行数据的预处理 import tensorflow as tf from sklearn.model_selection import train_test_split import numpy as np # 1. 加载数据(TF 2.x 方式) (x_t 阅读全文
posted @ 2026-03-20 16:18 sunshine_coast 阅读(6) 评论(0) 推荐(0)
摘要: tensorflow简介 是由 Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型。 核心概念: 张量(Tensor): 多维数组,是 TensorFlow 中的基本数据单位 计算图(Computation 阅读全文
posted @ 2026-03-19 16:06 sunshine_coast 阅读(3) 评论(0) 推荐(0)
摘要: 一、先理解RAG和DeepEval的底层逻辑 1.DeepEval是一个LLM评估框架,类似于"AI版的Pytest",专门用于测试和评估LLM应用的输出质量。它支持评估AI回答的准确性、幻觉程度、相关性等指标。 项目地址:https://deepeval.com/docs/getting-star 阅读全文
posted @ 2026-03-12 10:47 sunshine_coast 阅读(69) 评论(0) 推荐(0)