sunshine_coast - 博客园

2026年4月3日

摘要：一大模型面临的主要安全风险数据安全和隐私：大模型在训练过程中，需要处理大量敏感数据，这可能导致数据泄露和侵犯隐私的风险幻觉和错误输出：大模型有时输出与事实不符的内容。这可能是因为模型在训练过程中缺乏对事实判断和推理能力对抗性攻击：大模型容易受到提示注入、样本对抗等对抗性攻击，攻击者通过微小的阅读全文

posted @ 2026-04-03 12:58 sunshine_coast 阅读(10) 评论(0) 推荐(0)

2026年3月31日

AI-推荐产品的通用测试方法

摘要：推荐产品的评测分为算法、内容、功能和A/B测试（线上流量验证）、生态监控几个层级，分别看下具体的层级的验证点和方法. 一、算法离线指标评测表评估维度核心指标基线值实际值是否达标评估工具备注排序能力 AUC（ROC曲线下面积） 0.82 scikit-learn 主要衡量全局排序好坏阅读全文

posted @ 2026-03-31 17:28 sunshine_coast 阅读(7) 评论(0) 推荐(0)

2026年3月27日

踩坑-使用AI操作代码提交，误删本地代码

摘要：背景：昨天先把本地代码都已提交本地仓库（未推送到远程仓库），然后又去配置SSH方式访问github，昨天配置完SSH后仍未推送代码到远程仓库；今天使用git bash命令来推送代码，一直报下错误： Enter passphrase for key '/c/Users/xx/.ssh/id_ed2 阅读全文

posted @ 2026-03-27 14:16 sunshine_coast 阅读(1) 评论(0) 推荐(0)

AI-大模型场景可用性测试

摘要：一、大模型的核心能力和评测维度 1.什么是大模型？大模型中的大是指参数大，那么参数是什么？参数在大模型的基础结构中，主要指两种东西：权重（Weights）：这是参数最主要的部分。权重决定了不同神经元（可以理解为处理信息的基本单元）之间连接的“强度”。偏置（Biases）：可以理解为每个神经元阅读全文

posted @ 2026-03-27 10:51 sunshine_coast 阅读(3) 评论(0) 推荐(0)

2026年3月25日

AI-大模型验证及性能评估方法

摘要：一、模型验证与性能评估模型验证方法：确保评估的信服力方法一：留出法定义：将数据集一次性划分为训练集、验证集和测试集。强调测试集必须与训练集完全隔离，且只能用于最终评估，不饿能用于其他阶段留出法数据集划分标准：70/15/15 案例：假设原始数据集D包含4369条商品评论，我们将分两步进行划分阅读全文

posted @ 2026-03-25 13:06 sunshine_coast 阅读(11) 评论(0) 推荐(0)

AI-使用DeepEval对构建的RAG系统进行评测结果优化（三）

摘要： 1.背景承接文章：AI-使用DeepEval评测自己构建的RAG系统（二），从运行的评测结果来看，存在如下需要优化点： - 1.检索上下文为空： actual_output 显示"上下文中没有提供关于'大语言模型LLM是什么，有什么特点'的任何信息。"- 2.Contextual Relevan 阅读全文

posted @ 2026-03-25 09:33 sunshine_coast 阅读(2) 评论(0) 推荐(0)

2026年3月24日

AI-使用DeepEval评测自己构建的RAG系统（二）

摘要：基于AI-使用DeepEval评测自己构建的RAG系统（一）的基础上，让AI帮忙分析了存在的问题和需要优化改进点，按照问题优先级列出，先重点关注高优先级的，清单如下：一、高优先级问题 1. 安全性问题 - API密钥硬编码：现在通过环境变量或配置文件获取API密钥，避免了硬编码的安全风险。 A 阅读全文

posted @ 2026-03-24 11:05 sunshine_coast 阅读(11) 评论(0) 推荐(0)

2026年3月20日

使用tensorflow2.0进行卷积模型训练与效果展示

摘要： 1.使用tensorflow加载数据，并进行数据的预处理 import tensorflow as tf from sklearn.model_selection import train_test_split import numpy as np # 1. 加载数据（TF 2.x 方式） (x_t 阅读全文

posted @ 2026-03-20 16:18 sunshine_coast 阅读(6) 评论(0) 推荐(0)

2026年3月19日

tensorflow2.0的基础概念和操作

摘要： tensorflow简介是由 Google Brain 团队开发的开源机器学习框架，广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台，用于构建和训练各种机器学习模型。核心概念：张量(Tensor): 多维数组，是 TensorFlow 中的基本数据单位计算图(Computation 阅读全文

posted @ 2026-03-19 16:06 sunshine_coast 阅读(3) 评论(0) 推荐(0)

2026年3月12日

AI-使用DeepEval评测自己构建的RAG系统（一）

摘要：一、先理解RAG和DeepEval的底层逻辑 1.DeepEval是一个LLM评估框架，类似于"AI版的Pytest"，专门用于测试和评估LLM应用的输出质量。它支持评估AI回答的准确性、幻觉程度、相关性等指标。项目地址：https://deepeval.com/docs/getting-star 阅读全文

posted @ 2026-03-12 10:47 sunshine_coast 阅读(69) 评论(0) 推荐(0)

chenwh_123

公告