deephub

2026年5月14日

摘要：做过检索增强生成（Retrieval-Augmented Generation，RAG）的人大概都遇到过这样的情况：用户问了一个完全合理的问题，但检索就是漏掉了最相关的信息。传统 RAG Pipeline 不弱，但它严重依赖查询和文档分块之间的直接相似度匹配。措辞和文档内容只要写法不一样这套就开始阅读全文

posted @ 2026-05-14 22:17 deephub 阅读(6) 评论(0) 推荐(0)

2026年5月13日

让机器学习 Pipeline 更稳的 5 个 Python 装饰器代码

摘要： AI 项目的代码膨胀速度很快。跑通原型后过几周就会塞满 API 调用、模型 Pipeline、重试、日志、缓存和各种校验逻辑。函数被各种边角任务塞满，反而不再专注于核心的逻辑。所以有经验的 Python 工程师会大量使用装饰器老解决这个问题装饰器让代码可复用、可扩展，写出来的 AI 应用也更整洁，阅读全文

posted @ 2026-05-13 21:01 deephub 阅读(5) 评论(0) 推荐(0)

2026年5月12日

Feature Engineering 实战：Pandas + Scikit-learn的机器学习特征工程的完整代码示例

摘要： Feature engineering 是机器学习 pipeline 里最关键的一环。算法再好，如果输入数据噪声大、不一致或者缺乏有意义的特征，模型表现都不会很好这篇文章用 Pandas和 Scikit-learn，把一条完整的 feature engineering pipeline 做个完整的阅读全文

posted @ 2026-05-12 22:11 deephub 阅读(3) 评论(0) 推荐(0)

2026年5月11日

2026 RAG 选型指南：Vector、Graph、Vectorless 该怎么挑

摘要：检索找到了某个语义上接近的片段，LLM 围绕它写出一段文字，但是没人发现答案是错的。这是 vector RAG 调参解决不了的失败问题。而现在有2种方法可以解决他： GraphRAG 增加了一层 knowledge graph，用来描绘实体之间的关系。 Vectorless RAG 完全抛弃向量数据阅读全文

posted @ 2026-05-11 21:00 deephub 阅读(10) 评论(0) 推荐(0)

2026年5月10日

三个工具，让 agent 在一次对话里完成研究、写码、调试与保存

摘要： agent 抓了一份 Python 文档，写了三段 list comprehension 示例，然后跑起来。前两段没问题第三段抛出了语法错误。它没有停在那里，而是去读错误信息、找到问题、把代码改了，再跑一次。这次过了，到这一刻"agentic" 这个词才真正落地。单个工具是噱头，工具集才是真正的系阅读全文

posted @ 2026-05-10 22:10 deephub 阅读(6) 评论(0) 推荐(0)

2026年5月7日

用 Playwright 和 LLM 实现自愈测试自动化

摘要： Playwright 是一个用于 Web 自动化和端到端测试的开源框架。如果我们将他和LLM结合，就可以实现“自愈”的自动化测试，这样如果UI有了改动框架不再硬性失败而是在检测到失败之后分析当前的 DOM（Document Object Model），基于规则的策略自动恢复出一个能用的 locato 阅读全文

posted @ 2026-05-07 21:51 deephub 阅读(24) 评论(0) 推荐(0)

2026年5月6日

为什么 MCP 在协议层会有 prompt injection的问题：工具描述如何劫持 agent 上下文

摘要： MCP（Model Context Protocol）当初被设计成 AI agent 的通用集成层，但它的架构有一个根本缺陷：你接入的每一个 MCP 服务器，都会把它的工具描述原样放进 agent 的上下文窗口，每加一个就扩大一次攻击的可能性。这就是Context Poisoning —— 即恶阅读全文

posted @ 2026-05-06 22:07 deephub 阅读(21) 评论(0) 推荐(0)

2026年4月30日

BM25 + Vectors：为什么真实 RAG 系统通常两者都需要

摘要： RAG 是一个先选内容再做生成的系统；retriever 不搜索文档，它搜索 chunks。chunks 有问题了那么检索还没开始就已经完蛋了，所以我们可以用结构感知切分修这一点，把标题、代码块、警告框保持在一起。但 chunks 完全连贯并不意味着就没事了，retriever 还需要正确的搜索信阅读全文

posted @ 2026-04-30 21:30 deephub 阅读(8) 评论(0) 推荐(0)

2026年4月29日

从无状态到有状态：长时运行 Agent 的 5 种架构模式

摘要：生产里真正有分量的工作流是能批量处理几千份保险理赔、跑完一周的销售触达节奏、跨系统对账等等的复杂工作，而这些是没办法塞进一次对话轮次里。因为他们的处理时间以天为单位，而不是秒。一旦动手做这类长时运行的 agent，会遇到一个问题：大多数 agent 架构本质上是无状态的，每次交互都从数据库里把 c 阅读全文

posted @ 2026-04-29 22:02 deephub 阅读(8) 评论(0) 推荐(0)

2026年4月28日

LangChain 生态里的三层抽象:LangGraph、create_agent、Deep Agents

摘要：要做这样一个 AI 助手:能上网查资料、能读写文件、能记住过去的对话,还能在执行有风险的操作前先征询人类的意见。听起来是不是很复杂，其实并不是LangChain 生态里现成的几套工具,把开发时间压到了几个小时。不过这里就多了一个问题： create_agent 、Deep Agents 和 Lang 阅读全文

posted @ 2026-04-28 20:05 deephub 阅读(9) 评论(0) 推荐(0)

overfit深度学习

公告