绵满 - 博客园

2025年3月8日

摘要：传统方式先探讨一个问题，我们怎么获取一个词语有用的含义？以前常用的NLP解决方法，使用WordNet，这是一个包含同义词和上位词列表的同义词库传统NLP中，我们用独热向量作为特征，这导致需要的特征向量维度过大，且由于独热向量都是正交的，所以词与词之间没有关联。 Word2Vec Word2Ve 阅读全文

posted @ 2025-03-08 22:32 绵满阅读(439) 评论(0) 推荐(0)

2025年3月7日

算法类型小记

摘要：链表问题翻转、回文、相交、倒数第k个：一般都用双指针（快慢指针）倒序打印、操作：后序遍历即可数组问题翻转、回文、相交、n-sum：一般都用双指针区域和：一般使用前缀和数组区间增减：一般使用差分数组矩阵旋转：先按照对角线镜像对称，再对每一行进行翻转矩阵的螺旋遍历：利用边界移动实现满足阅读全文

posted @ 2025-03-07 21:51 绵满阅读(299) 评论(0) 推荐(0)

欢迎来到绵满的笔记小屋😃！

摘要：我会不时上传一些自己的笔记，如果有理解错误的地方请在评论区指出，我会及时回复的！如果我的笔记有帮助到你的话，可以动动小手登录一下，你的点赞评论和关注是我持续更新的动力！（成就感↑↑↑）阅读全文

posted @ 2025-03-07 21:49 绵满阅读(283) 评论(0) 推荐(1)

APT 论文速读

摘要：背景 (1) 定义 APT 攻击（Advanced Persistent Threat，高级持续性威胁）是利用先进的攻击手段对特定目标进行长期持续性网络攻击的攻击形式。APT 攻击也称为定向威胁攻击，指某组织对特定对象展开的持续有效的攻击活动。这种攻击活动具有极强的隐蔽性和针对性，通常会运用受感染阅读全文

posted @ 2025-03-07 21:18 绵满阅读(402) 评论(0) 推荐(1)

"Effective log parsing in log streams using fixed depth forest" 论文笔记

摘要：挑战主要讲的是 Drain 的一些问题： ① 对于变量开头的日志会存在解析错误 ② 常量在变量之前发生变化的日志也会导致解析错误框架预处理对于源日志，采用随机修改 token 的下标（即顺序）分成几个子日志，相当于数据增强候选模版生成这里采用的就是 Drain 的解析过程，为子日志生成候阅读全文

posted @ 2025-03-07 18:37 绵满阅读(255) 评论(0) 推荐(0)

"SoK: History is a Vast Early Warning System: Auditing the Provenance of System Intrusions" 论文笔记

摘要：简介审计能力就被认为是任何资源共享系统中检测违规和渗透尝试的关键。Lampson 将访问控制“黄金标准”的三大支柱确定为授权、身份验证和审计。当授权和身份验证等主动安全措施失败时，审计构成了所有形式的反应性安全的基础，使系统防御者能够在入侵升级之前识别并减轻入侵这是一篇系统审计的实证研究，总结了阅读全文

posted @ 2025-03-07 16:47 绵满阅读(67) 评论(0) 推荐(0)

"The Vendi Score: A Diversity Evaluation Metric for Machine Learning" 论文笔记

摘要：介绍我们基于生态学和量子统计力学的思想，提出了 Vendi 分数用来解决多样性评估问题 Vendi 分数不需要参考数据集或样本或标签的分布，因此它是通用的，适用于任何可以定义相似性的领域的生成模型、解码算法和数据集创新之前的多样性指标的适用性可能受到限制，因为它们需要参考数据集或预定义标签，或阅读全文

posted @ 2025-03-07 01:37 绵满阅读(315) 评论(0) 推荐(0)

"Root cause detection in a service-oriented architecture" 论文笔记

摘要：背景 MonitorRank 是最早使用随机游走的策略定位故障根因服务的方法，MonitorRank 把系统的服务分成三类：前端服务：负责接收用户的请求以及进一步调用下游请求以完成用户的请求。应用服务：负责真正处理用户请求的逻辑。数据服务：负责提供经过包装的数据。（应用服务和数据服务又统称为阅读全文

posted @ 2025-03-07 01:34 绵满阅读(283) 评论(0) 推荐(0)

"MM-LLMs: Recent Advances in MultiModal Large Language Models" 论文笔记

摘要：介绍这是一篇多模态大模型的综述 MM-LLM面临的核心挑战是如何有效地将LLM与其他模式的模型连接起来以实现协作推理建立了一个网站（https://mm-llms.github.io）来跟踪MM-LLM的最新进展并方便大家更新模型架构冻结部分不可训练，未冻结部分是可训练的 Modality 阅读全文

posted @ 2025-03-07 01:33 绵满阅读(448) 评论(0) 推荐(0)

"MicroRank: End-to-End Latency Issue Localization with Extended Spectrum Analysis in Microservice Environments" 论文笔记

摘要：任务异常检测->根因定位（服务实例级别）（针对延迟问题）贡献 MicroRank 是第一种通过正常和异常trace提取信息来对微服务应用程序进行根本原因定位的方法我们提出了一种基于扩展频谱分析的微服务环境中新颖的根本原因定位方法我们将 OpenTelemetry trace API 纳入 G 阅读全文

posted @ 2025-03-07 01:27 绵满阅读(370) 评论(0) 推荐(0)

"Log Parsing with Generalization Ability under New Log Types" 论文笔记

摘要：挑战 ① 基于可用日志先验知识设计的日志解析器性能有限，且不具有泛化性 ② 一些日志解析器在日志本身差异性大时无法正常工作 ③ 劳动密集型模型调整框架离线训练使用 WordPiece 进行 Tokenization（子词模型），然后输入到 Transformer 中进行上下文特征集成，然后输入阅读全文

posted @ 2025-03-07 01:18 绵满阅读(269) 评论(0) 推荐(0)

"Visual Instruction Tuning" 论文笔记

摘要：介绍提出了 visual instruction-tuning，这是将指令微调扩展到多模态的首次尝试相关工作多模态的指令微调 Agent、指令微调数据使用 ChatGPT/GPT-4 来将数据转化为 multimodel instrustion-following data 为每一个图像生阅读全文

posted @ 2025-03-07 00:46 绵满阅读(350) 评论(0) 推荐(0)

2025年3月6日

"LILAC: Log Parsing using LLMs with Adaptive Parsing Cache" 论文笔记

摘要：挑战 ① LLM 用于日志解析的专业能力不足 ② LLM 的输出不稳定，可能会为具有相同模板的日志消息输出不同的模板 ③ LLM 的巨大开销框架 ICL 增强解析器首先执行分层候选采样算法来采样一小组多样化且具有代表性的候选日志消息。在线解析过程中，对于每个查询的日志，LILAC 利用基于 KN 阅读全文

posted @ 2025-03-06 23:16 绵满阅读(315) 评论(0) 推荐(0)

"KnowLog: Knowledge Enhanced Pre-trained Language Model for Log Understanding" 论文笔记

摘要：背景 ① 现有模型无法理解日志中经常出现的特定领域的术语，尤其是缩写 ② 现有模型难以充分捕获完整的日志上下文信息，日志通常很简洁，无法提供足够的背景信息，这给模型充分理解日志带来了重大障碍。 ③ 现有模型难以获得风格不同的同一日志的通用表示框架预处理基于 WordPiece 的方法进行分词，阅读全文

posted @ 2025-03-06 23:10 绵满阅读(295) 评论(0) 推荐(0)

"Diagnosing root causes of intermittent slow queries in cloud databases" 论文笔记

摘要：背景 [VLDB 2020] 随着云数据库市场的不断增长，仔细检测并消除慢查询对于服务稳定性至关重要。以前的研究重点是优化由于内部原因（例如，写得不好的 SQL）而导致的慢查询。在这项工作中，我们发现了一组不同的慢速查询，它们对数据库用户来说可能比其他慢速查询更危险。我们将此类查询命名为间歇性慢速查阅读全文

posted @ 2025-03-06 22:31 绵满阅读(284) 评论(0) 推荐(0)

绵满の博客

公告