绵满 - 博客园

2025年3月6日

摘要： GPT 摘要基于当时大量的文本任务、标好的数据少。提出先在一个没有标号的数据上训练一个预训练模型，再在有标号的子任务上训练微调模型 GPT做的是生成式预训练，下游任务还是判别任务，所以不是NLG而是NLU 引言利用无标注文本中的word-level的信息是具有挑战性的，有如下两个原因：①尚不清楚阅读全文

posted @ 2025-03-06 22:28 绵满阅读(384) 评论(0) 推荐(0)

"CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms" 论文笔记

摘要：主要框架数据源：metric、log、cmdb 指标异常检测因为流处理中的指标通常具有周期性，首先通过wavelet隔离周期，然后通过自相关函数的峰值来识别周期。接下来需要将时间序列分解成周期、季节项和残差。由于传统STL时间序列分解表现不好，这里通过 RobustSTL来对时间序列进行分解阅读全文

posted @ 2025-03-06 22:13 绵满阅读(315) 评论(0) 推荐(0)

MM-LLM 数据侧论文速读

摘要： LAION-5B 提出 CLIP 得分来计算文本图像 embedding 之间的余弦相似度的筛选方法使用 CLIP 筛选图像文本对，过滤相似度得分低于0.28的数据 DataComp 多模态数据集作为 MM-LLM 发展的关键组成部分，没有得到充分的研究关注。为了弥补这一不足，我们引入了 Data 阅读全文

posted @ 2025-03-06 21:52 绵满阅读(323) 评论(0) 推荐(0)

LLM 数据侧论文速读

摘要： MAYBE ONLY 0.5% DATA IS NEEDED 更少的数据可以省掉训练时间和训练的成本，并且很容易保证数据的高质量，很简单很直觉的想法 Coreset Selection 目标是使用尽可能少的样本找到一个接近完整数据集分布的小集合先通过 Bert 获取 Embedding，然后在高维阅读全文

posted @ 2025-03-06 21:47 绵满阅读(350) 评论(0) 推荐(0)

数据集蒸馏论文速读

摘要： Dataset Distillation 18年的论文，最早提出数据蒸馏的概念理论通常的梯度下降是小批量的 SGD，每次都需要从训练数据中选一个 minibatch 来更新。这篇文章的重点是学习到一个合成数据 \(\hat x=\{\hat x_i\}_{i=1}^M\) 和学习率 \(\hat 阅读全文

posted @ 2025-03-06 21:35 绵满阅读(438) 评论(0) 推荐(0)

激活函数汇总

摘要：激活函数激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。 Sigmoid (1) 公式：\(S(x)=\frac{1}{1+e^{-x}}\) (2) 函数图： (3) 缺点： ① 输出值落在(0,1)之间，期望均值为0.5，不符合均值为0的理想状态 ② 该函数存在一正一负两块“死区” 阅读全文

posted @ 2025-03-06 21:29 绵满阅读(304) 评论(0) 推荐(0)

优化函数汇总

摘要：梯度下降法 BGD 批量梯度下降法，每进行一次参数更新，需要计算整个数据样本集，因此导致批量梯度下降法的速度会比较慢，尤其是数据集非常大的情况下，收敛速度就会非常慢，但是由于每次的下降方向为总体平均梯度，它得到的会是一个全局最优解 SGD 随机梯度下降法，不像 BGD 每一次参数更新，需要计算整个数阅读全文

posted @ 2025-03-06 19:24 绵满阅读(48) 评论(0) 推荐(0)

绵满の博客

公告