摘要:
GPT 摘要 基于当时大量的文本任务、标好的数据少。提出先在一个没有标号的数据上训练一个预训练模型,再在有标号的子任务上训练微调模型 GPT做的是生成式预训练,下游任务还是判别任务,所以不是NLG而是NLU 引言 利用无标注文本中的word-level的信息是具有挑战性的,有如下两个原因:①尚不清楚 阅读全文
posted @ 2025-03-06 22:28
绵满
阅读(384)
评论(0)
推荐(0)
摘要:
主要框架 数据源:metric、log、cmdb 指标异常检测 因为流处理中的指标通常具有周期性,首先通过wavelet隔离周期,然后通过自相关函数的峰值来识别周期。 接下来需要将时间序列分解成周期、季节项和残差。由于传统STL时间序列分解表现不好,这里通过 RobustSTL来 对时间序列进行分解 阅读全文
posted @ 2025-03-06 22:13
绵满
阅读(315)
评论(0)
推荐(0)
摘要:
LAION-5B 提出 CLIP 得分来计算文本图像 embedding 之间的余弦相似度的筛选方法 使用 CLIP 筛选图像文本对,过滤相似度得分低于0.28的数据 DataComp 多模态数据集作为 MM-LLM 发展的关键组成部分,没有得到充分的研究关注。为了弥补这一不足,我们引入了 Data 阅读全文
posted @ 2025-03-06 21:52
绵满
阅读(323)
评论(0)
推荐(0)
摘要:
MAYBE ONLY 0.5% DATA IS NEEDED 更少的数据可以省掉训练时间和训练的成本,并且很容易保证数据的高质量,很简单很直觉的想法 Coreset Selection 目标是使用尽可能少的样本找到一个接近完整数据集分布的小集合 先通过 Bert 获取 Embedding,然后在高维 阅读全文
posted @ 2025-03-06 21:47
绵满
阅读(350)
评论(0)
推荐(0)
摘要:
Dataset Distillation 18年的论文,最早提出数据蒸馏的概念 理论 通常的梯度下降是小批量的 SGD,每次都需要从训练数据中选一个 minibatch 来更新。这篇文章的重点是学习到一个合成数据 \(\hat x=\{\hat x_i\}_{i=1}^M\) 和学习率 \(\hat 阅读全文
posted @ 2025-03-06 21:35
绵满
阅读(438)
评论(0)
推荐(0)
摘要:
激活函数 激活函数是用来加入非线性因素的,因为线性模型的表达能力不够。 Sigmoid (1) 公式:\(S(x)=\frac{1}{1+e^{-x}}\) (2) 函数图: (3) 缺点: ① 输出值落在(0,1)之间,期望均值为0.5,不符合均值为0的理想状态 ② 该函数存在一正一负两块“死区” 阅读全文
posted @ 2025-03-06 21:29
绵满
阅读(304)
评论(0)
推荐(0)
摘要:
梯度下降法 BGD 批量梯度下降法,每进行一次参数更新,需要计算整个数据样本集,因此导致批量梯度下降法的速度会比较慢,尤其是数据集非常大的情况下,收敛速度就会非常慢,但是由于每次的下降方向为总体平均梯度,它得到的会是一个全局最优解 SGD 随机梯度下降法,不像 BGD 每一次参数更新,需要计算整个数 阅读全文
posted @ 2025-03-06 19:24
绵满
阅读(48)
评论(0)
推荐(0)

浙公网安备 33010602011771号