摘要: 定义:长短时记忆网络(Long Short-Term Memory,LSTM)设计的目的是为解决一般递归神经网络中普遍存在的长期依赖问题,其由记忆元、遗忘门、更新门和输出门组成。 如下图所示: 注:遇到\(\sigma\)在运算的时候添加偏置项 一、记忆元 LSTM由多个记忆元串行构成,可理解为网络 阅读全文
posted @ 2026-01-30 21:50 Strivy 阅读(34) 评论(0) 推荐(0)
摘要: 定义:采用矩阵乘法结合律的特点,所设计的一种\(\mathcal{O}(n)\)时间复杂度的注意力机制 一、softmax注意力机制 设输入特征\(x\)大小为\(N×F\),其是由\(N\)个维度为\(F\)的特征向量构成的序列(往往\(N\gg F\)) Transformer的一般表示形式为: 阅读全文
posted @ 2026-01-21 12:11 Strivy 阅读(18) 评论(0) 推荐(0)
摘要: 前馈网络(Feed-Forward Network, FFN)学习 关于FFN的学习笔记 阅读全文
posted @ 2025-12-24 11:29 Strivy 阅读(16) 评论(0) 推荐(0)
摘要: 我们在使用Word写论文的时候,有时会遇到一些绘制的流程图插入后显示的比较模糊的问题 这里我们使用的绘制流程图等图的工具是Drawio 一、问题 一般情况绘制完后直接导出为SVG图片显示会有一些问题 二、解决方案 1.导出为PDF 文字显示不全等问题,因此,为了解决此问题,我们可以先导出为PDF 注 阅读全文
posted @ 2025-07-23 16:55 Strivy 阅读(763) 评论(1) 推荐(1)
摘要: # 1.代码 ```python %matplotlib widget import pandas as pd import numpy as np import matplotlib as mpl from scipy.spatial import Delaunay from sklearn.cl 阅读全文
posted @ 2023-08-06 00:05 Strivy 阅读(114) 评论(0) 推荐(0)
摘要: ### 1.概念 聚类 -> 无监督学习(无分类、分组信息) 实现 -> 距离、相似性系数 目的 -> 数据预处理 -> 复杂数据结构(多维) -> 标准化 发现数据之间的依赖关系,删除或合并有密切依赖关系的数据 ### 2.分类 ##### 1.基于划分的聚类方法 自顶向下 概念:n个元素组成的数 阅读全文
posted @ 2023-04-05 16:44 Strivy 阅读(256) 评论(0) 推荐(0)
摘要: ## Question #### 1.随机梯度下降算法 随机梯度下降法(Stochastic Gradient Descent,简称SGD)是一种常用的优化算法,用于训练机器学习模型。与传统的梯度下降法不同,随机梯度下降法每次仅使用一个样本来更新模型参数,从而降低了计算成本和内存占用,加快了模型的训 阅读全文
posted @ 2023-04-05 10:42 Strivy 阅读(90) 评论(0) 推荐(0)
摘要: ### 1.set会打乱原有数据的顺序吗 是的,将一个数据集转化为`set`后,其顺序会被打乱,因为`set`是一种无序容器,它不保留元素插入的顺序。当一个数据集被转换为`set`时,重复的元素会被自动去除,而剩下的元素会被无序地存储在`set`中。因此,如果您需要保留数据集的原始顺序,应该使用其他 阅读全文
posted @ 2023-04-02 14:27 Strivy 阅读(85) 评论(0) 推荐(0)
摘要: 1.概念 CNN -> 深度学习模型,主要用于图像识别、语音识别、自然语言处理等。 2.卷积操作 1.滑动卷积核(一个小矩阵、滤波器)对输入图像进行特征提取 2.滑动在图像上,对每个位置的像素进行加权求和 -> 新的输出矩阵(特征图) $$y[i] = (w * x)[i] = sum(j=0 to 阅读全文
posted @ 2023-03-23 13:25 Strivy 阅读(112) 评论(0) 推荐(0)