摘要: 在对诸如 DNABERT 以及 Nucleotide Transformer 或是 HyenaDNA 等 DNA 模型进行掩码语言模型训练时,研究者往往会发现小鼠 DNA 上的训练损失普遍低于人类 DNA。这种现象通常源于基因组本身的统计学特征以及序列冗余度和进化动力学的差异。 其中最直接的影响因素 阅读全文
posted @ 2026-03-23 21:19 ylifs 阅读(1) 评论(0) 推荐(0)
摘要: 核心思想 转接国产API 不要通过claude-code-router进行代理,这个插件全是问题,直接接入第三方API就行,比如接入Deepseek就很简单。 核心功能是Skill,类似一种agent,结合Claude的cmd特性,可以直接操作你的文件。 有点贵。 阅读全文
posted @ 2026-03-23 00:30 ylifs 阅读(3) 评论(0) 推荐(0)
摘要: 当你调用 GPNRoFormerForMaskedLM.from_pretrained(...) 时,程序的执行顺序是: 执行 init: 你的 self.adapter 被创建。 权重被手动设为 1.0 和 0.0。 执行 self.post_init(): 这会调用 self.init_weig 阅读全文
posted @ 2026-03-09 00:30 ylifs 阅读(2) 评论(0) 推荐(0)
摘要: 在项目目录之下新建一个文件夹'third_party' 把库文件夹给放进去 为了防止打架,优先导入自己的 import sys import os # 获取当前路径的稳健方法 try: # 尝试获取脚本所在目录 current_dir = os.path.dirname(os.path.abspat 阅读全文
posted @ 2026-03-02 18:52 ylifs 阅读(4) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/547898033 阅读全文
posted @ 2026-02-28 16:08 ylifs 阅读(10) 评论(0) 推荐(0)
摘要: Nicheformer 基础模型通过以下方式实现单细胞(解离)与空间多组学数据的整合输入、架构处理及结果输出: 一、 多组学数据的输入方式 Nicheformer 采用了一种基于基因排序(Gene-rank)的统一分词策略,将不同背景的数据转化为标准化的序列输入 : 数据预处理与归一化: 所有细胞首 阅读全文
posted @ 2026-02-05 20:52 ylifs 阅读(15) 评论(0) 推荐(0)
摘要: 在空间转录组(Spatial Transcriptomics)和 Nicheformer 的语境下,\(x\) 和 \(y\) 坐标代表的是细胞在原始生物组织切片中的物理二维位置 。 具体来说,这些坐标信息具有以下生物学和物理意义: 1. 物理意义:二维空间坐标 厘米/微米级定位:\(x, y\) 阅读全文
posted @ 2026-02-05 20:50 ylifs 阅读(21) 评论(0) 推荐(0)
摘要: 这是一个非常直观的问题:既然细胞已经像“打碎的鸡蛋”一样混在一起了,我们是如何知道哪份“蛋黄”属于哪只鸡的? 虽然解离过程导致了空间微环境信息(即 \(x, y\) 坐标)的丢失 ,但科学家利用一套巧妙的“分子条形码(Barcoding)”系统,在实验室里精准测定每一个单细胞的基因表达量 。 以下是 阅读全文
posted @ 2026-02-05 20:48 ylifs 阅读(10) 评论(0) 推荐(0)
摘要: 文章解析 VariantFormer 是一种参数量达 12 亿 的分层 Transformer 模型,旨在直接从个性化二倍体基因组预测组织特异性的基因表达 。它通过整合 DNA 序列信息、遗传变异以及多层级的调控图谱,弥合了传统统计遗传学与深度学习序列建模之间的鸿沟 。 一、 模型的输入 (Inpu 阅读全文
posted @ 2026-02-04 23:00 ylifs 阅读(22) 评论(0) 推荐(0)
摘要: seq2cells 框架的模型输入、处理流程及输出细节如下: 一、 模型输入 模型的输入主要由以基因为中心的基因组序列信息组成: DNA 序列: 围绕给定基因的 转录起始位点 (TSS) 对齐的长度为 196,608 bp (约 \(200\text{ kb}\) )的 DNA 序列 。 编码方式: 阅读全文
posted @ 2026-02-04 01:30 ylifs 阅读(9) 评论(0) 推荐(0)