NT的增强子数据集说明（来源于ENCODE的SREEN）

张开发

• 2026/4/16 17:37:24 • 15 分钟阅读

分享文章

来源于SCREEN网址https://screen.wenglab.org/GWAS和cCRE的关系GWAS 告诉你“哪个变异和性状/疾病有关”cCRE 告诉你“这个变异可能通过哪个调控元件起作用”。什么是SCREENSearch Candidate Regulatory Elements by ENCODE。它是一个用来查询、可视化和下载基因组调控元件注释的平台核心是看cCREscandidate cis-Regulatory Elements候选顺式调控元件比如增强子、启动子一类的调控区域。它支持human 和 mouse可以按gene、cCRE、variant、GWAS、genomic locus来搜索。(screen.wenglab.org)更具体地说它主要是帮你做这些事查某个基因附近有哪些调控元件看某个变异比如 rs 位点是否落在调控元件上看这些调控元件在不同细胞/组织中的活性把 cCRE 和 TF binding、染色质状态、3D genome interaction、gene expression 等信息联动起来看(screen.wenglab.org)它背后的数据来自ENCODE。SCREEN 里最核心的是ENCODE Registry of cCREs也就是 ENCODE 整理出的全基因组候选调控元件目录。这些 cCRE 是根据染色质可及性、组蛋白修饰、转录因子结合等实验信号定义出来的。(screen.wenglab.org)它特别适合这些场景你手里有一个变异想看它是不是可能影响调控你研究一个gene想看附近有哪些 enhancer / promoter你做GWAS / eQTL / 非编码变异功能解释你想下载一整套human/mouse cCRE 注释文件做下游分析 (screen.wenglab.org)NT对于增强子是怎么处理的呢可以把这套 enhancers / enhancers_types 数据处理理解成 5 步。1. 先从 SCREEN 拿“增强子候选区域”这里的 SCREEN 不是序列库而是一个人类调控元件数据库。它里面有很多 cCRE 注释其中和增强子最相关的两类通常是dELS: distal enhancer-like signaturepELS: proximal enhancer-like signature2. 再用 Meuleman 的 DHS vocabulary 给 enhancer 分成两类这一步是这段话里最关键的地方。他们拿这些 enhancer 去和Meuleman et al. 的 DHS Index / Vocabulary做重叠判断如果某个 enhancer 和 Meuleman 里被标成 Tissue invariant 的区域有重叠就把它定义为 tissue-invariant enhancer否则就定义为 tissue-specific enhancer3. 把可变长的 enhancer 区域变成固定长度 400bp 窗口SCREEN 里的 enhancer 区域长度本来不是固定的。但模型输入需要固定长度所以 NT 不会直接把原始 enhancer 区间喂进去而是会变成固定长度的 400bp genomic sequences containing enhancers。意思就是只要某个 400bp 基因组窗口里包含 enhancer这个 400bp 窗口就可以作为正样本你本地文件里也能看出来这一点比如 enhancers/test.fna (line 1) 的头信息是chr21:25717456-25717856|1这个窗口长度正好就是 400bp。4. 负样本是“不和 enhancer 重叠”的 400bp 窗口README 里写的是positive: 400bp genomic sequences containing enhancersnegative: all 400bp sequences not overlapping enhancers所以负样本不是“没有组织标签的 enhancer”而是纯粹不和任何 enhancer 重叠的 400bp 窗口也就是 none 类。5. 基于同一批 400bp 窗口构造两个任务这一步特别重要。我刚核了你本地数据enhancers 和 enhancers_types 基本上是同一批坐标窗口只是标签体系不同enhancers二分类1 enhancer0 noneenhancers_types三分类tissue-specific enhancertissue-invariant enhancernone从你本地 released 数据里可以直接看出它们是对应的enhancers 训练集15006 个正样本 14994 个负样本enhancers_types 训练集13922 1084 14994这里14994 恰好和 enhancers 的负样本数完全一样13922 1084 15006刚好等于 enhancers 的正样本数需要下载什么点击以后再处理就好了

更多文章

前端开发 2026/4/16 17:35:04

macOS管理员必备：munki_bundle_pkg_finder.py查找bundle风格包完整教程

macOS管理员必备：munki_bundle_pkg_finder.py查找bundle风格包完整教程【免费下载链接】macadmin-scripts Scripts of possible interest to macOS admins 项目地址: https://gitcode.com/gh_mirrors/ma/macadmin-scripts 对于macOS管理员而言，高…

终极指南：3步破解Cursor设备限制，深度解析标识符重置技术【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve re…

张开发

前端开发 2026/4/16 17:12:00

别再搞混了！C++ STL priority_queue 默认是大顶堆还是小顶堆？一个例子讲清楚

别再搞混了！C STL priority_queue 默认是大顶堆还是小顶堆？一个例子讲清楚在C标准模板库(STL)中，std::priority_queue是一个极其有用的容器适配器，它为我们提供了高效的优先级队列实现。然而，关于它默认是大顶堆还是小…

张开发

NT的增强子数据集说明（来源于ENCODE的SREEN）

最新文章

GPS与北斗导航信号关键技术参数对比解析

【2026倒计时预警】：SITS圆桌确认的3类“AI原生应用”将淘汰传统RPA/低代码平台

FigmaCN：打破语言壁垒，让设计回归创意本身

功能安全——严重度（Severity）评估实战指南

中东电商入局指南：Noon vs Amazon，出海卖家该如何选择？

功放与喇叭匹配实战：从功率、阻抗到声压计算的系统选型指南

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

macOS管理员必备：munki_bundle_pkg_finder.py查找bundle风格包完整教程

并查集(C)

SourceKitten错误处理与调试：解决SourceKit连接问题的完整指南

别再让机器人‘画龙’了！手把手教你用激光雷达给差速机器人里程计做‘体检’和‘矫正’

终极指南：如何用Prometheus Python Client实现Web应用监控——Flask、FastAPI实战教程

用200欧电阻保护LED？51单片机流水灯硬件设计中的5个常见误区

我如何用AI追赶流行文化潮流

LinuxCNC安装配置全攻略：从零搭建开源数控系统

LinuxCNC实时性能调优指南：从基础配置到高级优化

机器学习部署专家：工业界稀缺人才

终极指南：3步破解Cursor设备限制，深度解析标识符重置技术

别再搞混了！C++ STL priority_queue 默认是大顶堆还是小顶堆？一个例子讲清楚