NT的增强子数据集说明(来源于ENCODE的SREEN)

张开发
2026/4/16 17:37:24 15 分钟阅读

分享文章

NT的增强子数据集说明(来源于ENCODE的SREEN)
来源于SCREEN网址https://screen.wenglab.org/GWAS和cCRE的关系GWAS 告诉你“哪个变异和性状/疾病有关”cCRE 告诉你“这个变异可能通过哪个调控元件起作用”。什么是SCREENSearch Candidate Regulatory Elements by ENCODE。它是一个用来查询、可视化和下载基因组调控元件注释的平台核心是看cCREscandidate cis-Regulatory Elements候选顺式调控元件比如增强子、启动子一类的调控区域。它支持human 和 mouse可以按gene、cCRE、variant、GWAS、genomic locus来搜索。(screen.wenglab.org)更具体地说它主要是帮你做这些事查某个基因附近有哪些调控元件看某个变异比如 rs 位点是否落在调控元件上看这些调控元件在不同细胞/组织中的活性把 cCRE 和 TF binding、染色质状态、3D genome interaction、gene expression 等信息联动起来看(screen.wenglab.org)它背后的数据来自ENCODE。SCREEN 里最核心的是ENCODE Registry of cCREs也就是 ENCODE 整理出的全基因组候选调控元件目录。这些 cCRE 是根据染色质可及性、组蛋白修饰、转录因子结合等实验信号定义出来的。(screen.wenglab.org)它特别适合这些场景你手里有一个变异想看它是不是可能影响调控你研究一个gene想看附近有哪些 enhancer / promoter你做GWAS / eQTL / 非编码变异功能解释你想下载一整套human/mouse cCRE 注释文件做下游分析 (screen.wenglab.org)NT对于增强子是怎么处理的呢可以把这套 enhancers / enhancers_types 数据处理理解成 5 步。1. 先从 SCREEN 拿“增强子候选区域”这里的 SCREEN 不是序列库而是一个人类调控元件数据库。它里面有很多 cCRE 注释其中和增强子最相关的两类通常是dELS: distal enhancer-like signaturepELS: proximal enhancer-like signature2. 再用 Meuleman 的 DHS vocabulary 给 enhancer 分成两类这一步是这段话里最关键的地方。他们拿这些 enhancer 去和Meuleman et al. 的 DHS Index / Vocabulary做重叠判断如果某个 enhancer 和 Meuleman 里被标成 Tissue invariant 的区域有重叠就把它定义为 tissue-invariant enhancer否则就定义为 tissue-specific enhancer3. 把可变长的 enhancer 区域变成固定长度 400bp 窗口SCREEN 里的 enhancer 区域长度本来不是固定的。但模型输入需要固定长度所以 NT 不会直接把原始 enhancer 区间喂进去而是会变成固定长度的 400bp genomic sequences containing enhancers。意思就是只要某个 400bp 基因组窗口里包含 enhancer这个 400bp 窗口就可以作为正样本你本地文件里也能看出来这一点比如 enhancers/test.fna (line 1) 的头信息是chr21:25717456-25717856|1这个窗口长度正好就是 400bp。4. 负样本是“不和 enhancer 重叠”的 400bp 窗口README 里写的是positive: 400bp genomic sequences containing enhancersnegative: all 400bp sequences not overlapping enhancers所以负样本不是“没有组织标签的 enhancer”而是纯粹不和任何 enhancer 重叠的 400bp 窗口也就是 none 类。5. 基于同一批 400bp 窗口构造两个任务这一步特别重要。我刚核了你本地数据enhancers 和 enhancers_types 基本上是同一批坐标窗口只是标签体系不同enhancers二分类1 enhancer0 noneenhancers_types三分类tissue-specific enhancertissue-invariant enhancernone从你本地 released 数据里可以直接看出它们是对应的enhancers 训练集15006 个正样本 14994 个负样本enhancers_types 训练集13922 1084 14994这里14994 恰好和 enhancers 的负样本数完全一样13922 1084 15006刚好等于 enhancers 的正样本数需要下载什么点击以后再处理就好了

更多文章