iMetaOmics | 天津中医药大学田晓轩组-开发用于比较叶绿体基因组分析的自动化流程

张开发
2026/4/17 9:03:20 15 分钟阅读

分享文章

iMetaOmics | 天津中医药大学田晓轩组-开发用于比较叶绿体基因组分析的自动化流程
点击蓝字 关注我们CGAS叶绿体基因组分析套件面向比较叶绿体基因组学的自动化 Python 流程iMetaOmics主页http://www.imeta.science/imetaomics/方法论文●期刊:iMetaOmics● 英文题目CGAS (Chloroplast Genome Analysis Suite): An Automated Python Pipeline for Comprehensive Comparative Chloroplast Genomics● 中文题目CGAS叶绿体基因组分析套件面向比较叶绿体基因组学的自动化 Python 流程● 原文链接: https://onlinelibrary.wiley.com/doi/10.1002/imo2.70093● DOI: https://doi.org/10.1002/imo2.70093● 2026年3月31日天津中医药大学田晓轩组在iMetaOmics发表了题为“CGAS (Chloroplast Genome Analysis Suite): An Automated Python Pipeline for Comprehensive Comparative Chloroplast Genomics”的文章。● 本研究开发了一个集成14个模块的自动化Python流程CGAS涵盖从原始测序reads到出版级输出全流程的自动化叶绿体基因组分析。该工具严格保证生物学正确性支持大规模批处理显著提升比较叶绿体基因组学研究的效率与可重复性。● 第一作者Abdullah● 通讯作者田晓轩tian_xiaoxuantjutcm.edu.cn、Abdullahabd.ullahbs.qau.edu.pk● 合作作者闫如山● 主要单位天津中医药大学现代中药创制全国重点实验室、现代中医药海河实验室亮 点● 开发了CGAS一个包含14个模块的端到端Python流程覆盖从原始FASTQ reads组装、注释到比较基因组学与系统发育分析的全流程● 通过生物学正确处理剪接基因rps12、IR重复基因计数、伪基因识别避免注释错误确保比较结果真实反映生物学变异● 基准测试显示处理10个叶绿体基因组~150 kb在10分钟内完成50个基因组约50分钟自动化批量处理极大节省手动操作时间● 提供氨基酸组成、SNP剖析、内含子统计、SSR功能定位、核苷酸多样性π等独有分析并自动生成出版级Word表格与R脚本图表● 开源免费MIT许可支持NCBI提交文件生成适用于大规模植物进化、DNA条形码与系统发育研究。摘 要叶绿体基因组是植物进化、DNA条形码、种群遗传学、系统发育和地理分布研究的核心分子标记。尽管存在众多独立工具但叶绿体基因组学研究仍依赖碎片化工作流存在手动转换、批处理困难与生物学不一致等问题。CGAS是一个基于Python的统一自动化流程集成了14个模块分为三个阶段阶段1模块1–4完成原始reads质控、GetOrganelle组装、PGA注释、基因标准化与NCBI格式转换阶段2模块5–13实现批处理比较分析包括基因含量比较、基因组结构LSC/SSC/IR、密码子使用RSCU、氨基酸组成、SNP剖析、内含子结构、SSR检测与核苷酸多样性π评估并集成R脚本生成出版级可视化阶段3模块14通过特征级提取、MAFFT/MACSE比对与IQ-TREE构建系统发育矩阵与最大似然树。CGAS接受FASTQ、GenBank或FASTA输入输出结构化Excel、Word、CSV、FASTA与Newick文件强调生物学正确性与可重复性是首个实现叶绿体基因组学全流程端到端的集成工具可在https://github.com/abdullah30/Chloroplast-Genome-Analysis-Suite-CGAS免费获取。视频解读Bilibilihttps://www.bilibili.com/video/BV1wK9JBbEnm/Youtubehttps://youtu.be/64FH7cnqGbk中文翻译、PPT、中/英文视频解读等扩展资料下载请访问期刊官网http://www.imeta.science/imetaomics/全文解读引 言叶绿体基因组为四分体结构LSC、SSC、IRa/IRb大小适中、单亲遗传、基因含量与组织稳定已成为植物进化、DNA条形码、种群遗传学、系统发育与地理分布研究的核心工具。高通量测序使叶绿体基因组测序常规化但分析瓶颈转向大规模比较。现有工具虽能完成单一任务如fastp质控、GetOrganelle组装、PGA注释、MAFFT比对、IQ-TREE建树但仍需手动文件转换、后处理与脚本拼接导致可重复性差、批处理困难且易产生生物学错误。 集成平台如CPStools与CPGView虽提供下游分析与可视化但缺乏原始reads处理、组装、覆盖度评估、注释验证与NCBI提交准备且缺少氨基酸组成、SNP剖析、内含子统计与多物种基因含量详细比较。CGAS正是为解决这些痛点而设计一个端到端、自动化、批处理导向的Python后端流程整合成熟工具与新开发脚本重点保障生物学正确性、可扩展性与出版级输出支持FASTQ、GenBank或FASTA输入直接产出可用于发表与NCBI提交的结果。结 果CGAS概述CGAS v1.0.1包含14个集成模块分为三个阶段图1准备阶段模块1–4、比较基因组学阶段模块5–13与系统发育阶段模块14。所有模块采用目录批处理确保方法一致性、可扩展性与可重复性。准备工作流模块1–4模块1集成fastp质控、GetOrganelle组装与BWA/SAMtools覆盖度分析自动判断组装完整性单环状或SSC翻转双环状为完整否则标记不完整并排除。模块2使用PGA进行参考引导批注释。模块3标准化基因名称、识别内含子缺失/存在解决不同来源注释不一致。模块4验证注释并转换为NCBI-compliant FASTA与TBL文件支持大规模提交。比较基因组学分析模块5–13模块5–7总结基因含量区分功能基因/伪基因正确处理IR重复、生成出版级Word表格并表征基因组结构LSC/SSC/IR区域、各类功能基因GC含量。模块8–13分别进行RSCU密码子使用、氨基酸组成、SNPTs/Tv剖析、内含子结构、SSR motif、位置、功能上下文与核苷酸多样性π分析所有统计由Python完成结构化CSV/TXT数据自动驱动R脚本生成出版级图表R脚本同时提供手动自定义。系统发育分析模块14模块14提取蛋白编码基因、内含子与IGS分别用MAFFT默认或MACSE密码子感知比对后拼接成矩阵IQ-TREE自动选模、1000次UFBoot与SH-aLRT支持构建最大似然树支持用户指定外群。输出结构与性能 每个模块输出独立目录包含Excel、Word、CSV、TXT、FASTA与Newick文件便于交叉验证。基准测试显示模块3–13处理10个基因组10分钟50个基因组约50分钟模块1与2自动化外部工具执行模块14简化矩阵构建大幅节省手动时间。图1.图1. CGAS工作流程流程包含14个模块分三个阶段。阶段1准备模块1–4原始FASTQ经质控、组装、注释、标准化与格式转换生成标准化GenBank文件阶段2主分析模块5–13执行基因含量、结构、密码子、氨基酸、SNP、内含子、SSR与核苷酸多样性分析可一键运行cgAS --modules 5,6,7,8,9,10,11,12,13阶段3系统发育模块14单独运行构建特征级矩阵并推断系统发育树。流程严格处理剪接基因、IR重复与注释不一致确保生物学准确性所有输出均为出版级格式。结 论CGAS将14个核心模块集成于单一自动化框架覆盖叶绿体基因组从原始数据到系统发育的全流程显著简化复杂工作流同时保持生物学准确性与可重复性。随着叶绿体基因组数据集规模与分类群广度持续扩大CGAS这类统一分析框架将日益重要为进化、分类与应用植物基因组学研究提供方法学严谨性。CGAS开源、可扩展且持续维护特别适用于大规模比较研究、元分析与需要高透明度与可重复性的项目。方 法实现与依赖CGAS为模块化命令行Python流程核心使用Biopython、NumPy、pandas、OpenPyXL与python-docx。外部工具包括fastp、GetOrganelle、BWA、SAMtools、PGA、MAFFT、MACSE可选、IQ-TREE与R≥4.0。AI工具ChatGPT v5、Claude Sonnet v4.5、DeepSeek v3.2辅助脚本开发与语言润色所有输出经作者人工审查验证。输入要求与生物学正确性模块1接受FASTQ模块2–14接受GenBank/FASTA。流程自动处理批处理目录识别剪接基因rps12、IR重复与伪基因避免计数膨胀与错误。项目名称Chloroplast Genome Analysis Suite (CGAS)项目首页https://github.com/abdullah30/Chloroplast-Genome-Analysis-Suite-CGAS操作系统平台无关Linux/macOS/Windows WSL2编程语言Python ≥ 3.9关键依赖Biopython ≥ 1.79、pandas ≥ 2.0等外部工具fastp ≥ 0.23.0、GetOrganelle ≥ 1.7.0等 许可MIT代码和数据可用性CGAS以MIT许可证发布完整源代码可在https://github.com/abdullah30/Chloroplast-Genome-Analysis-Suite-CGAS免费获取。仓库提供全面文档、安装指南、模块使用说明与示例工作流。输入与输出示例文件已在Figshare提供https://doi.org/10.6084/m9.figshare.31267456。CGAS教程见Bilibilihttps://www.bilibili.com/video/BV18LcazxEir/与YouTubehttps://www.youtube.com/watch?v2Q4B7uCGkQE。补充材料方法、图形摘要、幻灯片、视频、中文翻译版与更新材料可在在线DOI或iMetaOmics Sciencehttp://www.imeta.science/imetaomics获取。引文格式Abdullah, Rushan Yan, Xiaoxuan Tian. 2026. “CGAS (Chloroplast Genome Analysis Suite): An Automated Python Pipeline for Comprehensive Comparative Chloroplast Genomics” iMetaOmics 3: e70093. https://doi.org/10.1002/imo2.70093.作者简介Abdullah第一/通讯作者● 天津中医药大学在站博士后。● 研究方向为比较与进化植物基因组学重点关注叶绿体基因组的系统发育学、群体遗传学及比较基因组学研究。以第一作者/通讯作者在BMC plant biology、BMC genomics、Journal of Systematics and Evolution、Genomics、Ecology and Evolution等期刊发表SCI论文45篇。田晓轩通讯作者● 天津中医药大学国有资产与实验室管理处副处长中药学博硕士生导师。● 研究方向为药用资源的调查、鉴定分子标记开发。主持国家自然科学基金2项省部级课题2项作为主要参与人完成国家级课题4项省部级课题4项。以第一或通讯作者在APSBJAFC等期刊发表SCI文章60篇作为第一发明人授权专利4项。参编论著2项。共同主办单位更多推荐▼ 点击跳转高引文章 ▸▸▸▸iMeta | 引用20000海普洛斯陈实富发布新版fastp更快更好地处理FASTQ数据高引文章 ▸▸▸▸iMeta | 兰大张东组使用PhyloSuite进行分子系统发育及系统发育树的统计分析高引文章▸▸▸▸iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVIiMeta封面1卷1期1卷2期1卷3期1卷4期2卷1期2卷2期2卷3期2卷4期3卷1期3卷2期3卷3期3卷4期3卷5期3卷6期4卷1期4卷2期4卷3期4卷4期4卷5期4卷6期5卷1期iMetaOmics封面1卷1期1卷2期2卷1期2卷2期2卷3期2卷4期3卷1期iMetaMed封面1卷1期1卷2期期刊简介“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录2025年6月影响因子33.2中科院分区生物学1区Top位列全球SCI期刊前千分之三(65/22249)微生物学科2/163仅低于Nature Reviews学科研究类期刊全球第一中国大陆5/585“iMetaOmics” 是“iMeta” 子刊主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任。iMetaOmics相继被PubMed、ESCI、DOAJ、Crossref和EZB等数据库收录目标是成为影响因子大于10的高水平综合期刊欢迎投稿iMetaMed 是“iMeta” 子刊专注于医学、健康和生物技术领域目标是成为影响因子大于15的医学综合类期刊欢迎投稿iMeta主页http://www.imeta.science姊妹刊iMetaOmics主页http://www.imeta.science/imetaomics/出版社iMeta主页https://onlinelibrary.wiley.com/journal/2770596x出版社iMetaOmics主页https://onlinelibrary.wiley.com/journal/29969514出版社iMetaMed主页https://onlinelibrary.wiley.com/journal/3066988xiMeta投稿https://wiley.atyponrex.com/journal/IMT2iMetaOmics投稿https://wiley.atyponrex.com/journal/IMO2iMetaMed投稿https://wiley.atyponrex.com/submission/dashboard?siteNameIMM3邮箱officeimeta.science

更多文章