如何从Zinc database中下载FDA库中的小分子结构

张开发
2026/4/20 21:51:37 15 分钟阅读

分享文章

如何从Zinc database中下载FDA库中的小分子结构
1.登录ZINC网站点击Substances在下面字条中选中Subsets(预先分类好的目录)2.在跳出的分类中选择“fda”;3.当时有1615个小分子结构点击download图标就可以下载结构文件(SDF做虚拟筛选)了。如果只是下载几个结构文件到这一步一个个下载就够了如果要大批量下载那还得到下一步首先先下载含有1615个ZINC ID的CSV文件。如果遇到下载失败那就分批下载可以分页下的。4.打开CSV文件把第一列复制粘贴出来放到记事本中。5.打开Deepseek让它帮你自动生成能够被wget识别的格式。6.务必分批下载fda subsets形成了十几个wget可识别的TXT文件后我们打开linux找到这些文件所在的位置通过cd进入这个文件夹然后用wget命令下载。-------------------------------------------------------细节分割线----------------------------------------------------------- ZINC15 FDA数据集下载与处理标准流程核心思路利用对学术数据库友好的学校网络节点在Linux系统下使用wget命令通过降低请求频率--wait参数和分批处理的策略稳定下载。第一步准备环境与数据列表获取ID列表获得待下载的ZINC ID列表文件如list.txt每行一个ID如ZINC000001530427(如下图)。转换下载列表将ID列表转换为wget可用的纯链接列表文件每行一个完整URL。可使用命令或脚本批量转换。bash# 示例使用sed命令转换假设使用zinc15和sdf格式 sed s#^#https://zinc15.docking.org/substances/#; s#$#.sdf# list.txt download_list.txt拆分大列表关键步骤为避免单次请求过多将download_list.txt手工拆分为多个小文件例如每个文件约100个链接分别命名为wget_list_Part1.txtwget_list_Part2.txt……​​​​​​​(如下图)注这是我们本次成功的核心能极大降低服务器压力。第二步上传至学校计算节点并下载连接与上传登录学校的Linux计算节点将拆分好的列表文件如list_part1.txt上传到工作目录。执行下载命令对每个列表文件依次执行以下wget命令。务必等待上一个命令完全结束再开始下一个以保证--wait参数生效。bash# 基础命令模板重点控制频率和重试 wget -i list_partX.txt \ --wait5 \ # 两次下载之间等待5秒这是成功的关键 --timeout30 \ # 超时时间 --tries5 \ # 重试次数 --limit-rate200k \ # 可选限制下载速率进一步减少压力 -P ./dataset/ # 指定文件下载到当前目录的dataset文件夹中 # 实际示例 wget -i list_part1.txt --wait5 --timeout30 --tries5 --limit-rate200k -P ./dataset/监控与补漏下载完成后检查dataset/文件夹内文件数量。如果某个批次有失败可将失败的链接单独整理重试。第三步处理失败情况与最终合并容忍少数失败由于网络波动或服务器问题极个别文件下载失败如我们遇到的502错误是正常的可以跳过不影响整体数据集使用。合并所有文件所有批次下载完成后使用最初的那个Python脚本zinc_downloader.py的合并功能。将包含所有ID的原始大list.txt放回目录。运行python zinc_downloader.py按提示选择zinc15sdf并使用默认的list.txt。在询问 “Merge files at the end?” 时输入yes。脚本会将dataset/内所有.sdf文件合并到merged_dataset/final_dataset.sdf。⚠️ 关键注意事项与经验总结环境是关键在普通网络尤其是可能有防火墙限制的网络下极易失败。学校/机构的学术网络是成功的重要保障。频率控制是核心--wait5或更长参数是避免触发服务器限制、导致连接超时ConnectTimeoutError的最重要设置。分而治之策略将上千个任务拆分成约100个一批的小任务是提升整体成功率和便于管理的重要策略。区分错误类型ConnectTimeoutError/Max retries exceeded通常是请求过快或网络被限制需强化“等待”和“分批次”。502 Proxy Error纯粹是ZINC服务器端临时故障等待或跳过即可。 最终成果成功执行此流程后你将获得dataset/目录所有单独下载的.sdf分子文件。merged_dataset/final_dataset.sdf合并后的单一数据集文件可用于后续的分子对接、虚拟筛选等计算工作。这份记录概括了从失败到成功的所有关键步骤和技术要点。需要重复此流程或指导他人可直接参考此文档。还有一个非常好用的数据库下载非常顺畅。进入pubchem官网https://pubchem.ncbi.nlm.nih.gov可以搜索栏输入化学名、CAS号、CID等搜索相应的分子结构下载3D结构SDF文件下载速度感人。如果批量下载过程中有漏网之鱼也可以用这个数据库下载。

更多文章