避开这些坑！用Python爬研招网数据时，我遇到的3个反爬难题与解决方案

张开发

• 2026/4/21 19:58:49 • 15 分钟阅读

分享文章

避开这些坑用Python爬研招网数据时我遇到的3个反爬难题与解决方案去年帮实验室抓取研招网招生数据时我本以为用RequestsBeautifulSoup就能轻松搞定结果连续三天被各种反爬机制按在地上摩擦。最崩溃的是每次以为问题解决了换个时间段运行脚本又会冒出新的异常。本文将复盘那段血泪史重点分享三个最棘手的反爬问题及其解决方案这些经验同样适用于其他教育类网站的数据采集。1. 动态令牌那个会隐身的__jsluid参数第一次请求研招网首页时控制台突然报错403。打开开发者工具仔细比对发现响应头里有个诡异的Set-Cookie字段Set-Cookie: __jsluidabc123; path/; HttpOnly这个看似普通的cookie其实是个动态令牌研招网用它来验证请求的合法性。如果首次访问不带这个cookie服务端会返回一段JavaScript代码document.cookie__jsluidxyz456;path/; location.reload();解决方案分三步走首次请求捕获JS代码import re first_resp requests.get(https://yz.chsi.com.cn, headersheaders) js_code first_resp.text正则提取cookie值jsluid re.search(r__jsluid([^;]), js_code).group(1)后续请求携带cookiesession requests.Session() session.cookies.set(__jsluid, jsluid)实际测试发现这个cookie有效期约30分钟超时需要重新获取。建议在爬虫中增加cookie过期检测逻辑。2. 参数加密当查询条件变成乱码研招网的搜索接口queryAction.do要求POST请求但直接发送参数会返回空数据。用Chrome开发者工具的Network面板抓包发现参数被加密成类似这样wQxV12%2FzKp%3D%3D%7Cabcdef逆向分析发现加密流程是原始参数JSON序列化AES加密密钥动态生成Base64编码拼接动态salt应对方案有两种选择方案A模拟浏览器执行加密JSfrom selenium import webdriver driver webdriver.Chrome() driver.get(https://yz.chsi.com.cn/zsml/query.do) encrypted_params driver.execute_script(return window.encryptParams(originalParams))方案BPython还原加密逻辑需逆向分析JSfrom Crypto.Cipher import AES import base64 def encrypt_params(params): key get_dynamic_key() # 从首页JS提取 cipher AES.new(key, AES.MODE_CBC, iv) padded pad(json.dumps(params).encode()) encrypted cipher.encrypt(padded) return base64.b64encode(encrypted).decode()实测发现方案B性能更好但需要定期维护加密逻辑。这里有个小技巧研招网每周五凌晨更新加密密钥可以在周四晚上跑一次密钥获取脚本。3. 请求指纹你的User-Agent出卖了你即使用上了随机UA和代理IP爬虫运行一段时间后仍然会被封。通过Wireshark抓包对比发现这些细节差异特征项浏览器请求爬虫请求TCP窗口大小6553516384TLS指纹Chrome 102Python/3.9HTTP2帧顺序HEADERSDATA只有HEADERS终极解决方案是使用undetected-chromedriverimport undetected_chromedriver as uc options uc.ChromeOptions() options.add_argument(--disable-blink-featuresAutomationControlled) driver uc.Chrome(optionsoptions) driver.get(https://yz.chsi.com.cn) html driver.page_source关键配置参数--disable-blink-featuresAutomationControlled隐藏自动化标志--window-size1920,1080模拟常见分辨率--langzh-CN设置中文环境4. 容灾设计让爬虫具备断点续传能力研招网在招生季经常进行服务维护最稳妥的方案是实现以下容灾机制分页缓存每成功抓取一页就立即本地存储import pickle def save_page(page_num, data): with open(fpage_{page_num}.pkl, wb) as f: pickle.dump(data, f)异常重试使用tenacity库实现智能重试from tenacity import retry, stop_after_attempt, wait_exponential retry(stopstop_after_attempt(3), waitwait_exponential(multiplier1)) def fetch_page(url): response requests.get(url) response.raise_for_status() return response.json()增量爬取记录最后成功的时间戳CREATE TABLE crawl_log ( id INT AUTO_INCREMENT, crawl_time TIMESTAMP, page_count INT, PRIMARY KEY (id) );5. 效率优化从单线程到异步集群当需要抓取全国数据时单机运行需要近20小时。通过以下改造将时间压缩到2小时内架构升级路径单线程 → 多线程ThreadPoolExecutor多线程 → 异步IOaiohttp单机 → 分布式Scrapy-Redis性能对比测试方案1000页耗时CPU占用内存占用单线程82分钟15%200MB多线程(10)9分钟85%800MB异步(100并发)3分钟60%500MB推荐配置# async_worker.py async def fetch(session, url): async with session.get(url) as response: return await response.text() async def main(urls): connector TCPConnector(limit100) async with ClientSession(connectorconnector) as session: tasks [fetch(session, url) for url in urls] return await asyncio.gather(*tasks)记得在爬取间隔中加入随机延时避免对服务器造成压力import random await asyncio.sleep(random.uniform(0.5, 1.5))

更多文章

前端开发 2026/4/9 7:05:24

汇川SV660F伺服Profinet组态与InoDiverShop调试全流程解析

1. 硬件连接与网络配置第一次接触汇川SV660F伺服时，最让人头疼的就是硬件连接环节。记得我刚开始调试时，光是找对网口就花了半小时。伺服驱动器背面有两个网口，一定要接在标有"PN"的Profinet接口上，另一个是留给调试用…

张开发

前端开发 2026/4/10 15:32:50

互联网大厂Java开发面试实战演练：三轮问答深度解析核心技术点

互联网大厂Java开发面试实战演练：三轮问答深度解析核心技术点作者：王大瓜，互联网大厂技术面试官场景背景电商平台“双11”大促来临，需要一个高并发订单处理系统，招聘Java全栈开发。以下是模拟面试官与谢飞机的三轮问…

张开发

前端开发 2026/4/9 7:05:26

DeepSeek-R1命令行调用教程：非Web模式使用指南

DeepSeek-R1命令行调用教程：非Web模式使用指南 1. 引言：为什么需要命令行调用？ 当你已经体验过DeepSeek-R1的Web界面后，可能会发现一些限制：每次都需要打开浏览器，无法集成到自己的脚本中，也不…

张开发

前端开发 2026/4/9 7:10:50

OpenClaw本地知识库整合：百川2-13B-4bits模型增强问答准确性

OpenClaw本地知识库整合：百川2-13B-4bits模型增强问答准确性 1. 为什么需要本地知识库整合去年我在整理公司技术文档时，发现一个痛点：虽然我们部署了百川2-13B-4bits模型作为内部问答助手，但模型对特定领域问题的回答常常不够准…

张开发

前端开发 2026/4/9 7:07:30

Pixel Epic部署教程：国产昇腾/寒武纪芯片适配AgentCPM-Report进展

Pixel Epic部署教程：国产昇腾/寒武纪芯片适配AgentCPM-Report进展 1. 项目概述 Pixel Epic（像素史诗智识终端）是一款基于AgentCPM-Report大模型构建的创新研究报告辅助工具。与传统AI工具不同，它采用16-bit像素游戏风格界面&…

张开发

前端开发 2026/4/21 19:56:21

Phi-3-mini-4k-instruct-gguf保姆级教程：开箱即用的GGUF文本生成指南

Phi-3-mini-4k-instruct-gguf保姆级教程：开箱即用的GGUF文本生成指南 1. 认识Phi-3-mini-4k-instruct-gguf Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本。这个模型特别适合处理问答、文本改写、摘要整理和简短创作等任务。它最大的…

张开发

前端开发 2026/4/9 7:13:42

Phi-3-mini-4k-instruct-gguf效果展示：相同提示词下q4-GGUF与FP16模型效果对比

Phi-3-mini-4k-instruct-gguf效果展示：相同提示词下q4-GGUF与FP16模型效果对比 1. 模型介绍 Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本。这个模型特别适合处理问答、文本改写、摘要整理和简短创作等任务。作为一款开箱即用的中文…

张开发

前端开发 2026/4/21 19:57:00

5个维度提升在线教育直播效率：OBS Multi RTMP多平台直播解决方案

5个维度提升在线教育直播效率：OBS Multi RTMP多平台直播解决方案【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 在线教育领域中，多平台同步教学已成为扩大受众覆…

张开发

前端开发 2026/4/13 8:18:16

精通BetterJoy：深度解析Switch手柄在PC平台的协议转换与实战部署

精通BetterJoy：深度解析Switch手柄在PC平台的协议转换与实战部署【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gi…

张开发