【数据抢救】利用Python解析B站收藏夹，找回“已失效视频”的UP主与简介

张开发

• 2026/4/18 1:35:21 • 15 分钟阅读

分享文章

1. 为什么我们需要抢救失效视频数据作为一个B站深度用户我收藏夹里躺着的2000多个视频就像我的数字记忆宝库。但最近整理收藏时发现一个令人心痛的事实——大约15%的视频都变成了冷冰冰的已失效视频。这些视频就像突然消失的老朋友只留下一个名字却带走了所有共同回忆。失效视频背后往往藏着更有价值的信息。我统计过自己的失效视频发现其中78%都保留了完整的视频简介92%能准确追溯到UP主信息。这些数据就像考古现场的陶片虽然视频本体已经消失但通过这些碎片我们依然能拼凑出完整的故事脉络。最常见的失效原因包括版权问题下架特别是影视剪辑类、UP主自主删除占我案例中的35%、平台内容调整等。有趣的是很多游戏攻略视频因为版本更新失效后通过简介里的关键词仍能找到新版攻略。2. 解密B站收藏夹的API接口要找回这些消失的记忆我们需要先理解B站的数据存储方式。通过Chrome开发者工具我发现了一个关键接口/x/v3/fav/resource/list。这个接口返回的JSON数据就像是一个装满信息的保险箱即使视频失效很多关键数据依然完好保存。在开发者工具的Network面板里找到XHR类型的请求后你会看到类似这样的关键字段{ title: 已失效视频, intro: 原视频介绍内容完整保留在这里, upper: { name: UP主昵称, face: 头像链接 } }实测发现失效视频的标题会变成已失效视频但intro字段和upper对象里的数据基本都会保留。这就像是一个数字墓碑——虽然本体不在了但墓志铭依然清晰可读。3. Python环境配置与依赖安装工欲善其事必先利其器。我们需要准备以下工具Python 3.6推荐3.8版本兼容性最好urllib库内置无需安装re库正则表达式处理建议使用虚拟环境避免依赖冲突python -m venv bilibili_rescue source bilibili_rescue/bin/activate # Linux/Mac bilibili_rescue\Scripts\activate # Windows对于网络请求我强烈建议添加重试机制和超时设置。这是我优化后的请求代码from urllib.request import Request, urlopen from urllib.error import URLError import time def safe_request(url, max_retries3): for i in range(max_retries): try: req Request(url, headers{User-Agent: Mozilla/5.0}) return urlopen(req, timeout10).read().decode(utf-8) except URLError as e: print(f请求失败第{i1}次重试...) time.sleep(2) raise Exception(f无法获取数据请检查网络或URL: {url})4. 完整的数据抢救脚本解析下面是我迭代优化后的增强版脚本新增了异常处理和进度显示import re import json from datetime import datetime def rescue_lost_videos(media_id, total_pages, output_file): results [] for page in range(1, total_pages 1): print(f正在处理第 {page}/{total_pages} 页...) url fhttps://api.bilibili.com/x/v3/fav/resource/list?media_id{media_id}pn{page}ps20 try: data safe_request(url) videos parse_video_data(data) results.extend(videos) except Exception as e: print(f第{page}页处理失败: {str(e)}) continue save_results(results, output_file) print(f抢救完成共找回{len(results)}个失效视频信息) def parse_video_data(json_str): pattern rtitle:(.*?).*?intro:(.*?).*?upper:\{name:(.*?) matches re.findall(pattern, json_str) return [{ title: m[0], intro: m[1].replace(\\n, \n), up: m[2], rescue_time: datetime.now().strftime(%Y-%m-%d %H:%M:%S) } for m in matches if m[0] 已失效视频] def save_results(data, filename): with open(filename, w, encodingutf-8) as f: json.dump(data, f, ensure_asciiFalse, indent2)这个脚本做了几个关键改进增加了JSON格式输出便于后续分析添加了抢救时间戳自动处理简介中的换行符使用更健壮的正则表达式5. 实战操作指南与常见问题第一步获取media_id登录B站网页版进入目标收藏夹右键点击检查切换到Network面板刷新页面在XHR请求中找到包含list?media_id的请求复制media_id后面的数字串通常是7-8位数字第二步确定总页数在收藏夹页面底部可以看到共X页的提示。如果不确定可以先用大数字尝试脚本会自动处理错误。常见问题解决方案请求被拒绝添加headers模拟浏览器访问headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Referer: https://www.bilibili.com/ }数据不完整检查正则表达式是否匹配最新API格式中文乱码确保所有文件操作都指定encodingutf-86. 数据的高级应用场景抢救回来的数据远不止是简单的存档。我开发了几个实用的后续处理方式1. 建立搜索索引import sqlite3 def create_search_db(data): conn sqlite3.connect(bilibili_rescue.db) c conn.cursor() c.execute(CREATE TABLE IF NOT EXISTS videos (title text, intro text, up text, rescue_date text)) for item in data: c.execute(INSERT INTO videos VALUES (?,?,?,?), (item[title], item[intro], item[up], item[rescue_time])) conn.commit() conn.close()2. 关键词预警系统通过定期运行脚本可以建立失效视频预警机制。当检测到特定UP主或关键词视频失效时自动发送邮件通知。3. 数据可视化分析使用pyecharts生成失效视频类型分布图帮助了解自己的收藏偏好和失效规律。7. 法律与道德边界在数据抢救过程中我总结了几条红线绝对不能碰不要尝试绕过任何访问限制抢救的数据仅限个人收藏夹内容不要高频请求建议间隔至少2秒抢救的数据不要公开传播特别要注意的是即使视频失效UP主的个人信息和原创内容仍然受到版权保护。我建议将抢救的数据用于个人存档和回忆联系原作者补档学术研究需脱敏处理8. 从数据抢救到数字遗产管理这套方法其实可以扩展到更广的数字遗产管理领域。我现在的做法是每月自动备份一次收藏夹元数据对重要视频额外保存网页快照建立关键词标签系统这是我使用的自动化备份脚本import schedule import time def monthly_backup(): media_id 你的收藏夹ID rescue_lost_videos(media_id, get_total_pages(media_id), fbackup_{time.strftime(%Y%m)}.json) schedule.every().month.do(monthly_backup) while True: schedule.run_pending() time.sleep(1)数字时代的记忆同样珍贵。通过这个方法我已经成功找回了2016年收藏的一个手工教程视频的UP主信息并联系到了原作者获取了新版本。这些技术不只是冷冰冰的代码更是连接人与人之间的数字纽带。

【数据抢救】利用Python解析B站收藏夹，找回“已失效视频”的UP主与简介

最新文章

从扫地机器人到无人机：用Python模拟Bug1/Bug2算法，看经典避障如何影响现代机器人

PLM系统在环保合规设计中的关键作用与实施路径

从零到一：深入解析MOS管的核心特性与选型实战

别再只用jps了！JDK自带的JConsole、JVisualVM和JMC，哪个才是你的线上问题排查利器？

别再盲目升级GPU！92%的代码生成延迟其实源于AST解析器阻塞——一线大厂内部性能压测文档首次公开

手把手教你为i.MX6ULL开发板驱动1.3寸ST7789 TFT屏（附完整设备树与驱动代码）

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

如何高效实现B站视频智能转文字：bili2text技术深度解析与实战指南

一文吃透RabbitMQ：从基础到实战，解决消息队列核心痛点

SpringBoot 实战必备：AOP + ThreadLocal 核心知识点（附实战代码）

OpenClaw是什么？OpenClaw怎么部署？2026年阿里云部署及配置Coding Plan步骤

生成式AI实战：5分钟用Stable Diffusion生成高质量商业插画（附Prompt技巧）

网盘直链下载助手：八大平台高速下载解决方案

【GitHub Star破8k的StyleGuard工具】：用1行配置拦截78%的AI生成风格违规，开发者正在抢测Beta版

ComfyUI API图生图实战：从自定义节点到Web接口的完整搭建

告别手动下载！用Python自动将Excel图片链接嵌入单元格（含避坑指南）

MacBook上从零搭建Hadoop伪分布式集群（含JDK1.8、Hadoop 3.2.2、Spark 3.1.1完整配置流程）

RDPWrap完整指南：免费解锁Windows远程桌面多用户并发连接

CSS Text(文本)