从下采样到上采样：图解神经网络中的尺度变换与空洞卷积

张开发

• 2026/4/16 5:10:21 • 15 分钟阅读

分享文章

1. 神经网络中的尺度变换从压缩到恢复的魔法第一次接触神经网络时最让我困惑的就是特征图尺寸的变化。明明输入是224x224的图片经过几层卷积怎么就变成了7x7的小方块后来才发现这就是下采样和上采样这对孪生兄弟在发挥作用。简单来说下采样像用筛子过滤杂质保留关键信息上采样则像用放大镜还原细节让模糊变清晰。在实际项目中我常用下采样提取高层语义特征。比如人脸识别时前几层可能识别边缘经过下采样后就能捕捉眼睛、鼻子等器官特征。而上采样在图像分割中必不可少需要把低分辨率预测结果还原到原始尺寸。这两种操作配合使用就像搭积木一样构建出强大的深度网络。2. 下采样信息压缩的艺术2.1 经典方法对比池化vs步长卷积最传统的下采样方式是最大池化我用PyTorch实现过一个有趣的实验import torch.nn as nn pool nn.MaxPool2d(kernel_size2, stride2) input torch.rand(1, 3, 32, 32) # 模拟32x32的RGB图像 output pool(input) # 输出变为16x16但现代网络更倾向使用步长卷积我在ResNet中实测发现两个优势一是能学习到更适合任务的采样方式二是减少计算量。比如3x3卷积stride2时输出尺寸公式为output_size floor((input_size 2*padding - kernel_size)/stride 1)2.2 下采样的隐藏代价刚开始我天真地认为下采样就是纯收益直到在目标检测任务中遇到小目标消失问题。连续下采样会让小物体特征完全丢失后来我改用特征金字塔结构才解决。这里有个经验参数对于输入尺寸小于256x256的图像下采样次数最好不要超过5次。3. 上采样细节重建的奥秘3.1 反卷积的数学本质反卷积(Deconvolution)这个名字其实有误导性更准确的叫法是转置卷积(Transposed Convolution)。我调试代码时发现它本质是常规卷积的逆向过程deconv nn.ConvTranspose2d(64, 32, kernel_size3, stride2, padding1) # 输入2x2输出4x4理解其工作原理有个妙招想象在输入特征点间插入stride-1个零值再用普通卷积处理。比如2x2输入上采样2倍时实际是在行列间各插入1个零。3.2 插值法的实战技巧除了反卷积双线性插值也很常用。在超分辨率重建项目中我对比发现方法计算成本边缘保持适合场景最近邻插值最低最差实时系统双线性插值中等较好通用任务反卷积最高最好需要学习的任务实际应用中我常将反卷积与插值结合使用。先用插值放大尺寸再用1x1卷积调整特征这样既省计算量又保质量。4. 空洞卷积分辨率与感受野的平衡术4.1 从理论到实现第一次看到空洞卷积(Dilated Convolution)的示意图时我联想到打孔器的样子。通过在卷积核中插入空洞来扩大感受野却不增加参数量。PyTorch实现极其简单conv nn.Conv2d(64, 64, kernel_size3, dilation2) # 等效于5x5卷积的感受野在语义分割任务中我用空洞卷积搭建的ASPP模块让mIoU提升了3.2%。关键配置是使用多尺度空洞率(1,6,12,18)就像用不同倍率的显微镜观察特征。4.2 空洞卷积的陷阱但空洞卷积不是银弹我踩过两个坑一是网格效应当空洞率过大时卷积核会退化为棋盘状采样二是显存占用虽然参数量不变但计算图会膨胀。解决方案是合理设计膨胀率序列比如采用指数增长模式。5. 技术选型指南经过多个项目实战我总结出这样的选择策略下采样优选轻量级网络用步长卷积精度要求高时尝试混合池化上采样方案端到端训练用反卷积部署时考虑插值卷积组合空洞卷积适用需要大感受野但必须保持分辨率的场景如语义分割有个有趣的发现将空洞卷积与下采样结合使用效果更好。比如在DeepLabv3中先用常规卷积下采样到1/16再用空洞卷积提取特征最后上采样还原。这种先压缩再扩展的思路就像先拍照再修图既高效又灵活。

从下采样到上采样：图解神经网络中的尺度变换与空洞卷积

最新文章

NVIDIA Profile Inspector完整指南：三步解锁显卡隐藏性能

如何快速高效下载B站视频：DownKyi完整实战指南

前端组件生态

踩坑实战分析前端实时数据刷新全方案详解｜WebSocket / 定时轮询 / 惰性轮询 / Web Worker / SharedWorker / 后台静默同步

多线程06

像素语言·跨维传送门：快速部署，让你的翻译界面充满像素冒险感

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

别再死记硬背了！用‘虚短虚断’一招搞定运放放大倍数计算（附四种负反馈电路详解）

Ansible之Playbook（四）：循环与判断

SystemView和Simulink选哪个？实测对比2ASK相干/非相干解调的仿真效率与结果

dblink vs postgres_fdw终极对比：你的PostgreSQL跨库方案选对了吗？

Cadence Allegro 中高效导入LOGO的两种实用方法

从棋盘效应到HDC：空洞卷积在语义分割中的5个典型问题与调优方案

Kali实战：从网站克隆到邮件钓鱼，手把手打造渗透测试演练场

NCM音乐加密格式解密技术：原理解析与实践应用指南

Qwen1.5-0.5B-Chat和ChatGLM3-6B对比：轻量模型在边缘设备部署案例

VMware Workstation实战：从零搭建CentOS虚拟机的完整指南

OpenDroneMap实战指南：5个高效无人机测绘与三维建模技巧

STM32F103C8T6驱动W25Q128闪存实战：从GPIO模拟SPI到数据备份防误擦