第T11周：优化器对比实验

张开发

• 2026/4/20 4:34:44 • 15 分钟阅读

分享文章

本文为365天深度学习训练营中的学习记录博客原作者K同学啊前言实验环境python 3.9.2 tensorflow 2.10.0 Jupyter Notebook: 7.4.5代码实现设置gpuimporttensorflowastf# 物理GPu列表gpustf.config.list_physical_devices(GPU)ifgpus:gpu0gpus[0]tf.config.experimental.set_memory_growth(gpu0,True)tf.config.set_visible_devices(gpus[0],GPU)# 确保只用第一张GPU导入数据importwarningsimportmatplotlib.pyplotaspltimportpathlib# 忽略警告warnings.filterwarnings(ignore)# 解决可视化显示时中文字符可能存在问题plt.rcParams[font.sans-serif][SimHei]# 用来正常显示中文标签plt.rcParams[axes.unicode_minus]False# 用来正常显示负号# 数据导入data_dir../../datasets/Facedata_dirpathlib.Path(data_dir)image_countlen(list(data_dir.glob(*/*)))print(图片总数为{}.format(image_count))数据加载train_dstf.keras.preprocessing.image_dataset_from_directory(data_dir,batch_size16,# 每批次处理的图像数量image_size(336,336),# 自动调整所有图片为该尺寸shuffleTrue,# 训练集打乱seed123,# 随机种子确保训练/验证集划分一致validation_split0.2,# 划分 20% 用于验证subsettraining,# 指定这是训练集)val_dstf.keras.preprocessing.image_dataset_from_directory(data_dir,batch_size16,# 每批次处理的图像数量image_size(336,336),# 自动调整所有图片为该尺寸seed123,# 随机种子确保训练/验证集划分一致validation_split0.2,# 划分 20% 用于验证subsetvalidation,# 指定这是验证集)输出标签class_namestrain_ds.class_namesprint(class_names)再次检查数据forimage_batch,labels_batchintrain_ds:print(image_batch.shape)print(labels_batch.shape)break预处理据集以及优化数据加载效率AUTOTUNEtf.data.AUTOTUNEdeftrain_preprocessing(image,label):return(image/255.0,label)train_ds(train_ds.cache().shuffle(1000).map(train_preprocessing).prefetch(buffer_sizeAUTOTUNE))val_ds(val_ds.cache().shuffle(1000).map(train_preprocessing).prefetch(buffer_sizeAUTOTUNE))数据可视化plt.figure(figsize(10,8))# 图形的宽为10高为5plt.suptitle(数据展示)forimages,labelsintrain_ds.take(1):foriinrange(15):plt.subplot(4,5,i1)plt.xticks([])plt.yticks([])plt.grid(False)# 显示图片plt.imshow(images[i])# 显示标签plt.xlabel(class_names[labels[i]-1])plt.show()构建模型fromtensorflow.keras.layersimportDropout,Dense,BatchNormalizationfromtensorflow.keras.modelsimportModel batch_size16img_height336img_width336# 定义模型创建函数defcreate_model():# 加载预训练模型vgg16_base_modeltf.keras.applications.vgg16.VGG16(weightsimagenet,include_topFalse,input_shape(img_height,img_width,3),poolingavg)# 开启微调只冻结前一部分层vgg16_base_model.trainableTrueforlayerinvgg16_base_model.layers[:-8]:# 冻结前几个卷积块解冻最后两个layer.trainableFalseXvgg16_base_model.output XDense(170,activationrelu)(X)XBatchNormalization()(X)XDropout(0.5)(X)outputDense(len(class_names),activationsoftmax)(X)modelModel(inputsvgg16_base_model.input,outputsoutput)returnmodel# 创建三个完全一致的模型实例model_adamcreate_model()# 用于 Adam (1e-5)model_sgd_conscreate_model()# 用于组1完全一致的 SGD (1e-5, 无动量)model_sgd_faircreate_model()# 用于组2公平对比的 SGD (1e-4, 有动量)# Adam 配置 (基准)model_adam.compile(optimizertf.keras.optimizers.Adam(learning_rate1e-5),losssparse_categorical_crossentropy,metrics[accuracy])# SGD 组1 (绝对一致性控制)model_sgd_cons.compile(optimizertf.keras.optimizers.SGD(learning_rate1e-5),# 不加 momentumlosssparse_categorical_crossentropy,metrics[accuracy])# SGD 组2 (算法潜力公平对比)model_sgd_fair.compile(optimizertf.keras.optimizers.SGD(learning_rate1e-4,momentum0.9),losssparse_categorical_crossentropy,metrics[accuracy])model_sgd_fair.summary()训练模型NO_EPOCHS20print(正在训练 Adam (1e-5)...)history_adammodel_adam.fit(train_ds,epochsNO_EPOCHS,validation_dataval_ds,verbose1)print(\n正在训练 SGD 组1 (完全一致 1e-5)...)history_sgd_consmodel_sgd_cons.fit(train_ds,epochsNO_EPOCHS,validation_dataval_ds,verbose1)print(\n正在训练 SGD 组2 (公平对比 1e-4 Momentum)...)history_sgd_fairmodel_sgd_fair.fit(train_ds,epochsNO_EPOCHS,validation_dataval_ds,verbose1)模型评估图对比frommatplotlib.tickerimportMultipleLocatorimportmatplotlib.gridspecasgridspecfromdatetimeimportdatetime# 设置绘图参数plt.rcParams[savefig.dpi]300plt.rcParams[figure.dpi]120# 屏幕显示不用太大# 设置支持中文的字体plt.rcParams[font.family][sans-serif]plt.rcParams[font.sans-serif][DejaVu Sans,Arial]current_timedatetime.now().strftime(%Y-%m-%d %H:%M:%S)# 提取 epoch 长度epochs_rangerange(len(history_adam.history[accuracy]))# 显著增加高度10 - 22让每个子图都有足够的空间figplt.figure(figsize(14,22))gsgridspec.GridSpec(3,1,height_ratios[1,1,1],hspace0.3)# 统一定义通用刻度定位器每2轮一个大刻度更精细major_locatorMultipleLocator(2)# 定义辅助绘图函数保证风格统一defplot_learning_curve(ax,history,title_text):ax.plot(epochs_range,history[accuracy],b-,linewidth2.5,labelTrain Acc)ax.plot(epochs_range,history[val_accuracy],b--,linewidth2.0,labelVal Acc)ax.plot(epochs_range,history[loss],r-,linewidth2.5,labelTrain Loss)ax.plot(epochs_range,history[val_loss],r--,linewidth2.0,labelVal Loss)ax.set_title(title_text,fontsize18,fontweightbold,pad15)ax.set_ylabel(Score / Value,fontsize14)# 底部加上时间戳ax.set_xlabel(fEpochs\n[Logged at:{current_time}],fontsize12)# 放在右下角设置背景透明度legendax.legend(loclower right,fontsize11,framealpha0.8,edgecolorgray)# 使用虚线看起来更高级ax.grid(True,linestyle--,alpha0.5,colorgray)# 设置刻度风格ax.tick_params(axisboth,whichmajor,labelsize11)ax.xaxis.set_major_locator(major_locator)# y轴刻度微调0到3.5间隔0.5ax.set_yticks([0,0.5,1.0,1.5,2.0,2.5,3.0,3.5])# Adam (1e-5) 基准组ax1fig.add_subplot(gs[0])plot_learning_curve(ax1,history_adam.history,1. Adam (LR1e-5)\n)# SGD (1e-5) 绝对一致组ax2fig.add_subplot(gs[1])# 这里 y 轴刻度由于 Loss 较高不手动设置yticks让其自适应显示细节ax2.set_yticks([])plot_learning_curve(ax2,history_sgd_cons.history,2. SGD (LR1e-5)\n)# 针对组1的 Loss 过高3.0单独微调 y轴ax2.set_ylim(-0.1,4.0)# SGD (1e-4 Mom) 公平对比组ax3fig.add_subplot(gs[2])plot_learning_curve(ax3,history_sgd_fair.history,3. SGD (LR1e-4, Momentum0.9)\n)plt.tight_layout()plt.show()直观对比importpandasaspddefcompare_three_models_report(m_adam,m_sgd_cons,m_sgd_fair):# 分别评估三个模型score_adamm_adam.evaluate(val_ds,verbose0)score_consm_sgd_cons.evaluate(val_ds,verbose0)score_fairm_sgd_fair.evaluate(val_ds,verbose0)# 组织对比数据results{评估指标 (Metric):[Loss (损失值),Accuracy (准确率)],Adam (1e-5):[f{score_adam[0]:.4f},f{score_adam[1]:.2%}],SGD 一致组 (1e-5):[f{score_cons[0]:.4f},f{score_cons[1]:.2%}],SGD 公平组 (1e-4Mom):[f{score_fair[0]:.4f},f{score_fair[1]:.2%}]}dfpd.DataFrame(results)print(三组模型最终评估对比)print(df.to_string(indexFalse))# 结论输出best_accmax(score_adam[1],score_cons[1],score_fair[1])ifbest_accscore_adam[1]:winnerAdam (1e-4)elifbest_accscore_fair[1]:winnerSGD 公平对比组else:winnerSGD 一致组print(f表现最优模型{winner})# 调用对比函数compare_three_models_report(model_adam,model_sgd_cons,model_sgd_fair)学习总结我进行了 Adam (1e-5)、SGD 一致组 (1e-5) 与 SGD 公平组 (1e-4 Momentum) 三个对照模型。“SGD 一致组”设计SGD (1e-5)这个组初衷是为了通过绝对控制变量来观察算法的本性。收获实验结果显示在与 Adam 完全一致的微小步长下SGD 的准确率曲线几乎没有进步。这让我直观感受到了非自适应优化器的局限性——它缺乏 Adam 那种自动放大梯度的能力。在微调 VGG16 这种深层网络时如果步长给得不够“狠”SGD 根本无法跨越损失函数的重重障碍。这有力地反衬了 Adam 在超参设置不精确时依然能凭借其自适应机制展现出强大的参数容错率和初期爆发力。“SGD 公平组”挖掘算法的真实上限如果只看一致组我会得出“SGD 没法用”的错误结论。因此我通过引入 100 倍学习率 (1e-4) 并配合 0.9 的动量 (Momentum) 专门设计了“公平对比组”。收获这一组的设计是为了观察在各自最佳状态下传统算法与自适应算法的对比。我发现SGD 组 2 的表现发生了质变。虽然前 5 轮落后于 Adam但在第 20 轮也稳稳达到了不错的效果这次实验最大的收获在于我意识到没有绝对“垃圾”的优化器只有不被理解的参数组合。通过这三个模型的对照我了解到除了控制变量做对比以外还有结合优化器特性公平对比看潜力的对比方式。

更多文章

前端开发 2026/4/20 4:31:34

效率倍增：用快马AI自动生成可复用的软件安装网站模板

今天想和大家分享一个提升开发效率的小技巧——如何快速生成一个可复用的软件安装指南网站模板。最近在帮朋友制作"91免费版"软件的安装说明网站时，发现传统方式实在太耗时了，于是尝试用InsCode(快马)平台来优化这个流程，效果出乎意…

作为一名刚接触SolidWorks的新手，我最初被那些复杂的三维模型和操作界面搞得一头雾水。直到发现了用网页交互方式学习基础建模的方法，才真正找到了入门捷径。今天就想分享这个特别适合新手的实践方案——通过参数化模型实时调整来理解三维设计的基本逻辑…

张开发

前端开发 2026/4/15 2:00:36

vscode配置remote ssh

下载老版本的vscode May 2024 (version 1.90) 1. 安装插件 vscode配置remote ssh_Hello_wshuo的博客-CSDN博客_remote ssh vscode 设置界面右键最左边tab栏：主体: vscode 插件: Remote SSH Linux主体: vscode-server 插件: C/C++, CMake, CMake Tools, CodeLLDB,…

张开发

第T11周：优化器对比实验

最新文章

IEC61850 GOOSE报文实战解析：用Wireshark抓包看懂变电站的‘心跳’

CSS如何解决Less与CSS兼容性问题_通过配置文件实现平滑过渡与混合开发

STC15W408AS单片机定时器0模式0配置详解：手把手教你用11.0592MHz晶振生成50Hz方波

从Excel高级筛选到Pandas：如何用Python一键搞定你的复杂报表条件？

3分钟让Windows和Linux拥有macOS精致光标体验：开源免费解决方案

别再只写ToDoList了！用微信小程序做个五子棋，面试作品集瞬间出彩

推荐文章

VisionMaster企业实操训练系列课程

Python实现基于DD驱动的键盘R键连发功能

如何实现SQL视图的灰度发布_版本兼容与双重定义方案

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

在Ubuntu 20.04上为MT7628开发板搭建OpenWrt编译环境（含64位系统避坑指南）

告别砖头！华大HC32F系列MCU IAP升级中的安全校验与故障恢复机制设计

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

效率倍增：用快马AI自动生成可复用的软件安装网站模板

避开这些坑！影刀RPA批量发布公众号文章的最佳实践

基于Logisim与74LS系列芯片的RS/D锁存器设计与硬件验证

从Column MUX到冗余替换：手把手拆解SoC中Memory Repair的硬件实现细节

Side-Menu.iOS高级定制：打造个性化菜单样式和交互体验的完整指南

告别‘画龙’！用Casadi和MPCC为你的FSAC赛车实现‘切弯’走线（附ROS仿真代码）

从“能跑”到“稳定”：聊聊音频与时钟电路Layout中包地、类差分与间距的那些讲究

3个维度重塑视频质量：Video2X的AI增强魔法揭秘

从零解析ATK1218-BD：Arduino实战中的北斗/GPS数据获取与NMEA协议解读

3大突破！NormalMap-Online让3D材质制作效率提升10倍的终极解决方案

solidworks新手福音：用快马平台ai生成交互式学习案例，轻松入门三维设计

vscode配置remote ssh