Tiny-ViT: A Compact Vision Transformer for Efficient and Explainable Potato Leaf Disease Classificat

张开发
2026/4/17 23:23:30 15 分钟阅读

分享文章

Tiny-ViT: A Compact Vision Transformer for Efficient and Explainable Potato Leaf Disease Classificat
《Tiny-ViT: A Compact Vision Transformer for Efficient and Explainable Potato Leaf Disease Classification》提出了一种名为Tiny-ViT的紧凑型视觉变换器模型用于对马铃薯叶部病害早疫病、晚疫病和健康叶片进行高效、高精度且可解释的分类。该模型专门针对资源受限环境如田间移动设备设计旨在解决现有深度学习方法在泛化能力、计算成本和决策可解释性方面的不足。主要研究内容与贡献1. 模型创新定制化 Tiny-ViT 架构基础模型以 Tiny-ViT 为基础通过增加一个额外的变换器层和一个前馈层进行定制化改进。设计目标在保持低计算成本的同时增强模型提取精细特征和学习复杂非线性决策边界的能力从而更好地区分早疫病与晚疫病的细微视觉差异。优势相比 DEIT Small、SWIN Tiny 和 MobileViT XS 等基线模型该定制模型在精度和效率之间取得了更优平衡。2. 数据处理与实验设置数据集使用来自 Kaggle 的马铃薯叶片数据集包含 1500 张平衡图像早疫病、晚疫病、健康各 500 张。预处理统一尺寸、CLAHE对比度受限自适应直方图均衡化增强对比度、高斯滤波降噪、像素归一化。数据划分与增强按 75%训练、10%验证、15%测试划分并对训练集应用随机翻转、旋转、缩放和亮度调整进行增强每类扩展至 1500 张。3. 全面的性能评估主要指标测试准确率99.85%5折交叉验证平均准确率99.82%马修斯相关系数MCC0.9990接近完美置信区间CI[0.9980, 0.9995]窄区间高可靠性对比结果显著优于 DEIT Small99.48%、SWIN Tiny99.30%和 MobileViT XS99.55%的测试准确率。推理效率测试阶段推理时间仅0.57 秒与 MobileViT XS 相当远低于 SWIN Tiny适合实时应用。鲁棒性验证通过损失/验证曲线和混淆矩阵分析显示模型收敛稳定、过拟合风险低且误分类极少主要在早疫病与健康之间。4. 可解释性增强方法集成Grad-CAM可视化技术。作用生成热力图突出显示输入图像中对模型决策贡献最大的区域即病害部位。价值增强了模型的透明度和可信度使农业专家能够验证模型的关注点是否与病理特征一致。5. 局限性与未来方向主要局限模型仅在一个受控数据集上验证其在多种环境不同光照、背景、品种下的泛化能力尚待检验。未来工作在更多外部、真实田间数据集上验证。集成到移动或嵌入式系统中实现现场检测。扩展至其他作物病害推动农业自动化。该研究的核心在于设计并验证了一个高精度、低延迟、可解释且计算经济的马铃薯叶部病害分类模型——Tiny-ViT。它不仅超越了多种主流轻量级 ViT 和 CNN 模型的性能还通过 Grad-CAM 提供了决策可视化为深度学习模型在真实农业场景中的可靠部署提供了有力支持。尽管泛化性有待进一步跨数据集验证但该工作为资源受限环境下的智能植物病害检测树立了一个高质量的基准。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要早期准确地识别植物病害尤其是马铃薯作物病害对于保障作物健康和确保最大产量至关重要。马铃薯叶部病害如早疫病和晚疫病给农民带来了重大挑战常常导致产量损失和农药使用增加。传统的检测方法不仅耗时而且容易受到人为错误的影响因此需要自动化和高效的方法。本文介绍了一种马铃薯叶部病害分类的新方法——Tiny-ViT模型这是一种小巧而有效的视觉变换器ViT专为资源受限的系统而开发。该模型在包含早疫病、晚疫病和健康叶片三个类别的数据集上进行了测试预处理步骤包括调整大小、CLAHE和高斯模糊以提高图像质量。Tiny-ViT模型取得了令人印象深刻的99.85%测试准确率和99.82%的平均交叉验证准确率优于DEIT Small、SWIN Tiny和MobileViT XS等基线模型。此外该模型的马修斯相关系数MCC为0.9990置信区间CI狭窄为[0.9980, 0.9995]表明其具有高可靠性和泛化能力。其训练和测试推理时间具有竞争力且计算成本低因此适用于实时应用。此外借助GRAD-CAM模型的可解释性得到提升可以识别病害区域。总之所提出的Tiny-ViT为植物病害分类问题提供了一个鲁棒、高效且可解释的解决方案。索引词Tiny-ViT植物病害分类马铃薯叶部病害视觉变换器ViT可解释人工智能XAI。I. 引言深度学习技术的全面发展正在迅速改变不同行业农业领域也不例外。具体而言自动化植物病害检测现在是一个主要的研究方向可能为早期病害检测和减少劳动密集型传统方法的使用提供解决方案[1], [2]。马铃薯叶部病害如早疫病和晚疫病一直对马铃薯种植者构成威胁导致他们产量严重损失[3]。及时准确地检测这些病害可以在其传播前进行预防并减少对作物的损害然而机器学习技术的问题在于要以其极高的准确度做到这一点仍然很困难。尽管植物病害分类的深度学习方法已经取得了进展但大多数模型存在限制限制了其在实际农业应用中的实施。由于当前模型缺乏交叉验证和使用小型受控数据集泛化能力是常见问题[4], [5]。此外许多最先进的模型是黑盒的提供的关于决策过程的信息很少这使得难以依赖它们的预测。最后这些模型计算成本高因此无法在资源受限的系统包括田间系统中实现。本研究旨在通过提出一种修改版的Tiny-ViT架构来填补这些空白该架构在高性能和低计算成本之间取得了平衡。我们还通过应用Grad-CAM一种在可视化图像中模型受影响最大的部分时常用的方法将可解释性融入到模型中。通过这些改进我们旨在开发一个不仅精确、有效而且可读、可泛化的模型。我们的策略基于这样一个事实需要既能在多样化数据集上有效又计算高效且易于理解的模型。我们提出了一种架构该架构利用了视觉变换器ViT的优势但针对马铃薯叶部病害分类的需求进行了调整。通过这些改进我们的模型为农业领域的实际应用提供了一个潜在的答案。本研究做出了以下几个重要贡献我们提出了一个定制版的Tiny-ViT模型该模型针对马铃薯叶部病害分类进行了优化在保持低计算成本的同时提供了高精度。我们引入了一个包含多种指标的综合评估框架例如准确率、交叉验证得分和马修斯相关系数MCC确保了在不同数据集和条件下的稳健性能。该模型通过Grad-CAM可视化集成了可解释人工智能XAI增强了模型透明度并为驱动预测的特征提供了宝贵的见解。我们通过交叉验证和在增强数据集上的验证证明了我们模型的现实适用性展示了其超越受控数据的泛化能力。该模型的效率以其低计算成本为标志使其适用于资源受限设备上的实时农业应用。II. 文献综述在这一部分我们讨论了过去关于植物病害分类的研究包括方法论及其相关的挑战。尽管已经取得了相当大的进展但现有模型中仍然存在诸如过拟合、不可解释性和计算能力过高之类的限制。Tambe 等人 [6] 引入了一个CNN来分类早疫病、晚疫病和健康叶片测试准确率达到99.1%。尽管它在区分严重感染方面表现出色但未进行交叉验证且缺乏可解释性这引发了过拟合的担忧。计算成本中等但缺乏效率分析。因此尽管结果令人鼓舞但仍需在外部数据上进一步确认以保证泛化能力。Alhammad 等人 [7] 使用带有Grad-CAM的VGG16迁移学习达到了98%的测试准确率。尽管Grad-CAM具有可解释性但预训练网络庞大且使用单一数据集限制了外推能力。未描述交叉验证这暗示了过拟合。此外该过程计算量大且耗时50个epoch。因此它不是一个可能适用于现实世界的好方法。Dame 等人 [8] 提出了一个改进的CNN用于病害和严重程度分类准确率分别达到99%和96%。然而数据集小且具有区域性没有交叉验证可能导致过拟合。此外没有可解释性且在中等严重程度级别之间存在混淆。该模型没有对其计算效率进行基准测试。因此尽管其性能良好但其广泛应用的潜力尚不明确。Sinamenyte 等人 [9] 开发了一个基于混合方法的EfficientNetV2B3-ViT模型在真实世界图像上能达到85.06%的准确率。CNN在捕获全局特征方面效率较低而ViT模型捕获的局部特征较少这增强了特征融合。然而没有交叉验证和可解释性且架构计算成本高。观察到对害虫和真菌的错误识别并且未测试数据集的泛化能力。因此该方法提高了自由图像性能但复杂且资源需求大。Arshad 等人 [10] 创建了PLDPNet它使用U-Net分割、特征融合和多头视觉变换器准确率达到98.66%。分割关注叶片区域这改进了学习但没有交叉验证和XAI。该流程计算量大且非常复杂。由于在PlantVillage的清晰图像上进行测试其在现实世界中的鲁棒性仍不清楚并且过拟合问题依然存在这限制了其实际应用。Jllasi 等人 [11] 也使用数据重加权和增强对MobileNetV2进行微调达到了98.6%的准确率和Grad-CAM可解释性。轻量级网络降低了计算成本。尽管如此没有交叉验证测试是在精选数据集上进行的决策解释仅部分依赖于定性XAI。过拟合和泛化问题仍然存在尤其是在真实世界图像上。因此它虽然高效且易于解释但其应用范围值得怀疑。Kumari 等人 [12] 在混合数据集上优化CNN在这种情况下一个浅层CNN模型具有98.8%的准确率。参数数量少允许快速推理但数据集规模小且未报告交叉验证的过拟合情况表明存在过拟合风险。它没有涉及可解释性并且只考虑了三类。因此该方法计算能力强且准确但在现实世界中的准确性较低。Jain 等人 [13] 使用带有模糊预处理的贝叶斯优化CNN集合准确率达到97.94%。集合多样性降低了过拟合风险尽管没有可解释性或外部验证。贝叶斯优化在训练多个CNN时计算强度大。因此尽管性能高但实际部署和可解释性受到限制泛化能力不确定。Sanga 等人 [14] 提出了EfficientNet-LITE它使用通道注意力和KE-SVM在实验室图像上达到99.54%的准确率在田间数据上达到87.82%的准确率。轻量级架构改善了计算尽管缺少交叉验证和XAI。准确率下降意味着它过度拟合了受控数据。因此该策略在实验室条件下有效且效果良好但在现实条件下不强。根据 Dey 等人 [15] 的研究使用改进的CNN检测马铃薯叶部病害报告准确率为92.93%。关于技术和数据的信息很少。它可能基于单个数据集进行评估并且没有使用XAI或交叉验证这意味着它可能过拟合。现代CNN层可以带来高模型效率但其鲁棒性尚不清楚。因此该策略提出了CNN的优化需要进一步验证。差距总结回顾的研究在马铃薯叶部病害分类方面具有高准确率尽管它们大多数缺乏交叉验证和外部数据分析这可能导致过拟合和泛化问题。诸如Grad-CAM或XAI之类的可解释性技术并未统一应用这限制了对模型决策的可解释性。此外其中一些模型计算成本高或在精选数据集上进行基准测试这降低了其实用性和可靠性。III. 方法在本节中我们概述了用于检测马铃薯叶部病害的方法。所提出方法的整体工作流程如图1所示其中包括从数据获取到最终病害分类的关键步骤。图 1. 马铃薯叶部病害检测方法的整体工作流程。该图说明了从数据获取和预处理到数据集划分、增强、模型训练和评估的过程。A. 数据获取本研究使用的数据来自Kaggle包含在受控条件下获取的图像[16]。数据集中有1,500个图像文件它包括早疫病、晚疫病和健康植株三个不同类别。每个类别有500张图像总计1,500张图像。收集这些图像的目的是识别农业栖息地中的常见植物病害和健康植株。下表 I 提供了每个类别的详细描述以及示例可视化表 I数据集中各类别的描述及示例图B. 预处理与特征增强通过多种程序对图像进行预处理以提高其质量并使其更适合模型训练。首先将图像尺寸标准化为相同大小。接着应用自适应直方图均衡化CLAHE以增强图像对比度从而在降低噪声的同时突出显着特征。使用高斯模糊对图像进行平滑处理这最大限度地减少了噪声并使模型能够优先关注重要的结构。最后将像素值缩放到 [0, 1] 区间确保整个数据集的像素值缩放一致。C. 数据集划分与训练集增强数据集按 75%、10% 和 15% 的比例划分为三个部分训练集、验证集和测试集。具体来说整个数据集的 75% 被分配给训练集以使模型能够在多样化的样本上进行训练。保留 10% 的数据作为验证集用于微调超参数并监控模型在整个训练过程中的性能。剩余的 15% 保留作为测试集作为模型训练完成后对其整体泛化能力的一个独立衡量标准。这些子集中图像的数量统计如图2所示。划分后对训练集应用图像增强以提高模型泛化能力。应用的增强操作包括随机翻转、随机旋转、随机缩放和随机亮度调整。每张原始图像都应用这些变换生成三个增强版本从而使得训练集中每个类别有1,500张图像。D. 基线分类器在基线分类任务中我们选择了几个有效的模型来比较它们在马铃薯叶部病害分类中的性能。这些模型如下图 2. 数据集划分可视化。数据集按 75% 训练、10% 验证和 15% 测试的比例划分确保了模型训练和评估的适当分布。TinyViT 5M一种微型化的视觉变换器 (ViT)具有500万个参数旨在实现性能与计算效率之间的平衡。MobileViT XS一个为移动和边缘设备优化的模型旨在轻量化并确保较短的推理时间尽管其准确率略有降低。Tiny ViT (Patch16_224)一个小型ViT模型通过数据高效机制创建以优化自注意力的效率并减少参数使用16x16的块和224x224的输入尺寸。Swin Transformer Tiny (Patch4_Window7_224)一种分层视觉变换器将图像划分为不重叠的窗口并使用窗口移动机制这提高了性能并降低了计算开销。该模型特别适用于计算需求较低的任务如马铃薯叶部病害分类。这些基线分类器已被用来提供一个全面的基线在此基础上可以评估所提出的模型在检测和分类影响马铃薯叶片的病害方面的性能。提出的定制化 TinyViT所提出的模型是TinyViT架构的定制化形式在其上添加了两个额外的层以提高识别马铃薯叶部病害的能力。第一个添加的层是一个额外的变换器层用于提取更精细的特征第二个是一个额外的前馈层以增强模型学习非线性决策边界的能力。这些修改使模型能够适应叶片图像中更细微的差异从而提高其精度而不影响计算速度。因此定制化的TinyViT在需要高效病害分类的现实世界、资源受限场景中最为合适。图3展示了修改后的Tiny-ViT架构。E. 可解释人工智能的使用所提出的Tiny-ViT模型的预测使用GRAD-CAM进行解释。它突出显示了输入图像中对模型决策贡献最大的区域确保模型针对受病害影响的区域。这使得模型更加开放和可信表明模型的预测是由相关特征引导的。使用GRAD-CAM是为了提高我们的模型在实际应用中的可解释性和可靠性。图 3. 用于马铃薯叶部病害分类的定制化 TinyViT 模型架构。F. 评估指标为了评估所提出的Tiny-ViT模型的性能我们使用了一些关键的评估指标准确率、交叉验证CV得分、计算成本、马修斯相关系数MCC和置信区间CI。IV. 结果与讨论在本节中我们将展示对所提出的Tiny-ViT模型以及其他模型的全面评估重点介绍其在各项指标上的表现。我们将讨论实验的主要结果包括准确率、交叉验证得分和计算效率。A. 训练、测试与交叉验证性能表II给出了马铃薯叶部病害分类中的模型性能列出了模型在训练集和测试集上的准确率。训练准确率和测试准确率分别为99.63%和99.48%表明特征提取高效且泛化良好。然而测试准确率略有下降这表明对未见数据存在轻微敏感性。类似地该模型的训练准确率和测试准确率分别为99.50%和99.30%表明模型泛化良好。尽管如此测试准确率略有下降这可能表明其对新信息有反应性。相反使用MobileViT XS模型记录到了最高的训练准确率99.75%和测试准确率99.55%。这表明在训练和测试性能之间取得了良好的平衡意味着模型在已见和未见数据上都表现良好。最后专门为此任务训练的自定义TinyViT模型的性能接近于完美模型训练准确率为99.90%测试准确率为99.85%。这一发现突显了为特定任务定制专门架构的价值。我们还使用了5折分层交叉验证来进一步评估这些模型的泛化能力。这些交叉验证结果如下图所示提供了当使用不同数据划分时模型稳定性和性能的更详细分析。下面的图4显示了各模型在5折交叉验证下的平均测试准确率。结果表明所提出的定制化TinyViT模型比其他模型更有效因为它具有最高的99.82%准确率。MobileViT XS模型以99.67%的准确率紧随其后显示出其高水平的泛化能力。表 II马铃薯叶部病害分类的模型性能评估模型训练集准确率测试集准确率DEIT Small0.99630.9948SWIN Tiny0.99500.9930MobileViT XS0.99750.9955提出的定制化 TinyViT0.99900.9985DEIT Small和SWIN Tiny模型显示出略低的准确率分别为99.57%和99.45%表明它们表现良好但通过测试集进行外推的能力略有差异。这些发现突显了像所提出的定制化TinyViT这样经过微调的专用模型在实现高性能分类方面的成功。图 4. 马铃薯叶部病害分类中各模型在5折交叉验证下的平均测试准确率B. 所提出的 TinyViT 的验证和损失曲线分析所提出的TinyViT模型在训练过程中的验证和损失曲线如图5所示。该图显示了模型在多个epoch中在验证损失和验证准确率方面的表现。如图所示模型在验证准确率上表现出稳定的变化同时验证损失显著减少尤其是在最初的几个epoch。这意味着模型成功地获取了数据中的当前趋势并且随着训练进行它将变得更擅长泛化。曲线变化小且规则也是模型在处理验证集时稳健性的积极指标。值得注意的是验证损失在后期epoch显著降低表明模型正有效地收敛到最优解这是避免过拟合的良好迹象。图 5. [验证和损失曲线图]C. 推理时间分析图6显示了所有被评估模型在马铃薯叶部病害分类中的推理时间SWIN Tiny、DEIT Small、MobileViT XS以及提出的定制化TinyViT模型。SWIN Tiny具有最高的推理时间训练时间为12.94秒验证时间为0.63秒测试时间为0.86秒这反映了其计算成本。相比之下DEIT Small记录的时间略低训练时间为9.68秒测试时间为0.70秒因为它是以更高的效率设计的。MobileViT XS在推理时间上表现更好训练时间为6.73秒测试时间为0.54秒因此更适用于现实场景。最后提出的定制化TinyViT模型具有最短的推理时间训练时间为6.86秒测试时间为0.57秒它在准确性和效率之间取得了很好的平衡适合部署。图 6. 各模型在训练、验证和测试阶段的推理时间秒比较。D. 所提出的 TinyViT 的误分类分析图7展示了所提出的TinyViT模型的混淆矩阵显示了模型在分类三个类别早疫病、晚疫病和健康时的表现。对于早疫病模型正确识别了74个样本为早疫病但有1个样本被错误地识别为晚疫病。对于晚疫病模型正确识别了所有75个样本没有误分类。对于健康类别正确预测了75个样本但有1个健康样本被错误地预测为早疫病。如该混淆矩阵所示所提出的TinyViT模型表现良好误分类极少误分类发生在早疫病和晚疫病之间以及健康和早疫病之间。E. MCC 与置信区间分析各模型的马修斯相关系数和置信区间CI如表III所示。提出的定制化TinyViT模型具有最高的MCC 0.9990意味着高性能且CI狭窄表明高度的可靠性。MobileViT XS和DEIT Small也表现良好MCC分别为0.9941和0.9934。尽管其值略低0.9923SWIN Tiny模型也表现良好且其CI的不确定性较低。F. MCC 与置信区间分析表 III所有模型的马修斯相关系数MCC和置信区间CI模型MCC置信区间 (CI)DEIT Small0.9934[0.9901, 0.9962]SWIN Tiny0.9923[0.9885, 0.9952]MobileViT XS0.9941[0.9917, 0.9966]提出的 TinyViT0.9990[0.9980, 0.9995]图 7. 提出的 TinyViT 模型的混淆矩阵。G. 使用 GRAD-CAM 可视化对提出模型的可解释性所提出的TinyViT模型的GRAD-Cam可视化如图8所示。该方法突出了输入图像中对模型决策过程影响最大的区域。可视化中高亮的区域表示模型在分类时关注的图像区域。特别地我们的模型准确地定位了马铃薯叶片上病害区域这对于定义叶片的不同病害至关重要。这种对相关特征的特定关注使得该模型的预测不仅准确而且可解释展示了模型如何能够优先考虑病害区域以做出更有效的决策。图 8. 提出的 TinyViT 模型的 GRAD-Cam 可视化。高亮区域表示对模型决策贡献最大的图像区域提供了模型在分类过程中关注点的洞察。表 IV 展示了各种植物病害分类模型的比较详细说明了它们的准确性和局限性。Tambe 等人 [6] 使用CNN达到了99.1%的准确率但缺乏交叉验证并存在过拟合问题。Alhammad 等人 [7] 使用了带迁移学习的VGG16达到了98%的准确率但该方法计算成本高且缺乏交叉验证。Dame 等人 [8] 提出了一种定制的CNN达到了99%的准确率但受限于小型数据集、无交叉验证和高计算成本。Sinanemye 等人 [9] 使用了EfficientNetV2B3 ViT准确率为85.06%但该模型存在错误分类和泛化能力差的问题。相比之下我们的Tiny-ViT模型不仅达到了99.85%的准确率而且还集成了可解释性XAI确保了低计算成本并采用了高强度的交叉验证展现了卓越的性能和鲁棒性。表 IV模型准确率与局限性总结研究模型准确率局限性Tambe 等人 [6]CNN99.1%无交叉验证过拟合计算成本中等。Alhammad 等人 [7]VGG1698%无交叉验证预训练网络庞大计算密集。Dame 等人 [8]定制CNN99%, 96%数据集小无交叉验证无可解释性计算成本高。Sinanemye 等人 [9]EfficientNetV2B3 ViT85.06%无交叉验证错误分类泛化能力差。Arshad 等人 [10]PLDPNet98.66%无交叉验证无 XAI流程复杂存在过拟合风险。我们的 Tiny-ViT 研究Tiny-ViT99.85%所提出的模型仅在单个数据集上进行了评估这可能限制其对其他数据集或条件的泛化能力V. 结论在本文中我们介绍了Tiny-ViT用于分类马铃薯叶部病害包括早疫病、晚疫病和健康叶片。我们的实验表明与现有的基线模型相比Tiny-ViT表现更优其测试准确率达到99.85%平均交叉验证准确率为99.82%MCC为0.9990。该模型还具有推理速度快和计算成本低的特点因此适用于资源受限环境下的实时应用。此外GRAD-CAM的应用使模型解释更加透明提供了关于叶片受病害影响区域的信息因此使模型的更好预测更可信。本研究的一个关键局限性在于所提出的模型仅在单个数据集上进行了评估这可能限制其对其他数据集或条件的泛化能力。尽管结果令人鼓舞但仍有进一步改进和研究的空间。首先将在外部数据集上进一步测试模型的性能以确认其对不同环境条件的鲁棒性和适用性。此外可以通过包含更广泛的数据包括在不同光照条件、不同背景等条件下拍摄的图像来改进模型使其能够更好地应对现实世界的条件。未来还可能研究如何将模型与移动或嵌入式系统结合以实现无缝的现场病害检测。最后开发模型以分类其他植物病害以增加其在农业自动化中的应用将是一个有趣的尝试。

更多文章