TinyML增强CubeSat任务能力

张开发
2026/5/31 1:07:59 15 分钟阅读
TinyML增强CubeSat任务能力
大家读完觉得有帮助记得关注和点赞摘要传统的地球观测任务依赖于将原始或经过最低限度处理的图像从卫星传输到地面站再进行计算密集型分析。对于CubeSat系统而言这种模式是不可行的因为其机载嵌入式处理器、能量可用性和通信带宽都受到严格限制。为了克服这些限制本文提出了一种基于TinyML的卷积神经网络模型优化与部署流程用于机载图像分类从而在CubeSat类约束下实现精确、节能且硬件感知的推理。我们的流程集成了结构化迭代剪枝、训练后INT8量化和硬件感知算子映射以压缩模型并使其与意法半导体的STM32N6微控制器的异构计算架构对齐。该微控制器集成了新型Arm Cortex-M55内核和Neural-ART神经网络处理单元为CubeSat机载计算机提供了一个现实的代理平台。本文在三个EO基准数据集EuroSAT、RS_C11和MEDIC和四个模型上评估了所提出的方法。我们展示了优化后的模型平均减少了89.55%的RAM使用和70.09%的Flash存储显著降低了下行链路带宽需求同时保持了任务可接受的精度。每次推理的能耗从0.68 mJ到6.45 mJ不等延迟从3.22 ms到30.38 ms不等。这些结果完全满足了高效机载EO处理所需的严格能量预算和实时约束。引言在过去十年中“新太空”运动使进入轨道的门槛大大降低使得CubeSat成为许多地球观测任务的核心。CubeSat是由标准化10×10×10厘米单元构建的小型化卫星。这些EO任务涵盖了多种应用包括精准农业、海上监视和灾害快速响应。然而CubeSat在尺寸、重量、功耗和通信带宽方面受到严格限制这从根本上挑战了传统的EO运营模式获取所有传感器数据将其下行传输到地面站然后在地面或云端进行处理。本文的动机。这种传统的EO工作流程是为具有高容量下行链路和连续地面连接的大型卫星设计的。在此模式下原始Level-0数据被传输到地面站并在集中式设施中处理成更高级别的产品。尽管这对于旗舰任务有效但该方法对于CubeSat来说变得不切实际。通常低地球轨道过境仅持续几分钟即使先进的S波段或X波段无线电也无法弥补有限的接触时间和每比特的能量成本。因此大量收集的数据无法传输或者这样做会带来过高的延迟和成本。这种瓶颈促使了一种范式转变不是将所有数据移至地面而是将计算带到数据所在之处。机载智能使卫星能够自主过滤、分类和优先处理信息从而减少下行链路数据量和关键应用的延迟。特别是最近的Φ-Sat-1等任务已经证明了这种方法的可行性即在轨道上移除云层图像节省了多达30%的下行数据。然而在CubeSat硬件上部署深度神经网络具有挑战性因为最先进的模型所需的计算和内存比典型CubeSat机载计算机所能提供的要多几个数量级。具体来说用于1U–3U CubeSat的商用现货机载计算机通常仅配备16–64 MB的易失性内存和数百MB的非易失性存储并且必须在平均2–8 W的功率预算内运行。这些严格的资源限制使得直接部署未经压缩的浮点模型在CubeSat类资源约束下变得不可行。科学贡献。在CubeSat类平台严苛的功耗、内存和计算约束下实现智能需要一个硬件感知的流程该流程能够针对目标系统的架构联合优化算法选择。本文提出了一种基于TinyML的卷积神经网络模型优化与部署流程用于机载图像分类通过集成以下技术在CubeSat类硬件上实现精确、节能且快速的推理结构化迭代剪枝以减少模型大小和计算负载。训练后INT8量化以压缩权重和激活值并利用整数加速。硬件感知算子映射以最大化异构计算资源的利用率。部署实验使用新型STM32N6平台进行具体使用了STM32N6570-DK这是一个现代微控制器单元平台具有800 MHz的Arm Cortex-M55内核、4.2 MB的SRAM以便于处理数据密集型AI工作负载以及一个集成的Neural-ART NPU能够为INT8推理提供高达约600 GOPS的性能增强了实时推理任务的关键处理能力。尽管该系统并未实际部署在卫星上但它代表了在CubeSat类系统的严格限制下设计可部署推理管道的代表性场景。在此背景下使用意法半导体设备构成了文献中一种实用且被广泛接受的近似方法。为了评估我们硬件感知部署管道的有效性我们在三个与EO相关的数据集上进行了实验EuroSAT、RS_C11和MEDIC涵盖了土地覆盖分类、风险评估和场景识别任务。评估了四个代表性模型SqueezeNet、MobileNetV3、EfficientNet和MCUNetV1重点关注三个关键指标分类精度、内存占用和能耗。我们成功证明该方法可以将模型从数十兆字节压缩到亚兆字节级别并将能耗降低到毫焦耳量级。总之本文的主要贡献如下首先我们提出了一个系统化的管道将剪枝、量化和硬件感知算子映射相结合用于“新太空”领域的嵌入式深度学习。其次我们在一个现代MCU Neural-ART NPU平台上进行了实验评估量化了在CubeSat类约束下的精度下降、延迟、能耗和内存权衡。最后我们证明了我们的管道在多个与EO相关的数据集和模型架构上对于EO分类任务具有良好的泛化能力。鉴于观察到的资源节省和性能权衡的一致性底层的硬件感知管道可扩展到其他EO任务如语义分割和目标检测我们将其确定为未来的工作方向。相关工作机载深度学习用于地球观测在文献[24]中作者介绍了CloudScout一种基于ConvNet的机载高光谱图像云检测方法。该系统在下行传输前消除被云污染的数据从而减少带宽和能量使用。该模型针对Intel Myriad 2 VPU进行了优化在Sentinel-2高光谱数据集上实现了92%的精度推理时间为325 ms功耗为1.8 W占用2.1 MB内存。Φ-Sat-1任务于2020年9月3日发射用于部署CloudScout模型标志着欧洲第一颗将AI用于EO数据分类的卫星是一个重要的里程碑[6]。由欧洲航天局开发的OPS-SAT CubeSat探索了将基于模型的推理与机器学习相结合以加速轨道上的数据到决策周期提出了一个强调模型压缩对推理效率重要性的框架[25]。另一个重要的任务是来自九州工业大学的KITSUNE 6U CubeSat它在卫星上搭载了一个用于野火检测的ConvNet运行在树莓派上[26]。在文献[27]中作者使用知识蒸馏方法压缩DNN以用于机载EO图像分割重点关注船舶检测。在文献[28]中作者分析了用于卫星遥测数据异常检测的机器学习技术。该研究对异常进行了分类并强调了需要鲁棒的检测策略以确保卫星的可靠性和操作性能。最后在文献[13]中作者展示了如何将训练好的ConvNet模型集成到AlAinSat-1的STM32 MCU中。微控制器单元上的TinyML在过去五年中TinyML社区研究了优化内核、框架和基准测试以加速MCU上的机器学习操作。例如CMSIS‑NN为Arm Cortex‑M提供了高效的INT8内核与朴素基线相比速度/能量增益约为5倍。TensorFlow Lite Micro为各种供应商的MCU部署提供了一个紧凑的解释器运行时开销极小。此外MLPerf Tiny基准测试套件标准化了视觉唤醒词、图像分类和异常检测工作负载的精度、延迟和能耗评估。TinyML的进展还引入了自动神经架构搜索和硬件感知压缩框架如MCUNet和Once-for-All。其他轻量级ConvNet系列如SqueezeNet和MobileNetV3已证明在资源受限设备上具有很强的效率。最后MCU供应商还集成了神经加速器以增强设备上的视觉/音频处理。具体来说意法半导体的STM32N6是一款MCU具有专为量化ConvNet设计的专用Neural-ART NPU并得到ST Edge AI Developer Cloud工具链的支持。该工具链划分ONNX图将支持的INT8操作卸载到Neural-ART NPU并通过缓冲区重用和操作融合来减少内存和延迟。文献空白尽管在实现EO机载智能方面取得了进展但仍存在几个空白尚未解决。代表性的硬件约束。虽然先前的工作已经使用嵌入式平台展示了机载推理但许多依赖于相对强大的SoC或单板计算机它们提供的资源远远超过典型CubeSat类硬件可用的资源。这导致了专门为超受限环境设计的解决方案存在空白。端到端硬件感知管道。尽管已经研究了一些模型压缩技术但缺乏联合优化模型和部署策略的系统化管道。全面的基准测试。当前的研究很少评估实际EO工作负载下能量、内存和通信之间的权衡主要关注精度或延迟。在多个数据集上的标准化评估仍然有限。解决空白。在本文中我们首先通过在真实的超受限硬件约束下验证解决方案来直接解决这些空白。其次我们提出了一个系统化的端到端优化和部署管道。最后我们在多个数据集和模型上提供了全面的基准测试评估了RAM、Flash、能耗和下行链路带宽减少之间的完整权衡。方法论本文的主要贡献是一个轻量级但精确的深度学习管道该管道在CubeSat类硬件的严格计算、内存和能量约束下运行。以下小节详细介绍了系统设计和所提出的方法论该方法通过三个关键阶段系统地压缩和优化神经网络结构化迭代剪枝、训练后INT8静态量化和硬件感知算子映射。图1STM32N6原型环境概述用于在超低功耗硬件设备上实现端到端地球观测工作流。首先结构化剪枝移除冗余的滤波器和神经元同时保留任务性能从而大幅降低模型复杂度。接下来静态量化通过将浮点参数和激活值转换为8位整数表示来进一步压缩网络最小化内存使用和计算成本。最后硬件感知映射过程将生成的模型划分到STM32N6平台的异构计算架构上确保操作在CPU和Neural-ART NPU之间高效分配。这些步骤共同构成了一个集成的优化管道使得能够在现实的CubeSat约束下部署用于EO的TinyML模型。系统设计STM32N6。STM32N6是意法半导体专为TinyML应用设计的旗舰高性能MCU。它配备了一个800 MHz的Arm Cortex-M55内核带有Helium向量扩展增强了数字信号处理能力这对实时推理任务至关重要。一个独特的组件是集成的Neural-ART加速器这是意法半导体专有的NPU最高运行频率为1 GHz允许在设备上高效执行复杂的DNN正如我们的EO任务所证明的那样。该MCU具有4.2 MB的嵌入式RAM能够高效处理数据密集型AI工作负载。STM32N6得到ST Edge AI Suite的支持该套件包括STM32Cube.AI和ST Edge AI Developer Cloud等工具用于在超低功耗嵌入式系统上高效部署学习模型。MB1854 B-CAMS-IMX。该成像子系统配备了一个高分辨率摄像头模块专为与STM32生态系统无缝集成而设计。捕获帧的处理由MCU集成的H.264编码器支持。通信与下行链路约束。标准遥测通常在UHF或VHF频率上传输支持1到9.6 kbps的低数据速率。尽管S波段链路提供了更高的数据速率高达256 kbps但它只能在卫星位于地面站上空时间歇性使用。这些通信机会不频繁而且非常短暂通常只持续约十分钟。因此每天可以传输的总数据量受到严格限制通常仅限于几十兆字节。这种瓶颈使得机载智能数据处理变得至关重要。设计目标我们将分析限制在ConvNet或NAS生成的ConvNet模型上原因有二。首先ST Edge AI工具链目前主要为卷积架构提供优化的算子映射与基于Transformer的设计兼容性有限。其次聚焦于ConvNet可以最大化Neural-ART NPU中的算子覆盖范围并简化部署工具链的集成。我们选择的模型实现了高精度。然而使用ST Edge AI Suite在STM32N6上进行的分析显示未经压缩的Float32网络超出了片上RAM预算并且在大多数情况下违反了实时操作所需的每帧延迟目标。简而言之基线模型准确但无法在CubeSat类硬件约束下部署。因此指导我们实现的设计目标如下将相对于Float32基线的精度下降限制在任务可接受的小范围内。使模型参数、中间激活和工作缓冲区适合4.2 MB的嵌入式RAM。满足STM32N6上有效载荷控制回路定义的每帧推理截止时间。最小化能耗以延长任务寿命并提高占空比灵活性。通过最大化机载推理来减少通信开销。设计含义结构化迭代剪枝。此步骤交替移除整个计算单元并基于其关联权重的幅度对网络进行微调我们使用逐层L2范数来量化这一点。该过程从一个预训练模型开始并迭代地应用以下剪枝-微调循环重要性排序对于每个卷积层和全连接层计算其所有输出结构即滤波器或神经元的L2范数。剪枝我们根据重要性分数对每个层内的结构进行排序并通过将二进制掩码应用于权重张量来剪除得分最低的结构。微调在剪枝步骤之后对剪枝后的模型进行10个周期的微调使用比训练学习率更低的学习率以使剩余的权重调整并恢复任务性能。为了降低严重损害网络学习表征的风险该循环不以单个激进的步骤执行而是以3个阶段进行剪枝率递减。具体来说我们在第一次迭代中剪掉10%的滤波器然后在接下来的两次迭代中各剪掉5%。该特定顺序是根据经验确定的以在显著的初始压缩和模型在中间微调步骤中恢复任务性能的能力之间提供最佳平衡。在最后一次迭代之后剪枝掩码被永久化以产生最终的剪枝模型。INT8静态量化。在剪枝阶段之后我们应用训练后静态量化以进一步压缩模型并提高推理效率。该方法将32位浮点权重和激活值转换为8位有符号整数。与动态量化不同静态量化需要一个校准步骤在该步骤中模型被输入一个小型代表性数据集以确定激活值的最佳量化参数。量化过程的核心是从实数值 r 到其整数表示 q 的仿射映射。该关系由缩放因子 S 和零点 Z 定义。具体来说r S⋅(q - Z)其中 S 是一个正实数Z 是一个整数。对于INT8量化q 被限制在 [-128, 127] 范围内。参数 S 和 Z 在校准阶段通过观察实数值张量元素的取值范围 [min(R), max(R)] 来确定。硬件感知算子映射。最后我们使用ST Edge AI Developer Cloud框架执行硬件感知算子映射即将支持的DNN算子划分给Neural-ART NPU。该映射在算子级别执行以最大化硬件加速并最小化延迟。具体来说该工具检查量化的ONNX图并根据硬件能力将其划分为子图。诸如Conv2D、DepthwiseConv2D和激活之类的算子被转移到针对INT8算术优化的Neural-ART NPU。其他层如自定义或控制流操作保留在CPU上。为了最小化延迟和内存占用优化器应用流水线调度在可能的情况下重叠CPU和Neural-ART NPU的执行。缓冲区重用跨层共享激活缓冲区以减少SRAM使用。算子融合将兼容的层组合成单个Neural-ART NPU内核。这个硬件感知步骤确保模型充分利用STM32N6平台的异构计算资源。实验数据集。我们的实验评估在三个不同的数据集上进行EuroSAT、MEDIC和RS_C11。选择这些数据集主要基于三个标准。首先它们被确立为最先进的基准。其次它们代表了各种EO任务包括土地覆盖分类、遥感场景分类和风险评估分析。第三它们的图像分辨率差异显著EuroSAT为64×64像素RS_C11为128×128像素MEDIC为224×224像素。模型。我们使用了以下模型SqueezeNet、MobileNetV3、EfficientNet和MCUNetV1。MCUNetV1模型被排除在剪枝阶段之外因为其架构已经为资源受限设备进行了协同设计和优化进一步的剪枝是不必要的。训练细节。模型使用PyTorch实现。对于训练稠密模型我们使用Adam优化器学习率为1×10⁻³批大小为32训练50个周期。在迭代剪枝阶段每个模型的微调阶段使用降低的学习率1×10⁻⁴并进行10个周期。所有训练和微调过程均在单个NVIDIA H100 Tensor Core GPU上执行。评估设置。我们在STM32N6570-DK探索套件上部署模型使用四个关键评估指标分类精度、推理延迟、内存占用和能耗。精度与内存分析EuroSAT。图2在EuroSAT数据集上的定量结果包括精度、RAM和Flash。初步评估在EuroSAT数据集上进行结果如图2所示。对于基线模型RAM使用是一个重大障碍SqueezeNet、MobileNetV3和EfficientNet分别需要3.99 MB、6.56 MB和16.79 MB的RAM。优化的EfficientNet提供了最高的基线精度最终实现了0.12 MB的RAM占用和4.20 MB的Flash占用。与原始模型相比这代表了99.30%的RAM减少和72.90%的Flash减少。这些资源节省仅以很小的精度下降为代价从97.56%下降到96.24%下降了1.32个百分点。MobileNetV3的优化带来了更大的RAM节省。最终模型仅需0.11 MB的RAM比其6.56 MB的基线减少了98.30%。这是以精度相对下降6.22个百分点为代价的。SqueezeNet被压缩到0.49 MB的RAM和0.82 MB的Flash而其精度从93.98%下降到92.69%。最后MCUNetV1是最紧凑的基线实现了0.09 MB的RAM占用和2.10 MB的Flash占用。这种资源节省导致精度从97.04%下降到95.40%下降了1.64个百分点。RS_C11 和 MEDIC。图3在RS_C11左和MEDIC右数据集上的定量结果包括精度、RAM和Flash。 (*) 放大以清晰查看Flash值。我们将实验扩展到另外两个数据集RS_C11和MEDIC。与EuroSAT相比这些数据集在图像分辨率和语义变异性方面都引入了更高的复杂性。图3左总结了RS_C11上的结果。基线模型表现出6.24 MB、7.13 MB和19.19 MB的RAM占用这些值显然不允许将这些模型部署在CubeSat类硬件上。在应用迭代剪枝、INT8量化和硬件感知优化后RAM使用分别减少到2.10 MB、0.30 MB和0.53 MB分别对应64.40%、95.80%和97.20%的减少。MCUNetV1的RAM进一步减少到0.26 MB。Flash内存需求同样被压缩所有四个模型的平均减少量为70.10%。由此产生的精度权衡仍保持在许多自动化EO任务可接受的范围内具体来说SqueezeNet从90.69%下降到82.08%MobileNetV3从93.93%下降到88.02%EfficientNet从95.95%下降到94.07%MCUNetV1从95.14%下降到93.95%。MEDIC的分辨率为224×224代表了计算需求最高的场景测试了硬件感知映射在平衡资源约束与任务复杂性方面的有效性。如图3右所示优化后的模型实现了4.10 MB、1.10 MB、2.40 MB和1.40 MB的RAM占用。相比之下三个标准模型的基线值都超过了6 MB。即使是MCUNetV1也从12.36 MB显著减少到1.40 MB。Flash使用的减少同样显著。值得注意的是在这个特定数据集上发生了一个有趣的现象迭代剪枝始终提高了所有基线模型的性能。具体来说剪枝后SqueezeNet的精度从61.85%提高到62.68%MobileNetV3从63.53%提高到64.98%EfficientNet从64.60%跃升至65.60%。这种改进的发生是因为剪枝过程起到了正则化的作用有效地移除了可能导致过拟合的冗余参数和噪声使模型能够更好地泛化数据。与EuroSAT和RS_C11数据集不同在这些数据集上模型可能已经达到了接近最优的拟合而该数据集呈现了一个特定的分布其中稀疏化有助于网络专注于更稳健的特征。讨论。优化后的模型与其Float32基线相比保持了任务可接受的精度裕度大多数精度下降保持在10个百分点以下从而满足了设计目标#1。同时内存占用的减少确保了所有模型参数、激活值和缓冲区都适合STM32N6的4.2 MB嵌入式RAM满足了设计目标#2。推理与功耗分析图4所有数据集上完全优化模型的推理延迟和能耗。左图延迟毫秒右图每次推理的能量毫焦耳。我们测量了完全量化模型的推理时间和能耗结果总结在图4中。正如预期的那样能耗随输入图像分辨率的变化而缩放。在EuroSAT上轻量级的SqueezeNet效率最高每次推理仅消耗0.68 mJ。MobileNetV3、MCUNetV1和EfficientNet分别消耗1.23 mJ、1.45 mJ和2.86 mJ。在RS_C11上所有模型的能量成本都增加了SqueezeNet需要1.61 mJMobileNetV3需要1.58 mJMCUNetV1需要1.90 mJEfficientNet需要3.81 mJ。最后在分辨率最高的MEDIC数据集上我们观察到最高的能耗SqueezeNet消耗4.07 mJMobileNetV3消耗2.68 mJMCUNetV1消耗4.99 mJEfficientNet消耗6.45 mJ。讨论。这些结果证实了设计目标#3和#4。所有优化模型都在毫焦耳级别的能量预算内运行最高效的配置每次推理仅消耗0.68 mJ。即使是在最具挑战性的场景中能量成本仍保持在CubeSat类硬件可行的范围内。实现的推理延迟范围从3.20 ms到30.40 ms。这一范围表明所有配置都达到或超过了低地球轨道成像中有效载荷控制的5 FPS实时要求。通信与下行链路分析为了量化机载推理对通信的影响我们分析了将所有样本传输到地面站与仅选择性传输那些机载模型置信度低的样本的成本。以EuroSAT数据集为例。每张图像分辨率为64×64像素有三个颜色通道大约占用12.3 KB的存储空间。因此传输测试集中的全部5400张图像将需要约66.4 MB的带宽。这个数据量超出了CubeSat任务的典型每日传输预算。对于更高分辨率的数据集如MEDIC原始数据量将更加难以承受。相反考虑一个混合推理场景其中机载模型执行分类仅传输其置信度低于预定义阈值的样本。这些不确定的样本随后在地面上使用更强大的模型进行处理。例如使用MobileNetV3机载只有14.23%的EuroSAT图像低于置信度阈值并被传输。这导致总传输量约为9.45 MB与完整数据集传输相比通信负载减少了85.77%。讨论。这种混合方法的好处是双重的。首先与基线相比它实现了85.77%的数据流量减少成功地满足了设计目标#5很好地适应了严格的每日通信预算。其次该方法提高了系统的整体性能。尽管MobileNetV3单独实现了90.08%的精度但混合系统使用更强的基于地面的模型处理不确定情况实现了95.20%的最终组合精度表明机载推理与基于置信度的过滤相结合可以同时优化通信效率和系统级精度。结论本文解决了在CubeSat上部署先进EO模型的关键挑战CubeSat是受功耗、内存和通信带宽严格限制的平台。我们提出了一个TinyML管道集成了结构化迭代剪枝、训练后INT8量化和硬件感知算子映射并在STM32N6板上进行了评估该板是CubeSat类系统的代表性硬件代理。实验结果表明该管道在三个不同的EO数据集上使用多个模型都是有效的。我们成功地将数兆字节的浮点模型压缩为可部署的解决方案同时保持了可接受的精度权衡。此外所有优化模型都以毫焦耳级别的能耗运行并满足实时性能要求。最后我们证明机载智能可以在降低下行链路带宽需求的同时提高系统的整体精度。

更多文章