AI开始下沉到端侧:当模型跑进手机,测试体系会被重写吗?

张开发
2026/6/2 7:27:44 15 分钟阅读
AI开始下沉到端侧:当模型跑进手机,测试体系会被重写吗?
最近一波端侧AI更新很多人可能只是当作“产品升级”看过去了Google 推出离线语音能力EloquentGemma 在端侧跑到 40 token/sLiteRT-LM 这类推理框架开始落地但如果你是做测试的这一波其实不是功能更新。是测试边界在变。过去你测的是接口。 现在你要开始测设备、测模型、测系统行为。目录端侧AI这波到底发生了什么真正变化的不是模型而是“运行位置”推理速度背后工程上做了哪些事测试为什么会突然失效新测试体系应该怎么搭这波变化会重新定义测试岗位一、端侧AI这波到底发生了什么先把现象讲清楚。这一波不是单一产品升级而是三个方向同时成立模型变小可以在设备上运行推理速度足够支撑实时交互推理框架开始工程化落地过去的AI调用路径是这样的现在开始变成路径缩短但复杂度上升。二、真正变化的不是模型而是“运行位置”很多人关注的是模型性能但真正的变化在这里计算从云移动到了端。这个变化会直接影响系统设计。延迟模型被重写云模式网络延迟推理延迟端侧模式只剩推理延迟体验变好但压力全部转移到设备。系统边界消失过去模型是外部服务可以当黑盒。现在模型在系统内部成为运行链路的一部分。测试对象不再是API而是整个系统。控制能力下降云模型可以热更新回滚统一监控端侧模型分发困难版本碎片化行为不可控这对测试是直接冲击。三、推理速度背后工程上做了哪些事端侧能跑起来不是因为“模型变强”而是工程做对了。模型被重新设计不是简单裁剪而是重构参数规模控制计算结构优化针对CPU/NPU适配核心在于模型开始围绕“设备约束”设计。推理框架在做极限优化LiteRT-LM 这类框架本质在做三件事算子融合内存复用异构调度整体流程可以这样理解40 token/s意味着什么这不是一个简单的性能指标。它意味着可以连续对话可以实时生成可以进入主流程端侧AI开始具备“可用性”。四、测试为什么会突然失效很多团队的问题不是不会测而是测错了对象。Mock测试开始失效云时代可以mock接口固定返回结果端侧模型行为不可完全预测输出存在波动mock无法覆盖真实情况。测试对象发生变化过去测接口现在测模型 框架 硬件 系统测试边界扩大了。性能测试维度改变过去关注QPSRT现在必须关注CPU / GPU / NPU占用内存发热电量测试从“服务性能”变成“设备性能”。五、新测试体系应该怎么搭继续沿用原来的方法基本会失效。需要补新的工程能力。设备级测试成为基础必须做多设备覆盖不同芯片/系统长时间稳定性极端场景高温/低电量引入模型行为测试不再只验证结果而是验证行为输出是否稳定语义是否一致边界输入是否异常可以这样设计测试链路性能测试必须贴近真实使用不要只跑benchmark要测连续对话长时间运行多任务并发做版本对比测试端侧模型升级后必须验证输出是否漂移性能是否下降这是很多团队当前缺失的一环。六、这波变化会重新定义测试岗位这不是简单的技术升级而是岗位能力重排。传统测试只做接口、UI自动化 在端侧AI场景中价值下降明显AI测试具备模型基础理解行为验证能力可以参与但不够深入系统级测试需要具备模型理解性能分析设备调试本质是跨领域能力AI不再只是调用一个接口。它开始变成系统的一部分。那你现在负责的测试体系 还能覆盖住这种“运行在设备里的模型”吗

更多文章