mmdetection实战：从零开始构建自定义数据集训练流程

张开发

• 2026/5/30 18:06:15 • 15 分钟阅读

分享文章

1. 数据准备构建自定义数据集的完整流程第一次用mmdetection训练自己的数据集时最让我头疼的就是数据格式转换。官方文档虽然提供了COCO和VOC两种标准格式的说明但实际项目中我们拿到的往往是杂乱无章的原始图片。经过三个实际项目的踩坑经验我总结出这套小白也能快速上手的标准化流程。首先需要明确的是mmdetection支持的数据目录结构不是随便创建的。以VOC格式为例正确的目录树应该是这样的mmdetection └── data └── VOCdevkit └── VOC2007 ├── Annotations # 存放XML标注文件 ├── ImageSets │ └── Main # 存放train.txt/val.txt等划分文件 └── JPEGImages # 存放所有原始图片实际操作时最容易出错的是标注文件生成环节。假设你已经有了一批用LabelImg标注的图片建议先用这个Python脚本批量检查XML文件完整性import xml.etree.ElementTree as ET import os def validate_xml(xml_path): try: tree ET.parse(xml_path) root tree.getroot() assert root.tag annotation return True except Exception as e: print(fInvalid XML: {xml_path} - {str(e)}) return False annotations_dir mmdetection/data/VOCdevkit/VOC2007/Annotations for xml_file in os.listdir(annotations_dir): validate_xml(os.path.join(annotations_dir, xml_file))数据集划分同样有讲究。我习惯用sklearn的train_test_split来确保各类别分布均衡from sklearn.model_selection import train_test_split all_images [f.split(.)[0] for f in os.listdir(JPEGImages)] train_val, test train_test_split(all_images, test_size0.1, random_state42) train, val train_test_split(train_val, test_size0.1, random_state42) def write_to_txt(filepath, data): with open(filepath, w) as f: f.write(\n.join(data)) write_to_txt(ImageSets/Main/train.txt, train) write_to_txt(ImageSets/Main/val.txt, val) write_to_txt(ImageSets/Main/test.txt, test)2. 环境配置避坑指南与效能优化很多教程只告诉你要安装mmcv-full但没说明版本匹配的玄学问题。经过多次验证我整理出这个版本对应关系表Torch版本CUDA版本推荐MMCV-full版本1.6.010.21.3.01.7.011.01.3.11.8.011.11.4.0安装时强烈建议使用预编译版本编译过程经常会出现各种神奇报错。这是我验证过的稳定安装命令pip install mmcv-full1.3.0 -f https://download.openmmlab.com/mmcv/dist/cu102/torch1.6.0/index.html源码编译环节有个隐藏坑点某些Linux发行版默认的GCC版本过低。这是我总结的解决方案# CentOS系统 sudo yum install centos-release-scl sudo yum install devtoolset-8 scl enable devtoolset-8 bash # Ubuntu系统 sudo apt-get install gcc-5 g-5 sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 603. 配置文件修改关键参数详解第一次看到mmdetection的配置文件时我完全被嵌套结构搞晕了。其实核心需要修改的就几个关键位置首先是数据集配置文件voc0712.py这几个参数直接影响训练效果img_norm_cfg dict( mean[123.675, 116.28, 103.53], # 建议改成自己数据集的RGB均值 std[58.395, 57.12, 57.375], # 建议改成自己数据集的RGB标准差 to_rgbTrue) train_pipeline [ dict(typeResize, img_scale(1333, 800), keep_ratioTrue), # 根据GPU显存调整 dict(typeRandomFlip, flip_ratio0.5), # 数据增强概率 ]模型配置文件如faster_rcnn_r50_fpn.py中这两个参数最容易被忽略model dict( roi_headdict( bbox_headdict( num_classes20, # 必须改成自己的类别数 reg_decoded_bboxTrue))) # 使用GIoU时需要设为True学习率设置需要根据batch_size动态调整我的经验公式是基础学习率 0.02 * (实际batch_size / 16)4. 训练与调试实用技巧分享启动训练后90%的问题都出在数据加载阶段。这个调试命令可以提前发现问题python tools/train.py configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py --validate --work-dir work_dirs/debug训练过程中这几个信号需要特别注意Loss曲线震荡剧烈 → 尝试降低学习率mAP波动大 → 检查数据标注质量GPU利用率低 → 调整workers_per_gpu参数可视化分析推荐使用mmdet自带的日志解析工具python tools/analysis_tools/analyze_logs.py plot_curve work_dirs/xxx/xxx.log --keys loss_cls loss_bbox --out losses.png模型测试时这个技巧可以提升推理速度cfg mmcv.Config.fromfile(config_file) cfg.model.test_cfg.rcnn.score_thr 0.3 # 调高阈值加速推理

更多文章

前端开发 2026/5/22 1:12:59

基于SVC和PSS的电力系统暂态稳定性研究：Matlab/Simulink仿真与结果分析

基于SVC和PSS的电力系统暂态稳定性研究【软件】Matlab/Simulink、Word； 【说明】通过仿真各类短路故障，验证静止无功补偿器(SVC)和电力系统稳定器(PSS)对于提高电力系统暂态稳定性的重要作用； 【文件】包括：Matlab/Simulink仿真模…

前言在现代 Web 应用开发中，Firebase Firestore 提供了强大的实时数据库功能，onSnapshot 监听器是其中一个关键特性。然而，如何正确地使用这个监听器来处理网络连接失败等特殊情况，往往是开发者需要深入理解的。今天我们将探讨 onSnapshot 的工作机制，并通过实例展示如何…

张开发

前端开发 2026/4/19 11:23:50

深入解析Kubernetes中的Pod Priority and Preemption：集群资源的“交通指挥官”

一、引言：为什么需要优先级与抢占？在生产环境的Kubernetes集群中，不同应用对资源的需求和业务重要性各不相同。核心支付服务需要100%的可用性，而批量数据处理任务则可以容忍延迟。当集群资源紧张时，如何确保关键业务优…

张开发

mmdetection实战：从零开始构建自定义数据集训练流程

最新文章

Java Loom响应式迁移全链路拆解（从线程模型颠覆到Project Loom生产就绪）

从开发到分发：手把手教你用Inno Setup为Qt应用制作专业安装包（附脚本自定义技巧）

告别‘Hello World’就卡住：保姆级Android Studio安装与环境变量配置（Win/Mac通用）

保姆级教程：用STM32CubeIDE搞定STM32F407的USB虚拟串口（CDC）通信与速度测试

从老式工控机到树莓派：一文理清RS-232、RS-485和TTL电平的‘前世今生’与适用场景

Vitis自定义IP编译过了，Debug却卡在QEMU文件缺失？一个手动创建空文件的“土办法”救了我

推荐文章

相关文章

分享文章

更多文章

基于SVC和PSS的电力系统暂态稳定性研究：Matlab/Simulink仿真与结果分析

实战应用：基于快马平台构建带版本管理与评论系统的软件下载站

LeetCode 450. Delete Node in a BST 题解

蓝桥杯-2025年C++B组国赛

智能电网中多时段多公司需求响应管理的博弈理论框架利用博弈论建立了一个考虑公司和消费者之间相互...

Linux内核中的PREEMPT_RT实时补丁详解

深入解析字符串处理函数与printf的实现原理

迪文T5L屏幕RS485通信实战：从调试失败到成功发送的完整记录

5分钟搞懂阻抗匹配：从L型网络到Smith圆图实战指南（附ADS仿真步骤）

抖音无水印视频批量下载全攻略：从痛点解决到高效管理

深入理解 Firebase onSnapshot 的监听机制

深入解析Kubernetes中的Pod Priority and Preemption：集群资源的“交通指挥官”