Qwen3.5-9B企业级运维:supervisor异常自动恢复+磁盘日志轮转配置

张开发
2026/5/31 20:22:31 15 分钟阅读
Qwen3.5-9B企业级运维:supervisor异常自动恢复+磁盘日志轮转配置
Qwen3.5-9B企业级运维supervisor异常自动恢复磁盘日志轮转配置1. 项目概述Qwen3.5-9B是一款拥有90亿参数的开源大语言模型具备强大的逻辑推理、代码生成和多轮对话能力。该模型支持多模态理解图文输入和长上下文处理最高可达128K tokens是企业级AI应用的理想选择。2. 项目结构与环境配置2.1 项目目录结构/root/qwen3.5-9b/ ├── app.py # 主程序 (Gradio WebUI) ├── start.sh # 启动脚本 ├── service.log # 运行日志 └── history.json # 对话历史记录2.2 环境要求# 激活conda环境 conda activate torch28关键依赖版本要求说明transformers5.0.0支持Qwen3.5模型torch2.8.0GPU支持gradio6.xWeb界面huggingface_hub1.3.0模型下载3. Supervisor配置详解3.1 配置文件位置/etc/supervisor/conf.d/qwen3.5-9b.conf3.2 完整配置内容[program:qwen3.5-9b] command/bin/bash /root/qwen3.5-9b/start.sh directory/root/qwen3.5-9b environmentHOME/root,USERroot,LOGNAMEroot,SHELL/bin/bash,PATH/opt/miniconda3/envs/torch28/bin:/usr/bin:/bin userroot autostarttrue autorestarttrue startsecs30 startretries3 redirect_stderrtrue stdout_logfile/root/qwen3.5-9b/service.log stopasgrouptrue killasgrouptrue3.3 关键配置解析autorestarttrue进程异常退出时自动重启startsecs30等待30秒确认进程稳定启动startretries3启动失败时重试3次redirect_stderrtrue将标准错误重定向到标准输出stopasgroup/killasgrouptrue停止进程时同时停止其子进程4. 日志轮转配置4.1 使用logrotate实现日志轮转创建日志轮转配置文件vim /etc/logrotate.d/qwen3.5-9b配置文件内容/root/qwen3.5-9b/service.log { daily rotate 7 compress delaycompress missingok notifempty copytruncate size 100M }4.2 配置说明参数说明daily每天轮转一次rotate 7保留7个历史日志文件compress压缩历史日志delaycompress延迟压缩前一个日志文件missingok如果日志文件不存在也不报错notifempty如果日志为空则不轮转copytruncate复制日志文件后清空原文件size 100M日志达到100MB时立即轮转4.3 手动测试日志轮转logrotate -vf /etc/logrotate.d/qwen3.5-9b5. 运维管理命令5.1 服务管理命令# 查看服务状态 supervisorctl status qwen3.5-9b # 重启服务 supervisorctl restart qwen3.5-9b # 停止服务 supervisorctl stop qwen3.5-9b # 重新加载配置 supervisorctl reread supervisorctl update5.2 日志查看命令# 查看实时日志 tail -f /root/qwen3.5-9b/service.log # 查看错误日志 grep -i error /root/qwen3.5-9b/service.log # 查看模型加载状态 grep Model loaded /root/qwen3.5-9b/service.log6. 常见问题排查6.1 服务启动失败排查步骤检查进程状态supervisorctl status qwen3.5-9b查看最新日志supervisorctl tail qwen3.5-9b检查conda环境conda activate torch28 which python检查模型文件ls -lh /root/ai-models/Qwen/Qwen3.5-9B6.2 端口冲突处理# 检查端口占用 ss -tlnp | grep 7860 # 查看占用进程 lsof -i :7860 # 终止占用进程 kill -9 PID6.3 模型加载缓慢解决方案检查GPU状态nvidia-smi查看日志确认加载进度grep Loading weights /root/qwen3.5-9b/service.log首次加载可能需要2-3分钟请耐心等待7. 日常维护操作7.1 清理对话历史rm -f /root/qwen3.5-9b/history.json supervisorctl restart qwen3.5-9b7.2 手动日志轮转# 备份当前日志 cp /root/qwen3.5-9b/service.log /root/qwen3.5-9b/service.log.$(date %Y%m%d) # 清空日志 /root/qwen3.5-9b/service.log # 重启服务 supervisorctl restart qwen3.5-9b7.3 代码更新流程# 1. 编辑主程序 vim /root/qwen3.5-9b/app.py # 2. 重启服务 supervisorctl restart qwen3.5-9b # 3. 验证更新 tail -f /root/qwen3.5-9b/service.log8. 总结通过本文介绍的Supervisor配置和日志轮转方案可以实现Qwen3.5-9B模型的稳定运行和高效运维管理。关键点包括自动恢复机制通过Supervisor的autorestart和startretries配置确保服务异常时自动恢复日志管理使用logrotate实现日志自动轮转和压缩避免磁盘空间耗尽运维便捷性提供完整的命令集和排查方法简化日常运维工作稳定性保障通过合理的配置参数确保服务稳定运行这套方案已在生产环境验证能够有效提升Qwen3.5-9B模型的可用性和可维护性。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章