һ���������� Code Agent ����ĵ�

张开发
2026/5/31 11:56:19 15 分钟阅读
һ���������� Code Agent ����ĵ�
Claude Code、Cursor、Kimi Code、Codex、Clineâ€”â€”çŽ°åœ¨å¤§å®¶å†™ä»£ç è¶Šæ¥è¶Šä¾èµ– Code Agent。但大模型有一个短板:读不了 PDFã€‚ä½ ä¸¢ç»™å®ƒä¸€ä¸ª PDF æ–‡ä»¶è·¯å¾„ï¼Œå®ƒåªä¼šå‘Šè¯‰ä½ è¿™æ˜¯ä¸ªäºŒè¿›åˆ¶æ–‡ä»¶ï¼Œæˆ‘è¯»ä¸äº†ã€‚è®ºæ–‡ã€æŠ€æœ¯æ–‡æ¡£ã€äº§å“æ‰‹å†Œã€æ‰«æåˆåŒâ€”â€”å¨éƒ½æ‰“不开。解决方案只需要一行命令:npx skillsaddtanis90/pdf-converter-mineruè£å®Œä¹‹åŽï¼Œä½ çš„ Code Agent 就能直接读取、解析、总结任何 PDF æ–‡ä»¶ï¼ŒåŒæ‹¬æ‰«æä»¶ã€‚这行命令做了什么npx skills add是 OpenClaw çš„ Skill 安è£å‘½ä»¤ã€‚OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店,但面向的是 AI 编程助手。这行命令会拉取一个叫pdf-converter-mineruçš„ Skill,è£åˆ°ä½ 本地的 skills 目录下。è£å¥½ä¹‹åŽï¼Œä½ çš„ Code Agent 就获得了一个新能力:调用 MinerU Open API 把 PDF 转成 Markdown,然后自己é˜è¯»å’Œç†è§£å†å®¹ã€‚æ•´ä¸ªè¿‡ç¨‹å¯¹ä½ æ¥è¯´æ˜¯é€æ˜Žçš„ã€‚ä½ ä¸éœ€è¦æ‰‹åŠ¨è°ƒç”¨ä»»ä½•å‘½ä»¤ï¼Œä¹Ÿä¸éœ€è¦éç½® MCP serverâ€”â€”ç›´æŽ¥å¯¹ä½ çš„ Code Agent 说帮我读这个 PDF就行。哪些 Code Agent 支持这个 Skill 基于 OpenClaw çš„å¼€æ”¾æ ‡å‡†ï¼Œä¸€æ¬¡å®‰è£ï¼Œè·¨å·¥å·é€šç”¨ï¼š| Code Agent | 支持æƒå†µ ||:—|:—|| Claude Code | 原生支持 || Cursor | 支持 || Cline | 支持 || Augment | 支持 || Kimi Code | 支持 || CodeBuddy | 支持 || Warp | 支持 |ä¸ç®¡ä½ æ—¥å¸¸ç”¨å“ªä¸ª Code Agent,è£ä¸€æ¬¡å°±è¡Œã€‚它能做什么è£å®Œ Skill ä¹‹åŽï¼Œä½ å¯ä»¥ç›´æŽ¥è¿™æ ·å¯¹ä½ çš„ Code Agent 说:读论文: 帮我读一下 ./papers/attention-is-all-you-need.pdfï¼Œæ€»ç»“æ ¸å¿ƒè´¡çŒ®æå–è¡¨æ ¼ï¼š 把 quarterly-report.pdf é‡Œçš„è´¢åŠ¡æ•°æ®è¡¨æ ¼æå–å‡ºæ¥æ‰«æä»¶è¯†åˆ«ï¼š 这份扫描的合同 contract-scan.pdf,帮我找到付款条款批量处理: 把 ./docs/ 下所有 PDF 转成 MarkdownCode Agent 会自动判断用哪种模式:小文件、快速é˜è¯» →flash-extract(åç™»å½•ï¼Œç§’å‡ºç»“æžœï¼‰å¤§æ–‡ä»¶ã€éœ€è¦ä¿ç•™è¡¨æ ¼å’Œå¬å¼ →extractï¼ˆé«˜ç²¾åº¦æ¨¡å¼ï¼‰ä½ ä¸éœ€è¦è®°ä»»ä½•å‘½ä»¤å‚æ•°ã€‚ä¸ºä»€ä¹ˆä¸ç”¨ MCP serverç»™ Code Agent åŠ æ–‡æ¡£èƒ½åŠ›ï¼Œå¾ˆå¤šäººç¬¬ä¸€ååº”æ˜¯è£ä¸ª MCP server。比如跑一个本地的 document parsing 服务,éç½® JSON,再写好 tool çš„ schema。能用,但太重了。Skill 的优势是:**一行安è£**,不需要 Docker、不需要额外进程、不需要éç½®æ–‡ä»¶é›¶è¿ç»´ï¼Œä¸ç”¨ç®¡æœåŠ¡æ˜¯å¦åœ¨è·‘ã€ç«¯å£æœ‰æ²¡æœ‰å†²çªè·¨å·¥å·é€šç”¨ï¼ŒåŒä¸€ä¸ª Skill 在 Claude Code、Cursor、Kimi Code 里都能用自动选择策略,Code Agent 自己决定用 flash 模式还是精度模式开箱即用,è£å®Œç›´æŽ¥è¯´è¯å°±è¡ŒMCP server 更适合需要长期运行、有复杂状态管理的场景。而读一份 PDFè¿™ç§æ— çŠ¶æ€çš„èƒ½åŠ›ï¼Œç”¨ Skill æ˜¯æ›´è½»é‡çš„é€‰æ‹©ã€‚åº•å±‚çš„æ–‡æ¡£è§£æžèƒ½åŠ›åˆ°åº•æ€Žä¹ˆæ ·åº•å±‚ç”¨çš„æ˜¯ MinerU,上海 AI Lab 开源的文档解析引擎,GitHub 56000 Stars,OmniDocBench 评测综合排名第一。MinerU 不是简单的文本提取工å·ã€‚它是一个完整的 document AI å¼•æ“Žï¼Œæ ¸å¿ƒèƒ½åŠ›åŒæ‹¬ï¼šç‰ˆé¢åˆ†æžï¼šåŒæ ã€ä¸‰æ ã€æ··åˆæŽ’版都能正确识别**è¡¨æ ¼è¯†åˆ«**ï¼šå¤æ‚åµŒå¥—è¡¨æ ¼ä¿ç•™ç»“æž„ï¼Œä¸ä¼šæ‹†ç¢Ž**å¬å¼è¯†åˆ«**:数学å¬å¼è‡ªåŠ¨è½¬ LaTeXOCRï¼šæ‰«æä»¶ã€æ‹ç§æ–‡æ¡£ã€å›¾ç‰‡åž‹ PDF 都能处理,支持 80 ç§è¯­è¨€å¤šæ ¼å¼è¾“å‡ºï¼šMarkdown、Word、HTML、LaTeX、JSONå¦‚æžœä½ åœ¨åš RAG pipelineï¼Œè¿™æ„å‘³ç€ä½ å¯ä»¥ç›´æŽ¥åœ¨ Code Agent 里完成PDF → 结构化 Markdown → 向量化的前两步,不用额外写 PDF è§£æžä»£ç ã€‚å¦‚æžœä½ åœ¨é€‰ best pdf parser for RAG,MinerU åœ¨è¡¨æ ¼è¿˜åŽŸå’Œå¬å¼è¯†åˆ«ä¸Šçš„精度,是大多数 Python PDF parser 做不到的。实é™ä½¿ç”¨åœºæ™¯åœºæ™¯ä¸€ï¼šè¯»æŠ€æœ¯æ–‡æ¡£å†™ä»£ç ä½ 在用一个 API,文档只有 PDF ç‰ˆæœ¬ã€‚ä»¥å‰ä½ å¾—è‡ªå·±æ‰“å¼€ PDFï¼Œç¿»åˆ°å¯¹åº”ç« èŠ‚ï¼Œå†å¤åˆ¶ç²˜è´´åˆ°å¯¹è¯é‡Œã€‚çŽ°åœ¨ï¼š 读一下 api-reference.pdfï¼Œæ‰¾åˆ°è®¤è¯ç›¸å ³çš„éƒ¨åˆ†ï¼Œç„¶åŽå¸®æˆ‘å†™ä¸€ä¸ª Python 的认证 clientCode Agent 会自己解析 PDF,找到 auth ç« èŠ‚ï¼Œç†è§£å‚æ•°å’Œæµç¨‹ï¼Œç„¶åŽç›´æŽ¥å†™ä»£ç ã€‚åœºæ™¯äºŒï¼šè®ºæ–‡è°ƒç ”ä½ è¦è°ƒç ”æŸä¸ªæ–¹å‘çš„ 5 篇论文: 把 ./papers/ 下面 5 篇 PDF éƒ½è¯»ä¸€éï¼Œç»™æˆ‘ä¸€ä¸ªå¯¹æ¯”è¡¨æ ¼ï¼Œåˆ—å‡ºæ¯ç¯‡çš„æ–¹æ³•ã€æ•°æ®é›†ã€ä¸»è¦ç»“æžœåœºæ™¯ä¸‰ï¼šå¤„ç†æ‰«ææ–‡æ¡£æ³•åŠ¡ç»™äº†ä¸€å †æ‰«æçš„åˆåŒ PDFï¼Œä½ éœ€è¦æå–å³é”®æ¡æ¬¾ï¼š 读 contract-2024.pdf,这是扫描件,帮我提取合同金额、付款期限、违约条款MinerU çš„ OCR ä¼šåˆæŠŠæ‰«æä»¶è½¬æˆæ–‡å­—ï¼ŒCode Agent 再理解å†å®¹å¹¶æå–ä½ è¦çš„ä¿¡æ¯ã€‚åœºæ™¯å››ï¼šæ–‡æ¡£æ ¼å¼è½¬æ¢ 把 report.pdf 转成 Word 发给我 把 paper.pdf 转成 Markdown 存到 ./output/ 把 slides.pptx 转成 Markdown支持 PDF、图片、DOCX、PPTX、Excel ç­‰æ ¼å¼çš„è¾“å¥ã€‚安è£çœŸçš„只有一行:npx skillsaddtanis90/pdf-converter-mineruè£å®Œä¹‹åŽï¼Œå¦‚æžœä½ æœ¬åœ°è¿˜æ²¡æœ‰mineru-open-apiCLI,Code Agent ä¼šè‡ªåŠ¨æ£€æµ‹å¹¶å¼•å¯¼ä½ å®‰è£â€”â€”ä¸éœ€è¦ä½ è‡ªå·±åŽ»æŸ¥æ–‡æ¡£ã€‚flash-extract模式åç™»å½•可以直接用;如果需要高精度模式(大文件、导出 Word、批量处理),Code Agent ä¹Ÿä¼šæç¤ºä½ åšè®¤è¯ã€‚å¸¸è§é—®é¢˜æ–‡ä»¶å¤§å°æœ‰é™åˆ¶å—ï¼Ÿflash-extract模式限制 10 MB / 20 页。extract模式支持 200 MB / 600 页,覆盖绝大多数文档。支持中文文档吗?默认就支持中英混排。MinerU çš„ OCR 覆盖 80 种语言,中日韩、阿拉伯语、泰语等都没问题。和直接用 MinerU CLI 有什么区别?直接用 CLI ä½ éœ€è¦è‡ªå·±æ•²å‘½ä»¤ã€ç®¡ç†è¾“å‡ºæ–‡ä»¶ã€å†æŠŠç»“æžœè´´ç»™ AI。è£äº† Skill 之后,Code Agent è‡ªå·±å®Œæˆæ•´ä¸ªæµç¨‹â€”â€”ä½ åªéœ€è¦ç”¨è‡ªç„¶è¯­è¨€æè¿°ä½ æƒ³åšä»€ä¹ˆã€‚å’Œ MCP server æ–¹æ¡ˆæ€Žä¹ˆé€‰ï¼Ÿå¦‚æžœä½ å·²ç»æœ‰åœ¨è·‘çš„ MCP server ç”Ÿæ€ï¼Œå¯ä»¥ç»§ç»­ç”¨ã€‚å¦‚æžœä½ åªæ˜¯æƒ³è®© Code Agent 能读 PDF,Skill 是更轻量的方案——一行命令搞定,不需要额外的进程和éç½®ã€‚总结让 Code Agent 获得文档é˜è¯»èƒ½åŠ›ï¼Œä¸éœ€è¦é MCP serverï¼Œä¸éœ€è¦å†™ä»£ç ï¼Œä¸€è¡Œå‘½ä»¤ï¼šnpx skillsaddtanis90/pdf-converter-mineruè£å®Œä¹‹åŽï¼ŒPDF、扫描件、Word、PPTã€å›¾ç‰‡â€”â€”ç›´æŽ¥ä¸¢ç»™ä½ çš„ Code Agentï¼Œè®©å®ƒè‡ªå·±è¯»ã€‚æ— è®ºä½ ç”¨çš„æ˜¯ Claude Code、Cursor、Kimi Code 还是 Cline,同一个 Skill,同一行命令。

更多文章