Agent 沙盒的对比和分析

张开发
2026/5/30 20:37:14 15 分钟阅读
Agent 沙盒的对比和分析
版本说明本文基于截至 2026-04-07 可公开访问的官方文档与官方仓库整理目标是从产品形态、隔离模型、状态持久化、浏览器能力、可观测性与开源生态几个维度对“Agent 沙盒”做一份偏选型导向的全景梳理。1. 什么是 Agent 沙盒Agent 沙盒本质上是给 AI Agent 提供的一层隔离执行环境。它不只是“能跑一段 Python 的代码解释器”而是一个能承载以下能力的受控运行边界执行 LLM 生成的代码、Shell 命令和文件操作管理依赖、进程、网络与生命周期在需要时提供浏览器、虚拟桌面或 computer use 能力对不同用户、会话、任务进行隔离避免跨会话泄漏在必要时允许人工接管、回放、审计和复现今天市场上被称作“Agent 沙盒”的产品实际上可以分成四类模型原生代码解释器例如 OpenAI Code Interpreter、Gemini Code Execution、Azure OpenAI Code Interpreter。通用远程 Devbox / Sandbox / VM例如 E2B、Daytona、Runloop、Modal、Vercel Sandbox、Docker Sandboxes、CodeSandbox SDK、Together Code Sandbox。浏览器/Computer Use 专用沙盒例如 Browserbase、Hyperbrowser、Browser Use Cloud、AWS AgentCore Browser。开源/自建运行层例如 OpenSandbox、Kubernetes Agent Sandbox、OpenHands Runtime、AIO Sandbox。2. 先分清几个容易混淆的概念2.1 代码解释器 ! 完整 Agent 沙盒代码解释器通常只提供受限的代码执行能力最适合数据分析、数学推理、图表生成和轻量脚本任务。它的优势是模型集成度高但通常不等于“一台完整的隔离电脑”。2.2 浏览器控制层 ! 沙盒像 Playwright MCP、browser-use 这类方案更准确地说是浏览器控制接口或 agent 控制层。它们负责让模型理解页面、执行点击、输入、导航但真正的隔离边界通常来自底层浏览器会话、容器、虚拟机或 microVM。2.3 Computer Use ! 浏览器云OpenAI Computer Use、Anthropic Computer Use 更像是“模型 harness UI 动作循环”Browserbase、Hyperbrowser 则更像“托管浏览器基础设施”。两者经常组合使用但不是一回事。3. 评估 Agent 沙盒时最重要的 7 个维度3.1 隔离边界常见路线包括OS 级沙箱如 Seatbelt、bubblewrap容器 / 强化容器Docker、gVisor、Kata、Cloudflare ContainersmicroVM / VM / Hyper-VFirecracker、Hyper-V、虚拟机 Devbox如果要运行不受信任代码、多租户任务或外部用户提交的脚本底层隔离边界通常比“能不能跑代码”更重要。3.2 执行面Execution Surface要区分产品到底提供的是仅 Python多语言代码 Shell完整文件系统长驻进程 / Web 服务浏览器 / 桌面 / VNC / Computer Use3.3 状态模型这是选型时最容易被忽略、但对 agent 体验影响极大的维度。不同方案的“持久化”完全不是一回事有的只保留当前会话有的能保存文件系统有的还能保存内存 运行进程有的只支持磁盘快照恢复后进程需要重启3.4 网络与凭据治理一个真正可用于生产的沙盒不只是隔离文件系统还必须管控哪些域名或 CIDR 可以访问凭据是否暴露给沙盒内部是否支持出网代理、白名单和审计浏览器流量是否可控3.5 可观测性与 Human-in-the-Loop越接近真实 agent 落地越需要实时 Live View视频录制 / 回放rrweb / DOM replay日志、网络面板、性能面板手动接管浏览器或桌面3.6 自定义环境能力面向软件工程 agent 的沙盒往往需要自定义镜像 / 模板 / 蓝图预装依赖快照恢复Git / 代码挂载 / 端口暴露 / 隧道3.7 集成方式最后要看它是更适合直接被模型工具调用作为 agent runtime 底座被 LangChain / AutoGen / MCP / 自定义 agent 框架接入在 Kubernetes / 企业私有环境中自托管4. 行业方案梳理4.1 大厂 / 模型厂商原生方案OpenAIOpenAI 目前相关能力分成三层Code Interpreter模型原生 Python 沙盒Codex Cloud Environments把 repo、setup、网络控制、审批和 cloud task 环境串起来Computer Use模型输出 UI 动作需要开发者提供浏览器或 VM harness 落地这条路线的优势是模型工具整合最顺、审批流完整、非常适合“模型自己决定何时执行工具”的产品体验。限制是对外呈现上仍更像“模型原生执行能力”而不是单独售卖的一朵通用 sandbox 云。AnthropicAnthropic 的公开路线更偏本地/IDE agent 的安全约束Claude Code Sandboxing用 macOS Seatbelt、Linux/WSL2 bubblewrap 做 OS 级隔离同时提供网络限制Computer Use Reference Implementation提供 Web UI、Docker 容器、agent loop 与工具示例sandbox-runtime (srt)开源研究预览用原生 OS 沙箱和代理式网络过滤支持 agent、MCP server、bash 与任意进程Anthropic 的特点是对“边界、审批、减少权限疲劳、让 agent 更自主但仍受控”解释得最系统。GoogleGoogle 的公开方案主要是两条Gemini Code ExecutionPython-only环境自带库适合把代码执行作为模型推理工具Vertex AI Code Interpreter Extension通过 Extensions API 注册和调用 Google 提供的 Code Interpreter 扩展适合场景是你本来就在 Gemini / Vertex 生态里需要低摩擦地补一个代码执行能力。限制是执行面更窄和完整 devbox/remote computer 还有明显距离。AWSAWS 在 2025-2026 的布局最像“企业级 agent runtime 平台”AgentCore Runtime每个用户会话运行在 dedicated microVM 中支持 MCP / A2A / AGUI 等协议AgentCore Isolated Sessions把多次调用间的上下文复用和用户间数据隔离做成一等能力AgentCore Code Interpreter面向安全代码执行AgentCore Browser托管浏览器会话内建 live view、session recording、session replay、审计如果你从云平台和企业安全角度看AWS 这条路线已经不只是“代码沙盒”而是完整的 agent 托管底座。Microsoft / AzureMicrosoft 也在走双层路线Azure OpenAI Code Interpreter模型原生 Python 沙盒能力Azure Container Apps Dynamic Sessions更底层的会话池 / 沙盒基础设施强调预热、毫秒级分配、Hyper-V 隔离、适合运行不受信任代码这意味着 Azure 既有“模型工具层”也有“可做自定义 runtime 的沙盒底座”。对于企业内部 Agent 平台自带会话池这一点很重要。4.2 独立通用沙盒 / Devbox 厂商E2BE2B 是最典型的“给 agent 一台虚拟电脑”的路线之一面向 AI-generated code 的安全云沙盒自定义模板里可以把启动命令和运行进程做进快照pause / resume 支持恢复文件系统、内存和运行中的进程官方文档与博客明确围绕 Firecracker microVM 设计还有 Desktop 模板提供 XFCE、noVNC、xdotool、scrot 等 GUI/桌面能力E2B 的差异化在于状态模型很强不只是“保存磁盘”而是强调恢复整个运行时状态。DaytonaDaytona 更像“可编排的远程开发箱”创建沙盒时可配置语言、快照、卷、区域、资源SDK 暴露 process、fs、git、computerUse 等接口支持自动停止、自动归档、从 object storage 恢复computer use 能力包含 mouse、keyboard、screenshot、display、recording并启动 Xvfb / xfce4 / x11vnc / novnc它非常适合做 coding agent、desktop agent 或远程开发型 agent runtime。ModalModal Sandboxes 更像“云计算平台上的安全进程沙盒”官方明确把 Sandboxes 定位为运行不受信任代码的原语适合有状态、多阶段交互支持文件系统快照支持 block_network 和基于 CIDR 的出网控制支持 idle timeout官方宣传可扩到 50,000 并发会话如果你的团队本来就在 Modal 上做 AI 计算Sandboxes 的整合度和规模化能力会很有吸引力。RunloopRunloop Devboxes 的定位很明确用虚拟机技术保护 API keys、代码、敏感数据和内网系统既可短任务临时启动也支持 snapshot / suspend / resumeBlueprints 和 Snapshots 都能构建定制环境suspend 主要保磁盘不保留运行中的进程内存支持 Code Mounts、Tunnels、Computer-ready Devbox它非常适合软件工程 agent特别是“需要改代码、起服务、开隧道、接代码库”的场景。Vercel SandboxVercel Sandbox 是 Vercel 新一代 compute primitive目标就是安全运行不受信任或用户生成的代码面向 AI agents、code generation、developer experimentationSDK 文档明确说会创建 ephemeral Linux microVMs公开仓库写明底层是 Firecracker MicroVM支持文件系统 snapshots默认自动停止时间为 5 分钟它更像“面向 AI 代码生成工作负载的轻量 microVM substrate”。Docker SandboxesDocker Sandboxes 的思路非常直接用 isolated microVM sandboxes 运行 AI coding agents每个 sandbox 都有自己的 Docker daemon、文件系统和网络agent 在 VM 内有很高自由度官方文档明确写到包含 sudo 权限通过 filtering proxy 控制 HTTP/HTTPS 出网原始 TCP/UDP 默认阻断默认网络隔离需要显式端口转发如果你需要“给 agent 完整 Docker 能力但不信任它碰宿主机”这是很有代表性的路线。Cloudflare Sandbox SDKCloudflare 的风格非常 edge-nativeSandbox SDK 基于 Containers从 Workers 直接执行命令、管理文件、跑后台进程、暴露服务架构上由 Workers Durable Objects Containers 组成强调 secure、stateful、isolated executionActive 状态下保留 files、running processes、shell sessions 和 env vars可以把 sandbox 里的服务通过 preview URL 暴露出去这类方案特别适合把“隔离执行”直接嵌进边缘应用或平台 API 中。CodeSandbox SDKCodeSandbox SDK 是很多人低估的选手官方直接把它定义为“快速、安全地创建和运行沙盒”的 SDK底层是自己的 microVM infrastructure支持 VM checkpoint/snapshot restore、快速 cloneVM Sandboxes旧称 Devbox也是基于 microVM 的开发环境可配置 hibernation / inactivity 行为它更偏“开发环境平台能力下放给 AI Agent”。Together Code Sandbox / Code InterpreterTogether 把两个层次拆得很清楚Code Sandbox可配置的 VM 开发环境支持任意代码、依赖安装、服务运行Code Interpreter会话式代码执行能力适合分析/实验类任务如果你已经在 Together 上做模型推理继续用它的 Sandbox / Interpreter 可以减少系统复杂度。PPIO国内路线PPIO 的 Agent 沙箱是中文市场里值得单独关注的一条线系统级隔离启动时间低于 200ms支持 Python / JavaScript / C 等多语言支持暂停 / 恢复恢复文件系统和进程状态支持后台执行提供 E2B 兼容 API并给出 browser-use / E2B Desktop 的接入说明对于国内部署、希望兼容 E2B 生态的团队这条路径很现实。4.3 浏览器 / Computer Use 专用沙盒BrowserbaseBrowserbase 不是通用 Linux 沙盒而是托管浏览器基础设施平台化管理 headless browser fleet支持 custom extensions、file downloads、long-running sessions每个会话自动视频录制可在 Session Inspector 中回放Live View 支持实时观看与远程控制支持 network / console / performance 级别的调试信息提供代理、自动指纹管理和 CAPTCHA 处理如果任务以网页登录、表单填写、抓取和人工接管为主Browserbase 往往比通用 devbox 更合适。HyperbrowserHyperbrowser 也是明显的浏览器专用路线每个 session 自带 liveUrl 用于实时观察/接管支持 rrweb web recordings 和 MP4 video recordings提供 stealth mode面向反检测和 bot protection 场景它不一定要成为“一台完整电脑”而是优先把浏览器会话做成生产级运行面。Browser Use Cloudbrowser-use 的云产品提供的是stealth browsersCAPTCHA solvingresidential proxiesmanaged infrastructureremote browsers / agents on-demand更适合作为“浏览器 agent 执行层”而不是通用多语言沙盒。4.4 开源 / 自建平台OpenSandbox阿里开源的 OpenSandbox 是目前最像“平台级开源沙盒”的项目之一多语言 SDK统一 sandbox APIs / protocolDocker / Kubernetes runtimesCommand / Filesystem / Code Interpreter 等内建能力Chrome / Playwright / VNC / VS Code 等示例支持 gVisor、Kata、Firecracker 等更强隔离后端Kubernetes controller 提供资源池与批量交付能力对想自建 agent runtime 平台的团队这个项目非常值得重点研究。Kubernetes Agent SandboxKubernetes SIG Apps 的 agent-sandbox 代表了另一条很有前景的路线提供 Sandbox CRD 与控制器面向 isolated、stateful、singleton workloads每个 Sandbox 有稳定 hostname 与网络身份支持持久化存储、生命周期管理、暂停/恢复SandboxWarmPool 提供预热资源池抽象隔离后端支持 gVisor / Kata 等 runtime例子里已经包含 AIO Sandbox、Jupyter、VNC、VSCode 这类环境它的重要意义在于开始把 agent runtime 作为 Kubernetes 原生对象来设计而不是临时拼装 Pod/Deployment。OpenHands RuntimeOpenHands 的 runtime 架构偏“agent 框架自带执行容器”启动 Docker 容器作为 runtime后端通过 action execution server 与容器通信在容器内安全执行 shell、文件、Python 等 action文档额外强调在公网 / 安全敏感环境中应采用 hardened Docker 配置这更适合作为框架内部的安全执行层而不是通用 sandbox 平台。AIO SandboxAIO Sandbox 试图把一大组能力装进一个环境里BrowserShellFileMCPVSCode ServerJupyter这种一体化方案很适合 PoC、评测和组合式 agent 实验。Anthropic sandbox-runtime开源预览虽然它来自 Anthropic但以开源生态视角看也很重要使用 sandbox-exec / bubblewrap 等原生 OS 沙箱原语通过代理做网络过滤面向 agent、local MCP server、bash 和任意进程它很有参考价值尤其适合研究“本地 agent 的最小安全边界如何做”。Open Interpreter一个有用的反例Open Interpreter 的价值很大但它恰恰提醒我们“能执行代码”和“能安全隔离不受信任 agent”不是一回事。官方 README 明确强调它运行在本地环境里拥有完整互联网访问和任意包能力。这对个人生产力很好但不能当作多租户或高风险 agent 的安全边界。4.5 编排层 / 抽象层 / 浏览器控制层Playwright MCPPlaywright MCP 提供的是通过 MCP 暴露给 LLM 的浏览器自动化接口。它依赖 structured accessibility snapshots而不是视觉模型这非常适合当浏览器控制层但它本身不是底层隔离边界。browser-use开源框架browser-use 的核心价值是让 agent 更容易操作网页。它是浏览器 agent 框架不是独立的安全边界生产上常常要和 Browser Use Cloud、Browserbase、E2B、PPIO 这类执行层配合。LangChain Deep Agents SandboxesLangChain Deep Agents 已经把 sandboxes 抽象成 backend并支持 Modal、Daytona、Runloop。更重要的是文档明确提醒沙盒本身并不能阻止 prompt injection如果不限制网络仍可能发生数据外传。ComputeSDKComputeSDK 的方向是“多家沙盒统一 API”把 E2B、Daytona、Modal、Vercel 等 provider 统一到一个接口层。对于需要可移植性的团队这类抽象会越来越重要。AutoGen DockerCommandLineCodeExecutorAutoGen 的 DockerCommandLineCodeExecutor 路线很传统但很稳就是把命令放进 Docker 容器里运行。它不一定最炫但在很多企业内部工具里足够实用。5. 关键对比结论5.1 如果你只需要“模型会用代码”优先考虑OpenAI Code InterpreterGemini Code ExecutionAzure OpenAI Code InterpreterVertex AI Code Interpreter Extension它们的优点是模型集成最顺、调用链最短缺点是环境定制能力和“完整电脑”能力有限。5.2 如果你需要“完整 Coding Agent / Devbox”优先考虑E2BDaytonaRunloopModalVercel SandboxDocker SandboxesCodeSandbox SDKTogether Code Sandbox这类平台能更好承载clone repo装依赖起服务持久化状态暴露端口接浏览器/桌面5.3 如果你的核心任务是网页交互优先考虑BrowserbaseHyperbrowserBrowser Use CloudAWS AgentCore Browser这些产品更看重浏览器稳定性、Live View、录制回放、代理、反检测、验证码和人工接管而不是通用 Linux 计算能力。5.4 如果你必须自建 / 私有化 / 上 Kubernetes优先考虑OpenSandboxKubernetes Agent SandboxOpenHands RuntimeAIO Sandbox这类方案更适合有合规要求需要自定义隔离后端想与企业内网 / K8s / 现有平台深度整合5.5 如果你最在乎状态持久化这点差异非常大E2B最强调完整状态恢复包含文件系统、内存与运行进程Runloop更偏磁盘快照恢复后进程通常需要自己重启Daytona归档更偏文件系统级状态Cloudflare Sandbox SDKActive 状态下能保留文件、进程、shell session 与 env varsVercel / CodeSandbox更偏快照化和快速恢复环境5.6 如果你最在乎“强隔离”通常优先看AWS AgentCore Runtime / Code Interpreter Sessionsdedicated microVMAzure Dynamic SessionsHyper-VE2BFirecrackerVercel SandboxmicroVM / FirecrackerDocker SandboxesmicroVMRunloopVM而 Cloudflare、OpenSandbox、Agent Sandbox 则更偏容器/强化容器/Kubernetes 可插拔隔离路线。5.7 如果你最在乎观测与人工接管优先看BrowserbaseHyperbrowserAWS AgentCore BrowserDaytonacomputer use recording VNC因为这些产品把 live view、recording、replay、remote control 当成一等能力而不是附加功能。6. 我对市场格局的判断6.1 大厂在补“模型闭环”OpenAI、Anthropic、Google、Microsoft 更擅长把模型、工具调用、审批、安全文档和少量执行能力串起来。它们最强的地方不是“卖一朵通用沙盒云”而是把执行能力放进自家 agent 工具链里。6.2 独立厂商在做“给 agent 一台电脑”E2B、Daytona、Runloop、Modal、Vercel、Docker、CodeSandbox、Together 这类厂商更像是在争夺 agent runtime substrate。它们的核心价值是把 agent 需要的完整执行环境产品化。6.3 浏览器赛道已经独立成类Browserbase、Hyperbrowser、Browser Use Cloud、AgentCore Browser 说明对于很多 agent 场景浏览器不是附属能力而是单独的基础设施层。6.4 开源社区正在把“agent runtime”标准化OpenSandbox、Kubernetes Agent Sandbox、OpenHands、AIO Sandbox再加上 LangChain / ComputeSDK / AutoGen 这类抽象层意味着行业开始从“有没有沙盒”走向“如何跨沙盒编排和迁移 agent”。7. 选型建议直接可用场景 A做数据分析、报表、图表生成选模型原生代码解释器即可OpenAI、Gemini、Azure OpenAI、Vertex AI。场景 B做软件工程 Agent改代码、跑测试、起服务优先 E2B、Daytona、Runloop、Modal、Vercel、Docker、CodeSandbox、Together。场景 C做 Web Agent / Computer Use Agent优先 Browserbase、Hyperbrowser、Browser Use Cloud、AgentCore Browser如果还要完整桌面或混合工作流再看 Daytona、E2B Desktop、PPIO。场景 D做企业私有化 / 合规 / K8s 平台优先 OpenSandbox、Kubernetes Agent Sandbox、OpenHands Runtime。场景 E需要国内部署又想兼容现有 E2B 生态优先看 PPIO。8. 一句话结论Agent 沙盒正在从“模型附带一个代码解释器”演进成“给智能体一台有边界、有状态、可观察、可恢复的电脑”。未来真正决定产品上限的不是能不能跑代码而是这五件事隔离边界够不够强状态模型够不够完整执行面是否覆盖代码 文件 浏览器 桌面网络与凭据治理是否可控是否能被你的 agent 框架、K8s 平台和业务流程稳定接入参考来源OpenAI / Anthropic / Google / AWS / AzureOpenAI Code InterpreterOpenAI Computer UseOpenAI Codex Cloud EnvironmentsOpenAI Codex Agent Approvals SecurityAnthropic Claude Code SandboxingAnthropic: Making Claude Code more secure and autonomous with sandboxingAnthropic Computer Use ToolAnthropic Sandbox Runtime (GitHub)Gemini API Code ExecutionVertex AI Code ExecutionVertex AI Code Interpreter ExtensionVertex AI Extensions APIAmazon Bedrock AgentCoreAgentCore RuntimeAgentCore Isolated SessionsAgentCore Code InterpreterAgentCore BrowserAzure Container Apps Dynamic SessionsAzure Code Interpreter SessionsAzure OpenAI Code Interpreter独立沙盒 / Devbox 厂商E2B DocsE2B Template QuickstartE2B PersistenceE2B Template How It WorksE2B Desktop TemplateHow Manus Uses E2B to Provide Agents With Virtual ComputersDaytona DocsDaytona SandboxesDaytona Computer UseModal SandboxesModal Networking and SecurityModal Sandbox SnapshotsModal Product Page: SandboxesRunloop Devbox OverviewRunloop SnapshotsRunloop Code MountsRunloop TunnelsRunloop Computer CapabilityVercel SandboxVercel Sandbox SDK ReferenceVercel Sandbox System SpecificationsDocker SandboxesDocker Sandboxes Security ModelDocker Sandboxes Isolation LayersDocker Sandboxes Network PoliciesCloudflare Sandbox SDKCloudflare Sandbox ArchitectureCloudflare Sandbox LifecycleCloudflare Sandbox Expose ServicesCodeSandbox SDKCodeSandbox SDK GitHubCodeSandbox VM SandboxesTogether Code SandboxTogether Code InterpreterTogether Sandbox Product PagePPIO Agent 沙箱概览PPIO E2B 兼容PPIO browser-use 集成PPIO E2B Desktop 集成浏览器专用基础设施Browserbase: What is Browserbase?Browserbase ObservabilityBrowserbase Session RecordingBrowserbase Using Browser SessionBrowserbase Authentication / Proxies / CaptchaHyperbrowser Live ViewHyperbrowser RecordingsHyperbrowser Stealth ModeBrowser Use Cloud QuickstartBrowser Use Cloud Agent QuickstartBrowser Use Stealth开源、自建与抽象层OpenSandbox GitHubOpenSandbox ArchitectureOpenSandbox Kubernetes ControllerOpenSandbox Chrome ExampleKubernetes Agent SandboxAgent Sandbox Getting StartedAgent Sandbox ExamplesOpenHands Runtime ArchitectureOpenHands Docker Runtime (中文)AIO Sandbox GitHubPlaywright MCPLangChain Deep Agents SandboxesComputeSDKComputeSDK GitHubAutoGen DockerCommandLineCodeExecutorOpen Interpreter GitHub

更多文章