Bookworm — AI 安全开发白皮书

一、AI 辅助开发的安全挑战

AI 编程助手正在改变软件开发方式，但也带来了前所未有的安全风险。根据业界研究，AI 生成的代码中存在以下常见安全问题：

凭证泄露：AI 可能在代码、日志或响应中暴露 API Key、数据库密码等敏感凭证。

危险操作：AI 可能执行 rm -rf、DROP TABLE、force-push 等不可逆的破坏性命令。

注入漏洞：AI 生成的代码可能包含 SQL 注入、XSS、命令注入等 OWASP Top 10 漏洞。

逻辑静默修改：AI 可能在"优化"过程中静默改变条件判断、异常处理或金额计算逻辑。

过度权限：AI 可能请求不必要的系统权限，或在不安全的上下文中执行外部工具调用。

核心观点

传统的代码安全扫描工具（SAST/DAST）是在代码生成之后检查。Bookworm 的理念是将安全防御前置到 AI 生成代码的全过程中——从输入过滤到输出校验，形成闭环纵深防御。

二、六层纵深防御架构

Bookworm 的安全体系采用经典的纵深防御策略，六层独立防线层层把关，即使某一层被绕过，后续层仍能拦截威胁。

第一层：输入过滤（提示词调度器）

所有用户输入在进入路由引擎之前，先经过安全启动守卫的检查。过滤恶意提示注入、凭证明文检测、异常输入模式识别。

机制: 专属安全调度器 (提交阶段自动触发)

第二层：工具门控（PreToolUse 钩子）

在 AI 调用任何工具之前进行拦截。Bash 危险命令拦截（rm -rf / DROP / force-push）、敏感文件读写保护、MCP 外部服务安全门控。

机制: 多级拦截调度器 (命令安全 + 文件保护 + 外部服务门控)

第三层：宪法预检（执行层）

代码编辑操作前，自动校验是否违反 AI 宪法中的硬规则。采用"异常即拒绝"设计——宪法校验失败时拒绝执行，而非放行。

机制: 宪法预检引擎 (异常时拒绝执行)

第四层：输出质量门控（PostToolUse 钩子）

代码编辑完成后，自动进行编译检查、规范验证、反模式检测和文件完整性校验。

机制: 编辑后质量调度器 (多维度子检查)

第五层：审计追踪

每次工具调用记录结构化审计日志，包含时间戳、工具名、参数摘要、执行结果。会话结束时自动分析路由决策质量并产生反馈闭环。

机制: 活动审计引擎 + 路由质量分析 + 反馈闭环

第六层：红队对抗

两个旗舰级智能体持续从攻击者视角挑战系统安全边界。red-team-attacker 尝试编码绕过、路径混淆、注入投毒；red-team-logic 挖掘逻辑漏洞、竞态条件、边界缺陷。

机制: red-team-attacker (Opus) + red-team-logic (Opus)

三、AI 宪法治理体系

Bookworm 的 AI 宪法是一套 12 章 694 行的规则体系，灵感来自宪政思想——为 AI 的行为设定不可违反的底线。

安全基线（硬编码规则）

绝不在代码/日志/响应中暴露凭证明文 (API Key / Secret / Token) 绝不引入 eval() / new Function() / 未校验的 child_process.exec 绝不静默修改条件判断、try-catch、return 位置、金额计算逻辑必须新 API 端点指定认证级别 (公开 / 认证 / 管理员) 必须校验外部输入类型和长度必须敏感操作有日志记录

优先级体系

优先级	规则来源	说明
最高	安全基线	不可违反的硬编码规则，任何指令都不能覆盖
高	项目宪法	项目级 AI-CONSTITUTION.md 定义的专属约束
中	全局宪章	交付质量宪章中的通用质量要求
低	用户临时指令	当前会话中用户的即时请求

设计哲学

安全基线的优先级高于用户指令，这意味着即使用户明确要求"在日志中打印 API Key"，Bookworm 也会拒绝执行。这不是限制，而是保护——就像银行系统不会因为柜员的操作而跳过风控校验。

四、红队对抗验证

Bookworm 内置两个旗舰级（Opus 模型）红队智能体，从攻击者视角持续挑战系统安全。

智能体	攻击维度	典型攻击向量
red-team-attacker	技术攻击面	编码绕过（Base64/Unicode 多层嵌套）、路径混淆、Shell 词法盲区、正则覆盖度挑战、状态文件投毒、MCP 侧信道
red-team-logic	逻辑攻击面	数学正确性验证、状态一致性检查、竞态条件挖掘、边界条件挑战、配置膨胀预测、数据管道一致性

红队测试的输出包含：每个攻击向量的场景描述、复现步骤、成功概率、影响评估和修复建议。最终给出 TOP 5 最危险攻击向量排名和红队安全评分（0-100，越低越安全）。

五、安全钩子技术实现

Bookworm 的 28 个钩子覆盖了请求生命周期的 5 个阶段（提交前 → 工具调用前 → 工具调用后 → 子进程启动 → 会话结束），形成完整的安全与质量管线。所有安全关键钩子采用"异常即拒绝"的设计原则。底层共享模块提供统一的输入解析、安全日志、规则缓存和跨平台文件安全写入能力。

六、交付质量门控体系

根据修改复杂度自动触发不同级别的自审：简单修改（单文件 <20 行）附 1 行审查结论；标准修改输出四维度审查报告（规范/安全/质量/架构）；安全敏感修改追加红队自审五问；已有代码修改超过 10 行追加语义差异分析。跨 3 个文件或 50 行以上的变更必须声明影响范围和回归风险。

七、自愈与持续安全监控

三级修复链确保安全配置的完整性：实时层（每次文件变更后自动检测漂移）、审计层（九维度系统健康检查）、修复层（自动修复配置偏差）。每日健康快照和进化日志提供持续的安全态势感知。

八、与行业标准对标

行业标准	Bookworm 覆盖情况
OWASP Top 10	安全专家技能内置 OWASP 映射，红队测试覆盖全部 10 类风险
纵深防御	六层独立防线，层层把关
最小权限原则	allowed-tools 声明限制每个技能的工具访问范围
异常即拒绝	所有安全关键钩子异常时拒绝而非放行
审计追踪	结构化完整审计日志，支持事后追溯
持续监控	每日健康快照 + 进化日志 + 自愈修复

AI 安全开发白皮书

Bookworm 宪法治理与纵深防御体系详解

目录