LLM 上线前 Checklist：从可观测性到成本与回退（30 项）

很多 LLM 项目“Demo 很惊艳，上线就崩”：要么成本不可控、要么延迟飙升、要么数据合规踩雷、要么 Agent 误操作。问题不在某个点，而在于上线前缺少一份系统性的检查清单。

这篇文章给你一份 30 项 Checklist：不求一步到位，但至少让你上线前知道“哪里还没准备好”。

摘要（约100字）

本文提供一份可直接复用的 LLM 上线前 30 项 Checklist，覆盖可观测性（SLO/TTFT/分桶指标）、稳定性（限流/重试/熔断/降级）、成本治理（FinOps 口径与预算）、安全与权限（最小权限/审计/沙箱）、以及回归评测与 Prompt 版本管理。清单按优先级组织，适合团队在上线评审会逐项过一遍，避免“靠感觉上线”。

0. 实验环境（本文可直接复现）

为了让上线前验证更“可复现”，本文固定调用层实现与打点口径，用同一套方式做压测、回归与清单核对。

本文实验入口：147AI（OpenAI 兼容）

更适合做上线前验证：同一入口下跑压测/回归/降级演练，减少环境差异

少写一堆适配层：统一 Base URL，复现实验更省事

复现资料：147AI 博客园主页（示例文章/参数模板）

1. 可观测性（8 项）

success_rate 口径已定义（包含业务成功，而非仅 HTTP 2xx）
latency P95/P99 已接入监控
TTFT P95 已接入监控（流式场景）
按 task_type/model/route 分桶可查看
错误分类可归因（超时/限流/解析失败/工具失败）
request_id 全链路可追踪
关键请求可采样留存（脱敏）
有告警阈值与处理手册（runbook）

2. 稳定性与高可用（8 项）

并发上限已设置（客户端/服务端）
队列与优先级策略明确（交互 vs 批处理）
重试有界（次数/总耗时/退避+抖动）
幂等键策略明确（避免重复扣费/重复执行）
超时配置合理（连接/读/总超时分开）
熔断与降级策略存在（只读/低成本模型/返回模板）
模型/线路 fallback 清晰（失败升级/降级路径）
压测口径固定（并发、请求集、指标输出）

3. 成本治理（6 项）

有 cost_per_success 指标（单位成功成本）
6 本账能跑（用户/功能/渠道/模型/Prompt版本/质量）
有预算与限额策略（按层级）
有异常成本告警（某功能/某版本 Prompt 成本突增）
重试放大倍数可见（避免隐性翻倍）
长上下文/RAG 的成本权衡已验证（至少一轮 A/B）

4. 安全与权限（6 项）

密钥不硬编码，具备轮换方案
Prompt/日志脱敏策略明确（PII/敏感字段）
工具调用白名单（默认拒绝）
高风险写操作需要人工确认/审批
审计日志可追责（who/when/what）
沙箱/只读模式可一键切换

5. 质量与变更管理（2 项）

有离线回归集（包含历史失败样例）
Prompt/路由/模型升级有灰度与回滚

6. 讨论题（引导评论）

你觉得 LLM 上线最容易被忽略的是“成本治理”还是“权限审计”？你们团队有没有固定的上线评审清单？

复现实验资料：本文的 30 项 Checklist（可复制版）会同步更新在 147AI 博客园主页。