TokensRelay API 文档

同时兼容 OpenAI 与 Anthropic 两套 API 格式。把现有代码里的 base_url 换成我们的地址，无需改动其他逻辑。

→ 在线 Playground：无需写代码，直接在浏览器里测试模型

介绍

TokensRelay（搬运工）是一个 AI 模型聚合网关，把 OpenAI、Anthropic Claude、Google Gemini、DeepSeek、Qwen 等数十家上游统一接入。你用一个 API Key，就能调用全部模型。

OpenAI 兼容格式

POST /v1/chat/completions

适合：所有支持 OpenAI API 的工具（Cline、Cursor、LangChain、LlamaIndex…）

鉴权头：Authorization: Bearer sk-...

Anthropic 原生格式 NEW

POST /v1/messages

适合：官方 Anthropic SDK、Claude Code、直接用 anthropic 库的项目

鉴权头：x-api-key: sk-...

两种格式使用同一个 API Key，共享同一余额。只需换 Base URL 和库，代码逻辑无需改动。

鉴权

在控制台 → 令牌创建一个 API Key，根据所用 API 格式携带对应请求头：

API 格式	请求头
OpenAI 兼容（/v1/chat/completions）	`Authorization: Bearer sk-xxxxxxxx`
Anthropic 原生（/v1/messages）	`x-api-key: sk-xxxxxxxx`

⚠️ API Key 等同于账户密钥，请勿写死在前端代码或提交到 Git 仓库。建议放入环境变量。泄露后请立即在控制台吊销。

快速开始

三步开始调用：

① 在控制台注册并充值；
② 创建 API Key；
③ 把下面任意一段代码里的 $TOKENSRELAY_KEY 换成你的 Key 运行。

OpenAI 格式

curl https://tokensrelay.cn/v1/chat/completions \
  -H "Authorization: Bearer $TOKENSRELAY_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "auto",
    "messages": [{"role": "user", "content": "你好，介绍一下你自己"}]
  }'

Anthropic 格式

curl https://tokensrelay.cn/v1/messages \
  -H "x-api-key: $TOKENSRELAY_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen/qwen3.5-122b-a10b",
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "你好，介绍一下你自己"}]
  }'

Chat Completions

POST /v1/chat/completions

请求参数

参数	类型	说明
`model`	string	模型名，或 `auto` 触发智能路由
`messages`	array	对话消息列表，含 `role` 与 `content`
`stream`	bool	是否流式返回（SSE），默认 `false`
`temperature`	number	采样温度 0–2，默认 1
`max_tokens`	int	最大生成 token 数
`tools`	array	函数调用 / 工具定义（兼容 OpenAI tools）

响应示例

{
  "id": "chatcmpl-xxx",
  "object": "chat.completion",
  "model": "deepseek-ai/deepseek-v4-flash",
  "choices": [{
    "index": 0,
    "message": {"role": "assistant", "content": "你好！我是……"},
    "finish_reason": "stop"
  }],
  "usage": {"prompt_tokens": 12, "completion_tokens": 28, "total_tokens": 40}
}

Messages（Anthropic 原生格式）NEW

POST /v1/messages

兼容 Anthropic 官方 Messages API 格式，让使用 anthropic SDK 的项目无缝接入，无需改动业务逻辑。

本节示例中的 model 多以 claude-sonnet-4-5 为例。默认部署未接入真 Claude 渠道，直接调用 claude-* 会返回 503 无可用渠道；请改用实际可用模型（如 qwen/qwen3.5-122b-a10b、deepseek-ai/deepseek-v4-flash）。Anthropic 路径不支持 auto（智能路由仅在 OpenAI 路径生效），需指定具体模型名。如需启用 Claude，请提交工单开通渠道。

Base URL

	地址
主域名	`https://tokensrelay.cn`
API 专属域名	`https://api.tokensrelay.cn`（需有 HTTPS 证书，待配置）

Anthropic SDK 会自动在 base_url 后追加 /v1/messages，所以填写时不要加 /v1 后缀。

请求参数

参数	类型	必填	说明
`model`	string	是	模型名，如 `qwen/qwen3.5-122b-a10b`；`claude-*` 需先开通渠道（Anthropic 路径不支持 `auto`）
`messages`	array	是	对话消息列表，含 `role`（user/assistant）与 `content`
`max_tokens`	int	是	最大生成 token 数（Anthropic 要求必填）
`system`	string	否	系统提示，字符串或内容块数组
`stream`	bool	否	是否流式返回（SSE），默认 `false`
`temperature`	number	否	采样温度 0–1
`top_p`	number	否	核采样阈值
`stop_sequences`	array	否	停止序列列表
`tools`	array	否	工具定义（Anthropic tool_use 格式）
`tool_choice`	object	否	工具选择策略：`auto` / `any` / `tool`

响应示例（非流式）

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  "model": "claude-sonnet-4-5",
  "content": [{"type": "text", "text": "你好！我是 Claude……"}],
  "stop_reason": "end_turn",
  "stop_sequence": null,
  "usage": {"input_tokens": 12, "output_tokens": 30}
}

stop_reason 映射

值	含义
`end_turn`	正常结束
`max_tokens`	达到 max_tokens 上限
`tool_use`	模型请求调用工具

Tool Use 示例

curl https://tokensrelay.cn/v1/messages \
  -H "x-api-key: $TOKENSRELAY_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "tools": [{
      "name": "get_weather",
      "description": "查询城市天气",
      "input_schema": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "城市名"}
        },
        "required": ["city"]
      }
    }],
    "messages": [{"role": "user", "content": "北京今天天气怎么样？"}]
  }'

流式输出

OpenAI 格式流式

设置 "stream": true，服务端将以 Server-Sent Events 持续推送增量片段，最后以 data: [DONE] 结束。

data: {"choices":[{"delta":{"content":"你"}}]}
data: {"choices":[{"delta":{"content":"好"}}]}
data: [DONE]

Anthropic 格式流式

设置 "stream": true，服务端将按 Anthropic SSE 协议推送事件序列：

event: message_start
data: {"type":"message_start","message":{"id":"msg_xxx","type":"message","role":"assistant","content":[],"model":"claude-sonnet-4-5","stop_reason":null,"usage":{"input_tokens":0,"output_tokens":0}}}

event: content_block_start
data: {"type":"content_block_start","index":0,"content_block":{"type":"text","text":""}}

event: content_block_delta
data: {"type":"content_block_delta","index":0,"delta":{"type":"text_delta","text":"你好"}}

event: content_block_stop
data: {"type":"content_block_stop","index":0}

event: message_delta
data: {"type":"message_delta","delta":{"stop_reason":"end_turn","stop_sequence":null},"usage":{"input_tokens":12,"output_tokens":5}}

event: message_stop
data: {"type":"message_stop"}

模型列表

GET /v1/models

返回当前账户可用的全部模型，以 GET /v1/models 实时返回为准（实测约 90+ 个）。实际可用模型以 GET /v1/models 与控制台为准。下表为默认部署即可直接调用的代表性模型（2026-06 实测验证）：

类别	示例模型	可用性
智能路由（推荐）	`auto`	仅 OpenAI 路径 /v1/chat/completions
高性价比 / 快速	`deepseek-ai/deepseek-v4-flash`	✅ 默认可用
强通用 / 复杂任务	`qwen/qwen3.5-397b-a17b`, `moonshotai/kimi-k2.6`, `z-ai/glm-5.1`, `mistralai/mistral-large-3-675b-instruct-2512`	✅ 默认可用
均衡	`qwen/qwen3.5-122b-a10b`, `meta/llama-3.3-70b-instruct`	✅ 默认可用
视觉	`meta/llama-3.2-90b-vision-instruct`	⚠️ 仅文本验证可用；图片输入(image_url)当前上游不稳定
Claude / GPT / Embedding需开通渠道	`claude-sonnet-4-5`, `gpt-4o`, `text-embedding-3-small` 等	需后台配置对应官方渠道

关于模型可用性：auto 与命名空间形式的模型（deepseek-ai/*、qwen/*、meta/*、moonshotai/*、z-ai/* 等）默认部署即可直接调用。claude-*、gpt-*、text-embedding-* 等官方模型名需先在后台配置对应官方渠道，未配置时调用会返回 503 无可用渠道——如需请提交工单开通。下方所有以 claude-sonnet-4-5 为例的代码片段，默认环境下请把 model 换成实际可用模型（如 qwen/qwen3.5-122b-a10b）。
⚠️ auto 智能路由仅在 OpenAI 路径 /v1/chat/completions 生效；Anthropic 路径 /v1/messages 不支持 auto，需指定具体模型名。

智能路由 (model = auto)

这是 TokensRelay 的特色能力。当你设置 "model": "auto" 时，网关会分析你的请求内容，自动选择最合适的模型：

含图片/视觉内容 → 自动转视觉模型（注：图片输入当前上游不稳定，可能失败，建议以文本为主）；
编程 / 代码意图 → 自动转代码模型；
需要深度推理 → 自动转思考模型；
其余 → 高性价比通用模型。

{
  "model": "auto",
  "messages": [{"role": "user", "content": "用 Python 写一个快速排序"}]
}
// → 自动路由到代码模型

失败切换：auto 内置多模型竞速与失败冷却——当某个上游模型超时或报错时自动切换到备用模型，比固定指定单一模型更能抵抗上游抖动。这也是高并发 / 客服场景推荐默认用 auto 的原因之一。注意 auto 仅在 OpenAI 路径 /v1/chat/completions 生效，Anthropic 路径 /v1/messages 需指定具体模型名。

Embeddings

POST /v1/embeddings

curl https://tokensrelay.cn/v1/embeddings \
  -H "Authorization: Bearer $TOKENSRELAY_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"text-embedding-3-small","input":"要向量化的文本"}'

⚠️ Embeddings 需在后台配置嵌入模型渠道后才可用，默认部署未开通 text-embedding-*，直接调用会返回 503 无可用渠道；如需向量化能力请提交工单。

Python SDK — OpenAI 格式

直接使用官方 openai 库，只改 base_url：

pip install openai

from openai import OpenAI

client = OpenAI(
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",   # TokensRelay Key
    base_url="https://tokensrelay.cn/v1",
)

resp = client.chat.completions.create(
    model="auto",  # 或 qwen/qwen3.5-397b-a17b / deepseek-ai/deepseek-v4-flash ...
    messages=[{"role": "user", "content": "你好"}],
)
print(resp.choices[0].message.content)

# 流式
stream = client.chat.completions.create(
    model="deepseek-ai/deepseek-v4-flash",
    messages=[{"role": "user", "content": "讲个笑话"}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

Python SDK — Anthropic 原生格式NEW

使用官方 anthropic 库，只改 base_url，其余代码与访问 Anthropic 官方完全一致：

pip install anthropic

import anthropic

client = anthropic.Anthropic(
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",   # TokensRelay Key
    base_url="https://tokensrelay.cn",       # 注意：不加 /v1 后缀
)

# 非流式
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system="你是一个专业的 Python 工程师。",
    messages=[{"role": "user", "content": "用 Python 实现二分查找"}],
)
print(message.content[0].text)

# 流式
with client.messages.stream(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "讲个笑话"}],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

# Tool Use
tools = [{
    "name": "get_weather",
    "description": "查询城市天气",
    "input_schema": {
        "type": "object",
        "properties": {"city": {"type": "string"}},
        "required": ["city"],
    },
}]
resp = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=512,
    tools=tools,
    messages=[{"role": "user", "content": "北京今天天气如何？"}],
)
if resp.stop_reason == "tool_use":
    tool_block = next(b for b in resp.content if b.type == "tool_use")
    print(f"调用工具: {tool_block.name}, 参数: {tool_block.input}")

Node.js SDK — OpenAI 格式

npm install openai

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.TOKENSRELAY_KEY,
  baseURL: "https://tokensrelay.cn/v1",
});

const resp = await client.chat.completions.create({
  model: "auto",
  messages: [{ role: "user", content: "你好" }],
});
console.log(resp.choices[0].message.content);

Node.js SDK — Anthropic 原生格式NEW

npm install @anthropic-ai/sdk

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.TOKENSRELAY_KEY,   // TokensRelay Key
  baseURL: "https://tokensrelay.cn",     // 注意：不加 /v1 后缀
});

// 非流式
const message = await client.messages.create({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  system: "你是一个专业的前端工程师。",
  messages: [{ role: "user", content: "解释一下 React Hooks 的工作原理" }],
});
console.log(message.content[0].text);

// 流式
const stream = client.messages.stream({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  messages: [{ role: "user", content: "写一首关于编程的诗" }],
});
for await (const chunk of stream) {
  if (chunk.type === "content_block_delta" && chunk.delta.type === "text_delta") {
    process.stdout.write(chunk.delta.text);
  }
}

cURL

OpenAI 格式

curl https://tokensrelay.cn/v1/chat/completions \
  -H "Authorization: Bearer $TOKENSRELAY_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"auto","messages":[{"role":"user","content":"Hello"}],"stream":true}'

Anthropic 格式

curl https://tokensrelay.cn/v1/messages \
  -H "x-api-key: $TOKENSRELAY_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "stream": true,
    "messages": [{"role": "user", "content": "你好"}]
  }'

Cline（VSCode AI 编程助手）

Cline 是 VSCode 插件，支持自定义 OpenAI 兼容提供商，可直接接入 TokensRelay。

配置步骤

在 VSCode 扩展市场搜索 Cline 并安装。

点击左侧 Cline 图标，进入设置（齿轮图标）。

API Provider 选择 OpenAI Compatible。

填入以下参数：

Base URL:  https://tokensrelay.cn/v1
API Key:   sk-xxxxxxxxxxxxxxxxxxxxxxxx（你的 TokensRelay Key）
Model:     auto  （或 qwen/qwen3.5-397b-a17b、deepseek-ai/deepseek-v4-flash 等）

推荐模型：auto 自动选择最优模型；复杂编程指定 qwen/qwen3.5-397b-a17b，追求速度用 deepseek-ai/deepseek-v4-flash。（claude-* 需先开通渠道）

Claude Code — 接入 TokensRelay 完整指南

Claude Code 是 Anthropic 官方编程 CLI，底层使用 Anthropic 原生 /v1/messages 协议。TokensRelay 原生支持该协议，只需替换两个配置项即可接入，代码与交互方式完全不变。

工作原理

Claude Code 启动时读取 ANTHROPIC_BASE_URL（或 settings 中的 baseUrl），将其与 /v1/messages 拼接后作为 API 端点，使用 ANTHROPIC_API_KEY（或 apiKey）进行鉴权。只需把这两个值指向 TokensRelay 即可。

Base URL 格式：填 https://tokensrelay.cn，不加 /v1 后缀。Claude Code 会自动拼接 /v1/messages。

模型可用性（重要）：默认部署未接入真 Claude 渠道，因此 --model claude-* 会返回 503 无可用渠道。Claude Code 仍可正常使用——把 --model 指向平台实际可用的模型即可，例如 --model qwen/qwen3.5-397b-a17b 或 --model deepseek-ai/deepseek-v4-flash（实测 /v1/messages 返回 200）。注意 Anthropic 路径不支持 auto，必须填具体模型名。下文示例中出现的 claude-sonnet-4-5 同理替换。如需真 Claude，请提交工单开通官方渠道。

第 0 步：安装 Claude Code

# 需要 Node.js 18+
npm install -g @anthropic-ai/claude-code

# 验证安装
claude --version

配置方式（任选其一）

方式 A：写入 Shell 配置文件（推荐 · 永久生效）

适合个人主力机，一次配置全局生效。

# 追加到 ~/.zshrc（macOS 默认）或 ~/.bashrc（Linux）
echo 'export ANTHROPIC_BASE_URL=https://tokensrelay.cn' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx' >> ~/.zshrc

# 立即生效
source ~/.zshrc

# 启动 Claude Code
claude

方式 B：写入 `~/.claude/settings.json`（永久生效 · 无需修改 Shell）

适合不想污染 Shell 环境的场景，或与他人共用系统时隔离配置。

# 新建或编辑 ~/.claude/settings.json，加入以下字段：
{
  "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
  "baseUrl": "https://tokensrelay.cn"
}

settings.json 中的 apiKey / baseUrl 优先级低于同名环境变量。若环境变量已设置，settings.json 中的对应值会被覆盖。

方式 C：项目级配置（仅对当前项目生效）

在项目根目录创建 .claude/settings.json，内容与方式 B 相同。适合团队共享配置或在不同项目使用不同 API。

mkdir -p .claude
cat > .claude/settings.json <<'EOF'
{
  "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
  "baseUrl": "https://tokensrelay.cn"
}
EOF

方式 D：运行时内联（单次使用 · 不影响全局）

脚本或临时调试时最方便，不改任何配置文件。

ANTHROPIC_BASE_URL=https://tokensrelay.cn \
ANTHROPIC_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx \
claude --model claude-sonnet-4-5 -p "你好"

方式 E：通过 `--settings` 传入 JSON（脚本自动化）

适合 CI/CD 或需要动态切换配置的场景，无需依赖文件系统。

claude \
  --settings '{"apiKey":"sk-xxxxxxxxxxxxxxxxxxxxxxxx","baseUrl":"https://tokensrelay.cn"}' \
  --model claude-sonnet-4-5 \
  -p "帮我检查这段代码有没有 bug"

模型选择

用 --model（或 -m）指定模型。支持全名和别名：

命令	实际调用模型	特点
`claude -m claude-sonnet-4-5`	claude-sonnet-4-5	速度与能力均衡，日常编程首选
`claude -m claude-sonnet-4`	claude-sonnet-4	上一代 Sonnet
`claude -m claude-opus-4`	claude-opus-4	旗舰级，适合复杂架构设计
`claude -m sonnet`	最新 Sonnet	官方别名，自动跟随最新版
`claude -m opus`	最新 Opus	官方别名，自动跟随最新版

也可以在 ~/.claude/settings.json 中加 "model": "claude-sonnet-4-5" 设为默认，之后启动不需要每次加 --model。

验证连接

配置完成后，运行以下命令快速验证：

# 非交互模式单次问答，成功则说明配置正确
claude -p "用一句话介绍你自己" --model qwen/qwen3.5-397b-a17b

常用操作示例

交互模式（最常用）

claude                          # 启动交互会话
claude -m claude-sonnet-4-5    # 指定模型启动
claude -c                      # 继续上次会话
claude -r                      # 选择历史会话恢复

非交互模式 `-p / --print`（脚本 / 管道）

# 单次问答，结果打印到 stdout
claude -p "这段代码有什么问题？" < main.py

# 管道输入
git diff HEAD~1 | claude -p "总结这次提交的改动"

# 格式化 JSON 输出（适合程序解析）
claude -p "列出5个排序算法" --output-format json

# 流式 JSON（逐 token 到达，适合实时展示）
claude -p "写一首诗" --output-format stream-json

多端点快速切换（alias 技巧）

同时有官方账号和 TokensRelay，用 alias 一键切换。

# 写入 ~/.zshrc 或 ~/.bashrc
alias cc-tr='ANTHROPIC_BASE_URL=https://tokensrelay.cn ANTHROPIC_API_KEY=sk-xxxxxxxx claude'
alias cc-official='env -u ANTHROPIC_BASE_URL -u ANTHROPIC_API_KEY claude'

# 使用
cc-tr -p "帮我 review 这段代码" < service.go   # 走 TokensRelay
cc-official                                    # 走 Anthropic 官方

故障排查

现象	原因	解决方法
`401 Unauthorized`	API Key 无效或缺失	检查 `ANTHROPIC_API_KEY` 是否包含完整的 `sk-` 前缀，以及 Key 是否在 TokensRelay 控制台已激活
`503 无可用渠道`	模型名错误或后端未配置	确认模型名与模型列表一致；`claude-*` 等需先开通渠道
连接超时 / `ECONNREFUSED`	Base URL 格式错误	确认填的是 `https://tokensrelay.cn`，不是 `https://tokensrelay.cn/v1`
余额不足 `402`	账户余额耗尽	前往控制台充值或兑换优惠码
响应截断	`max_tokens` 默认值较小	在 settings.json 中加 `"maxTokens": 8096`，或在 Claude Code 会话中用 `/config` 调整
仍然连 Anthropic 官方	环境变量未生效	运行 `echo $ANTHROPIC_BASE_URL` 确认已 export；或改用 settings.json 方式

# 内置健康检查，可显示配置来源和连通性
claude doctor

Codex CLI（OpenAI 官方 CLI）

OpenAI Codex CLI 支持设置 OPENAI_BASE_URL 覆盖默认端点。

安装 & 配置

# 安装
npm install -g @openai/codex

# 配置环境变量
export OPENAI_BASE_URL=https://tokensrelay.cn/v1
export OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx

# 使用
codex "帮我重构这个函数，添加错误处理"

# 或在 ~/.codex/config.yaml 中配置
provider: openai
model: auto
openai:
  baseURL: https://tokensrelay.cn/v1

Cursor / Continue / 其他工具

所有支持 OpenAI 兼容 API 的工具，统一填以下两个参数即可：

参数	值
API Base / Base URL	`https://tokensrelay.cn/v1`
API Key	你的 TokensRelay Key（`sk-...`）

Cursor

Settings → Models → Add Model → 选择 OpenAI Compatible，填入上表参数。或在 .cursor/mcp.json 中指定。

Continue（VSCode/JetBrains 插件）

// ~/.continue/config.json
{
  "models": [{
    "title": "TokensRelay Auto",
    "provider": "openai",
    "model": "auto",
    "apiBase": "https://tokensrelay.cn/v1",
    "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
  }]
}

LangChain / LlamaIndex

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="auto",
    api_key="sk-...",
    base_url="https://tokensrelay.cn/v1",
)

Coze（字节 Bot 平台）

Coze 是字节跳动旗下的 AI Bot 搭建平台，支持通过「HTTP 请求」插件调用 TokensRelay OpenAI 兼容接口，无需代理即可直接使用。

配置步骤

在控制台 → 令牌获取你的 API Key。

在 Coze Bot 的「插件」中，创建一个新的 HTTP 插件（POST 方法），填写端点与鉴权信息。

在工作流中加入该插件节点，将 choices[0].message.content 映射为 Bot 回复。

Method:   POST
URL:      https://tokensrelay.cn/v1/chat/completions
Headers:
  Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxx
  Content-Type: application/json
Body:
{
  "model": "auto",
  "messages": [
    {"role": "system", "content": "你是一个智能助手"},
    {"role": "user", "content": "{{input.prompt}}"}
  ]
}

多模型动态切换：可在请求体中用模板变量 "model": "{{input.model|default('auto')}}"，让调用方动态选择模型。
⚠️ URL 末尾不要加斜杠，否则会导致路径错误。claude-*/gpt-* 模型需先开通渠道。

Dify

Dify 是开源 LLM 应用平台，支持自定义 OpenAI 兼容模型提供商，只需填入 API Key 与 Base URL 即可调用全部 TokensRelay 模型。

配置步骤

在控制台 → 令牌生成一个 API Key（如 dify-integration）。

打开 Dify → 设置 → 模型供应商 → 安装插件，搜索并安装 OpenAI-API-compatible。

点击「添加模型」，填写以下参数：

字段	填写值	说明
API Key	`sk-xxxxxxxxxxxxxxxxxxxxxxxx`	TokensRelay 令牌
Base URL	`https://tokensrelay.cn/v1`	必填，否则 Dify 会连 openai.com
模型名称	`auto` / `qwen/qwen3.5-122b-a10b` 等	见可用模型

新建工作流，发送测试消息，请求日志应显示 POST https://tokensrelay.cn/v1/chat/completions。

故障排查

错误	原因	解决方法
`401 Unauthorized`	Key 无效或缺少 Bearer 前缀	确认格式：`Authorization: Bearer sk-...`
连接超时	未填 Base URL 导致请求发到 openai.com	确认 Base URL 指向 `https://tokensrelay.cn/v1`
`503 无可用渠道`	模型未开通	改用实际可用模型（如 `auto`/`qwen/qwen3.5-122b-a10b`）

NextChat（ChatGPT Next Web）

NextChat 是流行的开源 AI 客户端，支持 Vercel 一键部署、Docker 或手动安装，兼容 TokensRelay OpenAI 格式。

⚠️ NextChat 的 BASE_URL 环境变量不加 /v1，NextChat 会自动拼接——填错会导致 404。

方式 A：Vercel 部署

OPENAI_API_KEY = sk-xxxxxxxxxxxxxxxxxxxxxxxx
BASE_URL       = https://tokensrelay.cn        # 注意：不加 /v1
CODE           = my-access-password             # 访问密码

方式 B：Docker

docker run -d -p 3000:3000 \
  -e OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx \
  -e BASE_URL=https://tokensrelay.cn \
  -e CODE=my-access-password \
  yidadaa/chatgpt-next-web

方式 C：Docker Compose

version: '3'
services:
  nextchat:
    image: yidadaa/chatgpt-next-web
    ports:
      - "3000:3000"
    environment:
      OPENAI_API_KEY: sk-xxxxxxxxxxxxxxxxxxxxxxxx
      BASE_URL: https://tokensrelay.cn
      CODE: my-access-password
    restart: unless-stopped

方式 D：已有实例手动配置

打开 NextChat 设置 → 「自定义接口地址」，填入 https://tokensrelay.cn（不加 /v1）和你的 API Key。

模型切换：在 NextChat 下拉菜单选择模型。claude-*/gpt-* 需先开通渠道，可用模型见模型列表。

Claude Code Desktop

Claude Code Desktop 是 Anthropic 官方桌面客户端。与命令行版（Claude Code CLI）不同，桌面版的 Base URL 需要加 /v1 后缀。

配置步骤

启动 Claude Code Desktop。

进入 设置 → Model Provider / API 设置。

填入以下两个参数：

参数	填写值
API Base URL（端点）	`https://tokensrelay.cn/v1`（桌面版需加 `/v1`）
API Key（Auth Token）	你的 TokensRelay Key（`sk-xxxxxxxx`）

在 Model 下拉框选择模型（如 auto、qwen/qwen3.5-397b-a17b），保存。

发送测试消息验证连接。

同一个 Key 可在 CLI 与 Desktop 间共用，共享余额，无需分别申请。

故障排查

错误	解决方法
`401 Unauthorized`	Key 是否含完整 `sk-` 前缀，复制时是否有多余空格
`404 Not Found`	确认 URL 是 `https://tokensrelay.cn/v1`（桌面版需加 `/v1`，与 CLI 版不同）
`503 无可用渠道`	改用实际可用模型，如 `qwen/qwen3.5-122b-a10b`

OpenAI Codex Desktop

Codex Desktop 桌面客户端通过 ~/.codex/ 目录下的配置文件接入（Windows：%USERPROFILE%\.codex\）。

⚠️ wire_api 必须设为 "responses"（而非 "chat"），否则 Codex Desktop 无法正常工作。

~/.codex/auth.json

{
  "OPENAI_API_KEY": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
}

~/.codex/config.toml

model_provider = "tokensrelay"
model = "auto"
wire_api = "responses"          # 必须为 responses，不能是 chat
disable_response_storage = true
preferred_auth_method = "apikey"

[model_providers.tokensrelay]
name = "tokensrelay"
base_url = "https://tokensrelay.cn/v1"   # /v1 不可省略

修改后完全退出 Codex Desktop 并重启以使配置生效。

OpenCode

OpenCode 是开源 AI 编程 CLI，通过 JSON 配置文件支持自定义 OpenAI 兼容提供商。

安装

# npm 安装
npm install -g opencode-ai

# 或脚本安装（macOS/Linux）
curl -fsSL https://opencode.ai/install | bash

# 验证
opencode -v

配置文件

路径：macOS/Linux ~/.config/opencode/opencode.json，Windows C:\Users\[用户名]\.config\opencode\opencode.json

{
  "providers": {
    "tokensrelay": {
      "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
      "baseURL": "https://tokensrelay.cn/v1"
    }
  },
  "models": {
    "tokensrelay/auto": {
      "contextLength": 200000,
      "maxTokens": 32768
    },
    "tokensrelay/qwen/qwen3.5-122b-a10b": {
      "contextLength": 131072,
      "maxTokens": 32768
    }
  }
}

Provider ID 只能含小写字母和数字。配置修改后需重启 OpenCode 才生效。在会话中用 /models 命令确认可用模型。

OpenClaw

OpenClaw 是支持多技能扩展的 AI Agent 框架，首次运行时通过向导配置 TokensRelay 端点。

安装

# macOS / Linux
curl -fsSL https://openclaw.ai/install.sh | bash
source ~/.zshrc

# Windows（PowerShell 管理员）
iwr -useb https://openclaw.ai/install.ps1 | iex

# 验证
openclaw --version

配置

首次运行 openclaw 启动配置向导，按提示：

选择 Custom API Integration
Base URL：https://tokensrelay.cn/v1
粘贴你的 TokensRelay API Key
从列表选择模型（推荐 auto）

看到 ✅ Model connect success 提示即配置成功。

openclaw tui              # 启动 TUI 界面
openclaw skill list       # 查看可用技能
openclaw skill install pdf-kit  # 安装技能

Hermes Agent（Nous Research）

Hermes Agent 是 Nous Research 开发的开源 AI Agent，通过配置文件接入 TokensRelay OpenAI 兼容接口。

安装

# macOS / Linux
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.zshrc

# Windows（PowerShell 管理员）
irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1 | iex

配置

# 运行配置向导
hermes config

选择 OpenAI Compatible 提供商，或手动编辑 ~/.hermes/config.yaml（Windows：%USERPROFILE%\.hermes\config.yaml）：

provider:
  type: openai
  api_key: sk-xxxxxxxxxxxxxxxxxxxxxxxx
  base_url: https://tokensrelay.cn/v1   # 必须含 /v1
  model: auto

hermes          # 启动对话
hermes model    # 查看可用模型
# 会话中用 /model 命令切换模型

故障排查

错误	解决方法
`401 Unauthorized`	检查 API Key 余额与有效性
`404 Not Found`	确认 Base URL 包含 `https://` 和 `/v1`
`503 无可用渠道`	查看模型列表，改用实际可用模型

WorkBuddy（腾讯云）

腾讯云 WorkBuddy 支持添加自定义模型，在模型设置中填入 TokensRelay 端点与 Key 即可调用全部可用模型。

配置步骤

在控制台 → 令牌获取 API Key。

打开 WorkBuddy → 左下角设置图标 → 模型设置，找到自定义模型配置。

填写以下参数：

字段	填写值
供应商	自定义 / Custom
API Endpoint	`https://tokensrelay.cn/v1`
API Key	你的 TokensRelay Key（`sk-...`）
模型名称	`auto`、`qwen/qwen3.5-122b-a10b` 等（见模型列表）

回到模型列表，勾选复选框启用该模型（⚠️ 必须勾选，否则仍使用默认配额）。

在对话窗口发送测试消息确认正常响应。

故障排查

现象	解决方法
仍在扣除默认配额	确认在模型列表中已勾选自定义模型
请求失败	检查 API Key 余额和端点地址是否正确
`503 无可用渠道`	改用实际可用模型（`auto`/`qwen/`/`deepseek-ai/`）

方法论 · 成本控制

无论所属行业，企业批量使用 AI 编程/Agent 工具时都会遇到三个共性问题：怎么在完成工作的前提下尽量省钱、怎么减少模型"一本正经地编造"（幻觉），以及怎么保证 AI 改出来的代码不出生产事故。本节给出通用方法，下方各行业章节会引用这里的做法。

分场景的模型选择策略

场景	推荐策略	示例模型
简单/重复任务（格式化、加注释、简单 CRUD、常见 FAQ）	用低价快速模型，或交给智能路由	`deepseek-ai/deepseek-v4-flash`、`auto`
复杂架构设计、跨模块重构、疑难 Bug	用强模型，必要时多轮对话深入分析	`qwen/qwen3.5-397b-a17b`、`moonshotai/kimi-k2.6`、`mistralai/mistral-large-3-675b-instruct-2512`
高频客服 / 知识库问答	默认走 `auto`，按问题复杂度自动路由，复杂问题再升级	`auto`
批量脚本任务（批量生成/批量翻译/批量分析）	非流式 + 脚本化批处理，避免交互式逐条调用的浪费	任意
团队/部门预算管理	为每个部门/项目创建独立子令牌，设置月度额度与限流，便于成本归因	控制台 → 令牌管理

TokensRelay 的智能路由（model: "auto"）本身就是为成本优化设计的：网关会按请求内容自动在性价比模型与高能力模型之间路由。绝大多数业务场景建议优先尝试 auto，仅在效果不达标时再手动指定强模型。
⚠️ 当前网关暂不支持 Anthropic prompt caching（/v1/messages 的 cache_control 字段会被翻译层忽略），省钱主要靠：选对模型档位 + auto 路由 + 非流式批处理 + 子令牌预算管理。

方法论 · 减少幻觉

"幻觉"指模型给出看似合理但实际错误或编造的内容——错误的 API、不存在的政策条款、虚构的故障代码等。以下方法可显著降低幻觉概率：

方法	说明
先检索再生成（RAG）	把企业自己的文档、知识库、代码库作为上下文喂给模型，让回答"有依据"而不是凭模型记忆。Coze 的「知识库」插件、Cursor/Cline 的 `@文件` / `@代码库` 引用都是这个思路。
允许模型说"不知道"	在 system prompt 中明确写入「如果信息不足或不确定，请直接说明，不要编造」，比单纯要求"准确"更有效。
降低 `temperature`	事实性 / 代码类任务建议 `0~0.3`；创意类任务（文案、头脑风暴）可以保持默认或更高。
要求输出可验证的结果	代码类要求「必须能通过给定测试」；文档/知识问答类要求标注信息来源（文件路径、行号、文档链接）。
多步校验（生成 → 验证 → 修正）	让 AI 生成后自行运行/测试，根据真实结果再修正，而不是一次成型。Cursor/Cline 的终端执行能力很适合做这一步。
用工具调用代替猜测	涉及具体数字、日期、版本号、价格等事实，让模型通过 tool_use 查询真实数据源（数据库/API/文件），而不是凭记忆作答。
人工抽样审查	对客服机器人、知识库问答类应用，定期抽样人工核对回答准确性，把发现的幻觉模式补充进知识库或 prompt 约束中。

方法论 · 代码稳定性

AI 能显著提速编码，但不受控的批量改动是生产事故的常见来源。以下做法能在提速的同时控制风险：

方法	说明
小步快跑	每次让 AI 改动的范围尽量小（单文件/单函数），便于 review 和回滚，出问题也容易定位。
Diff 预览，禁止自动应用	Cursor/Cline 配置为「先展示 diff 再应用」，重大改动必须人工确认后才落盘。
测试先行	要求 AI 为新代码同步生成/更新单元测试，CI 跑绿才允许合并。
Lint / 类型检查 / 静态分析作为门禁	纳入 CI 流程，AI 生成的代码同样要过这些检查，不开后门。
标记 AI 辅助的改动	在 commit message 中注明「AI-assisted」，便于事后追踪问题代码来源、统计 AI 改动的质量。
危险操作二次确认	AI 生成的 SQL `DELETE`/`UPDATE`、Shell `rm`、生产部署脚本，先在测试环境跑通，并要求模型输出「影响范围说明」。
锁定模型版本	核心项目固定使用具体模型（如 `qwen/qwen3.5-397b-a17b`）而非 `auto` 或「最新」别名，避免路由变化 / 模型升级导致输出风格、质量突变影响稳定性。

行业最佳实践 · 总览

下面 8 个行业章节均按统一结构展开：行业现状（核心矛盾与约束）→ 分部门最佳实践（场景/工具/模型/注意事项）→ 工具配置参考 → 本行业成本与质量要点（链接回方法论）。可直接跳转到所属行业：

教育智能助教、校园问答、批改辅助医疗HIS/EMR、导诊问答、数据脱敏互联网大型代码库、客服机器人、SRE 工业制造嵌入式/PLC、MES对接、设备知识库金融风控规则、合规检索、核心系统外围零售电商客服机器人、商品文案、大促保障政务政务系统、政策问答、信创适配法律服务合同审查、法条检索、文书起草

行业最佳实践 · 教育

行业现状

在线教育平台、K12/职业培训机构、高校信息化部门正在快速把 AI 编程工具引入教学与管理系统开发。共同特点：IT 人手有限、预算敏感、面向学生/家长的内容必须保证准确（错误的知识性回答会直接影响教学质量与口碑）。AI 工具的价值主要体现在「降低开发与答疑的人力成本」，但必须配套成本管控与准确性校验。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
教务 / 信息中心（IT）	校务系统、选课系统、成绩管理系统的开发与维护	Cursor / Cline	`qwen/qwen3.5-122b-a10b`	系统改动遵循小步提交 + CI 测试，选课等核心流程改动需人工 review
教学 / 院系（教师）	课程案例代码、习题与参考答案生成、作业批改建议	Cursor / Continue	`auto` / `qwen/qwen3.5-122b-a10b`	涉及知识性内容（概念解释、知识点）时要求模型标注依据，降低幻觉，教师终审后才发给学生
学生事务 / 教务咨询	选课、请假、奖助学金等政策类 FAQ 机器人	Coze	`deepseek-ai/deepseek-v4-flash` / `auto`	必须接入校务政策知识库做 RAG，避免编造政策条款；上线前及上线后定期抽样核对（见减少幻觉）
培训机构 - 课程研发部	批量生成课件示例代码、配套练习与自动化测试用例	Trae（Agent 模式）	`auto`	批量任务用非流式脚本化调用，控制成本；生成的示例代码需跑通测试再纳入课件
图书馆 / 资料中心	文献与电子资料检索问答	Coze 知识库	`auto`	强制要求标注来源链接/页码，便于学生溯源核实

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	实训项目代码生成、作业代码风格统一	`qwen/qwen3.5-122b-a10b` / `auto`	Settings → Models → OpenAI Compatible，见Cursor 配置
Trae	AI 助教快速搭建教学 Demo、自动生成讲义示例代码	`auto`（性价比高）	设置 → 模型服务 → 添加自定义模型，见下方示例
Coze	校园答疑机器人、选课/教务咨询助手	`deepseek-ai/deepseek-v4-flash` / `auto`	工作流中用「HTTP 请求」节点调用 `/v1/chat/completions`
Cline	VSCode 内逐步讲解代码、引导式编程教学	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	多校区/多班级统一分发 `config.json` 模板	`auto`	团队共享配置，统一 Key 便于用量统计

Trae 接入示例（其余行业同理，可复用此配置）

打开 Trae → 设置 → 模型服务（Model Service）。

选择「添加自定义模型 / Custom Model Provider」，类型选择 OpenAI Compatible。

填入以下参数：

Base URL:  https://tokensrelay.cn/v1
API Key:   sk-xxxxxxxxxxxxxxxxxxxxxxxx
Model:     auto  （或 qwen/qwen3.5-122b-a10b、deepseek-ai/deepseek-v4-flash 等）

本行业成本与质量要点

成本：学生/课程数量大，优先用 auto 或低价模型（见成本控制）；按班级/项目创建子令牌并设置月度上限。
幻觉：所有面向学生/家长的知识性回答必须 RAG + 标注来源，定期抽样核对（见减少幻觉）。
稳定性：校务系统类改动遵循小步提交 + CI 门禁（见代码稳定性），避免选课/成绩等核心流程因 AI 改动出错。

行业最佳实践 · 医疗

行业现状

医院信息科、互联网医疗企业、医疗软件供应商对 AI 编程工具的态度是「积极但谨慎」：开发效率需求强烈，但数据合规（类 HIPAA 要求）与内容准确性要求极高——任何幻觉或误操作都可能演变为医疗安全事件，因此数据安全是第一优先级。以下场景均针对开发/办公环境，不涉及向模型直接传输患者隐私数据。

⚠️ 严禁将患者姓名、身份证号、病历号、检验报告原文等 PII/PHI 直接粘贴给任何 AI 工具（包括 Cursor、Coze 机器人等）。如需让 AI 处理真实数据，必须先经过脱敏 / 去标识化处理，或仅在本地隔离环境中使用本地模型。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
信息科 / IT 中心	HIS/LIS/EMR 系统开发维护、第三方接口对接	Cursor	`qwen/qwen3.5-397b-a17b`（架构）/ `qwen/qwen3.5-122b-a10b`（日常）	严格执行代码稳定性流程，核心模块（处方、医嘱、收费）改动需双人 review + 灰度发布
患者服务部 / 导诊台	导诊咨询、预约提醒、科室介绍问答	Coze	`deepseek-ai/deepseek-v4-flash`	仅限通用知识，RAG 接入医院公开资料，绝不提供诊断建议；定期抽样人工核对（见减少幻觉）
医务部 / 临床科室	文献检索辅助、病历模板与说明文书草稿生成	Continue	`qwen/qwen3.5-122b-a10b`	输入数据须先脱敏（见上方警告）；AI 输出必须经医生复核后才能使用，不可直接采信
科研部	论文与文献综述检索、总结、初稿撰写	Cursor / Cline	`qwen/qwen3.5-397b-a17b`	要求模型标注文献来源，人工核对引用真实性——这是医疗场景减少幻觉的关键环节，编造文献是常见幻觉类型
运维 / 信息安全部	日志与接口安全审查脚本、合规扫描	Cline	`qwen/qwen3.5-122b-a10b`	在 Prompt 模板中加入「检查是否存在 PII/PHI 泄露」固定检查项

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	HIS/LIS/EMR 系统代码重构、接口合规性审查	`qwen/qwen3.5-397b-a17b`（复杂架构）/ `qwen/qwen3.5-122b-a10b`（日常）	同Cursor 配置；建议在 Prompt 中要求模型不要回显示例数据
Trae	院内管理系统（排班、库存、设备台账）快速原型	`auto`	见Trae 接入示例
Coze	导诊咨询、预约提醒、科室介绍等通用医学知识问答机器人	`deepseek-ai/deepseek-v4-flash`	仅接入公开知识库，不连真实 HIS 数据库
Cline	代码审查时检查日志/接口是否意外打印敏感字段	`qwen/qwen3.5-122b-a10b`	在 Prompt 模板中加入「检查是否存在 PII 泄露」检查项
Continue	团队统一脱敏 Prompt 模板分发（JetBrains/VSCode）	`auto`	`config.json` 中预设 systemMessage，强调脱敏要求

本行业成本与质量要点

成本：为每个科室/项目单独开通子令牌并设置较低的日限额，结合限流策略降低误操作风险（见成本控制）。
幻觉：面向患者/临床的回答必须 RAG + 来源可追溯 + 人工抽查；科研引用必须人工核实真实性（见减少幻觉）。幻觉在医疗场景等同于安全风险，容忍度为零。
稳定性：HIS 核心模块改动遵循双人 review + 灰度发布，危险 SQL/脚本必须先在测试环境验证（见代码稳定性）。

行业最佳实践 · 互联网

行业现状

互联网/科技公司技术团队规模大、迭代节奏快，AI 编程工具已成为日常开发标配。核心矛盾不再是"要不要用"，而是"效率提升"与"代码质量/成本失控"之间的平衡——大团队若缺乏统一规范，很容易出现模型滥用导致成本暴涨，或 AI 改动未经把关引入隐患。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
后端研发	接口开发、数据库迁移脚本、性能优化	Cursor	`qwen/qwen3.5-122b-a10b`（日常）/ `qwen/qwen3.5-397b-a17b`（架构）	数据库迁移类脚本必须先在测试环境验证，遵循代码稳定性中的危险操作二次确认
前端研发	组件开发、样式调整、批量重构	Cursor / Cline	`qwen/qwen3.5-122b-a10b`	小步提交 + 视觉回归测试，避免大范围自动应用改动
测试 / QA	测试用例生成、自动化测试脚本编写	Cline	`auto`	AI 生成的测试反哺代码稳定性门禁，是性价比最高的应用之一
运维 / SRE	部署脚本、监控告警规则、故障排查辅助	Cline	`qwen/qwen3.5-122b-a10b`	危险命令（重启、扩缩容、删除资源）必须二次确认，先在预发环境验证
客服 / 运营	用户咨询机器人、运营文案与活动素材生成	Coze	`auto`	RAG 接入产品文档/价格表，降低答错版本号、价格等事实性幻觉
产品 / 数据分析	数据查询 SQL 生成、报表自动化	Continue	`auto` / `qwen/qwen3.5-122b-a10b`	生成的 SQL 先在只读副本验证，避免幻觉字段名导致报表数据错误

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	大型 monorepo 多文件重构、PR 自动审查	架构评审用 `qwen/qwen3.5-397b-a17b`，日常用 `qwen/qwen3.5-122b-a10b`	见Cursor 配置
Trae	Agent 模式批量生成微服务脚手架/接口文档	`auto` / `auto`	见Trae 接入示例
Coze	客服机器人、内部知识库问答、运营数据查询助手	`auto`（按问题复杂度自动路由）	工作流「HTTP 请求」节点调用 `/v1/chat/completions`，详见下方示例
Cline	CI/CD 脚本、部署脚本、运维 Runbook 编写	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	全团队统一 `config.json`，按角色分配模型（初级工程师用 `auto` 控成本，高级工程师用 `qwen/qwen3.5-397b-a17b`）	分级配置	多模型条目，团队成员各自选择

Coze 工作流接入示例（客服/知识库场景）

在 Coze 工作流中添加「HTTP 请求」节点：

Method: POST
URL:    https://tokensrelay.cn/v1/chat/completions
Headers:
  Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxx
  Content-Type: application/json
Body:
{
  "model": "auto",
  "messages": [
    {"role": "system", "content": "你是XX公司的客服助手"},
    {"role": "user", "content": "{{user_input}}"}
  ]
}

将返回结果中的 choices[0].message.content 映射到下一节点，作为机器人回复。

本行业成本与质量要点

成本：大规模团队优先用 auto + 按部门子令牌设预算（见成本控制）；高并发客服场景默认 auto，复杂问题再升级到更强模型(如 qwen/qwen3.5-397b-a17b、moonshotai/kimi-k2.6)。
幻觉：客服/运营类必须 RAG 接入最新产品文档与价格表，避免回答过时信息（见减少幻觉）。
稳定性：研发类核心改动遵循小步提交 + CI 门禁 + 危险操作二次确认（见代码稳定性），AI 改动建议在 commit message 中标注以便追踪。

行业最佳实践 · 工业制造

行业现状

制造企业的 IT/研发力量普遍薄弱，存量系统多为老旧的 C/C++、PLC、VB 代码，文档缺失严重。AI 工具的核心价值是「读懂老代码」「快速对接新系统」与「把老师傅的经验数字化成知识库」。同时车间网络环境特殊（内网、出口受限、弱网），接入方案需要兼顾安全审计与可用性。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
研发部（嵌入式/PLC）	老代码注释补全、Bug 定位、通信协议解析代码生成	Cursor	`qwen/qwen3.5-122b-a10b`	嵌入式代码改动必须先在仿真环境/测试设备验证，遵循代码稳定性
信息化部（MES/ERP 对接）	系统集成脚本、数据接口开发	Trae	`auto`	涉及生产数据的接口先在测试库跑通，确认字段映射无误后才接生产
设备维护部	设备说明书/故障代码知识库问答，供产线技术员现场查询	Coze	`deepseek-ai/deepseek-v4-flash`	RAG 接入设备手册 PDF，避免编造故障代码含义——故障知识库的幻觉可能直接导致误维修甚至安全事故
质量部	检测数据分析脚本、质量报表自动化	Continue	`auto`	统计类结果要求展示计算过程/中间数据，便于核验避免幻觉
安全 / 网络部	工控网络访问策略脚本审查、出口防火墙规则维护	Cline	`qwen/qwen3.5-122b-a10b`	涉及防火墙/工控网配置变更需双人确认，禁止 AI 直接落地生产配置

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	嵌入式 C/C++、PLC 脚本审查与重构	`qwen/qwen3.5-122b-a10b`	见Cursor 配置
Trae	MES/SCADA 数据接口对接脚本快速生成	`auto`	见Trae 接入示例
Coze	设备说明书/故障代码知识库问答，供产线技术员现场查询	`deepseek-ai/deepseek-v4-flash`	见Coze 工作流示例，知识库内容建议预先整理为 FAQ 文档
Cline	老旧工业控制系统代码补充注释与文档	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	工厂内网环境统一接入配置，便于安全审计	`auto`	统一通过公司出口网关访问 `https://tokensrelay.cn/v1`，便于日志留存

工厂网络常有出口限制，确保 tokensrelay.cn 域名在防火墙白名单中；如需固定 IP，可联系客服获取出口 IP 段。

本行业成本与质量要点

成本：批量脚本类任务（数据转换、报表）优先用低价模型/auto（见成本控制）。
幻觉：设备故障知识库必须 RAG + 来源可查，杜绝编造故障代码含义（见减少幻觉）。
稳定性：嵌入式/工控相关改动先在仿真或测试设备验证，配置变更双人确认（见代码稳定性）。

行业最佳实践 · 金融

行业现状

银行、证券、保险、消费金融等机构受强监管约束：数据安全分级管理、操作留痕审计、核心交易系统的稳定性要求接近零容错。AI 工具的落地路径通常是「先外围、再核心」——优先在风控规则、合规检索、报表与运营脚本等非核心交易链路试点，积累信任后再逐步扩展。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
科技部 / 研发中心	核心交易系统外围功能开发、第三方 API 对接	Cursor	`qwen/qwen3.5-397b-a17b`（架构）/ `qwen/qwen3.5-122b-a10b`（日常）	核心交易链路改动必须双人 review + 完整回归测试，遵循代码稳定性；AI 辅助优先用于外围/工具类代码
风控部	风控规则脚本、反欺诈特征工程代码	Cline	`qwen/qwen3.5-122b-a10b`	规则上线前必须在历史数据上回测验证，避免 AI 生成的边界条件遗漏
合规部	监管政策检索、合规文档问答	Coze	`deepseek-ai/deepseek-v4-flash`	RAG 接入最新监管文件并标注发文日期/文号，避免引用过期条款（减少幻觉）
客服 / 呼叫中心	智能客服应答、催收话术辅助生成	Coze	`auto`	客户姓名、账号、余额等金融信息严禁直传模型，需先脱敏（参考医疗行业的脱敏要求）
运营 / 产品	报表自动化、营销文案生成	Continue	`auto`	涉及金额、利率、收益率的计算结果必须人工核对，禁止直接采信模型计算

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	核心系统外围功能开发、接口代码审查	`qwen/qwen3.5-397b-a17b` / `qwen/qwen3.5-122b-a10b`	见Cursor 配置
Trae	风控/数据处理脚本快速生成	`auto`	见Trae 接入示例
Coze	合规问答、客服与催收话术辅助	`deepseek-ai/deepseek-v4-flash`	见Coze 工作流示例，知识库需按监管文件版本定期更新
Cline	风控规则脚本编写与审查	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	团队统一接入，按部门分配模型与预算	`auto`	子令牌按部门隔离，便于审计留痕

本行业成本与质量要点

成本：按部门设置独立子令牌并设额度上限，满足监管对操作留痕和成本归因的审计要求（见成本控制）。
幻觉：监管政策类回答必须 RAG + 标注文号/日期 + 人工复核——金融场景下的幻觉等同于合规风险（见减少幻觉）。
稳定性：核心交易系统的稳定性要求高于一般行业，AI 改动需双人 review、完整回归测试和灰度发布（见代码稳定性）。

行业最佳实践 · 零售电商

行业现状

零售/电商企业业务迭代速度快，大促期间流量与调用量会出现数量级波动。AI 应用集中在客服、商品文案、运营脚本与数据分析，目标是在保证商品/价格/库存信息准确的前提下，用更低成本覆盖更大的客服与内容生产量。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
研发部	商品/订单/营销系统开发，大促前性能优化	Cursor	`qwen/qwen3.5-122b-a10b`（日常）/ `qwen/qwen3.5-397b-a17b`（架构）	大促前设代码改动冻结期，AI 辅助的改动同样纳入灰度发布（代码稳定性）
客服部	售前咨询、售后纠纷处理机器人	Coze	`auto`	RAG 接入商品信息、库存与退换货政策，避免答错价格/库存/物流时效（减少幻觉）
运营部	商品文案、营销活动页文案、SEO 内容批量生成	Trae / Continue	`auto` / `deepseek-ai/deepseek-v4-flash`	批量生成场景成本敏感，优先用低价模型/`auto`（成本控制）
供应链 / 仓储部	库存预警脚本、物流系统对接接口	Cline	`qwen/qwen3.5-122b-a10b`	库存扣减、出入库等关键脚本先在测试环境验证
数据分析部	销售数据分析 SQL、报表自动化	Continue	`auto`	SQL 先在只读副本验证，避免幻觉字段名导致报表错误

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	商品/订单/营销系统开发与性能优化	`qwen/qwen3.5-122b-a10b` / `qwen/qwen3.5-397b-a17b`	见Cursor 配置
Trae	批量生成商品文案/营销活动页代码	`auto` / `auto`	见Trae 接入示例
Coze	智能客服、售后机器人	`auto`	见Coze 工作流示例
Cline	库存/物流接口脚本编写	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	数据分析 SQL 辅助生成	`auto`	团队共享配置

本行业成本与质量要点

成本：大促前评估调用量峰值，提前规划配额；批量内容生成默认走 auto 或低价模型（见成本控制）。
幻觉：客服类幻觉直接影响转化率与投诉率，价格/库存/物流信息必须 RAG 实时同步（见减少幻觉）。
稳定性：价格、库存相关代码改动走严格的小步提交 + 测试验证（见代码稳定性），大促期间冻结非必要改动。

行业最佳实践 · 政务

行业现状

数字政府建设加速推进，AI 工具被用于政务系统开发、政策法规问答与市民服务热线。本行业有三个突出特点：涉及公民个人信息，数据安全要求最高；政策解读错误会直接影响政府公信力，准确性要求极高；部分场景需考虑信创/国产化适配。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
信息中心	政务系统开发维护、数据共享接口对接	Cursor	`qwen/qwen3.5-122b-a10b`	涉及公民个人信息的接口必须先用脱敏测试数据验证（参考医疗行业脱敏要求）
政务服务大厅	办事指南、所需材料清单问答机器人	Coze	`deepseek-ai/deepseek-v4-flash`	严格 RAG 接入官方政策文件，杜绝编造办事流程或材料要求——此类幻觉会直接影响群众办事体验
法规 / 政策研究室	法规检索、政策文件起草辅助	Cursor / Cline	`qwen/qwen3.5-397b-a17b`	输出内容必须人工审核，并标注所依据的法规名称与条款号
12345 热线 / 客服中心	市民诉求分类、常见问题解答	Coze	`auto`	诉求内容涉及个人信息时需脱敏后再处理或分析
信息化运维部	系统巡检脚本、安全审计	Cline	`qwen/qwen3.5-122b-a10b`	涉及内网/政务专网的系统需先评估是否适合走外部网关，必要时采用内网部署方案

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	政务系统开发维护	`qwen/qwen3.5-122b-a10b`	见Cursor 配置
Trae	数据共享接口/政务小程序快速开发	`auto`	见Trae 接入示例
Coze	办事指南、热线问答机器人	`deepseek-ai/deepseek-v4-flash`	见Coze 工作流示例，知识库需随政策更新同步维护
Cline	系统巡检、安全审计脚本	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	法规检索辅助、跨部门共享配置	`qwen/qwen3.5-397b-a17b`	团队共享配置，统一令牌便于留痕

本行业成本与质量要点

成本：按业务系统/科室设置子令牌与额度，便于经费核算与审计（见成本控制）。
幻觉：政策与办事流程类回答必须 RAG + 标注法规依据 + 人工审核，幻觉直接影响政府公信力（见减少幻觉）。
稳定性：涉及公民信息的系统改动遵循脱敏测试 + 双人 review（见代码稳定性）；信创环境下优先评估 qwen/deepseek 等国产模型的适配性。

行业最佳实践 · 法律服务

行业现状

律所与企业法务部门正在用 AI 辅助合同审查、法律检索与文书起草，效率提升明显，但对准确性与保密性的要求极高——执业要求决定了 AI 输出只能作为「初稿/辅助」，最终责任仍由执业律师承担；客户资料的保密义务也要求严格的数据处理规范。

分部门最佳实践

部门	核心 AI 应用场景	推荐工具	推荐模型	关键注意事项
律师 / 法务团队	合同审查、条款风险提示、法律意见书初稿	Cursor / Cline	`qwen/qwen3.5-397b-a17b`	AI 输出仅作初稿，最终意见必须由执业律师审核签字；客户合同内容的保密性参考医疗行业的脱敏思路
法律检索 / 研究	法条与案例检索、要点摘要	Cline	`qwen/qwen3.5-122b-a10b`	要求标注法条/案例的具体编号与来源，人工核实真实性——编造法条或案例是法律场景最危险的幻觉类型
客户咨询 / 法律热线	常见法律问题 FAQ 机器人	Coze	`deepseek-ai/deepseek-v4-flash`	机器人需在回复中明确「仅供参考，非正式法律意见」，并 RAG 接入权威法规库
行政 / 知识管理	内部知识库整理、文书模板生成	Continue	`auto`	模板生成后需人工核对格式与适用法律版本是否最新

工具配置参考

工具	典型场景	推荐模型	配置要点
Cursor	合同审查辅助、风险条款标注	`qwen/qwen3.5-397b-a17b`	见Cursor 配置
Trae	文书模板批量生成	`auto`	见Trae 接入示例
Coze	法律咨询 FAQ 机器人	`deepseek-ai/deepseek-v4-flash`	见Coze 工作流示例
Cline	法条/案例检索与摘要	`qwen/qwen3.5-122b-a10b`	见Cline 配置
Continue	内部知识库整理与维护	`auto`	团队共享配置

本行业成本与质量要点

成本：检索/摘要类高频任务可用 auto 或性价比模型，合同审查等关键任务用强模型（见成本控制）。
幻觉：法条与案例引用必须可追溯到具体编号并人工核实，杜绝"看似真实"的编造引用（见减少幻觉）。
稳定性：AI 输出定位为辅助初稿，所有对外文件须经执业人员审核确认后才能发出（见代码稳定性中"人工复核"的同等原则）。

优惠券 / 兑换码

如果你拿到了 TokensRelay 的优惠券或兑换码，可以在控制台兑换为账户余额。

兑换方式：控制台操作

点击顶部导航充值，或前往控制台 → 充值。

在页面底部找到 兑换码 / 优惠券 输入框，粘贴你的码并点击兑换。

兑换成功后余额实时到账，可在个人中心查看。

兑换码区分大小写，每个码只能使用一次，兑换后不可退回。

优惠券获取渠道

官方活动 / 推广（关注公告）
邀请新用户注册（邀请码奖励）
提交工单咨询客服

充值

访问控制台 → 充值进行在线充值。余额按实际 API 用量扣减，无月费。

余额不足时 API 将返回 402 错误。建议开启余额提醒（控制台 → 个人设置）。

限流

为保障公平使用，接口存在速率限制。超限会返回 429，建议客户端实现指数退避重试。

范围	默认限制
单 IP / 对话接口	高并发突发缓冲，超出排队或拒绝
账户级	按套餐/余额，详见控制台

错误码

HTTP	含义	处理建议
`401`	未提供或无效令牌	检查 Authorization / x-api-key 头与 Key 是否吊销
`402`	余额不足	前往控制台充值或兑换优惠码
`403`	令牌无权使用该模型	该令牌可用模型范围不含此模型，换模型或调整令牌权限
`429`	触发限流	降低频率，指数退避重试
`502 / 503`	上游/网关异常。`503「无可用渠道」`=模型不存在或后端未配置（如 `claude-`/`gpt-`/embedding）；`502 proxy_error`=`auto` 全部候选失败	改用可用模型或稍后重试；持续异常见状态页

// OpenAI 格式错误
{"error": {"message": "余额不足", "type": "tokensrelay_error", "code": 402}}

// Anthropic 格式错误
{"type": "error", "error": {"type": "api_error", "message": "余额不足"}}

上游为聚合的多家第三方模型，偶发 5xx 与延迟波动属正常现象。生产环境请对 429 / 5xx 实现自动重试 + 指数退避，或直接使用 auto（自带失败切换）。受上游负载影响，各模型延迟波动较大——实测同一模型首字延迟可在 1s 到数十秒之间浮动（大参数模型如 qwen/qwen3.5-397b-a17b 常态 ~30s+）。建议开启流式输出改善体感，并将客户端超时调大到 90s 以上。

常见问题

可以用官方 Anthropic SDK 接入吗？

可以。设置 base_url="https://tokensrelay.cn"（不加 /v1）和 api_key 为你的 TokensRelay Key 即可，代码其余部分与访问 Anthropic 官方完全一致。详见 Python Anthropic SDK 或 Node.js Anthropic SDK 示例。

能直接用 LangChain / LlamaIndex / Cursor / Continue 吗？

可以。任何支持自定义 OpenAI base_url 的工具都能接入，填 https://tokensrelay.cn/v1 与你的 Key 即可。详细步骤见客户端工具 → Cursor / Continue。

Cline / Claude Code 怎么配置？

见Cline 配置与Claude Code 配置章节，均有逐步说明。Claude Code 支持 5 种配置方式（环境变量、settings.json、项目级配置、内联变量、--settings 参数）。

Claude Code 配置完成后如何确认连的是 TokensRelay？

运行 echo $ANTHROPIC_BASE_URL 确认输出为 https://tokensrelay.cn；或运行 claude -p "say hi" --model qwen/qwen3.5-397b-a17b，若有响应则连接成功。也可以执行 claude doctor 查看配置来源。

OpenAI 格式和 Anthropic 格式可以用同一个 Key 吗？

可以。同一个 TokensRelay Key 同时适用于两种格式，共享账户余额，无需分别申请。

支持函数调用 / 工具吗？

支持。OpenAI 格式透传 tools / tool_choice 字段；Anthropic 格式支持 tool_use 内容块与 tool_result 多轮对话（取决于所选上游模型能力）。

服务是否稳定？

实时运行状态见状态页。

如何在线测试模型？

访问在线 Playground，无需写代码，直接在浏览器中选模型、发消息、看流式输出。

需要帮助？提交工单 · 在线 Playground · 返回控制台

TokensRelay API 文档

介绍

OpenAI 兼容格式

Anthropic 原生格式 NEW

鉴权

快速开始

OpenAI 格式

Anthropic 格式

Chat Completions

请求参数

响应示例

Messages（Anthropic 原生格式）NEW

Base URL

请求参数

响应示例（非流式）

stop_reason 映射

Tool Use 示例

流式输出

OpenAI 格式流式

Anthropic 格式流式

模型列表

智能路由 (model = auto)

Embeddings

Python SDK — OpenAI 格式

Python SDK — Anthropic 原生格式NEW

Node.js SDK — OpenAI 格式

Node.js SDK — Anthropic 原生格式NEW

cURL

OpenAI 格式

Anthropic 格式

Cline（VSCode AI 编程助手）

配置步骤

Claude Code — 接入 TokensRelay 完整指南

工作原理

第 0 步：安装 Claude Code

配置方式（任选其一）

方式 A：写入 Shell 配置文件（推荐 · 永久生效）

方式 B：写入 ~/.claude/settings.json（永久生效 · 无需修改 Shell）

方式 C：项目级配置（仅对当前项目生效）

方式 D：运行时内联（单次使用 · 不影响全局）

方式 E：通过 --settings 传入 JSON（脚本自动化）

模型选择

验证连接

常用操作示例

交互模式（最常用）

非交互模式 -p / --print（脚本 / 管道）

多端点快速切换（alias 技巧）

故障排查

Codex CLI（OpenAI 官方 CLI）

安装 & 配置

Cursor / Continue / 其他工具

Cursor

Continue（VSCode/JetBrains 插件）

LangChain / LlamaIndex

Coze（字节 Bot 平台）

配置步骤

Dify

配置步骤

故障排查

NextChat（ChatGPT Next Web）

方式 A：Vercel 部署

方式 B：Docker

方式 C：Docker Compose

方式 D：已有实例手动配置

Claude Code Desktop

配置步骤

故障排查

OpenAI Codex Desktop

~/.codex/auth.json

~/.codex/config.toml

OpenCode

安装

配置文件

OpenClaw

安装

配置

Hermes Agent（Nous Research）

安装

配置

故障排查

方式 B：写入 `~/.claude/settings.json`（永久生效 · 无需修改 Shell）

方式 E：通过 `--settings` 传入 JSON（脚本自动化）

非交互模式 `-p / --print`（脚本 / 管道）