TokensRelay API 文档

同时兼容 OpenAIAnthropic 两套 API 格式。把现有代码里的 base_url 换成我们的地址,无需改动其他逻辑。

→ 在线 Playground:无需写代码,直接在浏览器里测试模型

介绍

TokensRelay(搬运工)是一个 AI 模型聚合网关,把 OpenAI、Anthropic Claude、Google Gemini、DeepSeek、Qwen 等数十家上游统一接入。你用一个 API Key,就能调用全部模型。

OpenAI 兼容格式

POST /v1/chat/completions

适合:所有支持 OpenAI API 的工具(Cline、Cursor、LangChain、LlamaIndex…)

鉴权头:Authorization: Bearer sk-...

Anthropic 原生格式 NEW

POST /v1/messages

适合:官方 Anthropic SDK、Claude Code、直接用 anthropic 库的项目

鉴权头:x-api-key: sk-...

两种格式使用同一个 API Key,共享同一余额。只需换 Base URL 和库,代码逻辑无需改动。

鉴权

控制台 → 令牌 创建一个 API Key,根据所用 API 格式携带对应请求头:

API 格式请求头
OpenAI 兼容(/v1/chat/completions)Authorization: Bearer sk-xxxxxxxx
Anthropic 原生(/v1/messages)x-api-key: sk-xxxxxxxx
⚠️ API Key 等同于账户密钥,请勿写死在前端代码或提交到 Git 仓库。建议放入环境变量。泄露后请立即在控制台吊销。

快速开始

三步开始调用:

OpenAI 格式

curl https://tokensrelay.cn/v1/chat/completions \
  -H "Authorization: Bearer $TOKENSRELAY_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "auto",
    "messages": [{"role": "user", "content": "你好,介绍一下你自己"}]
  }'

Anthropic 格式

curl https://tokensrelay.cn/v1/messages \
  -H "x-api-key: $TOKENSRELAY_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen/qwen3.5-122b-a10b",
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "你好,介绍一下你自己"}]
  }'

Chat Completions

POST /v1/chat/completions

请求参数

参数类型说明
modelstring模型名,或 auto 触发智能路由
messagesarray对话消息列表,含 rolecontent
streambool是否流式返回(SSE),默认 false
temperaturenumber采样温度 0–2,默认 1
max_tokensint最大生成 token 数
toolsarray函数调用 / 工具定义(兼容 OpenAI tools)

响应示例

{
  "id": "chatcmpl-xxx",
  "object": "chat.completion",
  "model": "deepseek-ai/deepseek-v4-flash",
  "choices": [{
    "index": 0,
    "message": {"role": "assistant", "content": "你好!我是……"},
    "finish_reason": "stop"
  }],
  "usage": {"prompt_tokens": 12, "completion_tokens": 28, "total_tokens": 40}
}

Messages(Anthropic 原生格式)NEW

POST /v1/messages

兼容 Anthropic 官方 Messages API 格式,让使用 anthropic SDK 的项目无缝接入,无需改动业务逻辑。

本节示例中的 model 多以 claude-sonnet-4-5 为例。默认部署未接入真 Claude 渠道,直接调用 claude-* 会返回 503 无可用渠道;请改用实际可用模型(如 qwen/qwen3.5-122b-a10bdeepseek-ai/deepseek-v4-flash)。Anthropic 路径不支持 auto(智能路由仅在 OpenAI 路径生效),需指定具体模型名。如需启用 Claude,请提交工单开通渠道。

Base URL

地址
主域名https://tokensrelay.cn
API 专属域名https://api.tokensrelay.cn(需有 HTTPS 证书,待配置)
Anthropic SDK 会自动在 base_url 后追加 /v1/messages,所以填写时不要加 /v1 后缀。

请求参数

参数类型必填说明
modelstring模型名,如 qwen/qwen3.5-122b-a10bclaude-* 需先开通渠道(Anthropic 路径不支持 auto
messagesarray对话消息列表,含 role(user/assistant)与 content
max_tokensint最大生成 token 数(Anthropic 要求必填)
systemstring系统提示,字符串或内容块数组
streambool是否流式返回(SSE),默认 false
temperaturenumber采样温度 0–1
top_pnumber核采样阈值
stop_sequencesarray停止序列列表
toolsarray工具定义(Anthropic tool_use 格式)
tool_choiceobject工具选择策略:auto / any / tool

响应示例(非流式)

{
  "id": "msg_01XFDUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  "model": "claude-sonnet-4-5",
  "content": [{"type": "text", "text": "你好!我是 Claude……"}],
  "stop_reason": "end_turn",
  "stop_sequence": null,
  "usage": {"input_tokens": 12, "output_tokens": 30}
}

stop_reason 映射

含义
end_turn正常结束
max_tokens达到 max_tokens 上限
tool_use模型请求调用工具

Tool Use 示例

curl https://tokensrelay.cn/v1/messages \
  -H "x-api-key: $TOKENSRELAY_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "tools": [{
      "name": "get_weather",
      "description": "查询城市天气",
      "input_schema": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "城市名"}
        },
        "required": ["city"]
      }
    }],
    "messages": [{"role": "user", "content": "北京今天天气怎么样?"}]
  }'

流式输出

OpenAI 格式流式

设置 "stream": true,服务端将以 Server-Sent Events 持续推送增量片段,最后以 data: [DONE] 结束。

data: {"choices":[{"delta":{"content":"你"}}]}
data: {"choices":[{"delta":{"content":"好"}}]}
data: [DONE]

Anthropic 格式流式

设置 "stream": true,服务端将按 Anthropic SSE 协议推送事件序列:

event: message_start
data: {"type":"message_start","message":{"id":"msg_xxx","type":"message","role":"assistant","content":[],"model":"claude-sonnet-4-5","stop_reason":null,"usage":{"input_tokens":0,"output_tokens":0}}}

event: content_block_start
data: {"type":"content_block_start","index":0,"content_block":{"type":"text","text":""}}

event: content_block_delta
data: {"type":"content_block_delta","index":0,"delta":{"type":"text_delta","text":"你好"}}

event: content_block_stop
data: {"type":"content_block_stop","index":0}

event: message_delta
data: {"type":"message_delta","delta":{"stop_reason":"end_turn","stop_sequence":null},"usage":{"input_tokens":12,"output_tokens":5}}

event: message_stop
data: {"type":"message_stop"}

模型列表

GET /v1/models

返回当前账户可用的全部模型,GET /v1/models 实时返回为准(实测约 90+ 个)。实际可用模型以 GET /v1/models控制台为准。下表为默认部署即可直接调用的代表性模型(2026-06 实测验证):

类别示例模型可用性
智能路由(推荐)auto仅 OpenAI 路径 /v1/chat/completions
高性价比 / 快速deepseek-ai/deepseek-v4-flash✅ 默认可用
强通用 / 复杂任务qwen/qwen3.5-397b-a17b, moonshotai/kimi-k2.6, z-ai/glm-5.1, mistralai/mistral-large-3-675b-instruct-2512✅ 默认可用
均衡qwen/qwen3.5-122b-a10b, meta/llama-3.3-70b-instruct✅ 默认可用
视觉meta/llama-3.2-90b-vision-instruct⚠️ 仅文本验证可用;图片输入(image_url)当前上游不稳定
Claude / GPT / Embedding需开通渠道claude-sonnet-4-5, gpt-4o, text-embedding-3-small需后台配置对应官方渠道
关于模型可用性:auto 与命名空间形式的模型(deepseek-ai/*qwen/*meta/*moonshotai/*z-ai/* 等)默认部署即可直接调用。claude-*gpt-*text-embedding-* 等官方模型名需先在后台配置对应官方渠道,未配置时调用会返回 503 无可用渠道——如需请提交工单开通。下方所有以 claude-sonnet-4-5 为例的代码片段,默认环境下请把 model 换成实际可用模型(如 qwen/qwen3.5-122b-a10b)。
⚠️ auto 智能路由仅在 OpenAI 路径 /v1/chat/completions 生效;Anthropic 路径 /v1/messages 不支持 auto,需指定具体模型名。

智能路由 (model = auto)

这是 TokensRelay 的特色能力。当你设置 "model": "auto" 时,网关会分析你的请求内容,自动选择最合适的模型:

{
  "model": "auto",
  "messages": [{"role": "user", "content": "用 Python 写一个快速排序"}]
}
// → 自动路由到代码模型
失败切换:auto 内置多模型竞速与失败冷却——当某个上游模型超时或报错时自动切换到备用模型,比固定指定单一模型更能抵抗上游抖动。这也是高并发 / 客服场景推荐默认用 auto 的原因之一。注意 auto 仅在 OpenAI 路径 /v1/chat/completions 生效,Anthropic 路径 /v1/messages 需指定具体模型名。

Embeddings

POST /v1/embeddings
curl https://tokensrelay.cn/v1/embeddings \
  -H "Authorization: Bearer $TOKENSRELAY_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"text-embedding-3-small","input":"要向量化的文本"}'
⚠️ Embeddings 需在后台配置嵌入模型渠道后才可用,默认部署未开通 text-embedding-*,直接调用会返回 503 无可用渠道;如需向量化能力请提交工单

Python SDK — OpenAI 格式

直接使用官方 openai 库,只改 base_url

pip install openai
from openai import OpenAI

client = OpenAI(
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",   # TokensRelay Key
    base_url="https://tokensrelay.cn/v1",
)

resp = client.chat.completions.create(
    model="auto",  # 或 qwen/qwen3.5-397b-a17b / deepseek-ai/deepseek-v4-flash ...
    messages=[{"role": "user", "content": "你好"}],
)
print(resp.choices[0].message.content)

# 流式
stream = client.chat.completions.create(
    model="deepseek-ai/deepseek-v4-flash",
    messages=[{"role": "user", "content": "讲个笑话"}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

Python SDK — Anthropic 原生格式NEW

使用官方 anthropic 库,只改 base_url,其余代码与访问 Anthropic 官方完全一致:

pip install anthropic
import anthropic

client = anthropic.Anthropic(
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",   # TokensRelay Key
    base_url="https://tokensrelay.cn",       # 注意:不加 /v1 后缀
)

# 非流式
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system="你是一个专业的 Python 工程师。",
    messages=[{"role": "user", "content": "用 Python 实现二分查找"}],
)
print(message.content[0].text)

# 流式
with client.messages.stream(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "讲个笑话"}],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

# Tool Use
tools = [{
    "name": "get_weather",
    "description": "查询城市天气",
    "input_schema": {
        "type": "object",
        "properties": {"city": {"type": "string"}},
        "required": ["city"],
    },
}]
resp = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=512,
    tools=tools,
    messages=[{"role": "user", "content": "北京今天天气如何?"}],
)
if resp.stop_reason == "tool_use":
    tool_block = next(b for b in resp.content if b.type == "tool_use")
    print(f"调用工具: {tool_block.name}, 参数: {tool_block.input}")

Node.js SDK — OpenAI 格式

npm install openai
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.TOKENSRELAY_KEY,
  baseURL: "https://tokensrelay.cn/v1",
});

const resp = await client.chat.completions.create({
  model: "auto",
  messages: [{ role: "user", content: "你好" }],
});
console.log(resp.choices[0].message.content);

Node.js SDK — Anthropic 原生格式NEW

npm install @anthropic-ai/sdk
import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.TOKENSRELAY_KEY,   // TokensRelay Key
  baseURL: "https://tokensrelay.cn",     // 注意:不加 /v1 后缀
});

// 非流式
const message = await client.messages.create({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  system: "你是一个专业的前端工程师。",
  messages: [{ role: "user", content: "解释一下 React Hooks 的工作原理" }],
});
console.log(message.content[0].text);

// 流式
const stream = client.messages.stream({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  messages: [{ role: "user", content: "写一首关于编程的诗" }],
});
for await (const chunk of stream) {
  if (chunk.type === "content_block_delta" && chunk.delta.type === "text_delta") {
    process.stdout.write(chunk.delta.text);
  }
}

cURL

OpenAI 格式

curl https://tokensrelay.cn/v1/chat/completions \
  -H "Authorization: Bearer $TOKENSRELAY_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"auto","messages":[{"role":"user","content":"Hello"}],"stream":true}'

Anthropic 格式

curl https://tokensrelay.cn/v1/messages \
  -H "x-api-key: $TOKENSRELAY_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 1024,
    "stream": true,
    "messages": [{"role": "user", "content": "你好"}]
  }'

Cline(VSCode AI 编程助手)

Cline 是 VSCode 插件,支持自定义 OpenAI 兼容提供商,可直接接入 TokensRelay。

配置步骤

1

在 VSCode 扩展市场搜索 Cline 并安装。

2

点击左侧 Cline 图标,进入设置(齿轮图标)。

3

API Provider 选择 OpenAI Compatible

4

填入以下参数:

Base URL:  https://tokensrelay.cn/v1
API Key:   sk-xxxxxxxxxxxxxxxxxxxxxxxx(你的 TokensRelay Key)
Model:     auto  (或 qwen/qwen3.5-397b-a17b、deepseek-ai/deepseek-v4-flash 等)
推荐模型:auto 自动选择最优模型;复杂编程指定 qwen/qwen3.5-397b-a17b,追求速度用 deepseek-ai/deepseek-v4-flash。(claude-* 需先开通渠道

Claude Code — 接入 TokensRelay 完整指南

Claude Code 是 Anthropic 官方编程 CLI,底层使用 Anthropic 原生 /v1/messages 协议。TokensRelay 原生支持该协议,只需替换两个配置项即可接入,代码与交互方式完全不变。

工作原理

Claude Code 启动时读取 ANTHROPIC_BASE_URL(或 settings 中的 baseUrl),将其与 /v1/messages 拼接后作为 API 端点,使用 ANTHROPIC_API_KEY(或 apiKey)进行鉴权。只需把这两个值指向 TokensRelay 即可。

Base URL 格式:https://tokensrelay.cn不加 /v1 后缀。Claude Code 会自动拼接 /v1/messages
模型可用性(重要):默认部署未接入真 Claude 渠道,因此 --model claude-* 会返回 503 无可用渠道。Claude Code 仍可正常使用——把 --model 指向平台实际可用的模型即可,例如 --model qwen/qwen3.5-397b-a17b--model deepseek-ai/deepseek-v4-flash(实测 /v1/messages 返回 200)。注意 Anthropic 路径不支持 auto,必须填具体模型名。下文示例中出现的 claude-sonnet-4-5 同理替换。如需真 Claude,请提交工单开通官方渠道。

第 0 步:安装 Claude Code

# 需要 Node.js 18+
npm install -g @anthropic-ai/claude-code

# 验证安装
claude --version

配置方式(任选其一)

方式 A:写入 Shell 配置文件(推荐 · 永久生效)

适合个人主力机,一次配置全局生效。

# 追加到 ~/.zshrc(macOS 默认)或 ~/.bashrc(Linux)
echo 'export ANTHROPIC_BASE_URL=https://tokensrelay.cn' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx' >> ~/.zshrc

# 立即生效
source ~/.zshrc

# 启动 Claude Code
claude

方式 B:写入 ~/.claude/settings.json(永久生效 · 无需修改 Shell)

适合不想污染 Shell 环境的场景,或与他人共用系统时隔离配置。

# 新建或编辑 ~/.claude/settings.json,加入以下字段:
{
  "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
  "baseUrl": "https://tokensrelay.cn"
}
settings.json 中的 apiKey / baseUrl 优先级低于同名环境变量。若环境变量已设置,settings.json 中的对应值会被覆盖。

方式 C:项目级配置(仅对当前项目生效)

在项目根目录创建 .claude/settings.json,内容与方式 B 相同。适合团队共享配置或在不同项目使用不同 API。

mkdir -p .claude
cat > .claude/settings.json <<'EOF'
{
  "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
  "baseUrl": "https://tokensrelay.cn"
}
EOF

方式 D:运行时内联(单次使用 · 不影响全局)

脚本或临时调试时最方便,不改任何配置文件。

ANTHROPIC_BASE_URL=https://tokensrelay.cn \
ANTHROPIC_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx \
claude --model claude-sonnet-4-5 -p "你好"

方式 E:通过 --settings 传入 JSON(脚本自动化)

适合 CI/CD 或需要动态切换配置的场景,无需依赖文件系统。

claude \
  --settings '{"apiKey":"sk-xxxxxxxxxxxxxxxxxxxxxxxx","baseUrl":"https://tokensrelay.cn"}' \
  --model claude-sonnet-4-5 \
  -p "帮我检查这段代码有没有 bug"

模型选择

--model(或 -m)指定模型。支持全名和别名:

命令实际调用模型特点
claude -m claude-sonnet-4-5claude-sonnet-4-5速度与能力均衡,日常编程首选
claude -m claude-sonnet-4claude-sonnet-4上一代 Sonnet
claude -m claude-opus-4claude-opus-4旗舰级,适合复杂架构设计
claude -m sonnet最新 Sonnet官方别名,自动跟随最新版
claude -m opus最新 Opus官方别名,自动跟随最新版
也可以在 ~/.claude/settings.json 中加 "model": "claude-sonnet-4-5" 设为默认,之后启动不需要每次加 --model

验证连接

配置完成后,运行以下命令快速验证:

# 非交互模式单次问答,成功则说明配置正确
claude -p "用一句话介绍你自己" --model qwen/qwen3.5-397b-a17b

常用操作示例

交互模式(最常用)

claude                          # 启动交互会话
claude -m claude-sonnet-4-5    # 指定模型启动
claude -c                      # 继续上次会话
claude -r                      # 选择历史会话恢复

非交互模式 -p / --print(脚本 / 管道)

# 单次问答,结果打印到 stdout
claude -p "这段代码有什么问题?" < main.py

# 管道输入
git diff HEAD~1 | claude -p "总结这次提交的改动"

# 格式化 JSON 输出(适合程序解析)
claude -p "列出5个排序算法" --output-format json

# 流式 JSON(逐 token 到达,适合实时展示)
claude -p "写一首诗" --output-format stream-json

多端点快速切换(alias 技巧)

同时有官方账号和 TokensRelay,用 alias 一键切换。

# 写入 ~/.zshrc 或 ~/.bashrc
alias cc-tr='ANTHROPIC_BASE_URL=https://tokensrelay.cn ANTHROPIC_API_KEY=sk-xxxxxxxx claude'
alias cc-official='env -u ANTHROPIC_BASE_URL -u ANTHROPIC_API_KEY claude'

# 使用
cc-tr -p "帮我 review 这段代码" < service.go   # 走 TokensRelay
cc-official                                    # 走 Anthropic 官方

故障排查

现象原因解决方法
401 UnauthorizedAPI Key 无效或缺失检查 ANTHROPIC_API_KEY 是否包含完整的 sk- 前缀,以及 Key 是否在 TokensRelay 控制台已激活
503 无可用渠道模型名错误或后端未配置确认模型名与模型列表一致;claude-* 等需先开通渠道
连接超时 / ECONNREFUSEDBase URL 格式错误确认填的是 https://tokensrelay.cn,不是 https://tokensrelay.cn/v1
余额不足 402账户余额耗尽前往控制台充值兑换优惠码
响应截断max_tokens 默认值较小在 settings.json 中加 "maxTokens": 8096,或在 Claude Code 会话中用 /config 调整
仍然连 Anthropic 官方环境变量未生效运行 echo $ANTHROPIC_BASE_URL 确认已 export;或改用 settings.json 方式
# 内置健康检查,可显示配置来源和连通性
claude doctor

Codex CLI(OpenAI 官方 CLI)

OpenAI Codex CLI 支持设置 OPENAI_BASE_URL 覆盖默认端点。

安装 & 配置

# 安装
npm install -g @openai/codex

# 配置环境变量
export OPENAI_BASE_URL=https://tokensrelay.cn/v1
export OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx

# 使用
codex "帮我重构这个函数,添加错误处理"
# 或在 ~/.codex/config.yaml 中配置
provider: openai
model: auto
openai:
  baseURL: https://tokensrelay.cn/v1

Cursor / Continue / 其他工具

所有支持 OpenAI 兼容 API 的工具,统一填以下两个参数即可:

参数
API Base / Base URLhttps://tokensrelay.cn/v1
API Key你的 TokensRelay Key(sk-...

Cursor

Settings → Models → Add Model → 选择 OpenAI Compatible,填入上表参数。或在 .cursor/mcp.json 中指定。

Continue(VSCode/JetBrains 插件)

// ~/.continue/config.json
{
  "models": [{
    "title": "TokensRelay Auto",
    "provider": "openai",
    "model": "auto",
    "apiBase": "https://tokensrelay.cn/v1",
    "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
  }]
}

LangChain / LlamaIndex

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="auto",
    api_key="sk-...",
    base_url="https://tokensrelay.cn/v1",
)

Coze(字节 Bot 平台)

Coze 是字节跳动旗下的 AI Bot 搭建平台,支持通过「HTTP 请求」插件调用 TokensRelay OpenAI 兼容接口,无需代理即可直接使用。

配置步骤

1

注册 Coze,创建一个新 Bot,模型随意选一个占位。

2

控制台 → 令牌 获取你的 API Key。

3

在 Coze Bot 的「插件」中,创建一个新的 HTTP 插件(POST 方法),填写端点与鉴权信息。

4

在工作流中加入该插件节点,将 choices[0].message.content 映射为 Bot 回复。

Method:   POST
URL:      https://tokensrelay.cn/v1/chat/completions
Headers:
  Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxx
  Content-Type: application/json
Body:
{
  "model": "auto",
  "messages": [
    {"role": "system", "content": "你是一个智能助手"},
    {"role": "user", "content": "{{input.prompt}}"}
  ]
}
多模型动态切换:可在请求体中用模板变量 "model": "{{input.model|default('auto')}}",让调用方动态选择模型。
⚠️ URL 末尾不要加斜杠,否则会导致路径错误。claude-*/gpt-* 模型需先开通渠道

Dify

Dify 是开源 LLM 应用平台,支持自定义 OpenAI 兼容模型提供商,只需填入 API Key 与 Base URL 即可调用全部 TokensRelay 模型。

配置步骤

1

控制台 → 令牌 生成一个 API Key(如 dify-integration)。

2

打开 Dify → 设置 → 模型供应商 → 安装插件,搜索并安装 OpenAI-API-compatible

3

点击「添加模型」,填写以下参数:

字段填写值说明
API Keysk-xxxxxxxxxxxxxxxxxxxxxxxxTokensRelay 令牌
Base URLhttps://tokensrelay.cn/v1必填,否则 Dify 会连 openai.com
模型名称auto / qwen/qwen3.5-122b-a10b可用模型
4

新建工作流,发送测试消息,请求日志应显示 POST https://tokensrelay.cn/v1/chat/completions

故障排查

错误原因解决方法
401 UnauthorizedKey 无效或缺少 Bearer 前缀确认格式:Authorization: Bearer sk-...
连接超时未填 Base URL 导致请求发到 openai.com确认 Base URL 指向 https://tokensrelay.cn/v1
503 无可用渠道模型未开通改用实际可用模型(如 auto/qwen/qwen3.5-122b-a10b

NextChat(ChatGPT Next Web)

NextChat 是流行的开源 AI 客户端,支持 Vercel 一键部署、Docker 或手动安装,兼容 TokensRelay OpenAI 格式。

⚠️ NextChat 的 BASE_URL 环境变量不加 /v1,NextChat 会自动拼接——填错会导致 404。

方式 A:Vercel 部署

OPENAI_API_KEY = sk-xxxxxxxxxxxxxxxxxxxxxxxx
BASE_URL       = https://tokensrelay.cn        # 注意:不加 /v1
CODE           = my-access-password             # 访问密码

方式 B:Docker

docker run -d -p 3000:3000 \
  -e OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx \
  -e BASE_URL=https://tokensrelay.cn \
  -e CODE=my-access-password \
  yidadaa/chatgpt-next-web

方式 C:Docker Compose

version: '3'
services:
  nextchat:
    image: yidadaa/chatgpt-next-web
    ports:
      - "3000:3000"
    environment:
      OPENAI_API_KEY: sk-xxxxxxxxxxxxxxxxxxxxxxxx
      BASE_URL: https://tokensrelay.cn
      CODE: my-access-password
    restart: unless-stopped

方式 D:已有实例手动配置

打开 NextChat 设置 → 「自定义接口地址」,填入 https://tokensrelay.cn(不加 /v1)和你的 API Key。

模型切换:在 NextChat 下拉菜单选择模型。claude-*/gpt-* 需先开通渠道,可用模型见模型列表

Claude Code Desktop

Claude Code Desktop 是 Anthropic 官方桌面客户端。与命令行版(Claude Code CLI)不同,桌面版的 Base URL 需要加 /v1 后缀。

配置步骤

1

启动 Claude Code Desktop。

2

进入 设置 → Model Provider / API 设置

3

填入以下两个参数:

参数填写值
API Base URL(端点)https://tokensrelay.cn/v1桌面版需加 /v1
API Key(Auth Token)你的 TokensRelay Key(sk-xxxxxxxx
4

在 Model 下拉框选择模型(如 autoqwen/qwen3.5-397b-a17b),保存。

5

发送测试消息验证连接。

同一个 Key 可在 CLI 与 Desktop 间共用,共享余额,无需分别申请。

故障排查

错误解决方法
401 UnauthorizedKey 是否含完整 sk- 前缀,复制时是否有多余空格
404 Not Found确认 URL 是 https://tokensrelay.cn/v1(桌面版需加 /v1,与 CLI 版不同)
503 无可用渠道改用实际可用模型,如 qwen/qwen3.5-122b-a10b

OpenAI Codex Desktop

Codex Desktop 桌面客户端通过 ~/.codex/ 目录下的配置文件接入(Windows:%USERPROFILE%\.codex\)。

⚠️ wire_api 必须设为 "responses"(而非 "chat"),否则 Codex Desktop 无法正常工作。

~/.codex/auth.json

{
  "OPENAI_API_KEY": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
}

~/.codex/config.toml

model_provider = "tokensrelay"
model = "auto"
wire_api = "responses"          # 必须为 responses,不能是 chat
disable_response_storage = true
preferred_auth_method = "apikey"

[model_providers.tokensrelay]
name = "tokensrelay"
base_url = "https://tokensrelay.cn/v1"   # /v1 不可省略

修改后完全退出 Codex Desktop 并重启以使配置生效。

OpenCode

OpenCode 是开源 AI 编程 CLI,通过 JSON 配置文件支持自定义 OpenAI 兼容提供商。

安装

# npm 安装
npm install -g opencode-ai

# 或脚本安装(macOS/Linux)
curl -fsSL https://opencode.ai/install | bash

# 验证
opencode -v

配置文件

路径:macOS/Linux ~/.config/opencode/opencode.json,Windows C:\Users\[用户名]\.config\opencode\opencode.json

{
  "providers": {
    "tokensrelay": {
      "apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
      "baseURL": "https://tokensrelay.cn/v1"
    }
  },
  "models": {
    "tokensrelay/auto": {
      "contextLength": 200000,
      "maxTokens": 32768
    },
    "tokensrelay/qwen/qwen3.5-122b-a10b": {
      "contextLength": 131072,
      "maxTokens": 32768
    }
  }
}

Provider ID 只能含小写字母和数字。配置修改后需重启 OpenCode 才生效。在会话中用 /models 命令确认可用模型。

OpenClaw

OpenClaw 是支持多技能扩展的 AI Agent 框架,首次运行时通过向导配置 TokensRelay 端点。

安装

# macOS / Linux
curl -fsSL https://openclaw.ai/install.sh | bash
source ~/.zshrc

# Windows(PowerShell 管理员)
iwr -useb https://openclaw.ai/install.ps1 | iex

# 验证
openclaw --version

配置

首次运行 openclaw 启动配置向导,按提示:

看到 ✅ Model connect success 提示即配置成功。

openclaw tui              # 启动 TUI 界面
openclaw skill list       # 查看可用技能
openclaw skill install pdf-kit  # 安装技能

Hermes Agent(Nous Research)

Hermes Agent 是 Nous Research 开发的开源 AI Agent,通过配置文件接入 TokensRelay OpenAI 兼容接口。

安装

# macOS / Linux
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.zshrc

# Windows(PowerShell 管理员)
irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1 | iex

配置

# 运行配置向导
hermes config

选择 OpenAI Compatible 提供商,或手动编辑 ~/.hermes/config.yaml(Windows:%USERPROFILE%\.hermes\config.yaml):

provider:
  type: openai
  api_key: sk-xxxxxxxxxxxxxxxxxxxxxxxx
  base_url: https://tokensrelay.cn/v1   # 必须含 /v1
  model: auto
hermes          # 启动对话
hermes model    # 查看可用模型
# 会话中用 /model 命令切换模型

故障排查

错误解决方法
401 Unauthorized检查 API Key 余额与有效性
404 Not Found确认 Base URL 包含 https:///v1
503 无可用渠道查看模型列表,改用实际可用模型

WorkBuddy(腾讯云)

腾讯云 WorkBuddy 支持添加自定义模型,在模型设置中填入 TokensRelay 端点与 Key 即可调用全部可用模型。

配置步骤

1

控制台 → 令牌 获取 API Key。

2

打开 WorkBuddy → 左下角设置图标 → 模型设置,找到自定义模型配置。

3

填写以下参数:

字段填写值
供应商自定义 / Custom
API Endpointhttps://tokensrelay.cn/v1
API Key你的 TokensRelay Key(sk-...
模型名称autoqwen/qwen3.5-122b-a10b 等(见模型列表
4

回到模型列表,勾选复选框启用该模型(⚠️ 必须勾选,否则仍使用默认配额)。

5

在对话窗口发送测试消息确认正常响应。

故障排查

现象解决方法
仍在扣除默认配额确认在模型列表中已勾选自定义模型
请求失败检查 API Key 余额和端点地址是否正确
503 无可用渠道改用实际可用模型(auto/qwen/*/deepseek-ai/*

方法论 · 成本控制

无论所属行业,企业批量使用 AI 编程/Agent 工具时都会遇到三个共性问题:怎么在完成工作的前提下尽量省钱、怎么减少模型"一本正经地编造"(幻觉),以及怎么保证 AI 改出来的代码不出生产事故。本节给出通用方法,下方各行业章节会引用这里的做法。

分场景的模型选择策略

场景推荐策略示例模型
简单/重复任务(格式化、加注释、简单 CRUD、常见 FAQ)用低价快速模型,或交给智能路由deepseek-ai/deepseek-v4-flashauto
复杂架构设计、跨模块重构、疑难 Bug用强模型,必要时多轮对话深入分析qwen/qwen3.5-397b-a17bmoonshotai/kimi-k2.6mistralai/mistral-large-3-675b-instruct-2512
高频客服 / 知识库问答默认走 auto,按问题复杂度自动路由,复杂问题再升级auto
批量脚本任务(批量生成/批量翻译/批量分析)非流式 + 脚本化批处理,避免交互式逐条调用的浪费任意
团队/部门预算管理为每个部门/项目创建独立子令牌,设置月度额度与限流,便于成本归因控制台 → 令牌管理
TokensRelay 的智能路由(model: "auto"本身就是为成本优化设计的:网关会按请求内容自动在性价比模型与高能力模型之间路由。绝大多数业务场景建议优先尝试 auto,仅在效果不达标时再手动指定强模型。
⚠️ 当前网关暂不支持 Anthropic prompt caching/v1/messagescache_control 字段会被翻译层忽略),省钱主要靠:选对模型档位 + auto 路由 + 非流式批处理 + 子令牌预算管理。

方法论 · 减少幻觉

"幻觉"指模型给出看似合理但实际错误或编造的内容——错误的 API、不存在的政策条款、虚构的故障代码等。以下方法可显著降低幻觉概率:

方法说明
先检索再生成(RAG)把企业自己的文档、知识库、代码库作为上下文喂给模型,让回答"有依据"而不是凭模型记忆。Coze 的「知识库」插件、Cursor/Cline 的 @文件 / @代码库 引用都是这个思路。
允许模型说"不知道"在 system prompt 中明确写入「如果信息不足或不确定,请直接说明,不要编造」,比单纯要求"准确"更有效。
降低 temperature事实性 / 代码类任务建议 0~0.3;创意类任务(文案、头脑风暴)可以保持默认或更高。
要求输出可验证的结果代码类要求「必须能通过给定测试」;文档/知识问答类要求标注信息来源(文件路径、行号、文档链接)。
多步校验(生成 → 验证 → 修正)让 AI 生成后自行运行/测试,根据真实结果再修正,而不是一次成型。Cursor/Cline 的终端执行能力很适合做这一步。
用工具调用代替猜测涉及具体数字、日期、版本号、价格等事实,让模型通过 tool_use 查询真实数据源(数据库/API/文件),而不是凭记忆作答。
人工抽样审查对客服机器人、知识库问答类应用,定期抽样人工核对回答准确性,把发现的幻觉模式补充进知识库或 prompt 约束中。

方法论 · 代码稳定性

AI 能显著提速编码,但不受控的批量改动是生产事故的常见来源。以下做法能在提速的同时控制风险:

方法说明
小步快跑每次让 AI 改动的范围尽量小(单文件/单函数),便于 review 和回滚,出问题也容易定位。
Diff 预览,禁止自动应用Cursor/Cline 配置为「先展示 diff 再应用」,重大改动必须人工确认后才落盘。
测试先行要求 AI 为新代码同步生成/更新单元测试,CI 跑绿才允许合并。
Lint / 类型检查 / 静态分析作为门禁纳入 CI 流程,AI 生成的代码同样要过这些检查,不开后门。
标记 AI 辅助的改动在 commit message 中注明「AI-assisted」,便于事后追踪问题代码来源、统计 AI 改动的质量。
危险操作二次确认AI 生成的 SQL DELETE/UPDATE、Shell rm、生产部署脚本,先在测试环境跑通,并要求模型输出「影响范围说明」。
锁定模型版本核心项目固定使用具体模型(如 qwen/qwen3.5-397b-a17b)而非 auto 或「最新」别名,避免路由变化 / 模型升级导致输出风格、质量突变影响稳定性。

行业最佳实践 · 总览

下面 8 个行业章节均按统一结构展开:行业现状(核心矛盾与约束)→ 分部门最佳实践(场景/工具/模型/注意事项)→ 工具配置参考本行业成本与质量要点(链接回方法论)。可直接跳转到所属行业:

教育智能助教、校园问答、批改辅助 医疗HIS/EMR、导诊问答、数据脱敏 互联网大型代码库、客服机器人、SRE 工业制造嵌入式/PLC、MES对接、设备知识库 金融风控规则、合规检索、核心系统外围 零售电商客服机器人、商品文案、大促保障 政务政务系统、政策问答、信创适配 法律服务合同审查、法条检索、文书起草

行业最佳实践 · 教育

行业现状

在线教育平台、K12/职业培训机构、高校信息化部门正在快速把 AI 编程工具引入教学与管理系统开发。共同特点:IT 人手有限、预算敏感、面向学生/家长的内容必须保证准确(错误的知识性回答会直接影响教学质量与口碑)。AI 工具的价值主要体现在「降低开发与答疑的人力成本」,但必须配套成本管控与准确性校验。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
教务 / 信息中心(IT)校务系统、选课系统、成绩管理系统的开发与维护Cursor / Clineqwen/qwen3.5-122b-a10b系统改动遵循小步提交 + CI 测试,选课等核心流程改动需人工 review
教学 / 院系(教师)课程案例代码、习题与参考答案生成、作业批改建议Cursor / Continueauto / qwen/qwen3.5-122b-a10b涉及知识性内容(概念解释、知识点)时要求模型标注依据,降低幻觉,教师终审后才发给学生
学生事务 / 教务咨询选课、请假、奖助学金等政策类 FAQ 机器人Cozedeepseek-ai/deepseek-v4-flash / auto必须接入校务政策知识库做 RAG,避免编造政策条款;上线前及上线后定期抽样核对(见减少幻觉
培训机构 - 课程研发部批量生成课件示例代码、配套练习与自动化测试用例Trae(Agent 模式)auto批量任务用非流式脚本化调用,控制成本;生成的示例代码需跑通测试再纳入课件
图书馆 / 资料中心文献与电子资料检索问答Coze 知识库auto强制要求标注来源链接/页码,便于学生溯源核实

工具配置参考

工具典型场景推荐模型配置要点
Cursor实训项目代码生成、作业代码风格统一qwen/qwen3.5-122b-a10b / autoSettings → Models → OpenAI Compatible,见Cursor 配置
TraeAI 助教快速搭建教学 Demo、自动生成讲义示例代码auto(性价比高)设置 → 模型服务 → 添加自定义模型,见下方示例
Coze校园答疑机器人、选课/教务咨询助手deepseek-ai/deepseek-v4-flash / auto工作流中用「HTTP 请求」节点调用 /v1/chat/completions
ClineVSCode 内逐步讲解代码、引导式编程教学qwen/qwen3.5-122b-a10bCline 配置
Continue多校区/多班级统一分发 config.json 模板auto团队共享配置,统一 Key 便于用量统计

Trae 接入示例(其余行业同理,可复用此配置)

1

打开 Trae → 设置 → 模型服务(Model Service)。

2

选择「添加自定义模型 / Custom Model Provider」,类型选择 OpenAI Compatible

3

填入以下参数:

Base URL:  https://tokensrelay.cn/v1
API Key:   sk-xxxxxxxxxxxxxxxxxxxxxxxx
Model:     auto  (或 qwen/qwen3.5-122b-a10b、deepseek-ai/deepseek-v4-flash 等)

本行业成本与质量要点

行业最佳实践 · 医疗

行业现状

医院信息科、互联网医疗企业、医疗软件供应商对 AI 编程工具的态度是「积极但谨慎」:开发效率需求强烈,但数据合规(类 HIPAA 要求)与内容准确性要求极高——任何幻觉或误操作都可能演变为医疗安全事件,因此数据安全是第一优先级。以下场景均针对开发/办公环境,不涉及向模型直接传输患者隐私数据。

⚠️ 严禁将患者姓名、身份证号、病历号、检验报告原文等 PII/PHI 直接粘贴给任何 AI 工具(包括 Cursor、Coze 机器人等)。如需让 AI 处理真实数据,必须先经过脱敏 / 去标识化处理,或仅在本地隔离环境中使用本地模型。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
信息科 / IT 中心HIS/LIS/EMR 系统开发维护、第三方接口对接Cursorqwen/qwen3.5-397b-a17b(架构)/ qwen/qwen3.5-122b-a10b(日常)严格执行代码稳定性流程,核心模块(处方、医嘱、收费)改动需双人 review + 灰度发布
患者服务部 / 导诊台导诊咨询、预约提醒、科室介绍问答Cozedeepseek-ai/deepseek-v4-flash仅限通用知识,RAG 接入医院公开资料,绝不提供诊断建议;定期抽样人工核对(见减少幻觉
医务部 / 临床科室文献检索辅助、病历模板与说明文书草稿生成Continueqwen/qwen3.5-122b-a10b输入数据须先脱敏(见上方警告);AI 输出必须经医生复核后才能使用,不可直接采信
科研部论文与文献综述检索、总结、初稿撰写Cursor / Clineqwen/qwen3.5-397b-a17b要求模型标注文献来源,人工核对引用真实性——这是医疗场景减少幻觉的关键环节,编造文献是常见幻觉类型
运维 / 信息安全部日志与接口安全审查脚本、合规扫描Clineqwen/qwen3.5-122b-a10b在 Prompt 模板中加入「检查是否存在 PII/PHI 泄露」固定检查项

工具配置参考

工具典型场景推荐模型配置要点
CursorHIS/LIS/EMR 系统代码重构、接口合规性审查qwen/qwen3.5-397b-a17b(复杂架构)/ qwen/qwen3.5-122b-a10b(日常)Cursor 配置;建议在 Prompt 中要求模型不要回显示例数据
Trae院内管理系统(排班、库存、设备台账)快速原型autoTrae 接入示例
Coze导诊咨询、预约提醒、科室介绍等通用医学知识问答机器人deepseek-ai/deepseek-v4-flash仅接入公开知识库,不连真实 HIS 数据库
Cline代码审查时检查日志/接口是否意外打印敏感字段qwen/qwen3.5-122b-a10b在 Prompt 模板中加入「检查是否存在 PII 泄露」检查项
Continue团队统一脱敏 Prompt 模板分发(JetBrains/VSCode)autoconfig.json 中预设 systemMessage,强调脱敏要求

本行业成本与质量要点

行业最佳实践 · 互联网

行业现状

互联网/科技公司技术团队规模大、迭代节奏快,AI 编程工具已成为日常开发标配。核心矛盾不再是"要不要用",而是"效率提升"与"代码质量/成本失控"之间的平衡——大团队若缺乏统一规范,很容易出现模型滥用导致成本暴涨,或 AI 改动未经把关引入隐患。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
后端研发接口开发、数据库迁移脚本、性能优化Cursorqwen/qwen3.5-122b-a10b(日常)/ qwen/qwen3.5-397b-a17b(架构)数据库迁移类脚本必须先在测试环境验证,遵循代码稳定性中的危险操作二次确认
前端研发组件开发、样式调整、批量重构Cursor / Clineqwen/qwen3.5-122b-a10b小步提交 + 视觉回归测试,避免大范围自动应用改动
测试 / QA测试用例生成、自动化测试脚本编写ClineautoAI 生成的测试反哺代码稳定性门禁,是性价比最高的应用之一
运维 / SRE部署脚本、监控告警规则、故障排查辅助Clineqwen/qwen3.5-122b-a10b危险命令(重启、扩缩容、删除资源)必须二次确认,先在预发环境验证
客服 / 运营用户咨询机器人、运营文案与活动素材生成CozeautoRAG 接入产品文档/价格表,降低答错版本号、价格等事实性幻觉
产品 / 数据分析数据查询 SQL 生成、报表自动化Continueauto / qwen/qwen3.5-122b-a10b生成的 SQL 先在只读副本验证,避免幻觉字段名导致报表数据错误

工具配置参考

工具典型场景推荐模型配置要点
Cursor大型 monorepo 多文件重构、PR 自动审查架构评审用 qwen/qwen3.5-397b-a17b,日常用 qwen/qwen3.5-122b-a10bCursor 配置
TraeAgent 模式批量生成微服务脚手架/接口文档auto / autoTrae 接入示例
Coze客服机器人、内部知识库问答、运营数据查询助手auto(按问题复杂度自动路由)工作流「HTTP 请求」节点调用 /v1/chat/completions,详见下方示例
ClineCI/CD 脚本、部署脚本、运维 Runbook 编写qwen/qwen3.5-122b-a10bCline 配置
Continue全团队统一 config.json,按角色分配模型(初级工程师用 auto 控成本,高级工程师用 qwen/qwen3.5-397b-a17b分级配置多模型条目,团队成员各自选择

Coze 工作流接入示例(客服/知识库场景)

在 Coze 工作流中添加「HTTP 请求」节点:

Method: POST
URL:    https://tokensrelay.cn/v1/chat/completions
Headers:
  Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxx
  Content-Type: application/json
Body:
{
  "model": "auto",
  "messages": [
    {"role": "system", "content": "你是XX公司的客服助手"},
    {"role": "user", "content": "{{user_input}}"}
  ]
}

将返回结果中的 choices[0].message.content 映射到下一节点,作为机器人回复。

本行业成本与质量要点

行业最佳实践 · 工业制造

行业现状

制造企业的 IT/研发力量普遍薄弱,存量系统多为老旧的 C/C++、PLC、VB 代码,文档缺失严重。AI 工具的核心价值是「读懂老代码」「快速对接新系统」与「把老师傅的经验数字化成知识库」。同时车间网络环境特殊(内网、出口受限、弱网),接入方案需要兼顾安全审计与可用性。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
研发部(嵌入式/PLC)老代码注释补全、Bug 定位、通信协议解析代码生成Cursorqwen/qwen3.5-122b-a10b嵌入式代码改动必须先在仿真环境/测试设备验证,遵循代码稳定性
信息化部(MES/ERP 对接)系统集成脚本、数据接口开发Traeauto涉及生产数据的接口先在测试库跑通,确认字段映射无误后才接生产
设备维护部设备说明书/故障代码知识库问答,供产线技术员现场查询Cozedeepseek-ai/deepseek-v4-flashRAG 接入设备手册 PDF,避免编造故障代码含义——故障知识库的幻觉可能直接导致误维修甚至安全事故
质量部检测数据分析脚本、质量报表自动化Continueauto统计类结果要求展示计算过程/中间数据,便于核验避免幻觉
安全 / 网络部工控网络访问策略脚本审查、出口防火墙规则维护Clineqwen/qwen3.5-122b-a10b涉及防火墙/工控网配置变更需双人确认,禁止 AI 直接落地生产配置

工具配置参考

工具典型场景推荐模型配置要点
Cursor嵌入式 C/C++、PLC 脚本审查与重构qwen/qwen3.5-122b-a10bCursor 配置
TraeMES/SCADA 数据接口对接脚本快速生成autoTrae 接入示例
Coze设备说明书/故障代码知识库问答,供产线技术员现场查询deepseek-ai/deepseek-v4-flashCoze 工作流示例,知识库内容建议预先整理为 FAQ 文档
Cline老旧工业控制系统代码补充注释与文档qwen/qwen3.5-122b-a10bCline 配置
Continue工厂内网环境统一接入配置,便于安全审计auto统一通过公司出口网关访问 https://tokensrelay.cn/v1,便于日志留存
工厂网络常有出口限制,确保 tokensrelay.cn 域名在防火墙白名单中;如需固定 IP,可联系客服获取出口 IP 段。

本行业成本与质量要点

行业最佳实践 · 金融

行业现状

银行、证券、保险、消费金融等机构受强监管约束:数据安全分级管理、操作留痕审计、核心交易系统的稳定性要求接近零容错。AI 工具的落地路径通常是「先外围、再核心」——优先在风控规则、合规检索、报表与运营脚本等非核心交易链路试点,积累信任后再逐步扩展。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
科技部 / 研发中心核心交易系统外围功能开发、第三方 API 对接Cursorqwen/qwen3.5-397b-a17b(架构)/ qwen/qwen3.5-122b-a10b(日常)核心交易链路改动必须双人 review + 完整回归测试,遵循代码稳定性;AI 辅助优先用于外围/工具类代码
风控部风控规则脚本、反欺诈特征工程代码Clineqwen/qwen3.5-122b-a10b规则上线前必须在历史数据上回测验证,避免 AI 生成的边界条件遗漏
合规部监管政策检索、合规文档问答Cozedeepseek-ai/deepseek-v4-flashRAG 接入最新监管文件并标注发文日期/文号,避免引用过期条款(减少幻觉
客服 / 呼叫中心智能客服应答、催收话术辅助生成Cozeauto客户姓名、账号、余额等金融信息严禁直传模型,需先脱敏(参考医疗行业的脱敏要求
运营 / 产品报表自动化、营销文案生成Continueauto涉及金额、利率、收益率的计算结果必须人工核对,禁止直接采信模型计算

工具配置参考

工具典型场景推荐模型配置要点
Cursor核心系统外围功能开发、接口代码审查qwen/qwen3.5-397b-a17b / qwen/qwen3.5-122b-a10bCursor 配置
Trae风控/数据处理脚本快速生成autoTrae 接入示例
Coze合规问答、客服与催收话术辅助deepseek-ai/deepseek-v4-flashCoze 工作流示例,知识库需按监管文件版本定期更新
Cline风控规则脚本编写与审查qwen/qwen3.5-122b-a10bCline 配置
Continue团队统一接入,按部门分配模型与预算auto子令牌按部门隔离,便于审计留痕

本行业成本与质量要点

行业最佳实践 · 零售电商

行业现状

零售/电商企业业务迭代速度快,大促期间流量与调用量会出现数量级波动。AI 应用集中在客服、商品文案、运营脚本与数据分析,目标是在保证商品/价格/库存信息准确的前提下,用更低成本覆盖更大的客服与内容生产量。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
研发部商品/订单/营销系统开发,大促前性能优化Cursorqwen/qwen3.5-122b-a10b(日常)/ qwen/qwen3.5-397b-a17b(架构)大促前设代码改动冻结期,AI 辅助的改动同样纳入灰度发布(代码稳定性
客服部售前咨询、售后纠纷处理机器人CozeautoRAG 接入商品信息、库存与退换货政策,避免答错价格/库存/物流时效(减少幻觉
运营部商品文案、营销活动页文案、SEO 内容批量生成Trae / Continueauto / deepseek-ai/deepseek-v4-flash批量生成场景成本敏感,优先用低价模型/auto成本控制
供应链 / 仓储部库存预警脚本、物流系统对接接口Clineqwen/qwen3.5-122b-a10b库存扣减、出入库等关键脚本先在测试环境验证
数据分析部销售数据分析 SQL、报表自动化ContinueautoSQL 先在只读副本验证,避免幻觉字段名导致报表错误

工具配置参考

工具典型场景推荐模型配置要点
Cursor商品/订单/营销系统开发与性能优化qwen/qwen3.5-122b-a10b / qwen/qwen3.5-397b-a17bCursor 配置
Trae批量生成商品文案/营销活动页代码auto / autoTrae 接入示例
Coze智能客服、售后机器人autoCoze 工作流示例
Cline库存/物流接口脚本编写qwen/qwen3.5-122b-a10bCline 配置
Continue数据分析 SQL 辅助生成auto团队共享配置

本行业成本与质量要点

行业最佳实践 · 政务

行业现状

数字政府建设加速推进,AI 工具被用于政务系统开发、政策法规问答与市民服务热线。本行业有三个突出特点:涉及公民个人信息,数据安全要求最高;政策解读错误会直接影响政府公信力,准确性要求极高;部分场景需考虑信创/国产化适配。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
信息中心政务系统开发维护、数据共享接口对接Cursorqwen/qwen3.5-122b-a10b涉及公民个人信息的接口必须先用脱敏测试数据验证(参考医疗行业脱敏要求
政务服务大厅办事指南、所需材料清单问答机器人Cozedeepseek-ai/deepseek-v4-flash严格 RAG 接入官方政策文件,杜绝编造办事流程或材料要求——此类幻觉会直接影响群众办事体验
法规 / 政策研究室法规检索、政策文件起草辅助Cursor / Clineqwen/qwen3.5-397b-a17b输出内容必须人工审核,并标注所依据的法规名称与条款号
12345 热线 / 客服中心市民诉求分类、常见问题解答Cozeauto诉求内容涉及个人信息时需脱敏后再处理或分析
信息化运维部系统巡检脚本、安全审计Clineqwen/qwen3.5-122b-a10b涉及内网/政务专网的系统需先评估是否适合走外部网关,必要时采用内网部署方案

工具配置参考

工具典型场景推荐模型配置要点
Cursor政务系统开发维护qwen/qwen3.5-122b-a10bCursor 配置
Trae数据共享接口/政务小程序快速开发autoTrae 接入示例
Coze办事指南、热线问答机器人deepseek-ai/deepseek-v4-flashCoze 工作流示例,知识库需随政策更新同步维护
Cline系统巡检、安全审计脚本qwen/qwen3.5-122b-a10bCline 配置
Continue法规检索辅助、跨部门共享配置qwen/qwen3.5-397b-a17b团队共享配置,统一令牌便于留痕

本行业成本与质量要点

行业现状

律所与企业法务部门正在用 AI 辅助合同审查、法律检索与文书起草,效率提升明显,但对准确性与保密性的要求极高——执业要求决定了 AI 输出只能作为「初稿/辅助」,最终责任仍由执业律师承担;客户资料的保密义务也要求严格的数据处理规范。

分部门最佳实践

部门核心 AI 应用场景推荐工具推荐模型关键注意事项
律师 / 法务团队合同审查、条款风险提示、法律意见书初稿Cursor / Clineqwen/qwen3.5-397b-a17bAI 输出仅作初稿,最终意见必须由执业律师审核签字;客户合同内容的保密性参考医疗行业的脱敏思路
法律检索 / 研究法条与案例检索、要点摘要Clineqwen/qwen3.5-122b-a10b要求标注法条/案例的具体编号与来源,人工核实真实性——编造法条或案例是法律场景最危险的幻觉类型
客户咨询 / 法律热线常见法律问题 FAQ 机器人Cozedeepseek-ai/deepseek-v4-flash机器人需在回复中明确「仅供参考,非正式法律意见」,并 RAG 接入权威法规库
行政 / 知识管理内部知识库整理、文书模板生成Continueauto模板生成后需人工核对格式与适用法律版本是否最新

工具配置参考

工具典型场景推荐模型配置要点
Cursor合同审查辅助、风险条款标注qwen/qwen3.5-397b-a17bCursor 配置
Trae文书模板批量生成autoTrae 接入示例
Coze法律咨询 FAQ 机器人deepseek-ai/deepseek-v4-flashCoze 工作流示例
Cline法条/案例检索与摘要qwen/qwen3.5-122b-a10bCline 配置
Continue内部知识库整理与维护auto团队共享配置

本行业成本与质量要点

优惠券 / 兑换码

如果你拿到了 TokensRelay 的优惠券或兑换码,可以在控制台兑换为账户余额。

兑换方式:控制台操作

1

登录 tokensrelay.cn,进入个人中心。

2

点击顶部导航 充值,或前往 控制台 → 充值

3

在页面底部找到 兑换码 / 优惠券 输入框,粘贴你的码并点击 兑换

4

兑换成功后余额实时到账,可在 个人中心查看。

兑换码区分大小写,每个码只能使用一次,兑换后不可退回。

优惠券获取渠道

充值

访问 控制台 → 充值 进行在线充值。余额按实际 API 用量扣减,无月费。

余额不足时 API 将返回 402 错误。建议开启余额提醒(控制台 → 个人设置)。

限流

为保障公平使用,接口存在速率限制。超限会返回 429,建议客户端实现指数退避重试。

范围默认限制
单 IP / 对话接口高并发突发缓冲,超出排队或拒绝
账户级按套餐/余额,详见控制台

错误码

HTTP含义处理建议
401未提供或无效令牌检查 Authorization / x-api-key 头与 Key 是否吊销
402余额不足前往控制台充值兑换优惠码
403令牌无权使用该模型该令牌可用模型范围不含此模型,换模型或调整令牌权限
429触发限流降低频率,指数退避重试
502 / 503上游/网关异常。503「无可用渠道」=模型不存在或后端未配置(如 claude-*/gpt-*/embedding);502 proxy_error=auto 全部候选失败改用可用模型或稍后重试;持续异常见状态页
// OpenAI 格式错误
{"error": {"message": "余额不足", "type": "tokensrelay_error", "code": 402}}

// Anthropic 格式错误
{"type": "error", "error": {"type": "api_error", "message": "余额不足"}}
上游为聚合的多家第三方模型,偶发 5xx 与延迟波动属正常现象。生产环境请对 429 / 5xx 实现自动重试 + 指数退避,或直接使用 auto(自带失败切换)。受上游负载影响,各模型延迟波动较大——实测同一模型首字延迟可在 1s 到数十秒之间浮动(大参数模型如 qwen/qwen3.5-397b-a17b 常态 ~30s+)。建议开启流式输出改善体感,并将客户端超时调大到 90s 以上。

常见问题

可以用官方 Anthropic SDK 接入吗?

可以。设置 base_url="https://tokensrelay.cn"(不加 /v1)和 api_key 为你的 TokensRelay Key 即可,代码其余部分与访问 Anthropic 官方完全一致。详见 Python Anthropic SDKNode.js Anthropic SDK 示例。

能直接用 LangChain / LlamaIndex / Cursor / Continue 吗?

可以。任何支持自定义 OpenAI base_url 的工具都能接入,填 https://tokensrelay.cn/v1 与你的 Key 即可。详细步骤见客户端工具 → Cursor / Continue

Cline / Claude Code 怎么配置?

Cline 配置Claude Code 配置章节,均有逐步说明。Claude Code 支持 5 种配置方式(环境变量、settings.json、项目级配置、内联变量、--settings 参数)。

Claude Code 配置完成后如何确认连的是 TokensRelay?

运行 echo $ANTHROPIC_BASE_URL 确认输出为 https://tokensrelay.cn;或运行 claude -p "say hi" --model qwen/qwen3.5-397b-a17b,若有响应则连接成功。也可以执行 claude doctor 查看配置来源。

OpenAI 格式和 Anthropic 格式可以用同一个 Key 吗?

可以。同一个 TokensRelay Key 同时适用于两种格式,共享账户余额,无需分别申请。

支持函数调用 / 工具吗?

支持。OpenAI 格式透传 tools / tool_choice 字段;Anthropic 格式支持 tool_use 内容块与 tool_result 多轮对话(取决于所选上游模型能力)。

服务是否稳定?

实时运行状态见 状态页

如何在线测试模型?

访问 在线 Playground,无需写代码,直接在浏览器中选模型、发消息、看流式输出。

需要帮助?提交工单 · 在线 Playground · 返回控制台