TokensRelay API 文档
同时兼容 OpenAI 与 Anthropic 两套 API 格式。把现有代码里的 base_url 换成我们的地址,无需改动其他逻辑。
→ 在线 Playground:无需写代码,直接在浏览器里测试模型
介绍
TokensRelay(搬运工)是一个 AI 模型聚合网关,把 OpenAI、Anthropic Claude、Google Gemini、DeepSeek、Qwen 等数十家上游统一接入。你用一个 API Key,就能调用全部模型。
OpenAI 兼容格式
POST /v1/chat/completions
适合:所有支持 OpenAI API 的工具(Cline、Cursor、LangChain、LlamaIndex…)
鉴权头:Authorization: Bearer sk-...
Anthropic 原生格式 NEW
POST /v1/messages
适合:官方 Anthropic SDK、Claude Code、直接用 anthropic 库的项目
鉴权头:x-api-key: sk-...
鉴权
在 控制台 → 令牌 创建一个 API Key,根据所用 API 格式携带对应请求头:
| API 格式 | 请求头 |
|---|---|
| OpenAI 兼容(/v1/chat/completions) | Authorization: Bearer sk-xxxxxxxx |
| Anthropic 原生(/v1/messages) | x-api-key: sk-xxxxxxxx |
快速开始
三步开始调用:
- ① 在 控制台注册并充值;
- ② 创建 API Key;
- ③ 把下面任意一段代码里的
$TOKENSRELAY_KEY换成你的 Key 运行。
OpenAI 格式
curl https://tokensrelay.cn/v1/chat/completions \
-H "Authorization: Bearer $TOKENSRELAY_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "auto",
"messages": [{"role": "user", "content": "你好,介绍一下你自己"}]
}'
Anthropic 格式
curl https://tokensrelay.cn/v1/messages \
-H "x-api-key: $TOKENSRELAY_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen/qwen3.5-122b-a10b",
"max_tokens": 1024,
"messages": [{"role": "user", "content": "你好,介绍一下你自己"}]
}'
Chat Completions
请求参数
| 参数 | 类型 | 说明 |
|---|---|---|
model | string | 模型名,或 auto 触发智能路由 |
messages | array | 对话消息列表,含 role 与 content |
stream | bool | 是否流式返回(SSE),默认 false |
temperature | number | 采样温度 0–2,默认 1 |
max_tokens | int | 最大生成 token 数 |
tools | array | 函数调用 / 工具定义(兼容 OpenAI tools) |
响应示例
{
"id": "chatcmpl-xxx",
"object": "chat.completion",
"model": "deepseek-ai/deepseek-v4-flash",
"choices": [{
"index": 0,
"message": {"role": "assistant", "content": "你好!我是……"},
"finish_reason": "stop"
}],
"usage": {"prompt_tokens": 12, "completion_tokens": 28, "total_tokens": 40}
}
Messages(Anthropic 原生格式)NEW
兼容 Anthropic 官方 Messages API 格式,让使用 anthropic SDK 的项目无缝接入,无需改动业务逻辑。
model 多以 claude-sonnet-4-5 为例。默认部署未接入真 Claude 渠道,直接调用 claude-* 会返回 503 无可用渠道;请改用实际可用模型(如 qwen/qwen3.5-122b-a10b、deepseek-ai/deepseek-v4-flash)。Anthropic 路径不支持 auto(智能路由仅在 OpenAI 路径生效),需指定具体模型名。如需启用 Claude,请提交工单开通渠道。Base URL
| 地址 | |
|---|---|
| 主域名 | https://tokensrelay.cn |
| API 专属域名 | https://api.tokensrelay.cn(需有 HTTPS 证书,待配置) |
/v1/messages,所以填写时不要加 /v1 后缀。请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
model | string | 是 | 模型名,如 qwen/qwen3.5-122b-a10b;claude-* 需先开通渠道(Anthropic 路径不支持 auto) |
messages | array | 是 | 对话消息列表,含 role(user/assistant)与 content |
max_tokens | int | 是 | 最大生成 token 数(Anthropic 要求必填) |
system | string | 否 | 系统提示,字符串或内容块数组 |
stream | bool | 否 | 是否流式返回(SSE),默认 false |
temperature | number | 否 | 采样温度 0–1 |
top_p | number | 否 | 核采样阈值 |
stop_sequences | array | 否 | 停止序列列表 |
tools | array | 否 | 工具定义(Anthropic tool_use 格式) |
tool_choice | object | 否 | 工具选择策略:auto / any / tool |
响应示例(非流式)
{
"id": "msg_01XFDUDYJgAACzvnptvVoYEL",
"type": "message",
"role": "assistant",
"model": "claude-sonnet-4-5",
"content": [{"type": "text", "text": "你好!我是 Claude……"}],
"stop_reason": "end_turn",
"stop_sequence": null,
"usage": {"input_tokens": 12, "output_tokens": 30}
}
stop_reason 映射
| 值 | 含义 |
|---|---|
end_turn | 正常结束 |
max_tokens | 达到 max_tokens 上限 |
tool_use | 模型请求调用工具 |
Tool Use 示例
curl https://tokensrelay.cn/v1/messages \
-H "x-api-key: $TOKENSRELAY_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-sonnet-4-5",
"max_tokens": 1024,
"tools": [{
"name": "get_weather",
"description": "查询城市天气",
"input_schema": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名"}
},
"required": ["city"]
}
}],
"messages": [{"role": "user", "content": "北京今天天气怎么样?"}]
}'
流式输出
OpenAI 格式流式
设置 "stream": true,服务端将以 Server-Sent Events 持续推送增量片段,最后以 data: [DONE] 结束。
data: {"choices":[{"delta":{"content":"你"}}]}
data: {"choices":[{"delta":{"content":"好"}}]}
data: [DONE]
Anthropic 格式流式
设置 "stream": true,服务端将按 Anthropic SSE 协议推送事件序列:
event: message_start
data: {"type":"message_start","message":{"id":"msg_xxx","type":"message","role":"assistant","content":[],"model":"claude-sonnet-4-5","stop_reason":null,"usage":{"input_tokens":0,"output_tokens":0}}}
event: content_block_start
data: {"type":"content_block_start","index":0,"content_block":{"type":"text","text":""}}
event: content_block_delta
data: {"type":"content_block_delta","index":0,"delta":{"type":"text_delta","text":"你好"}}
event: content_block_stop
data: {"type":"content_block_stop","index":0}
event: message_delta
data: {"type":"message_delta","delta":{"stop_reason":"end_turn","stop_sequence":null},"usage":{"input_tokens":12,"output_tokens":5}}
event: message_stop
data: {"type":"message_stop"}
模型列表
返回当前账户可用的全部模型,以 GET /v1/models 实时返回为准(实测约 90+ 个)。实际可用模型以 GET /v1/models 与控制台为准。下表为默认部署即可直接调用的代表性模型(2026-06 实测验证):
| 类别 | 示例模型 | 可用性 |
|---|---|---|
| 智能路由(推荐) | auto | 仅 OpenAI 路径 /v1/chat/completions |
| 高性价比 / 快速 | deepseek-ai/deepseek-v4-flash | ✅ 默认可用 |
| 强通用 / 复杂任务 | qwen/qwen3.5-397b-a17b, moonshotai/kimi-k2.6, z-ai/glm-5.1, mistralai/mistral-large-3-675b-instruct-2512 | ✅ 默认可用 |
| 均衡 | qwen/qwen3.5-122b-a10b, meta/llama-3.3-70b-instruct | ✅ 默认可用 |
| 视觉 | meta/llama-3.2-90b-vision-instruct | ⚠️ 仅文本验证可用;图片输入(image_url)当前上游不稳定 |
| Claude / GPT / Embedding需开通渠道 | claude-sonnet-4-5, gpt-4o, text-embedding-3-small 等 | 需后台配置对应官方渠道 |
auto 与命名空间形式的模型(deepseek-ai/*、qwen/*、meta/*、moonshotai/*、z-ai/* 等)默认部署即可直接调用。claude-*、gpt-*、text-embedding-* 等官方模型名需先在后台配置对应官方渠道,未配置时调用会返回 503 无可用渠道——如需请提交工单开通。下方所有以 claude-sonnet-4-5 为例的代码片段,默认环境下请把 model 换成实际可用模型(如 qwen/qwen3.5-122b-a10b)。⚠️
auto 智能路由仅在 OpenAI 路径 /v1/chat/completions 生效;Anthropic 路径 /v1/messages 不支持 auto,需指定具体模型名。智能路由 (model = auto)
这是 TokensRelay 的特色能力。当你设置 "model": "auto" 时,网关会分析你的请求内容,自动选择最合适的模型:
- 含图片/视觉内容 → 自动转视觉模型(注:图片输入当前上游不稳定,可能失败,建议以文本为主);
- 编程 / 代码意图 → 自动转代码模型;
- 需要深度推理 → 自动转思考模型;
- 其余 → 高性价比通用模型。
{
"model": "auto",
"messages": [{"role": "user", "content": "用 Python 写一个快速排序"}]
}
// → 自动路由到代码模型
auto 内置多模型竞速与失败冷却——当某个上游模型超时或报错时自动切换到备用模型,比固定指定单一模型更能抵抗上游抖动。这也是高并发 / 客服场景推荐默认用 auto 的原因之一。注意 auto 仅在 OpenAI 路径 /v1/chat/completions 生效,Anthropic 路径 /v1/messages 需指定具体模型名。Embeddings
curl https://tokensrelay.cn/v1/embeddings \
-H "Authorization: Bearer $TOKENSRELAY_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"text-embedding-3-small","input":"要向量化的文本"}'
Python SDK — OpenAI 格式
直接使用官方 openai 库,只改 base_url:
pip install openai
from openai import OpenAI
client = OpenAI(
api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx", # TokensRelay Key
base_url="https://tokensrelay.cn/v1",
)
resp = client.chat.completions.create(
model="auto", # 或 qwen/qwen3.5-397b-a17b / deepseek-ai/deepseek-v4-flash ...
messages=[{"role": "user", "content": "你好"}],
)
print(resp.choices[0].message.content)
# 流式
stream = client.chat.completions.create(
model="deepseek-ai/deepseek-v4-flash",
messages=[{"role": "user", "content": "讲个笑话"}],
stream=True,
)
for chunk in stream:
print(chunk.choices[0].delta.content or "", end="")
Python SDK — Anthropic 原生格式NEW
使用官方 anthropic 库,只改 base_url,其余代码与访问 Anthropic 官方完全一致:
pip install anthropic
import anthropic
client = anthropic.Anthropic(
api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx", # TokensRelay Key
base_url="https://tokensrelay.cn", # 注意:不加 /v1 后缀
)
# 非流式
message = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
system="你是一个专业的 Python 工程师。",
messages=[{"role": "user", "content": "用 Python 实现二分查找"}],
)
print(message.content[0].text)
# 流式
with client.messages.stream(
model="claude-sonnet-4-5",
max_tokens=1024,
messages=[{"role": "user", "content": "讲个笑话"}],
) as stream:
for text in stream.text_stream:
print(text, end="", flush=True)
# Tool Use
tools = [{
"name": "get_weather",
"description": "查询城市天气",
"input_schema": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"],
},
}]
resp = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=512,
tools=tools,
messages=[{"role": "user", "content": "北京今天天气如何?"}],
)
if resp.stop_reason == "tool_use":
tool_block = next(b for b in resp.content if b.type == "tool_use")
print(f"调用工具: {tool_block.name}, 参数: {tool_block.input}")
Node.js SDK — OpenAI 格式
npm install openai
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.TOKENSRELAY_KEY,
baseURL: "https://tokensrelay.cn/v1",
});
const resp = await client.chat.completions.create({
model: "auto",
messages: [{ role: "user", content: "你好" }],
});
console.log(resp.choices[0].message.content);
Node.js SDK — Anthropic 原生格式NEW
npm install @anthropic-ai/sdk
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic({
apiKey: process.env.TOKENSRELAY_KEY, // TokensRelay Key
baseURL: "https://tokensrelay.cn", // 注意:不加 /v1 后缀
});
// 非流式
const message = await client.messages.create({
model: "claude-sonnet-4-5",
max_tokens: 1024,
system: "你是一个专业的前端工程师。",
messages: [{ role: "user", content: "解释一下 React Hooks 的工作原理" }],
});
console.log(message.content[0].text);
// 流式
const stream = client.messages.stream({
model: "claude-sonnet-4-5",
max_tokens: 1024,
messages: [{ role: "user", content: "写一首关于编程的诗" }],
});
for await (const chunk of stream) {
if (chunk.type === "content_block_delta" && chunk.delta.type === "text_delta") {
process.stdout.write(chunk.delta.text);
}
}
cURL
OpenAI 格式
curl https://tokensrelay.cn/v1/chat/completions \
-H "Authorization: Bearer $TOKENSRELAY_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"auto","messages":[{"role":"user","content":"Hello"}],"stream":true}'
Anthropic 格式
curl https://tokensrelay.cn/v1/messages \
-H "x-api-key: $TOKENSRELAY_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-sonnet-4-5",
"max_tokens": 1024,
"stream": true,
"messages": [{"role": "user", "content": "你好"}]
}'
Cline(VSCode AI 编程助手)
Cline 是 VSCode 插件,支持自定义 OpenAI 兼容提供商,可直接接入 TokensRelay。
配置步骤
在 VSCode 扩展市场搜索 Cline 并安装。
点击左侧 Cline 图标,进入设置(齿轮图标)。
API Provider 选择 OpenAI Compatible。
填入以下参数:
Base URL: https://tokensrelay.cn/v1
API Key: sk-xxxxxxxxxxxxxxxxxxxxxxxx(你的 TokensRelay Key)
Model: auto (或 qwen/qwen3.5-397b-a17b、deepseek-ai/deepseek-v4-flash 等)
auto 自动选择最优模型;复杂编程指定 qwen/qwen3.5-397b-a17b,追求速度用 deepseek-ai/deepseek-v4-flash。(claude-* 需先开通渠道)Claude Code — 接入 TokensRelay 完整指南
Claude Code 是 Anthropic 官方编程 CLI,底层使用 Anthropic 原生 /v1/messages 协议。TokensRelay 原生支持该协议,只需替换两个配置项即可接入,代码与交互方式完全不变。
工作原理
Claude Code 启动时读取 ANTHROPIC_BASE_URL(或 settings 中的 baseUrl),将其与 /v1/messages 拼接后作为 API 端点,使用 ANTHROPIC_API_KEY(或 apiKey)进行鉴权。只需把这两个值指向 TokensRelay 即可。
https://tokensrelay.cn,不加 /v1 后缀。Claude Code 会自动拼接 /v1/messages。--model claude-* 会返回 503 无可用渠道。Claude Code 仍可正常使用——把 --model 指向平台实际可用的模型即可,例如 --model qwen/qwen3.5-397b-a17b 或 --model deepseek-ai/deepseek-v4-flash(实测 /v1/messages 返回 200)。注意 Anthropic 路径不支持 auto,必须填具体模型名。下文示例中出现的 claude-sonnet-4-5 同理替换。如需真 Claude,请提交工单开通官方渠道。第 0 步:安装 Claude Code
# 需要 Node.js 18+
npm install -g @anthropic-ai/claude-code
# 验证安装
claude --version
配置方式(任选其一)
方式 A:写入 Shell 配置文件(推荐 · 永久生效)
适合个人主力机,一次配置全局生效。
# 追加到 ~/.zshrc(macOS 默认)或 ~/.bashrc(Linux)
echo 'export ANTHROPIC_BASE_URL=https://tokensrelay.cn' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx' >> ~/.zshrc
# 立即生效
source ~/.zshrc
# 启动 Claude Code
claude
方式 B:写入 ~/.claude/settings.json(永久生效 · 无需修改 Shell)
适合不想污染 Shell 环境的场景,或与他人共用系统时隔离配置。
# 新建或编辑 ~/.claude/settings.json,加入以下字段:
{
"apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
"baseUrl": "https://tokensrelay.cn"
}
apiKey / baseUrl 优先级低于同名环境变量。若环境变量已设置,settings.json 中的对应值会被覆盖。方式 C:项目级配置(仅对当前项目生效)
在项目根目录创建 .claude/settings.json,内容与方式 B 相同。适合团队共享配置或在不同项目使用不同 API。
mkdir -p .claude
cat > .claude/settings.json <<'EOF'
{
"apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
"baseUrl": "https://tokensrelay.cn"
}
EOF
方式 D:运行时内联(单次使用 · 不影响全局)
脚本或临时调试时最方便,不改任何配置文件。
ANTHROPIC_BASE_URL=https://tokensrelay.cn \
ANTHROPIC_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx \
claude --model claude-sonnet-4-5 -p "你好"
方式 E:通过 --settings 传入 JSON(脚本自动化)
适合 CI/CD 或需要动态切换配置的场景,无需依赖文件系统。
claude \
--settings '{"apiKey":"sk-xxxxxxxxxxxxxxxxxxxxxxxx","baseUrl":"https://tokensrelay.cn"}' \
--model claude-sonnet-4-5 \
-p "帮我检查这段代码有没有 bug"
模型选择
用 --model(或 -m)指定模型。支持全名和别名:
| 命令 | 实际调用模型 | 特点 |
|---|---|---|
claude -m claude-sonnet-4-5 | claude-sonnet-4-5 | 速度与能力均衡,日常编程首选 |
claude -m claude-sonnet-4 | claude-sonnet-4 | 上一代 Sonnet |
claude -m claude-opus-4 | claude-opus-4 | 旗舰级,适合复杂架构设计 |
claude -m sonnet | 最新 Sonnet | 官方别名,自动跟随最新版 |
claude -m opus | 最新 Opus | 官方别名,自动跟随最新版 |
~/.claude/settings.json 中加 "model": "claude-sonnet-4-5" 设为默认,之后启动不需要每次加 --model。验证连接
配置完成后,运行以下命令快速验证:
# 非交互模式单次问答,成功则说明配置正确
claude -p "用一句话介绍你自己" --model qwen/qwen3.5-397b-a17b
常用操作示例
交互模式(最常用)
claude # 启动交互会话
claude -m claude-sonnet-4-5 # 指定模型启动
claude -c # 继续上次会话
claude -r # 选择历史会话恢复
非交互模式 -p / --print(脚本 / 管道)
# 单次问答,结果打印到 stdout
claude -p "这段代码有什么问题?" < main.py
# 管道输入
git diff HEAD~1 | claude -p "总结这次提交的改动"
# 格式化 JSON 输出(适合程序解析)
claude -p "列出5个排序算法" --output-format json
# 流式 JSON(逐 token 到达,适合实时展示)
claude -p "写一首诗" --output-format stream-json
多端点快速切换(alias 技巧)
同时有官方账号和 TokensRelay,用 alias 一键切换。
# 写入 ~/.zshrc 或 ~/.bashrc
alias cc-tr='ANTHROPIC_BASE_URL=https://tokensrelay.cn ANTHROPIC_API_KEY=sk-xxxxxxxx claude'
alias cc-official='env -u ANTHROPIC_BASE_URL -u ANTHROPIC_API_KEY claude'
# 使用
cc-tr -p "帮我 review 这段代码" < service.go # 走 TokensRelay
cc-official # 走 Anthropic 官方
故障排查
| 现象 | 原因 | 解决方法 |
|---|---|---|
401 Unauthorized | API Key 无效或缺失 | 检查 ANTHROPIC_API_KEY 是否包含完整的 sk- 前缀,以及 Key 是否在 TokensRelay 控制台已激活 |
503 无可用渠道 | 模型名错误或后端未配置 | 确认模型名与模型列表一致;claude-* 等需先开通渠道 |
连接超时 / ECONNREFUSED | Base URL 格式错误 | 确认填的是 https://tokensrelay.cn,不是 https://tokensrelay.cn/v1 |
余额不足 402 | 账户余额耗尽 | 前往控制台充值或兑换优惠码 |
| 响应截断 | max_tokens 默认值较小 | 在 settings.json 中加 "maxTokens": 8096,或在 Claude Code 会话中用 /config 调整 |
| 仍然连 Anthropic 官方 | 环境变量未生效 | 运行 echo $ANTHROPIC_BASE_URL 确认已 export;或改用 settings.json 方式 |
# 内置健康检查,可显示配置来源和连通性
claude doctor
Codex CLI(OpenAI 官方 CLI)
OpenAI Codex CLI 支持设置 OPENAI_BASE_URL 覆盖默认端点。
安装 & 配置
# 安装
npm install -g @openai/codex
# 配置环境变量
export OPENAI_BASE_URL=https://tokensrelay.cn/v1
export OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx
# 使用
codex "帮我重构这个函数,添加错误处理"
# 或在 ~/.codex/config.yaml 中配置
provider: openai
model: auto
openai:
baseURL: https://tokensrelay.cn/v1
Cursor / Continue / 其他工具
所有支持 OpenAI 兼容 API 的工具,统一填以下两个参数即可:
| 参数 | 值 |
|---|---|
| API Base / Base URL | https://tokensrelay.cn/v1 |
| API Key | 你的 TokensRelay Key(sk-...) |
Cursor
Settings → Models → Add Model → 选择 OpenAI Compatible,填入上表参数。或在 .cursor/mcp.json 中指定。
Continue(VSCode/JetBrains 插件)
// ~/.continue/config.json
{
"models": [{
"title": "TokensRelay Auto",
"provider": "openai",
"model": "auto",
"apiBase": "https://tokensrelay.cn/v1",
"apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
}]
}
LangChain / LlamaIndex
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
model="auto",
api_key="sk-...",
base_url="https://tokensrelay.cn/v1",
)
Coze(字节 Bot 平台)
Coze 是字节跳动旗下的 AI Bot 搭建平台,支持通过「HTTP 请求」插件调用 TokensRelay OpenAI 兼容接口,无需代理即可直接使用。
配置步骤
注册 Coze,创建一个新 Bot,模型随意选一个占位。
在 控制台 → 令牌 获取你的 API Key。
在 Coze Bot 的「插件」中,创建一个新的 HTTP 插件(POST 方法),填写端点与鉴权信息。
在工作流中加入该插件节点,将 choices[0].message.content 映射为 Bot 回复。
Method: POST
URL: https://tokensrelay.cn/v1/chat/completions
Headers:
Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxx
Content-Type: application/json
Body:
{
"model": "auto",
"messages": [
{"role": "system", "content": "你是一个智能助手"},
{"role": "user", "content": "{{input.prompt}}"}
]
}
"model": "{{input.model|default('auto')}}",让调用方动态选择模型。⚠️ URL 末尾不要加斜杠,否则会导致路径错误。
claude-*/gpt-* 模型需先开通渠道。
Dify
Dify 是开源 LLM 应用平台,支持自定义 OpenAI 兼容模型提供商,只需填入 API Key 与 Base URL 即可调用全部 TokensRelay 模型。
配置步骤
在 控制台 → 令牌 生成一个 API Key(如 dify-integration)。
打开 Dify → 设置 → 模型供应商 → 安装插件,搜索并安装 OpenAI-API-compatible。
点击「添加模型」,填写以下参数:
| 字段 | 填写值 | 说明 |
|---|---|---|
| API Key | sk-xxxxxxxxxxxxxxxxxxxxxxxx | TokensRelay 令牌 |
| Base URL | https://tokensrelay.cn/v1 | 必填,否则 Dify 会连 openai.com |
| 模型名称 | auto / qwen/qwen3.5-122b-a10b 等 | 见可用模型 |
新建工作流,发送测试消息,请求日志应显示 POST https://tokensrelay.cn/v1/chat/completions。
故障排查
| 错误 | 原因 | 解决方法 |
|---|---|---|
401 Unauthorized | Key 无效或缺少 Bearer 前缀 | 确认格式:Authorization: Bearer sk-... |
| 连接超时 | 未填 Base URL 导致请求发到 openai.com | 确认 Base URL 指向 https://tokensrelay.cn/v1 |
503 无可用渠道 | 模型未开通 | 改用实际可用模型(如 auto/qwen/qwen3.5-122b-a10b) |
NextChat(ChatGPT Next Web)
NextChat 是流行的开源 AI 客户端,支持 Vercel 一键部署、Docker 或手动安装,兼容 TokensRelay OpenAI 格式。
BASE_URL 环境变量不加 /v1,NextChat 会自动拼接——填错会导致 404。方式 A:Vercel 部署
OPENAI_API_KEY = sk-xxxxxxxxxxxxxxxxxxxxxxxx
BASE_URL = https://tokensrelay.cn # 注意:不加 /v1
CODE = my-access-password # 访问密码
方式 B:Docker
docker run -d -p 3000:3000 \
-e OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx \
-e BASE_URL=https://tokensrelay.cn \
-e CODE=my-access-password \
yidadaa/chatgpt-next-web
方式 C:Docker Compose
version: '3'
services:
nextchat:
image: yidadaa/chatgpt-next-web
ports:
- "3000:3000"
environment:
OPENAI_API_KEY: sk-xxxxxxxxxxxxxxxxxxxxxxxx
BASE_URL: https://tokensrelay.cn
CODE: my-access-password
restart: unless-stopped
方式 D:已有实例手动配置
打开 NextChat 设置 → 「自定义接口地址」,填入 https://tokensrelay.cn(不加 /v1)和你的 API Key。
Claude Code Desktop
Claude Code Desktop 是 Anthropic 官方桌面客户端。与命令行版(Claude Code CLI)不同,桌面版的 Base URL 需要加 /v1 后缀。
配置步骤
启动 Claude Code Desktop。
进入 设置 → Model Provider / API 设置。
填入以下两个参数:
| 参数 | 填写值 |
|---|---|
| API Base URL(端点) | https://tokensrelay.cn/v1(桌面版需加 /v1) |
| API Key(Auth Token) | 你的 TokensRelay Key(sk-xxxxxxxx) |
在 Model 下拉框选择模型(如 auto、qwen/qwen3.5-397b-a17b),保存。
发送测试消息验证连接。
故障排查
| 错误 | 解决方法 |
|---|---|
401 Unauthorized | Key 是否含完整 sk- 前缀,复制时是否有多余空格 |
404 Not Found | 确认 URL 是 https://tokensrelay.cn/v1(桌面版需加 /v1,与 CLI 版不同) |
503 无可用渠道 | 改用实际可用模型,如 qwen/qwen3.5-122b-a10b |
OpenAI Codex Desktop
Codex Desktop 桌面客户端通过 ~/.codex/ 目录下的配置文件接入(Windows:%USERPROFILE%\.codex\)。
wire_api 必须设为 "responses"(而非 "chat"),否则 Codex Desktop 无法正常工作。~/.codex/auth.json
{
"OPENAI_API_KEY": "sk-xxxxxxxxxxxxxxxxxxxxxxxx"
}
~/.codex/config.toml
model_provider = "tokensrelay"
model = "auto"
wire_api = "responses" # 必须为 responses,不能是 chat
disable_response_storage = true
preferred_auth_method = "apikey"
[model_providers.tokensrelay]
name = "tokensrelay"
base_url = "https://tokensrelay.cn/v1" # /v1 不可省略
修改后完全退出 Codex Desktop 并重启以使配置生效。
OpenCode
OpenCode 是开源 AI 编程 CLI,通过 JSON 配置文件支持自定义 OpenAI 兼容提供商。
安装
# npm 安装
npm install -g opencode-ai
# 或脚本安装(macOS/Linux)
curl -fsSL https://opencode.ai/install | bash
# 验证
opencode -v
配置文件
路径:macOS/Linux ~/.config/opencode/opencode.json,Windows C:\Users\[用户名]\.config\opencode\opencode.json
{
"providers": {
"tokensrelay": {
"apiKey": "sk-xxxxxxxxxxxxxxxxxxxxxxxx",
"baseURL": "https://tokensrelay.cn/v1"
}
},
"models": {
"tokensrelay/auto": {
"contextLength": 200000,
"maxTokens": 32768
},
"tokensrelay/qwen/qwen3.5-122b-a10b": {
"contextLength": 131072,
"maxTokens": 32768
}
}
}
Provider ID 只能含小写字母和数字。配置修改后需重启 OpenCode 才生效。在会话中用 /models 命令确认可用模型。
OpenClaw
OpenClaw 是支持多技能扩展的 AI Agent 框架,首次运行时通过向导配置 TokensRelay 端点。
安装
# macOS / Linux
curl -fsSL https://openclaw.ai/install.sh | bash
source ~/.zshrc
# Windows(PowerShell 管理员)
iwr -useb https://openclaw.ai/install.ps1 | iex
# 验证
openclaw --version
配置
首次运行 openclaw 启动配置向导,按提示:
- 选择 Custom API Integration
- Base URL:
https://tokensrelay.cn/v1 - 粘贴你的 TokensRelay API Key
- 从列表选择模型(推荐
auto)
看到 ✅ Model connect success 提示即配置成功。
openclaw tui # 启动 TUI 界面
openclaw skill list # 查看可用技能
openclaw skill install pdf-kit # 安装技能
Hermes Agent(Nous Research)
Hermes Agent 是 Nous Research 开发的开源 AI Agent,通过配置文件接入 TokensRelay OpenAI 兼容接口。
安装
# macOS / Linux
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.zshrc
# Windows(PowerShell 管理员)
irm https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.ps1 | iex
配置
# 运行配置向导
hermes config
选择 OpenAI Compatible 提供商,或手动编辑 ~/.hermes/config.yaml(Windows:%USERPROFILE%\.hermes\config.yaml):
provider:
type: openai
api_key: sk-xxxxxxxxxxxxxxxxxxxxxxxx
base_url: https://tokensrelay.cn/v1 # 必须含 /v1
model: auto
hermes # 启动对话
hermes model # 查看可用模型
# 会话中用 /model 命令切换模型
故障排查
| 错误 | 解决方法 |
|---|---|
401 Unauthorized | 检查 API Key 余额与有效性 |
404 Not Found | 确认 Base URL 包含 https:// 和 /v1 |
503 无可用渠道 | 查看模型列表,改用实际可用模型 |
WorkBuddy(腾讯云)
腾讯云 WorkBuddy 支持添加自定义模型,在模型设置中填入 TokensRelay 端点与 Key 即可调用全部可用模型。
| 字段 | 填写值 |
|---|---|
| 供应商 | 自定义 / Custom |
| API Endpoint | https://tokensrelay.cn/v1 |
| API Key | 你的 TokensRelay Key(sk-...) |
| 模型名称 | auto、qwen/qwen3.5-122b-a10b 等(见模型列表) |
回到模型列表,勾选复选框启用该模型(⚠️ 必须勾选,否则仍使用默认配额)。
在对话窗口发送测试消息确认正常响应。
故障排查
| 现象 | 解决方法 |
|---|---|
| 仍在扣除默认配额 | 确认在模型列表中已勾选自定义模型 |
| 请求失败 | 检查 API Key 余额和端点地址是否正确 |
503 无可用渠道 | 改用实际可用模型(auto/qwen/*/deepseek-ai/*) |
方法论 · 成本控制
无论所属行业,企业批量使用 AI 编程/Agent 工具时都会遇到三个共性问题:怎么在完成工作的前提下尽量省钱、怎么减少模型"一本正经地编造"(幻觉),以及怎么保证 AI 改出来的代码不出生产事故。本节给出通用方法,下方各行业章节会引用这里的做法。
分场景的模型选择策略
| 场景 | 推荐策略 | 示例模型 |
|---|---|---|
| 简单/重复任务(格式化、加注释、简单 CRUD、常见 FAQ) | 用低价快速模型,或交给智能路由 | deepseek-ai/deepseek-v4-flash、auto |
| 复杂架构设计、跨模块重构、疑难 Bug | 用强模型,必要时多轮对话深入分析 | qwen/qwen3.5-397b-a17b、moonshotai/kimi-k2.6、mistralai/mistral-large-3-675b-instruct-2512 |
| 高频客服 / 知识库问答 | 默认走 auto,按问题复杂度自动路由,复杂问题再升级 | auto |
| 批量脚本任务(批量生成/批量翻译/批量分析) | 非流式 + 脚本化批处理,避免交互式逐条调用的浪费 | 任意 |
| 团队/部门预算管理 | 为每个部门/项目创建独立子令牌,设置月度额度与限流,便于成本归因 | 控制台 → 令牌管理 |
model: "auto")本身就是为成本优化设计的:网关会按请求内容自动在性价比模型与高能力模型之间路由。绝大多数业务场景建议优先尝试 auto,仅在效果不达标时再手动指定强模型。⚠️ 当前网关暂不支持 Anthropic prompt caching(
/v1/messages 的 cache_control 字段会被翻译层忽略),省钱主要靠:选对模型档位 + auto 路由 + 非流式批处理 + 子令牌预算管理。方法论 · 减少幻觉
"幻觉"指模型给出看似合理但实际错误或编造的内容——错误的 API、不存在的政策条款、虚构的故障代码等。以下方法可显著降低幻觉概率:
| 方法 | 说明 |
|---|---|
| 先检索再生成(RAG) | 把企业自己的文档、知识库、代码库作为上下文喂给模型,让回答"有依据"而不是凭模型记忆。Coze 的「知识库」插件、Cursor/Cline 的 @文件 / @代码库 引用都是这个思路。 |
| 允许模型说"不知道" | 在 system prompt 中明确写入「如果信息不足或不确定,请直接说明,不要编造」,比单纯要求"准确"更有效。 |
降低 temperature | 事实性 / 代码类任务建议 0~0.3;创意类任务(文案、头脑风暴)可以保持默认或更高。 |
| 要求输出可验证的结果 | 代码类要求「必须能通过给定测试」;文档/知识问答类要求标注信息来源(文件路径、行号、文档链接)。 |
| 多步校验(生成 → 验证 → 修正) | 让 AI 生成后自行运行/测试,根据真实结果再修正,而不是一次成型。Cursor/Cline 的终端执行能力很适合做这一步。 |
| 用工具调用代替猜测 | 涉及具体数字、日期、版本号、价格等事实,让模型通过 tool_use 查询真实数据源(数据库/API/文件),而不是凭记忆作答。 |
| 人工抽样审查 | 对客服机器人、知识库问答类应用,定期抽样人工核对回答准确性,把发现的幻觉模式补充进知识库或 prompt 约束中。 |
方法论 · 代码稳定性
AI 能显著提速编码,但不受控的批量改动是生产事故的常见来源。以下做法能在提速的同时控制风险:
| 方法 | 说明 |
|---|---|
| 小步快跑 | 每次让 AI 改动的范围尽量小(单文件/单函数),便于 review 和回滚,出问题也容易定位。 |
| Diff 预览,禁止自动应用 | Cursor/Cline 配置为「先展示 diff 再应用」,重大改动必须人工确认后才落盘。 |
| 测试先行 | 要求 AI 为新代码同步生成/更新单元测试,CI 跑绿才允许合并。 |
| Lint / 类型检查 / 静态分析作为门禁 | 纳入 CI 流程,AI 生成的代码同样要过这些检查,不开后门。 |
| 标记 AI 辅助的改动 | 在 commit message 中注明「AI-assisted」,便于事后追踪问题代码来源、统计 AI 改动的质量。 |
| 危险操作二次确认 | AI 生成的 SQL DELETE/UPDATE、Shell rm、生产部署脚本,先在测试环境跑通,并要求模型输出「影响范围说明」。 |
| 锁定模型版本 | 核心项目固定使用具体模型(如 qwen/qwen3.5-397b-a17b)而非 auto 或「最新」别名,避免路由变化 / 模型升级导致输出风格、质量突变影响稳定性。 |
行业最佳实践 · 总览
下面 8 个行业章节均按统一结构展开:行业现状(核心矛盾与约束)→ 分部门最佳实践(场景/工具/模型/注意事项)→ 工具配置参考 → 本行业成本与质量要点(链接回方法论)。可直接跳转到所属行业:
行业最佳实践 · 教育
行业现状
在线教育平台、K12/职业培训机构、高校信息化部门正在快速把 AI 编程工具引入教学与管理系统开发。共同特点:IT 人手有限、预算敏感、面向学生/家长的内容必须保证准确(错误的知识性回答会直接影响教学质量与口碑)。AI 工具的价值主要体现在「降低开发与答疑的人力成本」,但必须配套成本管控与准确性校验。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 教务 / 信息中心(IT) | 校务系统、选课系统、成绩管理系统的开发与维护 | Cursor / Cline | qwen/qwen3.5-122b-a10b | 系统改动遵循小步提交 + CI 测试,选课等核心流程改动需人工 review |
| 教学 / 院系(教师) | 课程案例代码、习题与参考答案生成、作业批改建议 | Cursor / Continue | auto / qwen/qwen3.5-122b-a10b | 涉及知识性内容(概念解释、知识点)时要求模型标注依据,降低幻觉,教师终审后才发给学生 |
| 学生事务 / 教务咨询 | 选课、请假、奖助学金等政策类 FAQ 机器人 | Coze | deepseek-ai/deepseek-v4-flash / auto | 必须接入校务政策知识库做 RAG,避免编造政策条款;上线前及上线后定期抽样核对(见减少幻觉) |
| 培训机构 - 课程研发部 | 批量生成课件示例代码、配套练习与自动化测试用例 | Trae(Agent 模式) | auto | 批量任务用非流式脚本化调用,控制成本;生成的示例代码需跑通测试再纳入课件 |
| 图书馆 / 资料中心 | 文献与电子资料检索问答 | Coze 知识库 | auto | 强制要求标注来源链接/页码,便于学生溯源核实 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 实训项目代码生成、作业代码风格统一 | qwen/qwen3.5-122b-a10b / auto | Settings → Models → OpenAI Compatible,见Cursor 配置 |
| Trae | AI 助教快速搭建教学 Demo、自动生成讲义示例代码 | auto(性价比高) | 设置 → 模型服务 → 添加自定义模型,见下方示例 |
| Coze | 校园答疑机器人、选课/教务咨询助手 | deepseek-ai/deepseek-v4-flash / auto | 工作流中用「HTTP 请求」节点调用 /v1/chat/completions |
| Cline | VSCode 内逐步讲解代码、引导式编程教学 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 多校区/多班级统一分发 config.json 模板 | auto | 团队共享配置,统一 Key 便于用量统计 |
Trae 接入示例(其余行业同理,可复用此配置)
打开 Trae → 设置 → 模型服务(Model Service)。
选择「添加自定义模型 / Custom Model Provider」,类型选择 OpenAI Compatible。
填入以下参数:
Base URL: https://tokensrelay.cn/v1
API Key: sk-xxxxxxxxxxxxxxxxxxxxxxxx
Model: auto (或 qwen/qwen3.5-122b-a10b、deepseek-ai/deepseek-v4-flash 等)
本行业成本与质量要点
- 成本:学生/课程数量大,优先用
auto或低价模型(见成本控制);按班级/项目创建子令牌并设置月度上限。 - 幻觉:所有面向学生/家长的知识性回答必须 RAG + 标注来源,定期抽样核对(见减少幻觉)。
- 稳定性:校务系统类改动遵循小步提交 + CI 门禁(见代码稳定性),避免选课/成绩等核心流程因 AI 改动出错。
行业最佳实践 · 医疗
行业现状
医院信息科、互联网医疗企业、医疗软件供应商对 AI 编程工具的态度是「积极但谨慎」:开发效率需求强烈,但数据合规(类 HIPAA 要求)与内容准确性要求极高——任何幻觉或误操作都可能演变为医疗安全事件,因此数据安全是第一优先级。以下场景均针对开发/办公环境,不涉及向模型直接传输患者隐私数据。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 信息科 / IT 中心 | HIS/LIS/EMR 系统开发维护、第三方接口对接 | Cursor | qwen/qwen3.5-397b-a17b(架构)/ qwen/qwen3.5-122b-a10b(日常) | 严格执行代码稳定性流程,核心模块(处方、医嘱、收费)改动需双人 review + 灰度发布 |
| 患者服务部 / 导诊台 | 导诊咨询、预约提醒、科室介绍问答 | Coze | deepseek-ai/deepseek-v4-flash | 仅限通用知识,RAG 接入医院公开资料,绝不提供诊断建议;定期抽样人工核对(见减少幻觉) |
| 医务部 / 临床科室 | 文献检索辅助、病历模板与说明文书草稿生成 | Continue | qwen/qwen3.5-122b-a10b | 输入数据须先脱敏(见上方警告);AI 输出必须经医生复核后才能使用,不可直接采信 |
| 科研部 | 论文与文献综述检索、总结、初稿撰写 | Cursor / Cline | qwen/qwen3.5-397b-a17b | 要求模型标注文献来源,人工核对引用真实性——这是医疗场景减少幻觉的关键环节,编造文献是常见幻觉类型 |
| 运维 / 信息安全部 | 日志与接口安全审查脚本、合规扫描 | Cline | qwen/qwen3.5-122b-a10b | 在 Prompt 模板中加入「检查是否存在 PII/PHI 泄露」固定检查项 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | HIS/LIS/EMR 系统代码重构、接口合规性审查 | qwen/qwen3.5-397b-a17b(复杂架构)/ qwen/qwen3.5-122b-a10b(日常) | 同Cursor 配置;建议在 Prompt 中要求模型不要回显示例数据 |
| Trae | 院内管理系统(排班、库存、设备台账)快速原型 | auto | 见Trae 接入示例 |
| Coze | 导诊咨询、预约提醒、科室介绍等通用医学知识问答机器人 | deepseek-ai/deepseek-v4-flash | 仅接入公开知识库,不连真实 HIS 数据库 |
| Cline | 代码审查时检查日志/接口是否意外打印敏感字段 | qwen/qwen3.5-122b-a10b | 在 Prompt 模板中加入「检查是否存在 PII 泄露」检查项 |
| Continue | 团队统一脱敏 Prompt 模板分发(JetBrains/VSCode) | auto | config.json 中预设 systemMessage,强调脱敏要求 |
本行业成本与质量要点
- 成本:为每个科室/项目单独开通子令牌并设置较低的日限额,结合限流策略降低误操作风险(见成本控制)。
- 幻觉:面向患者/临床的回答必须 RAG + 来源可追溯 + 人工抽查;科研引用必须人工核实真实性(见减少幻觉)。幻觉在医疗场景等同于安全风险,容忍度为零。
- 稳定性:HIS 核心模块改动遵循双人 review + 灰度发布,危险 SQL/脚本必须先在测试环境验证(见代码稳定性)。
行业最佳实践 · 互联网
行业现状
互联网/科技公司技术团队规模大、迭代节奏快,AI 编程工具已成为日常开发标配。核心矛盾不再是"要不要用",而是"效率提升"与"代码质量/成本失控"之间的平衡——大团队若缺乏统一规范,很容易出现模型滥用导致成本暴涨,或 AI 改动未经把关引入隐患。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 后端研发 | 接口开发、数据库迁移脚本、性能优化 | Cursor | qwen/qwen3.5-122b-a10b(日常)/ qwen/qwen3.5-397b-a17b(架构) | 数据库迁移类脚本必须先在测试环境验证,遵循代码稳定性中的危险操作二次确认 |
| 前端研发 | 组件开发、样式调整、批量重构 | Cursor / Cline | qwen/qwen3.5-122b-a10b | 小步提交 + 视觉回归测试,避免大范围自动应用改动 |
| 测试 / QA | 测试用例生成、自动化测试脚本编写 | Cline | auto | AI 生成的测试反哺代码稳定性门禁,是性价比最高的应用之一 |
| 运维 / SRE | 部署脚本、监控告警规则、故障排查辅助 | Cline | qwen/qwen3.5-122b-a10b | 危险命令(重启、扩缩容、删除资源)必须二次确认,先在预发环境验证 |
| 客服 / 运营 | 用户咨询机器人、运营文案与活动素材生成 | Coze | auto | RAG 接入产品文档/价格表,降低答错版本号、价格等事实性幻觉 |
| 产品 / 数据分析 | 数据查询 SQL 生成、报表自动化 | Continue | auto / qwen/qwen3.5-122b-a10b | 生成的 SQL 先在只读副本验证,避免幻觉字段名导致报表数据错误 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 大型 monorepo 多文件重构、PR 自动审查 | 架构评审用 qwen/qwen3.5-397b-a17b,日常用 qwen/qwen3.5-122b-a10b | 见Cursor 配置 |
| Trae | Agent 模式批量生成微服务脚手架/接口文档 | auto / auto | 见Trae 接入示例 |
| Coze | 客服机器人、内部知识库问答、运营数据查询助手 | auto(按问题复杂度自动路由) | 工作流「HTTP 请求」节点调用 /v1/chat/completions,详见下方示例 |
| Cline | CI/CD 脚本、部署脚本、运维 Runbook 编写 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 全团队统一 config.json,按角色分配模型(初级工程师用 auto 控成本,高级工程师用 qwen/qwen3.5-397b-a17b) | 分级配置 | 多模型条目,团队成员各自选择 |
Coze 工作流接入示例(客服/知识库场景)
在 Coze 工作流中添加「HTTP 请求」节点:
Method: POST
URL: https://tokensrelay.cn/v1/chat/completions
Headers:
Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxx
Content-Type: application/json
Body:
{
"model": "auto",
"messages": [
{"role": "system", "content": "你是XX公司的客服助手"},
{"role": "user", "content": "{{user_input}}"}
]
}
将返回结果中的 choices[0].message.content 映射到下一节点,作为机器人回复。
本行业成本与质量要点
- 成本:大规模团队优先用
auto+ 按部门子令牌设预算(见成本控制);高并发客服场景默认auto,复杂问题再升级到 更强模型(如qwen/qwen3.5-397b-a17b、moonshotai/kimi-k2.6)。 - 幻觉:客服/运营类必须 RAG 接入最新产品文档与价格表,避免回答过时信息(见减少幻觉)。
- 稳定性:研发类核心改动遵循小步提交 + CI 门禁 + 危险操作二次确认(见代码稳定性),AI 改动建议在 commit message 中标注以便追踪。
行业最佳实践 · 工业制造
行业现状
制造企业的 IT/研发力量普遍薄弱,存量系统多为老旧的 C/C++、PLC、VB 代码,文档缺失严重。AI 工具的核心价值是「读懂老代码」「快速对接新系统」与「把老师傅的经验数字化成知识库」。同时车间网络环境特殊(内网、出口受限、弱网),接入方案需要兼顾安全审计与可用性。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 研发部(嵌入式/PLC) | 老代码注释补全、Bug 定位、通信协议解析代码生成 | Cursor | qwen/qwen3.5-122b-a10b | 嵌入式代码改动必须先在仿真环境/测试设备验证,遵循代码稳定性 |
| 信息化部(MES/ERP 对接) | 系统集成脚本、数据接口开发 | Trae | auto | 涉及生产数据的接口先在测试库跑通,确认字段映射无误后才接生产 |
| 设备维护部 | 设备说明书/故障代码知识库问答,供产线技术员现场查询 | Coze | deepseek-ai/deepseek-v4-flash | RAG 接入设备手册 PDF,避免编造故障代码含义——故障知识库的幻觉可能直接导致误维修甚至安全事故 |
| 质量部 | 检测数据分析脚本、质量报表自动化 | Continue | auto | 统计类结果要求展示计算过程/中间数据,便于核验避免幻觉 |
| 安全 / 网络部 | 工控网络访问策略脚本审查、出口防火墙规则维护 | Cline | qwen/qwen3.5-122b-a10b | 涉及防火墙/工控网配置变更需双人确认,禁止 AI 直接落地生产配置 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 嵌入式 C/C++、PLC 脚本审查与重构 | qwen/qwen3.5-122b-a10b | 见Cursor 配置 |
| Trae | MES/SCADA 数据接口对接脚本快速生成 | auto | 见Trae 接入示例 |
| Coze | 设备说明书/故障代码知识库问答,供产线技术员现场查询 | deepseek-ai/deepseek-v4-flash | 见Coze 工作流示例,知识库内容建议预先整理为 FAQ 文档 |
| Cline | 老旧工业控制系统代码补充注释与文档 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 工厂内网环境统一接入配置,便于安全审计 | auto | 统一通过公司出口网关访问 https://tokensrelay.cn/v1,便于日志留存 |
tokensrelay.cn 域名在防火墙白名单中;如需固定 IP,可联系客服获取出口 IP 段。本行业成本与质量要点
- 成本:批量脚本类任务(数据转换、报表)优先用低价模型/
auto(见成本控制)。 - 幻觉:设备故障知识库必须 RAG + 来源可查,杜绝编造故障代码含义(见减少幻觉)。
- 稳定性:嵌入式/工控相关改动先在仿真或测试设备验证,配置变更双人确认(见代码稳定性)。
行业最佳实践 · 金融
行业现状
银行、证券、保险、消费金融等机构受强监管约束:数据安全分级管理、操作留痕审计、核心交易系统的稳定性要求接近零容错。AI 工具的落地路径通常是「先外围、再核心」——优先在风控规则、合规检索、报表与运营脚本等非核心交易链路试点,积累信任后再逐步扩展。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 科技部 / 研发中心 | 核心交易系统外围功能开发、第三方 API 对接 | Cursor | qwen/qwen3.5-397b-a17b(架构)/ qwen/qwen3.5-122b-a10b(日常) | 核心交易链路改动必须双人 review + 完整回归测试,遵循代码稳定性;AI 辅助优先用于外围/工具类代码 |
| 风控部 | 风控规则脚本、反欺诈特征工程代码 | Cline | qwen/qwen3.5-122b-a10b | 规则上线前必须在历史数据上回测验证,避免 AI 生成的边界条件遗漏 |
| 合规部 | 监管政策检索、合规文档问答 | Coze | deepseek-ai/deepseek-v4-flash | RAG 接入最新监管文件并标注发文日期/文号,避免引用过期条款(减少幻觉) |
| 客服 / 呼叫中心 | 智能客服应答、催收话术辅助生成 | Coze | auto | 客户姓名、账号、余额等金融信息严禁直传模型,需先脱敏(参考医疗行业的脱敏要求) |
| 运营 / 产品 | 报表自动化、营销文案生成 | Continue | auto | 涉及金额、利率、收益率的计算结果必须人工核对,禁止直接采信模型计算 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 核心系统外围功能开发、接口代码审查 | qwen/qwen3.5-397b-a17b / qwen/qwen3.5-122b-a10b | 见Cursor 配置 |
| Trae | 风控/数据处理脚本快速生成 | auto | 见Trae 接入示例 |
| Coze | 合规问答、客服与催收话术辅助 | deepseek-ai/deepseek-v4-flash | 见Coze 工作流示例,知识库需按监管文件版本定期更新 |
| Cline | 风控规则脚本编写与审查 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 团队统一接入,按部门分配模型与预算 | auto | 子令牌按部门隔离,便于审计留痕 |
本行业成本与质量要点
- 成本:按部门设置独立子令牌并设额度上限,满足监管对操作留痕和成本归因的审计要求(见成本控制)。
- 幻觉:监管政策类回答必须 RAG + 标注文号/日期 + 人工复核——金融场景下的幻觉等同于合规风险(见减少幻觉)。
- 稳定性:核心交易系统的稳定性要求高于一般行业,AI 改动需双人 review、完整回归测试和灰度发布(见代码稳定性)。
行业最佳实践 · 零售电商
行业现状
零售/电商企业业务迭代速度快,大促期间流量与调用量会出现数量级波动。AI 应用集中在客服、商品文案、运营脚本与数据分析,目标是在保证商品/价格/库存信息准确的前提下,用更低成本覆盖更大的客服与内容生产量。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 研发部 | 商品/订单/营销系统开发,大促前性能优化 | Cursor | qwen/qwen3.5-122b-a10b(日常)/ qwen/qwen3.5-397b-a17b(架构) | 大促前设代码改动冻结期,AI 辅助的改动同样纳入灰度发布(代码稳定性) |
| 客服部 | 售前咨询、售后纠纷处理机器人 | Coze | auto | RAG 接入商品信息、库存与退换货政策,避免答错价格/库存/物流时效(减少幻觉) |
| 运营部 | 商品文案、营销活动页文案、SEO 内容批量生成 | Trae / Continue | auto / deepseek-ai/deepseek-v4-flash | 批量生成场景成本敏感,优先用低价模型/auto(成本控制) |
| 供应链 / 仓储部 | 库存预警脚本、物流系统对接接口 | Cline | qwen/qwen3.5-122b-a10b | 库存扣减、出入库等关键脚本先在测试环境验证 |
| 数据分析部 | 销售数据分析 SQL、报表自动化 | Continue | auto | SQL 先在只读副本验证,避免幻觉字段名导致报表错误 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 商品/订单/营销系统开发与性能优化 | qwen/qwen3.5-122b-a10b / qwen/qwen3.5-397b-a17b | 见Cursor 配置 |
| Trae | 批量生成商品文案/营销活动页代码 | auto / auto | 见Trae 接入示例 |
| Coze | 智能客服、售后机器人 | auto | 见Coze 工作流示例 |
| Cline | 库存/物流接口脚本编写 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 数据分析 SQL 辅助生成 | auto | 团队共享配置 |
本行业成本与质量要点
- 成本:大促前评估调用量峰值,提前规划配额;批量内容生成默认走
auto或低价模型(见成本控制)。 - 幻觉:客服类幻觉直接影响转化率与投诉率,价格/库存/物流信息必须 RAG 实时同步(见减少幻觉)。
- 稳定性:价格、库存相关代码改动走严格的小步提交 + 测试验证(见代码稳定性),大促期间冻结非必要改动。
行业最佳实践 · 政务
行业现状
数字政府建设加速推进,AI 工具被用于政务系统开发、政策法规问答与市民服务热线。本行业有三个突出特点:涉及公民个人信息,数据安全要求最高;政策解读错误会直接影响政府公信力,准确性要求极高;部分场景需考虑信创/国产化适配。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 信息中心 | 政务系统开发维护、数据共享接口对接 | Cursor | qwen/qwen3.5-122b-a10b | 涉及公民个人信息的接口必须先用脱敏测试数据验证(参考医疗行业脱敏要求) |
| 政务服务大厅 | 办事指南、所需材料清单问答机器人 | Coze | deepseek-ai/deepseek-v4-flash | 严格 RAG 接入官方政策文件,杜绝编造办事流程或材料要求——此类幻觉会直接影响群众办事体验 |
| 法规 / 政策研究室 | 法规检索、政策文件起草辅助 | Cursor / Cline | qwen/qwen3.5-397b-a17b | 输出内容必须人工审核,并标注所依据的法规名称与条款号 |
| 12345 热线 / 客服中心 | 市民诉求分类、常见问题解答 | Coze | auto | 诉求内容涉及个人信息时需脱敏后再处理或分析 |
| 信息化运维部 | 系统巡检脚本、安全审计 | Cline | qwen/qwen3.5-122b-a10b | 涉及内网/政务专网的系统需先评估是否适合走外部网关,必要时采用内网部署方案 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 政务系统开发维护 | qwen/qwen3.5-122b-a10b | 见Cursor 配置 |
| Trae | 数据共享接口/政务小程序快速开发 | auto | 见Trae 接入示例 |
| Coze | 办事指南、热线问答机器人 | deepseek-ai/deepseek-v4-flash | 见Coze 工作流示例,知识库需随政策更新同步维护 |
| Cline | 系统巡检、安全审计脚本 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 法规检索辅助、跨部门共享配置 | qwen/qwen3.5-397b-a17b | 团队共享配置,统一令牌便于留痕 |
本行业成本与质量要点
- 成本:按业务系统/科室设置子令牌与额度,便于经费核算与审计(见成本控制)。
- 幻觉:政策与办事流程类回答必须 RAG + 标注法规依据 + 人工审核,幻觉直接影响政府公信力(见减少幻觉)。
- 稳定性:涉及公民信息的系统改动遵循脱敏测试 + 双人 review(见代码稳定性);信创环境下优先评估
qwen/deepseek等国产模型的适配性。
行业最佳实践 · 法律服务
行业现状
律所与企业法务部门正在用 AI 辅助合同审查、法律检索与文书起草,效率提升明显,但对准确性与保密性的要求极高——执业要求决定了 AI 输出只能作为「初稿/辅助」,最终责任仍由执业律师承担;客户资料的保密义务也要求严格的数据处理规范。
分部门最佳实践
| 部门 | 核心 AI 应用场景 | 推荐工具 | 推荐模型 | 关键注意事项 |
|---|---|---|---|---|
| 律师 / 法务团队 | 合同审查、条款风险提示、法律意见书初稿 | Cursor / Cline | qwen/qwen3.5-397b-a17b | AI 输出仅作初稿,最终意见必须由执业律师审核签字;客户合同内容的保密性参考医疗行业的脱敏思路 |
| 法律检索 / 研究 | 法条与案例检索、要点摘要 | Cline | qwen/qwen3.5-122b-a10b | 要求标注法条/案例的具体编号与来源,人工核实真实性——编造法条或案例是法律场景最危险的幻觉类型 |
| 客户咨询 / 法律热线 | 常见法律问题 FAQ 机器人 | Coze | deepseek-ai/deepseek-v4-flash | 机器人需在回复中明确「仅供参考,非正式法律意见」,并 RAG 接入权威法规库 |
| 行政 / 知识管理 | 内部知识库整理、文书模板生成 | Continue | auto | 模板生成后需人工核对格式与适用法律版本是否最新 |
工具配置参考
| 工具 | 典型场景 | 推荐模型 | 配置要点 |
|---|---|---|---|
| Cursor | 合同审查辅助、风险条款标注 | qwen/qwen3.5-397b-a17b | 见Cursor 配置 |
| Trae | 文书模板批量生成 | auto | 见Trae 接入示例 |
| Coze | 法律咨询 FAQ 机器人 | deepseek-ai/deepseek-v4-flash | 见Coze 工作流示例 |
| Cline | 法条/案例检索与摘要 | qwen/qwen3.5-122b-a10b | 见Cline 配置 |
| Continue | 内部知识库整理与维护 | auto | 团队共享配置 |
本行业成本与质量要点
- 成本:检索/摘要类高频任务可用
auto或性价比模型,合同审查等关键任务用强模型(见成本控制)。 - 幻觉:法条与案例引用必须可追溯到具体编号并人工核实,杜绝"看似真实"的编造引用(见减少幻觉)。
- 稳定性:AI 输出定位为辅助初稿,所有对外文件须经执业人员审核确认后才能发出(见代码稳定性中"人工复核"的同等原则)。
优惠券 / 兑换码
如果你拿到了 TokensRelay 的优惠券或兑换码,可以在控制台兑换为账户余额。
兑换方式:控制台操作
登录 tokensrelay.cn,进入个人中心。
点击顶部导航 充值,或前往 控制台 → 充值。
在页面底部找到 兑换码 / 优惠券 输入框,粘贴你的码并点击 兑换。
兑换成功后余额实时到账,可在 个人中心查看。
优惠券获取渠道
- 官方活动 / 推广(关注公告)
- 邀请新用户注册(邀请码奖励)
- 提交工单咨询客服
充值
访问 控制台 → 充值 进行在线充值。余额按实际 API 用量扣减,无月费。
402 错误。建议开启余额提醒(控制台 → 个人设置)。限流
为保障公平使用,接口存在速率限制。超限会返回 429,建议客户端实现指数退避重试。
| 范围 | 默认限制 |
|---|---|
| 单 IP / 对话接口 | 高并发突发缓冲,超出排队或拒绝 |
| 账户级 | 按套餐/余额,详见控制台 |
错误码
| HTTP | 含义 | 处理建议 |
|---|---|---|
401 | 未提供或无效令牌 | 检查 Authorization / x-api-key 头与 Key 是否吊销 |
402 | 余额不足 | 前往控制台充值或兑换优惠码 |
403 | 令牌无权使用该模型 | 该令牌可用模型范围不含此模型,换模型或调整令牌权限 |
429 | 触发限流 | 降低频率,指数退避重试 |
502 / 503 | 上游/网关异常。503「无可用渠道」=模型不存在或后端未配置(如 claude-*/gpt-*/embedding);502 proxy_error=auto 全部候选失败 | 改用可用模型或稍后重试;持续异常见状态页 |
// OpenAI 格式错误
{"error": {"message": "余额不足", "type": "tokensrelay_error", "code": 402}}
// Anthropic 格式错误
{"type": "error", "error": {"type": "api_error", "message": "余额不足"}}
5xx 与延迟波动属正常现象。生产环境请对 429 / 5xx 实现自动重试 + 指数退避,或直接使用 auto(自带失败切换)。受上游负载影响,各模型延迟波动较大——实测同一模型首字延迟可在 1s 到数十秒之间浮动(大参数模型如 qwen/qwen3.5-397b-a17b 常态 ~30s+)。建议开启流式输出改善体感,并将客户端超时调大到 90s 以上。常见问题
可以用官方 Anthropic SDK 接入吗?
可以。设置 base_url="https://tokensrelay.cn"(不加 /v1)和 api_key 为你的 TokensRelay Key 即可,代码其余部分与访问 Anthropic 官方完全一致。详见 Python Anthropic SDK 或 Node.js Anthropic SDK 示例。
能直接用 LangChain / LlamaIndex / Cursor / Continue 吗?
可以。任何支持自定义 OpenAI base_url 的工具都能接入,填 https://tokensrelay.cn/v1 与你的 Key 即可。详细步骤见客户端工具 → Cursor / Continue。
Cline / Claude Code 怎么配置?
见Cline 配置与Claude Code 配置章节,均有逐步说明。Claude Code 支持 5 种配置方式(环境变量、settings.json、项目级配置、内联变量、--settings 参数)。
Claude Code 配置完成后如何确认连的是 TokensRelay?
运行 echo $ANTHROPIC_BASE_URL 确认输出为 https://tokensrelay.cn;或运行 claude -p "say hi" --model qwen/qwen3.5-397b-a17b,若有响应则连接成功。也可以执行 claude doctor 查看配置来源。
OpenAI 格式和 Anthropic 格式可以用同一个 Key 吗?
可以。同一个 TokensRelay Key 同时适用于两种格式,共享账户余额,无需分别申请。
支持函数调用 / 工具吗?
支持。OpenAI 格式透传 tools / tool_choice 字段;Anthropic 格式支持 tool_use 内容块与 tool_result 多轮对话(取决于所选上游模型能力)。
服务是否稳定?
实时运行状态见 状态页。
如何在线测试模型?
访问 在线 Playground,无需写代码,直接在浏览器中选模型、发消息、看流式输出。
需要帮助?提交工单 · 在线 Playground · 返回控制台