Features

本地与私有模型

让 BitRouter 指向你自己的本地或私有模型服务 —— Ollama、vLLM、LM Studio、llama.cpp,或任何 OpenAI 兼容端点。本地模式 100% 免费。

让开源的 bitrouter 二进制对接运行在你自己机器上的模型服务 —— Ollama、vLLM、LM Studio、llama.cpp,或任何 OpenAI 兼容端点 —— 整条链路都留在 localhost。无需云账户,无按 token 计费,密钥也不会离开你的机器。这就是本地模式,完全免费。

为什么要让本地模型走 BitRouter

一个裸的本地服务只在一个 URL 上提供一个模型。把 BitRouter 放在它前面,你能获得与托管模型相同的接口:

  • 单一端点、单一协议。 你的 Agent 运行时指向 http://localhost:4356,使用 OpenAI(或 Anthropic)线格式。请求落到本地的 Llama 还是托管的 Claude,是一次路由决策,而非客户端改动。
  • 在本地与托管之间回退。 声明一个虚拟模型,先尝试你的本地服务,在出错或过载时溢出到托管提供商 —— 默认廉价且本地,GPU 繁忙时依然有韧性。
  • 应用同一套 Guardrails 与可观测性。 你的 Agent 防火墙规则与请求追踪对本地推理的作用与对托管调用完全一致 —— 在提示词触达模型之前就地检查、脱敏或拦截,并在请求日志中看到每一次本地跳点。

注册本地模型的两种方式

1. 通过配置文件接入 OpenAI 兼容端点

大多数本地服务(Ollama、vLLM、LM Studio、llama.cpp)都暴露一个 OpenAI 兼容的 /v1 API。在 bitrouter.yaml 中把它们声明为一个 provider,api_base 指向本地 URL:

providers:
  ollama:
    api_base: http://localhost:11434/v1
    api_protocol:
      - "*": chat_completions
    models:
      - id: llama3.1

providers 是一个以你自选的 provider id 为键的映射(这里是 ollama)。api_base 是服务的基础 URL;api_protocol 是 BitRouter 对上游使用的线格式 —— 任何 OpenAI 兼容服务都用 chat_completions。BitRouter 对任何非 Anthropic、非 Google 的主机已默认推断为 chat_completions,因此 api_protocol 块是可选的,但写明能让意图更清晰。models 下每一项是该服务提供的模型 id。

完整的分步流程 —— 含 Ollama、vLLM、LM Studio 与 llama.cpp 的变体及确切启动命令 —— 见本地模型服务食谱

2. 注册表中列出的 provider,从环境变量自动检测

如果你的私有端点是注册表中已列出的 provider,你完全不需要配置文件。将其密钥设为 BITROUTER_<PROVIDER_ID>_API_KEY,BitRouter 会在启动时检测到它 —— 完整的环境变量约定见 BYOK。这条路径适用于附带注册表清单的私有托管部署,而非裸的 localhost 服务。

本地服务通常无需 API 密钥。 Ollama、vLLM、LM Studio 与 llama.cpp 默认在回环地址上接受匿名请求,因此你可以在 provider 条目中省略 api_key。仅当你在服务前置了鉴权时才需要添加 —— api_key: ${MY_LOCAL_KEY} 会在加载时从环境变量解析。

免费,无需云账户

本地模式就是开源二进制对接你自己硬件的运行:没有 BitRouter 账户,没有计量,也无需付费。只有当你路由到托管提供商时才会向其付费 —— 即便如此 BitRouter 也不抽成。如果你不想自己运行服务,并希望 Agent 按请求向托管模型付费,那是托管 provider 路径,定价也在那里适用。

How is this guide?

On this page