让 BitRouter 指向你自己的本地或私有模型服务 —— Ollama、vLLM、LM Studio、llama.cpp，或任何 OpenAI 兼容端点。本地模式 100% 免费。

让开源的 bitrouter 二进制对接运行在你自己机器上的模型服务 —— Ollama、vLLM、LM Studio、llama.cpp，或任何 OpenAI 兼容端点 —— 整条链路都留在 localhost。无需云账户，无按 token 计费，密钥也不会离开你的机器。这就是本地模式，完全免费。

为什么要让本地模型走 BitRouter

一个裸的本地服务只在一个 URL 上提供一个模型。把 BitRouter 放在它前面，你能获得与托管模型相同的接口：

单一端点、单一协议。 你的 Agent 运行时指向 http://localhost:4356，使用 OpenAI（或 Anthropic）线格式。请求落到本地的 Llama 还是托管的 Claude，是一次路由决策，而非客户端改动。
在本地与托管之间回退。 声明一个虚拟模型，先尝试你的本地服务，在出错或过载时溢出到托管提供商 —— 默认廉价且本地，GPU 繁忙时依然有韧性。
应用同一套 Guardrails 与可观测性。 你的 Agent 防火墙规则与请求追踪对本地推理的作用与对托管调用完全一致 —— 在提示词触达模型之前就地检查、脱敏或拦截，并在请求日志中看到每一次本地跳点。

注册本地模型的两种方式

1. 通过配置文件接入 OpenAI 兼容端点

大多数本地服务（Ollama、vLLM、LM Studio、llama.cpp）都暴露一个 OpenAI 兼容的 /v1 API。在 bitrouter.yaml 中把它们声明为一个 provider，api_base 指向本地 URL：

providers:
  ollama:
    api_base: http://localhost:11434/v1
    api_protocol:
      - "*": chat_completions
    models:
      - id: llama3.1

providers 是一个以你自选的 provider id 为键的映射（这里是 ollama）。api_base 是服务的基础 URL；api_protocol 是 BitRouter 对上游使用的线格式 —— 任何 OpenAI 兼容服务都用 chat_completions。BitRouter 对任何非 Anthropic、非 Google 的主机已默认推断为 chat_completions，因此 api_protocol 块是可选的，但写明能让意图更清晰。models 下每一项是该服务提供的模型 id。

完整的分步流程 —— 含 Ollama、vLLM、LM Studio 与 llama.cpp 的变体及确切启动命令 —— 见本地模型服务食谱。

2. 注册表中列出的 provider，从环境变量自动检测

如果你的私有端点是注册表中已列出的 provider，你完全不需要配置文件。将其密钥设为 BITROUTER_<PROVIDER_ID>_API_KEY，BitRouter 会在启动时检测到它 —— 完整的环境变量约定见 BYOK。这条路径适用于附带注册表清单的私有托管部署，而非裸的 localhost 服务。

本地服务通常无需 API 密钥。 Ollama、vLLM、LM Studio 与 llama.cpp 默认在回环地址上接受匿名请求，因此你可以在 provider 条目中省略 api_key。仅当你在服务前置了鉴权时才需要添加 —— api_key: ${MY_LOCAL_KEY} 会在加载时从环境变量解析。

免费，无需云账户

本地模式就是开源二进制对接你自己硬件的运行：没有 BitRouter 账户，没有计量，也无需付费。只有当你路由到托管提供商时才会向其付费 —— 即便如此 BitRouter 也不抽成。如果你不想自己运行服务，并希望 Agent 按请求向托管模型付费，那是托管 provider 路径，定价也在那里适用。

本地与私有模型

为什么要让本地模型走 BitRouter

注册本地模型的两种方式

1. 通过配置文件接入 OpenAI 兼容端点

2. 注册表中列出的 provider，从环境变量自动检测

免费，无需云账户

On this page