KHB — 企业AI基础设施 | 200+大模型API算力平台

Q: KHB的AI基础设施技术实力如何？

KHB拥有自主研发的AI算力运营与推理加速引擎，具备异构算力统一纳管、模型高性能部署、智能路由调度等核心技术能力。我们已服务数百家企业客户，覆盖金融、制造、医疗等多个行业，提供从算力资源到应用落地的全链路AI基础设施服务。

Q: 预留实例与按量计费有什么区别？

预留实例为独占式算力资源，不与他人共享，保障模型精度与推理稳定性，适合对延迟和可用性有严格要求的生产业务。按量计费为共享资源池，按实际使用量付费，适合开发测试与弹性业务场景。长期稳定使用预留实例成本更优。

Q: 支持哪些国产芯片？

目前支持华为昇腾910B、沐曦GPU、摩尔线程GPU等国产芯片架构，同时支持NVIDIA A100/H100等国际主流GPU。通过异构算力统一纳管，企业可灵活选择芯片方案，避免单一供应商锁定。

Q: AI网关如何保障数据安全？

AI网关支持私有化部署，所有数据在企业内网流转，不经过公网。提供数据脱敏、访问控制、全链路加密传输、操作审计日志等企业级安全能力，满足金融、医疗等行业的合规要求。

Q: MaaS平台支持私有化部署吗？

支持。MaaS平台提供公有云SaaS和私有化部署两种模式。私有化部署可将完整平台部署在企业数据中心，数据完全不出域，适合对数据安全有严格要求的行业客户。

Q: 如何开始使用KHB的服务？

您可以通过页面底部的联系方式与我们取得联系，我们的解决方案团队将根据您的业务需求提供定制化方案。从需求沟通、方案设计、环境部署到上线运维，全程提供专业支持。

模型列表

全部可用模型一览

101+模型预集成，以下为核心模型精选，持续更新中

模型	参数量	上下文长度	精度	输入价格(参考)	输出价格(参考)	状态
GPT-4.1 mini OpenAI	—	1M	—	¥2.80 /百万Token	¥11.20 /百万Token	在线
GPT-4.1 热门	—	1M	—	¥14.00 /百万Token	¥56.00 /百万Token	在线
o3 推理	—	200K	—	¥14.00 /百万Token	¥56.00 /百万Token	在线
Claude Sonnet 4.5 Anthropic	—	200K	—	¥21.00 /百万Token	¥105.00 /百万Token	在线
Claude Haiku 3.5 Anthropic	—	200K	—	¥5.60 /百万Token	¥28.00 /百万Token	在线
Gemini 2.5 Pro Google	—	1M	—	¥8.75 /百万Token	¥70.00 /百万Token	在线
Gemini 2.5 Flash Google	—	1M	—	¥1.05 /百万Token	¥4.20 /百万Token	在线
DeepSeek-V4 Pro 最新	685B MoE	128K	BF16	¥12.00 /百万Token	¥24.00 /百万Token	在线
DeepSeek-V4 Flash 最新	685B MoE	128K	BF16	¥1.00 /百万Token	¥2.00 /百万Token	在线
DeepSeek-R1 推理	685B MoE	128K	BF16	¥2.00 /百万Token	¥5.00 /百万Token	在线
GLM-5 智谱	200B+	128K	BF16	¥1.00 /百万Token	¥6.00 /百万Token	在线
GLM-5V-Turbo 多模态	130B+	128K	BF16	¥1.50 /百万Token	¥3.00 /百万Token	在线
Qwen3.7 Max 最新	397B MoE	128K	BF16	¥2.00 /百万Token	¥6.00 /百万Token	在线
Qwen3.6 Flash 高速	235B MoE	128K	BF16	¥0.30 /百万Token	¥0.60 /百万Token	在线
Qwen3-Coder-Next 代码	235B MoE	128K	BF16	¥1.50 /百万Token	¥3.50 /百万Token	在线
Kimi-K2.5 最新	1T MoE	256K	BF16	¥4.00 /百万Token	¥6.00 /百万Token	在线
Kimi-K2 Thinking 推理	1T MoE	256K	BF16	¥3.00 /百万Token	¥6.00 /百万Token	在线
MiniMax-M2.5 最新	456B MoE	1M	BF16	¥2.10 /百万Token	¥8.40 /百万Token	在线
MiniMax-M2.5 Highspeed 高速	456B MoE	1M	BF16	¥1.00 /百万Token	¥2.00 /百万Token	在线
Doubao Seed 2.0 Pro 豆包	—	128K	BF16	¥1.50 /百万Token	¥3.00 /百万Token	在线
Doubao Seed 2.0 Code Preview 代码	—	128K	BF16	¥1.00 /百万Token	¥2.00 /百万Token	在线
Llama-4 Meta	400B MoE	1M	BF16	¥2.50 /百万Token	¥5.00 /百万Token	在线
Yi-Lightning 零一万物	—	64K	BF16	¥0.50 /百万Token	¥1.50 /百万Token	在线
Step-2 阶跃星辰	—	128K	BF16	¥1.50 /百万Token	¥3.20 /百万Token	在线
Hy3 Preview 混元	—	128K	BF16	¥1.00 /百万Token	¥2.00 /百万Token	在线
BAAI/bge-m3 Embedding	568M	8K	FP16	¥0.02 /百万Token	—	在线

全部模型与价格 →

应用场景

一行命令，部署你的AI

用开发者的方式，探索KHB在各行业的AI基础设施部署方案

enterprise-ai.sh

$ khb deploy --scenario=enterprise --model=DeepSeek-V3.2

✓ 算力资源分配完成
✓ 模型加载完成 DeepSeek-V3.2
✓ API网关配置完成
✓ 企业AI平台已就绪
ENDPOINT: https://www.khb.net.cn/v1/enterprise
STATUS: RUNNING

compute-center.sh

$ khb deploy --scenario=compute --chip=ascend,nvidia

✓ 异构算力统一纳管启动
✓ NVIDIA A100 × 128 已接入
✓ 昇腾910B × 64 已接入
✓ 弹性调度引擎就绪
UTILIZATION: 94.7%

finance.sh

$ khb deploy --scenario=finance --security=private

✓ 私有化部署环境初始化
✓ 数据隔离策略已启用
✓ 全链路加密传输已开启
✓ 审计日志系统就绪
COMPLIANCE: PASSED

manufacturing.sh

$ khb deploy --scenario=manufacturing --instance=reserved

✓ 预留实例资源锁定
✓ 工业AI模型部署完成
✓ 7×24 SLA保障已启用
✓ 质检模型推理延迟 <50ms
UPTIME: 99.99%

预留实例

锁定算力，保障关键业务

专属预留算力 · 模型精度保障 · 成本可控 · 企业级SLA

DeepSeek-V3.2

deepseek-ai/DeepSeek-V3.2

价格 ¥594,000/组/月

折合单价 ¥2.20/M tokens

TPM 1,250万

TTFT 1,600ms

TPS 45

上下文 1M

适用于企业级复杂推理与决策分析、代码生成与软件开发辅助、智能体工具调用

GLM-5

zai-org/GLM-5

价格 ¥594,000/组/月

折合单价 ¥2.75/M tokens

TPM 1,000万

TTFT 1,500ms

TPS 30

上下文 1M

适用于企业级智能体开发、复杂任务规划与多步骤执行、软件工程自动化

Kimi-K2.5

moonshotai/Kimi-K2.5

价格 ¥594,000/组/月

折合单价 ¥6.88/M tokens

TPM 400万

TTFT 1,500ms

TPS 30

上下文 256K

适用于企业级多模态智能体开发、视觉内容理解与分析、复杂任务自动化

MiniMax-M2.5

MiniMaxAI/MiniMax-M2.5

价格 ¥297,000/组/月

折合单价 ¥2.75/M tokens

TPM 500万

TTFT 500ms

TPS 30

上下文 1M

适用于企业级长文档与知识库分析、智能客服与内容生成、业务流程自动化

* 折合单价基于TPM、按每月30天、总体利用率50%基准折算。性能数据基于典型推理参数测试：输入24K tokens，输出1K tokens，缓存命中率80%。（2026年05月20日更新）

AI网关

私有化大模型服务网关

统一管理 · 智能路由 · 限流限额 · 全链路可观测

01 多模型统一接入

一站式接入并标准化调用不同供应商模型，支持OpenAI兼容接口，告别点状管理，轻松驾驭多供应商生态

02 智能路由与负载均衡

结合流量特征与大模型服务特征的智能动态路由、负载均衡、Fallback故障转移，保障服务稳定性和业务SLA

03 精细治理与限流配额

按用户、API Key、项目、组织等维度配置模型权限、流量与配额管理，多租户隔离，实现模型调用精细治理

04 精确成本核算

提供消费用户、API Key、项目、组织、模型、算力全链路成本穿透，实现精确成本核算与预算管控

05 全链路模型观测

提供模型调用量、性能等指标的多维度观测，支撑精准模型治理、生命周期管理及路由策略调整，支持A/B测试与灰度发布

06 企业级数据安全

双向脱敏实时过滤隐私风险，联动敏感内容拦截与审计日志，保障每一笔大模型业务合规受控、全程留痕

安全合规

端到端纵深防御体系

智能驱动安全，从数据到应用全链路保障

🔐

端到端加密

全链路TLS加密传输，数据存储加密，密钥管理体系，确保数据在传输与存储中的绝对安全

🛡️

双向脱敏

输入输出双向实时脱敏过滤，自动识别并遮蔽敏感信息，防止隐私数据泄露

📋

审计日志

全链路操作审计，每一次API调用可追溯、可审计，满足金融、医疗等行业合规要求

🏢

多租户隔离

租户间数据严格隔离，权限精细管控，支持按组织、项目、用户多维度访问控制

🔒

私有化部署

数据完全不出域，所有推理在企业内网完成，满足最严格的数据主权与合规要求

🚨

内容安全检测

实时防御潜在攻击，内容安全检测准确率超99%，敏感内容自动拦截，保障输出合规

合作模式

灵活的合作方式

无论您拥有算力还是需要算力，KHB都能提供匹配的合作方案

🤝 联合运营

适合拥有算力资源，希望快速具备Token服务提供能力，与KHB共同服务终端客户

典型合作方

IDC运营商、区域智算中心、GPU云服务商、国产芯片厂商

价值收益

✓ 完整的Token生产能力，无需自建技术团队
✓ 同等算力下，推理吞吐量大幅提升
✓ 按实际服务量结算的收益分成
✓ KHB品牌背书与市场支持

⚡ 算力消纳 / 算力服务化

适合已有自建GPU集群，希望提升推理效率、降低运维成本，或将冗余资源转化为Token服务收益

典型合作方

有自建算力的政企客户、大型互联网企业、金融机构、运营商

价值收益

✓ 推理效率大幅提升，同等算力支撑更大业务规模
✓ GPU性能充分发挥，解决适配难题
✓ 数据在自有环境内运行，满足安全合规要求
✓ 冗余算力可对外提供Token服务，形成额外收益

核心服务

围绕KHB·AI核心的服务矩阵

四大服务环绕核心，从底层算力到上层网关，全链路覆盖企业AI基础设施需求

KHB·AI

INFRASTRUCTURE

⚡

算力运营

Token Factory

GPU算力运营，将GPU资源高效转化为Token生产力。支持NVIDIA及国产芯片，实现多架构算力统一接入与弹性调度

🔒

预留实例

Reserved Instances

专属预留算力，独占式资源保障业务稳定运行，模型精度有保障，成本可控，企业级SLA承诺

🏗️

MaaS平台

Enterprise MaaS

一站式AI解决方案平台，异构算力管理、模型训练、推理部署全流程覆盖，100+模型预集成，开箱即用

🌐

AI网关

AI Gateway

私有化大模型服务网关，统一管理多模型接入，智能路由与限流，全链路可观测，企业数据安全无忧

⚡

算力运营

TOKEN FACTORY

GPU算力运营，将GPU资源高效转化为Token生产力。支持NVIDIA及国产芯片（昇腾、沐曦、摩尔线程），实现多架构算力统一接入与弹性调度

🔒

预留实例

RESERVED INSTANCES

专属预留算力，独占式资源保障业务稳定运行。模型精度有保障，成本可控，企业级SLA承诺

🏗️

MaaS平台

ENTERPRISE MAAS

一站式AI解决方案平台，异构算力管理、模型训练、推理部署全流程覆盖，100+模型预集成，开箱即用

🌐

AI网关

AI GATEWAY

私有化大模型服务网关，统一管理多模型接入，智能路由与限流，全链路可观测，企业数据安全无忧

产品优势

为什么选择KHB

数字不会说谎，每一个指标都是实力的证明

模型预集成

DeepSeek、GLM、Qwen、Kimi、GPT-4.1、Claude、Gemini等全球主流大模型一键接入，动态更新模型镜像，新发布模型第一时间适配，API即调即用

推理延迟降低

自研推理加速引擎，KV Cache深度优化与连续批处理，首Token延迟降低70%，无损精度动态量化，推理计算量减少60-80%

吞吐量提升

异构算力弹性调度，单卡Token产出深度优化，同等算力下吞吐量提升3至5倍，GPU集群利用率提升300%

芯片架构支持

同时支持NVIDIA A100/H100、华为昇腾910B、沐曦GPU、摩尔线程GPU，多架构统一纳管与智能调度，避免单一供应商锁定

服务可用性SLA

企业级SLA承诺99.9%可用性，多可用区部署，自动故障切换与Fallback降级，7×24技术支持保障业务连续性

内容安全检测

双向脱敏实时过滤隐私风险，内容安全检测准确率超99%，联动敏感内容拦截与审计日志，数据泄露风险降低99%

极速上手

可视化配置界面，3分钟内完成操作，30+开箱即用预置模板，OpenAI兼容接口，无需深厚技术背景即可跨场景调用

预留实例交付

标准预留实例1-7个工作日完成部署，平台负责模型部署与性能验证，提供推理性能调优支持，保障业务稳定接入

常见问题

FAQ

KHB的AI基础设施技术实力如何？

KHB拥有自主研发的AI算力运营与推理加速引擎，具备异构算力统一纳管、模型高性能部署、智能路由调度等核心技术能力。我们已服务数百家企业客户，覆盖金融、制造、医疗等多个行业，提供从算力资源到应用落地的全链路AI基础设施服务。

预留实例与按量计费有什么区别？

预留实例为独占式算力资源，不与他人共享，保障模型精度与推理稳定性，适合对延迟和可用性有严格要求的生产业务。按量计费为共享资源池，按实际使用量付费，适合开发测试与弹性业务场景。长期稳定使用预留实例成本更优。

支持哪些国产芯片？

目前支持华为昇腾910B、沐曦GPU、摩尔线程GPU等国产芯片架构，同时支持NVIDIA A100/H100等国际主流GPU。通过异构算力统一纳管，企业可灵活选择芯片方案，避免单一供应商锁定。

AI网关如何保障数据安全？

AI网关支持私有化部署，所有数据在企业内网流转，不经过公网。提供数据脱敏、访问控制、全链路加密传输、操作审计日志等企业级安全能力，满足金融、医疗等行业的合规要求。

MaaS平台支持私有化部署吗？

支持。MaaS平台提供公有云SaaS和私有化部署两种模式。私有化部署可将完整平台部署在企业数据中心，数据完全不出域，适合对数据安全有严格要求的行业客户。

如何开始使用KHB的服务？

您可以通过页面底部的联系方式与我们取得联系，我们的解决方案团队将根据您的业务需求提供定制化方案。从需求沟通、方案设计、环境部署到上线运维，全程提供专业支持。

企业已有大模型API，为什么还需要AI网关？

随着企业引入多个大模型，常见问题迅速显现：模型来源多样导致接口协议不一致、调用链路分散缺乏统一管理、不同应用对SLA要求不一难以整体满足、使用量与成本难以计量。AI网关集中解决以上问题，提供统一接入、智能路由、精细治理与全链路观测。

AI网关会增加网络开销吗？

AI网关采用高性能代理架构，额外延迟通常在1-3ms以内，相对于大模型推理本身的延迟（数百毫秒至数秒）几乎可以忽略。同时网关的智能路由和连接池优化反而能降低整体延迟。

如何通过网关控制大模型的使用成本？

网关支持按用户、API Key、项目、组织等维度配置流量配额与限流策略，提供全链路成本穿透与精确核算，帮助企业实时掌控大模型使用成本，避免预算失控。

企业在什么情况下需要部署私有化MaaS平台？

当企业面临以下情况时应考虑：①业务涉及敏感数据，对数据不出域有严格要求；②需将AI能力规模化部署至众多场景，对推理性能与稳定性有极高要求；③拥有多样化的国产或异构算力环境，需统一纳管与高效利用；④希望快速跟进AI技术发展，但缺乏持续进行模型适配和优化的工程团队。

KHB的国际AI和国内AI的使用是如何划分和应用的？

一、服务主体划分
KHB INC（美国企业）：提供全品类海外AI模型API服务，仅面向境外企业、境外身份个人开放。准入要求：完成资质认证，支持美元信用卡、美元、USDT结算。本项服务仅限境外场景使用，不得违规入境流转。
杭州开哈贝思生态科技有限公司：主营国内合规大模型代理API服务，全程数据境内处理，严格恪守国内各项法律法规。

二、权责合规声明
两家主体独立运营，各自承担对应服务的法律责任，互不连带。
境外AI服务相关行为遵循当地法规，用户严禁借境外接口向境内输送服务、违规传输境内数据，违规后果由使用者自行承担。
境内服务严禁用于违法违规场景，使用者需遵守国家监管要求。
平台有权核查使用资质，对违规账号可暂停或终止服务。

KHB INC
杭州开哈贝思生态科技有限公司

200+大模型万卡算力一个API即可

全部可用模型一览

一行命令，部署你的AI

锁定算力，保障关键业务

私有化大模型服务网关

端到端纵深防御体系

灵活的合作方式

从算力到应用的数据流架构

围绕KHB·AI核心的服务矩阵

为什么选择KHB

FAQ

200+大模型 万卡算力 一个API即可

全部可用模型一览

一行命令，部署你的AI

锁定算力，保障关键业务

私有化大模型服务网关

端到端纵深防御体系

灵活的合作方式

从算力到应用的数据流架构

围绕KHB·AI核心的服务矩阵

为什么选择KHB

FAQ

200+大模型万卡算力一个API即可