AI公司花大价钱买了几百张H800显卡,满心欢喜准备开始训练大模型,结果两个月过去了,集群还没跑起来。不是卡没到,是配套的高速线缆要等三个月;线缆好不容易到了,插上去发现机柜功率不够,一跑训练就跳闸;等换了高电机柜,网络又卡得要命,几十张卡一起跑还不如几张卡快。技术团队每天都在救火,算法团队只能干等。
这不是段子,而是很多做大模型的公司真实踩过的坑。算力交付,远不止把显卡插上去那么简单。图能科技就专门帮企业解决这类问题。过去一年里,他们多次将千卡级AI集群从需求确认到稳定上线的时间压缩到三周以内。能做到这一点,靠的是两把硬刷子:一套被反复验证的供应链打法,和一套成熟的高性能网络组网方案。

先说供应链。很多人以为买算力就是买GPU,但真正的瓶颈往往出在看不见的地方。比如连接GPU的IB或RoCE高速线缆,原厂货要等两三个月,价格还高得离谱。再比如GPU服务器的功耗,一台A800满配就要将近4千瓦,普通机柜根本带不动,必须用32A的高电机柜。图能科技的应对方式很务实:他们在全球布局了180多个IDC节点,提前锁定了大量高功率机柜;同时建立了一套严格测试过的第三方线缆备货体系,性能达标,价格却只有原厂的40%到50%。
设备到位只是第一步,真正决定集群好不好用的是网络架构。可以这么理解:GPU集群就像一个大型物流中心,每张卡是一辆货车,网络就是道路。如果道路设计不合理,车再多也会堵死,货物永远送不到。图能科技对不同规模的集群有成熟的网络方案。小规模集群,比如几十台,采用灵活的盒盒组网,交换机直接放在机柜顶部,布线简单;大规模集群,几百台甚至上千台,则切换到框盒组网或三层CLOS架构,核心原则是收敛比1:1——简单说就是每条车道都不降速,任何两张卡之间通信都能跑满带宽。以256台H800的RoCE集群为例,每台服务器有8个400G端口,通过交换机分层连接,最终实现全速无阻塞。在实际生产环境中,这套架构下的allreduce(多卡数据同步)有效带宽可以稳定维持在理论值的85%以上。

交付流程本身也是一门精细化管理的学问。图能科技把整个交付拆成五个阶段,按天倒计时。先是需求分析,一两天内搞清楚客户要什么型号、多少台、网络选IB还是RoCE、存储怎么配;接着锁供应链,三五天调齐设备、线缆、交换机,第三方线缆提前完成信令测试;然后进入机房建设与上架,大概十天左右,完成高电机柜部署、电力布线、服务器安装和线缆连接;之后是网络调优与验收,这个环节最关键,他们会用自研工具自动检查每一根线的连接是否正确(LLDP线序验证)、每一条数据路径是否通畅(IFA路径探测),还会用perftest做全链路压测,直到出具一份性能验收报告,确认带宽和时延达标才算交付完成;最后花一两天部署监控系统,接入GPU故障告警和自动隔离机制。整套流程最短21天,复杂一些的集群也能控制在六周以内。

国内某头部AIGC企业,需要快速扩充推理算力,要求部署几百台4090服务器,配RoCE网络,单服务器出口800G,还要支持故障自动恢复。图能科技从深圳和上海两地调拨库存,大量使用经过验证的第三方线缆,帮客户省了接近一半的线缆成本;网络设计上采用四组并行的Rail架构,收敛比做到1:1,避免不同组之间的流量互相干扰;在调优阶段,自研的网络感知服务发现有三处光模块存在异常,当场更换,避免了上线后的隐形故障;运维方面接入云监控后,GPU的XID错误事件可以自动触发工单和节点隔离,平均故障处理时间从两小时缩短到了十几分钟。最终,从合同签下到业务上线只用了不到一个月,客户推理任务的吞吐量翻了一倍多。
回过头来看,千卡集群的交付其实不需要动辄等上两三个月。只要供应链卡得准——提前锁定机柜、备好高性价比线缆;网络设计得巧——根据规模选对架构、守住收敛比;交付流程抠得细——按天倒计时、每个环节都有验收标准,三到六周内让集群真正跑起来,是完全可行的。图能科技用过去一年几十个落地案例证明了这件事:算力交付,不该成为AI进度的瓶颈。


