首页 > 玄幻魔法 > 重回1990:我的科技强国路 > 第327章 悟道算力平台的负载调优

第327章 悟道算力平台的负载调优

读一本书,过一段人生。

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

  “第二,片间通信的拥塞控制太保守。天权晶片之间的互联带宽是理论上每链路每秒五十吉比特,但实际跑大模型训练时,有效带宽只有不到三十吉比特。原因是我们使用的拥塞控制算法过於保守,一旦检测到轻微拥塞就大幅降低发送速率,导致带宽利用率不足百分之六十。”

  章宸点头確认了这个问题的技术细节:“天权晶片的片间互联硬体本身没有问题,瓶颈在协议栈的拥塞控制参数。我们目前用的是通用数据中心的参数配置,但通用配置对大模型训练这种周期性、大批量的通信模式不適用。需要针对训练任务的特徵重新调参,甚至重写部分拥塞控制逻辑。”

  “第三,”赵静继续说,“推理服务的负载预测准確率太低。悟道平台的推理服务接入了天枢生態的二十七个应用,流量特徵极其不稳定。有的应用在白天流量大,有的应用在晚上流量大,有的应用受社交媒体热点驱动,流量可以在十分钟內暴涨十倍。目前的负载预测模型用的是过去七天的歷史数据,预测准確率只有百分之六十五,导致平台不得不预留大量的冗余算力应对突发流量,进一步拉低了平均利用率。”

  赵静把这三个问题的严重程度排了序:负载混跑造成的利用率损失最大,约百分之十五;片间拥塞造成的损失次之,约百分之十;预测不准造成的冗余预留损失约百分之八。如果把这三个问题全部解决,悟道平台的平均算力利用率可以从百分之六十二提升到百分之八十五以上。

  “百分之八十五是理论上限,”许承说,“但能做到百分之七十八到百分之八十,就已经是全球领先水平了。”

  陈醒靠在椅子上,没有说话。他在等赵静说出解决方案。

  赵静翻到下一页,三块显示墙同时更新。

  “解决方案分三个层面,对应三个问题。第一层:负载特徵感知调度。不再把三类负载混在一起跑,而是把平台分区——训练区、推理区、科学计算区,每个区根据负载特徵做针对性的调度策略优化。”

  “训练区需要高带宽、低延迟的片间互联,所以我们把训练任务集中部署在同一机柜或相邻机柜的天权晶片上,减少跨机柜通信。推理区需要低延迟的单卡响应,所以我们在推理区部署了小芯的边缘调度器,可以根据请求的实时延迟需求动態分配算力,延迟敏感的请求优先处理,延迟不敏感的请求可以排队。科学计算区需要大內存的单卡容量,所以我们把內存最大的那批天权晶片专门划给科学计算区,同时优化了內存分配算法,减少了內存碎片。”

  “第二层:片间拥塞控制调优。章宸的团队正在修改互联协议栈的拥塞控制参数,把拥塞检测的窗口从微秒级调整到纳秒级,同时增加了『训练任务优先』的调度策略——当训练任务和推理任务共享同一片网际网路时,训练任务的数据包优先级更高。这个修改不会影响推理服务的延迟,因为推理服务的数据量小、对带宽不敏感。”

  章宸补充了一句:“参数调优已经跑了两轮仿真,效果符合预期。预计两周內可以上线测试。”

  “第三层:负载预测模型升级。”赵静说到这里,语气变得慎重了一些。“小芯团队正在训练一个新的预测模型,不再只依赖歷史流量数据,而是融合了外部信號——社交媒体热点、新闻事件、应用版本发布计划、甚至天气和节假日。这个模型的参数量比现有模型大十倍,训练一次需要悟道平台百分之三十的算力跑三天。”

  “代价不小。”许承说。

  “代价不小,但值得。”赵静调出初步的实验结果,“在离线测试中,新模型的预测准確率达到了百分之八十三,比现有模型提高了十八个百分点。如果上线后能保持这个水平,我们可以把冗余算力的预留比例从百分之三十降低到百分之十五,相当於释放出百分之十五的算力用於更多任务。”

  陈醒听到这里,在笔记本上写了两个字:“值得。”

延伸阅读
同人仙侠武侠历史玄幻科幻游戏都市