中科天算:太空中辐射干扰大,超算中心的功耗和重量受限

就在2024年2月,“东方慧眼”高分01星成功升空,中科院计算所的韩银和团队给它装上了“极光1000·慧眼”星载智能计算机。这个设备用的是国产芯片,建了个系统级容错体系,能提供100 TOPS的算力。有了这个大算力平台,卫星就不用把数据全传回地面站了,能做到在轨实时“感知—判定—决策—行动”,还完成了我国首个天基大模型的在轨验证。 中科天算在这方面的进展很大,现在已经搞出了多卡全尺寸GPU架构的天基超算节点原型机。它采用国产高性能GPU,通过可扩展的卡群计算架构,突破了天基计算长期受限于单机性能的瓶颈。今年下半年,这款原型机就要发射升空,去验证“天算计划”的关键技术。 把这个项目称为打造国产太空超算中心并不夸张。上海未来产业基金最近给中科天算投了钱,打算把它的太空实验节点发射上去。在中国科学院计算技术研究所的孵化下,这家公司已经做好了万卡级太空超算中心在轨部署的打算。按照计划,到2030年就能完成部署,为全球提供实时智能空天信息服务,想抢下一代空间信息标准制定权。 为了搞定这个项目,中科天算在容错计算和热控系统上花了不少心思。公司在器件、系统架构、操作系统和算法等不同层面建了跨层协同容错机制。当辐射干扰导致部分计算存储单元出错时,也能保证整个系统不出岔子。在热控技术方面,针对高功率GPU等计算单元,科研团队设计了封闭式流体回路散热结构。这种结构能把热量快速转移到外部辐射板上,把太空导热难题给破解了。 虽说技术方案都在地面验证过了,但“超算上天”还得面对不少挑战。在轨运行的超算系统会受超大的太空辐射干扰,核心芯片很难稳定运行;设备一旦坏了没法人工修;真空环境下也没空气对流散热。好在依托中科院计算所的技术积累,中科天算的方案比国际上的更先进。 除了技术难题,发展天基计算还有很多现实需求。卫星星座现在发展得飞快,产生了海量数据。就拿卫星遥感来说吧,地面分辨率已经到了0.1米了,数据量比过去10米分辨率的时候增长了近一万倍。可卫星和地面通信的带宽有限,能传回来的只有不到5%的海量数据;即使传到了地面站也得等好几天。这对于森林火灾预警、重要目标识别这些紧急任务来说根本来不及。 通过天基计算赋能就不一样了。卫星可以直接从海量数据里提取高价值信息,这样一来所需的传输带宽和服务时间就能大大降低。在卫星通信领域也是一样的道理。大模型引发的“能源危机”也是推动天基计算的一个重要原因。在美国很多企业都为数据中心用电发愁。英伟达投资的Starcloud公司算过一笔账:太空数据中心如果运行在太阳同步轨道上,能利用高强度的24小时×7天太阳能。这种情况下收到的太阳辐射能量比地面高40%左右,能实现能源自给自足。 另外太空数据中心还有个冷却优势:那里温度可低至零下270℃,热量能通过辐射快速散发掉。在美国那边SpaceX也在干这事:他们向联邦通信委员会申请发射最多100万颗卫星来建立轨道数据中心系统。这家公司还并购了人工智能初创企业xAI。所以说发展天基计算已经是大势所趋了。“天基计算是未来空间与未来信息领域的关键前沿技术。”上海未来产业基金的负责人说得很明白:“我们将助力突破算力瓶颈。” 上海未来产业基金负责人还说了:“我们投资、孵化空天信息产业生态。”为什么要发展天基计算?中科天算创始人刘垚圻博士解释说:“近年来卫星星座飞速发展产生了海量数据。”所谓天基计算就是在卫星等天基平台上部署计算资源来处理大规模数据和提供信息服务。“太空中辐射干扰大,超算中心的功耗和重量受限。”为啥还要搞?原因有很多。 现在大家都看明白了:把人工智能超算中心建在太空虽然听起来像科幻小说里的桥段。“但它已成为未来产业的热门赛道。”就在这次投资之后,“天基超算实验节点就会在今年下半年发射升空。”按照“天算计划”的时间表,“中科天算将在2030年打造一个万卡级太空超算中心。”这个平台由10颗以上卫星组成部署在晨昏太阳同步轨道上。它有能源舱、算力舱、通信舱三大核心模块。“由1平方公里太阳能电池组成的能源舱总装机功率超100兆瓦。”“由高集成度算力板阵列组成的算力舱包含超10000张国产高性能计算卡。”总算力设计目标为10 EOPS具备可持续升级在轨故障冗余替换功能。“超100台高功率激光通信器组成的通信舱总通信能力达10 Tbps具备星地双向通信星间转发与分布式数据广播功能。”