当前,大模型应用正加速从“能用”走向“好用、易用、用得起”,算力供给结构也随之调整:训练依然是关键投入,但推理已成为应用侧的高频消耗环节。对面向公众服务、政务场景和行业数字化系统的产品来说,推理的稳定性、成本与能效,直接影响持续运营能力和规模化推广速度。鉴于此,曦望披露一年内完成近30亿元融资,并将重点投向推理GPU,折射出产业界对“推理侧降本增效”的集中关注。 问题:推理成本高、供给偏紧与生态门槛并存,制约应用扩散。随着模型参数规模扩大、调用频次提升,推理算力长期处于高负载,带来硬件投入、用电散热、运维保障等多重成本压力。同时,算力资源供给结构与区域布局不均衡,叠加部分行业对安全可控与稳定交付的要求,客观上提高了算力使用门槛。对企业来说,“单次调用不贵、长期调用很贵”的现实,正成为大模型商业化落地的重要约束。 原因:应用端需求走强与技术路线分化,推动“专用优化”重新受到重视。近年来,大模型从研发竞赛转向场景竞赛,推理在算力支出中的占比持续上升。传统GPU厂商往往强调训练与推理一体化的通用能力,但在大规模在线推理、长时稳定服务、单位Token成本控制各上,专用优化仍有提升空间。曦望选择聚焦推理,在调度机制、缓存与片上存储、互联与编译链路等环节做针对性设计,并提出融合低功耗内存等思路,意在以系统级协同换取单位成本与能效优势。此路线本质上回应了市场对“更便宜、更稳、更易部署”的直接需求。 影响:融资与产业资本聚集有望带动供给侧扩容,同时也加剧赛道竞争。曦望披露的投资方既包括产业投资与地方数据对应的主体,也有创投机构与国资背景资本参与,显示推理算力已从单纯技术议题走向产业组织与基础设施能力的一部分。若资金投入能够转化为可量产、可交付、可持续迭代的产品,将有助于为算力供给端提供更多选择,推动推理服务价格下探,并让更多行业在可控成本下开展试点与规模部署。但另外,推理芯片赛道仍面临技术路线多元、客户验证周期长、生态适配难度高等现实挑战,市场将更加看重真实性能、稳定性、交付能力与长期维护水平。 对策:从“单点突破”走向“软硬协同与生态共建”,用可验证指标建立市场信任。推理芯片的竞争力不仅取决于算力与能效指标,更取决于软件栈成熟度、兼容性、开发者工具链、模型适配效率,以及规模化供货与售后保障能力。曦望提出将资金用于研发、量产和生态建设,方向更贴近产业落地规律:一是围绕主流模型与行业典型工作负载建立标准化评测体系,以可复现数据支持客户决策;二是完善编译器、算子库、调度与集群管理能力,降低迁移成本;三是与服务器整机、云平台、数据中心运维体系协同,提升交付效率与运行稳定性;四是在合规与安全要求较高的行业场景中,以可控可用为前提推进示范应用,形成标杆案例,带动复制推广。 前景:推理算力降本将成为大模型普惠化的关键变量,行业或进入“由成本曲线决定渗透率”的阶段。曦望披露其已形成多代产品布局,并计划推出面向低精度推理的新一代芯片,体现出对FP8、FP4等低精度推理趋势的积极跟进。未来一段时期,推理侧竞争可能不再只看峰值算力,而更强调“单位Token成本、单位能耗成本、稳定服务能力与生态成熟度”等综合指标。若推理成本持续下降、算力供给更稳定,更多中小企业和传统行业将以更低门槛引入大模型能力,带动智能客服、内容生成、工业质检、城市治理等应用加速落地,同时也会对数据中心建设、算力调度与能源管理提出更高要求。
曦望的融资与发展进展,反映出国内AI芯片产业正从“追赶”走向“创新”。通过差异化技术路线、聚焦特定应用场景并汇聚人才,新兴芯片企业正在寻找更可行的突破口。推理成本能否显著下降,不仅关系企业的商业前景,也关系AI技术能否真正实现普惠。若曦望提出的“百万Token一分钱”目标能够实现,行业的成本结构与商业模型都可能被重新计算,为大模型应用的广泛部署提供更坚实的基础。这也提示我们,国产芯片未必需要在所有方向与国际巨头正面竞争,更现实的路径是在细分领域和特定场景中建立差异化优势,以极致的成本与性能优化逐步扩大市场空间。