性能提升 475 倍!富士通推出PHOTON新架构,剑指AI算力瓶颈

在当前大模型高速迭代的背景下,算力成本与处理效率始终是行业关注的焦点。近日,富士通公开了一项名为PHOTON(自上而下网络并行分层计算)的创新架构,旨在破解传统Transformer模型在复杂场景下的性能桎梏。 Transformer架构作为当前AI领域的主流,虽然性能强大,但其在处理长文本或高并发的多查询任务时,往往因需要频繁进行访存操作来调取历史信息,导
在当前大模型高速迭代的背景下,算力成本与处理效率始终是行业关注的焦点。近日,富士通公开了一项名为PHOTON(自上而下网络并行分层计算)的创新架构,旨在破解传统Transformer模型在复杂场景下的性能桎梏。
Transformer架构作为当前AI领域的主流,虽然性能强大,但其在处理长文本或高并发的多查询任务时,往往因需要频繁进行访存操作来调取历史信息,导致处理速度难以提升,进而增加了GPU的计算负担。富士通研发团队通过对PHOTON架构的重新设计,巧妙地绕过了这一痛点。

PHOTON架构的核心优势在于其独特的分层处理机制。与传统Transformer采用的词元(Token)级分割方式不同,PHOTON引入了语义分层技术,这不仅有效降低了计算复杂度,还大幅提升了并行计算的能力。此外,在处理多查询任务的决策环节,该架构通过“多数决定”或“ 最佳 选择”策略,实现了仅需一次推理即可得出结论的精简流程。
测试数据显示,在参数规模为600M、900M及1.2B的小型模型中,PHOTON展现出了 极高 的吞吐量和极低的内存占用。特别是在1.2B参数模型下,其多查询性能更是达到了主流Transformer架构的475倍,极大地优化了资源调度效率。
由于该架构在每次迭代中所需的KV Cache更少,这意味着系统能够支持更高的迭代次数,这对于需要处理大量I/O流程的智能体系统而言,无疑是一个巨大的性能增益。尽管在部分指标上质量略有折损,但PHOTON凭借其在计算效率上的跨越式进步,为降低AI运行成本提供了一种极具潜力的技术方案。
目前,富士通正积极推动该架构的应用落地,希望通过底层算法的创新,为未来的智能化应用场景提供更轻量、更高效的底层支撑。
要点速读
在当前大模型高速迭代的背景下,算力成本与处理效率始终是行业关注的焦点。近日,富士通公开了一项名为PHOTON(自上而下网
- 在当前大模型高速迭代的背景下,算力成本与处理效率始终是行业关注的焦点
- 近日,富士通公开了一项名为PHOTON(自上而下网
- 更多细节仍在持续更新中