这件事后续应该关注什么？

后续官方回应或权威通报相关主体的进一步说明事件对普通用户和平台传播的持续影响

告别“长文本焦虑”：小红书 RedKnot 推理引擎开源，长上下文处理效率翻倍

Q: 这件事后续应该关注什么？

后续官方回应或权威通报 相关主体的进一步说明 事件对普通用户和平台传播的持续影响

2小时前2 阅读

告别“长文本焦虑”：小红书 RedKnot 推理引擎开源，长上下文处理效率翻倍配图

在生成式人工智能的应用场景中，如何让模型在处理超长文本时既快又省，一直是工程师们攻克的难题。近日，小红书技术团队开源了其自主研发的 RedKnot 推理引擎，带来了一套针对长上下文任务的“降本增效”新方案。 RedKnot 的核心创新在于打破了传统的 KV Cache（键值缓存）处理模式。以往，大模型在推理过程中，缓存是按 token（词元）维度存储的，这导

在生成式人工智能的应用场景中，如何让模型在处理超长文本时既快又省，一直是工程师们攻克的难题。近日，小红书技术团队开源了其自主研发的 RedKnot 推理引擎，带来了一套针对长上下文任务的“降本增效”新方案。

RedKnot 的核心创新在于打破了传统的 KV Cache（键值缓存）处理模式。以往，大模型在推理过程中，缓存是按 token（词元）维度存储的，这导致在处理长文本时，内存开销呈线性增长，极大地拖累了推理速度与并发能力。RedKnot 另辟蹊径，将 KV Cache 沿注意力头（Attention Head）维度进行拆解，并引入了“头分类稀疏”、“稀疏 FFN”以及“SegPagedAttention”三大机制，实现了算法逻辑与存储粒度的统一。

这一架构调整带来的性能提升十分显著。实测数据显示，在 8 卡 H800 的高性能计算环境下，RedKnot 能够将首字生成时间（TTFT）加速 1.6 倍至 3.54 倍，单卡并发能力更是提升了 4.7 倍至 7.8 倍。在预填充阶段，计算资源消耗（FLOPs）被削减了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超长上下文任务上的表现为例，其首字生成速度提升了 5.16 倍，KV 数据传输效率也优化了 6.3 倍，且推理精度依然稳健，保持在稠密模型性能的 95% 以上。

业内专家认为，RedKnot 的开源为推理引擎的工程优化提供了重要参考。在算力资源日益紧缺的背景下，这种通过底层架构精细化拆解来缓解长文本推理负担的思路，无疑为构建更轻量、更高效的 AI 推理系统开辟了新的技术路径。目前，相关代码已正式开源，旨在推动长文本 AI 应用的普及与落地。

要点速读

在生成式人工智能的应用场景中，如何让模型在处理超长文本时既快又省，一直是工程师们攻克的难题。近日，小红书技术团队开源了其

在生成式人工智能的应用场景中，如何让模型在处理超长文本时既快又省，一直是工程师们攻克的难题
近日，小红书技术团队开源了其
更多细节仍在持续更新中