热闻岛
返回全网热点

百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录

5小时前3 阅读
百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录配图
百度近日发布并开源了3B参数规模的端到端OCR模型—— Unlimited OCR ,专为书籍、论文等长文档解析场景打造。该项目上线后迅速登顶GitHub与HuggingFace四项趋势榜,开源仅5天GitHub Star即破万。 技术上, Unlimited OCR 推理时激活参数约570M,并 首次 引入Reference Sliding Window

百度近日发布并开源了3B参数规模的端到端OCR模型—— Unlimited OCR ,专为书籍、论文等长文档解析场景打造。该项目上线后迅速登顶GitHub与HuggingFace四项趋势榜,开源仅5天GitHub Star即破万。

技术上, Unlimited OCR 推理时激活参数约570M,并 首次 引入Reference Sliding Window Attention(R-SWA)机制 。该机制打破了传统“逐页解析+拼接”的限制,实现数十页文档的一次性连续解析;同时,它将解码阶段的KV Cache控制在恒定规模,使显存占用和计算成本不再随输出长度增长而暴涨。

在OmniDocBench v1.6基准测试中,该模型以93.92%的成绩刷新纪录。真实场景下,其推理速度较DeepSeek OCR提升约12.7%,在6000Tokens输出长度下速度优势扩大至35%,为海量文档数字化和大模型长程记忆管理提供了全新路径。

要点速读

百度近日发布并开源了3B参数规模的端到端OCR模型—— Unlimited OCR ,专为书籍、论文等长文档解析场景打造

  • 百度近日发布并开源了3B参数规模的端到端OCR模型—— Unlimited OCR ,专为书籍、论文等长文档解析场景打造
  • 更多细节仍在持续更新中
  • 更多细节仍在持续更新中