DeepSeek团队发布新型视觉压缩模型DeepSeek-OCR
发布日期:2025-10-26 01:00 点击次数:108
10月20日,DeepSeek-AI团队推出全新研究成果——DeepSeek-OCR,提出通过视觉模态压缩长文本上下文的创新方法,即是把长长的上下文渲染成一张图片再喂给模型,让原本需要数千上万个文本token的上下文,只需几百个视觉token就能表示,实现信息的高效压缩。
据悉,DeepSeek-OCR由两个部分组成:核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M。DeepEncoder专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉token数量在可管理的范围内。
实验显示,当文本token数量不超过视觉token的10倍(压缩比低于10x)时,模型的OCR(文字识别)精度可达97%;即便压缩比提高到20x,准确率仍保持约60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR同时具备较高的实际应用价值。
在OmniDocBench测试中,DeepSeek-OCR使用100个视觉token就超过了阶跃星晨的GOT-OCR2.0(每页256个token),而使用不到800个视觉token便优于上海AI实验室的MinerU2.0(平均每页超过6000个token)。在实际生产中,DeepSeek-OCR可在单块A100-40G显卡上每天生成超过20万页的大语言模型/视觉语言模型训练数据。
推荐资讯
- 我的祖国,太美了! 2026-02-05
- 《妙手能回春》(四)落枕、肩周炎 2025-12-15
- 今年三季度末我国银行业金融机构本外币资产同比增长7.9% 2025-11-30
- DeepSeek团队发布新型视觉压缩模型DeepSeek-OCR 2025-10-26
- 枸杞单泡,养肝效果不足20%!老中医:枸杞和它一起煮,效果最佳 2025-09-07
