传统OCR深度学习模型 ✧ OCR大模型适用场景--自然场景识别 模型基座 定位 特性 输入形式 支持开放问答 支持多页 参数规模 适用任务 可支持的场景 DocLM 端到端文字图像理解 单模型支持多任务 效果更好,场景泛化性强数据&推理成本低 图像+ 任务提示 ✕ ✕ ~3b 内容提取类任务 智能结构化、OCR DocQA 阅读理解问答 结构化&阅读理解能力同步提升支持基于检索的知识库问答 文本+问题 ✓ ✓ ~10b 基于文本输入的阅读理解类任务 腾讯云客服、结构化等纯文本场景 MLLM 多模态大模型 聚焦泛化场景中的文字理解 支持fewshotlearning(ICL) 图像+问题 ✓ ✕ ~10b 基于图像输入的内容理解类任务 单图自然问答 腾讯云OCR大模型家族 DocLM--端到端文档图像理解 图像到文字直接生成,内容感知和具体任务解耦 单模型&多任务:单模型支持多种类型任务,任务间能力互补 效果更好&场景泛化:结构化指标更优,支持自然场景 数据&推理成本低:与多阶段结构化方案持平 ✧ 阅读理解任务能力同步提升:结构化&阅读理解 基于检索的知识库问答 封闭式问答能力 信息抽取能力 文本摘要能力 从支持自然场景扩展至文档场景 Few-ShotLearning(ICL)在结构化等任务上表现优异 归纳&理解能力 基于外部知识生成能力 1.上传业务数据 2.标注数据 3.选择内置大模型启动训练任务 5.模型发布测试 4.模型评测 ✧ GPU GPU 卡 卡 ✧