面向企业数字化转型的智能文档处理技术与应用 演讲人:常扬 合合信息智能创新事业部AI产品研发总监 CONTENT 目录 01合合信息简要介绍 02 AIGC人脸生成式检测技术研究进展 合合智能文档处理03文档领域大模型进展 合合信息简要介绍 AIGC人脸生成式检测技术研究进展 AIGC生成图片引发新闻造假、诽谤造谣、造假诈骗,引发社会问题 假 资讯造假 假 诽谤造谣 造假诈骗 1人脸伪造鉴别定义 model real model fake 2模型结构 realorfake 通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。 ZhaoH,ZhouW,ChenD,etal.Multi-attentionaldeepfakedetection[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2021:2185-2194. 3泛化研究 多个视觉大模型世界知识特征获取能力 InputImage rgb dncnn msr 低频过滤 Model-4 Model-3 Model-2 Model-1 模态融合 视觉大模型+领域模型融合 数据增强 原始图像 合成图像 数据增强 4结果可视化 0.941 真实 伪造 0.991 0.927 0.932 0.992 0.967 0.983 伪造置信度 0.974 真实置信度 5应用范围 假 身份验证和访问控制移动设备的安全检测数字图像真实鉴定 合合智能文档处理数字化探索 企业数字化的关键技术:智能文档处理技术 结合企业各部门场景需求,应用智能文档处理技术,提升工作效率、优化业务流程、降低成本支出,助力企业实现高效信息化管理 提高工作效率 智能文档处理技术快速识别、分析和提取文档信息,减少人工处理时间,降低出错率,大幅提升企业各部门的工作效率。 优化业务流程 借助智能文档处理技术,协助企业自动梳理业务流程,发现潜在问题,实现流程优化,提升业务运营能力。 降低成本支出 场景结合智能文档处理技术,减少人工干预,降低人力成本。同时,提高信息处理质量,降低因错误造成的额外支出。 实现智能决策 智能文档处理技术能整合各部门信息,形成知识库,提供准确的数据支持与分析支持,助力企业管理层做出更明智的决策。 作业平台 分类 录入 核验 存档 业务 数据智能 规则引擎 文档识别 智能分类 作业平台 业务 存档 核验 录入 分类 AI 数据标注与生产 语义检索与摘要 知识化 文档结构化信息抽取 文档识别 文档质量判断与分析 元素检测元素识别版面还原 版面分析 智能文档处理研究主题 切边增强 去摩尔纹 弯曲矫正 图片压缩 PS检测 ... 文字识别表格识别电子档解析 ... 信息抽取文档分类文档问答 实体关系实体抽取文档主题知识图谱 ... 语义检索摘要 ... 文本检测 文本识别 语义识别标注 版面元素标注 应用场景 票据识别 会议拍摄PPT ... 切边后图像带来的收益 更好的展示(美观度) 提升下游任务(OCR识别,信息抽取等)的准确率 形变类型 弯曲、折叠、皱、透视、混合弯折... 形变矫正后图像带来的收益 更好的展示(美观度) 提升下游任务(OCR识别,版面分析/还原等)的准确率 应用场景 教育、保险、银行、医疗、商务办公等 消除屏幕纹对画质的干扰提高图像、文字清晰度应用场景:各类屏幕翻拍场景 摩尔纹去除网络 原图去摩尔纹效果 谣言检测 流水、合同造假识别 欺诈图像识别 假 学历造假检测 保单PS检测 检测和识别文档的各种元素 关键技术1:版面元素分析Layout-engine Layout-engine 文本 印章 页眉 表格 骑缝章 方章 水印 图文 LOGO 页脚 公式 条形码 圆章 二维码 关键技术2:版面还原 原始图像 元素检测 元素细整合、识别 表格检测、段落检测、文字检测、页脚检测、页眉检测 段落聚合、表格分析、横排识别、竖排识别 关键技术3:数据知识双驱动文本图像智能理解 识别及结构化理解输出 语言/语义模型 视觉模型 文本数据 提供初步的识别结果指导视觉模型的训练 OCR+NLP端到端文档信息抽取及结构化理解基于Key-Value关系的图神经网络信息抽取 TextIntelligence文字智能 TextIn.com 文档图像分析识别与理解的研究主题 文档图像分析识别与理解(智能文档处理/IDP) 实体关系文档主题ERP/OASAP 切边增强去摩尔纹弯曲矫正图片压缩PS检测 ... 文档图像分析与预处理 文档解析与 识别 版面分析与还原 文档信息抽取与理解 AI安全 知识化&存储检索和管理 大模型 ? 文字识别表格识别电子档解析 ... 元素检测元素识别版面还原 信息抽取 Question-answer 篡改分类篡改检测合成检测 AI生成检测 数据标注与生产 文本检测 文本识别 语义识别标注 版面元素标注 GPT4-V在IDP领域的表现 Z.Yangetal.,TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision),arXiv,2023 GPT4-V在IDP领域的表现 Z.Yangetal.,TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision),arXiv,2023 GPT4-V在IDP领域的表现 Z.Yangetal.,TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision),arXiv,2023 GPT4-V在IDP领域的表现 Z.Yangetal.,TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision),arXiv,2023 GPT4-V在IDP领域的表现 Z.Yangetal.,TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision),arXiv,2023 GPT4-V在IDP领域的表现 Z.Yangetal.,TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision),arXiv,2023 GPT4-V在IDP领域的表现 GPT4-V在IDP领域的表现 Y,Shietal.,ExploringOCRCapabilitiesofGPT-4V(ision):AQuantitativeandIn-depthEvaluation,ariXv2023 GPT4-V在IDP领域的表现 优势不⾜ •端到端解决识别和理解问题,认知能力强 •支持识别和理解的文档元素类型远超传统IDP算法 •OCR精度距离SOTA有较大差距 •长文档依赖外部的OCR/文档解析引擎 GPT4-V多模态大模型大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程,并且提供了一条新的研发范式:大数据,大算力,多任务,端到端 THANKS 谢谢观看 AIGC在企业出海 发展与应用 演讲者:曹超 CONTENT 目录 01AIGC的概念与发展历程 02AIGC行业应用场景 03腾讯云智能AIGC精品&新品分享 AIGC的概念与发展历程 内容创作模式的四个发展阶段 狭义:利用AI自动生成内容的生产方式 广义:像人类一样具备生成创造能力的AI技术 AIGC技术基于机器学习算法模型和训练数据,自主生成创造新的文本、图像、音乐、视频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据, 以及包括开启科学新发现、创造新的价值和意义等。 2018年在佳士得拍卖成交的AIGC作品,成交价是43.25万美元 2022年JasonAllen凭借AI绘画作品《太空歌剧院》拿下科罗拉多州博览会美术竞赛一等奖 AIGC应用形式——图像补齐涂抹/视频生成/问答生成 AIGC行业应用场景 AI+图像应用下载榜及收入榜Top10头部AI+图像应用下载量趋势 QQ22年推出的:异次元的我闪萌:视频平台AI流量红利 文案神器COPYAIAI个性化视频工具Tavus ZMO.ai:生成与产品相匹配的宣传图片、海报及营销文案Shopify将ChatGPT整合到个性化服务中,以问答方式提供购物建议 Pixelcut:快速生成商品图片Smartzer:交互式购物体验视频生成 WonderStudioAI,捕捉动作、表情都,控制和调整灯光、相机、动画 Scenario.GG生成AI游戏资产 骑马与砍杀II:BannerlordChatGPT驱动NPC,体验更加真实 《AI地下城》是一款文字冒险游戏,使用人工智能来生成无限的开放式故事情节 腾讯云智能AIGC精品&新品分享 文旅 …… 电商 游戏 金融 传媒 行业 内容运营 内容编辑 内容创作 应用场景 声音工坊(音色定制) 语音生成 图像生成 视频生成 文本生成 AI绘画 虚偶制作、人像驱动 智能摘要、智能快讯 动漫创作 视频修复、内容替换 智能写作助手 人脸融合 文生视频(孵化中) 广告文案生成(腾讯广告) 人像变换 智能视频(升级中) 原子产品 智能音乐(AI作曲) CV大模型 通用大模型 多模态大模型 NLP大模型 预训练模型 & TI-ONE训练平台 训练平台 智能文生图 智能图生图 图生动漫特效视频动漫化 输入:文本描述 输出:智能生成与输入内容相关的结果图 君不见黄河之水天上来日系动漫女孩 输入:图片,以及辅助的文本描述 输出:智能生成与输入内容相关的结果图 输入:图片 输出:图片风格化前后的转场特效视频 输入:短视频 输出:动漫化处理后的视频 游戏策划 输入关键词,生成批量角色,再选择与其想法最为匹配的人物图像,提供给美术进一步做原画设计 美术设计 提升美术与策划沟通效率 用于快速大量生成场景、人物等素材,寻找设计灵感,提升美术效能 媒体运营 直接生成批量素材,选择理想素材后提供给美术进行调整优化,可用于各种渠道宣发 风格定制目前支持以下类别,支持图生图和文生图 1.人物类:如以某个人物or游戏角色为基础训练素材,并提供相应文 本描述:图片主体、人物数量;服饰、眼睛、头发、嘴唇、人物特征、环境(室内外、光线)等细节描述。训练完成后,可以使用图生图或文生图生成给定风格的人物图片 2.场景类:如以游戏的建筑类图像为基础训练素材,给定画风(如 卡通)、材质、色差、景深、模糊、颗粒、背景色等。训练完成后,可以使用图生图或文生图生成给定风格的图片 3.道具类:如对于给定的物品做基础训练素材,比如书包、蜡烛、瓶 子等,定制所需风格的物品图像(如卡通化手表)。训练完成后,可以使用图生图或文生图生成给定风格图片 男孩,蓝眼睛,模糊,景深,头戴眼镜,手套,护目镜,戴着头护目镜,无袖,微笑,单人,上半身 等距掩体,逼真,苏联国旗,红色,电子游戏 Prompt: 一个长着兔子耳朵的女孩,日系动漫 图片人脸融合 视频人脸融合 用户照 素材图 融合图 实时融合高精度人脸替换服务 人脸变换 美颜美妆 性别变换年龄变化试唇色美颜 人体分析 手势识别 人像分割人体关键点 声音复刻 •提供20句录音数据,快速实现定制音色 •定制成本低,流程快、自动化流程 •适合批量定制、且对音色效果要求不高的业务