生成式人工智能(GenAI)在生物 医药大健康行业应用进展报告 CMAC医学事务生成式AI联盟 理特咨询 天士力数智中药创新中心南京柯基数据科技有限公司 2024年4月 CMAC 前言 自2022年底起,OpenAI推出的ChatGPT在全球起了热潮。生成式人工智(GenAI)技 术日新月异,各行各业正积极探索如何整合最新的GenAI技术以推动数字化转型。据统 计,全球大型企业中,已有10%成功将GenAI技术应用于公司层面的平台级项目,50% 正在进行小规模尝试,面另外40%仍在观望阶段。 生物医药大健康行业作为一个高度专业化和知识密集型的领域。从药物研发到临床试验,再到上市后的学术推广和患者教育等全流程应用场景,涉及到大量非结构化文本、图片和视频的处理。随着集采政策的实施和监管要求的提高,运营成本和复杂性不断上升,因此迫切需要借助人工智能来提升效率,重塑工作模式。自GenAI推出以来,国内 外的药械、营养保健、医疗机构以及科研机构纷纷尝试将GenAI技术应用于不同场景,已经有一些公司和机构通过GenAI创造了全新的产品和服务,为业务增值。最近的一项调查显示,GenAI已成为大多数制药公司的首要关注点,40%的高管表示他们正计划将GenAI带来的成本节约重新投入到2024年的预算计划中。另外,60%的公司确立了使用GenAI来帮助企业降低成本或提高生产效率的目标,其中75%的公司将其视为高管层和董事会的优先事项。 2023年4月,CMAC牵头与跨国和国内生物制药企业、医药AI领先企业以及医学专家共 司发布了《ChatGPT背景下的医疗健康行业数学化转型新范式研究报告》,引起了业界广泛关注。该报告结合行业实践和实际需求,从ChatGPT技术原理、技术发展、医疗健康行业国内外应用和研究进展,以及ChatGPT大模型在医药场景测试等角度,提出了ChatGPT大模型在医疗健康行业落地的挑战及可能的路径,为在ChatGPT背景下大模型 如何赋能医疗健康行业数字化转型提供参考。 在过去的一年中,CMAC医学事务生成式AI联盟与数十家跨国和国内的药械企业、营养 保健企业、医院、医疗科研机构等展开了深入合作。通过研讨会、咨询、概念验证 (POC)、项目申报等形式,我们交流并见证了GenAI在国内生物医药大健康行业的快 速发展和面临的挑战,积累了来自第一线的资料和GenAI应用落地的经验和方法论。 我们相信,2024年将是GenAI在中国生物医药大健康行业中实现规模化落地的关键一 年。因此CMAC医学事务生成式AI联盟牵头,联合理特咨询、天士力数智中药创新中心、柯基数据以及生物医药大健康行业专家和GenAI技术专家,更新发布了本报告。报告着重介绍了最新GenAI技术发展和进展,生物医药大健康行业的应用场景和案例,落地挑战及方法论,以及未来展望。我们希望该报告能为GenAI在整个生物医药大健康行业的应用落地提供有益参考。 第一章GenAI技术进展概述GenAI应用进展情况 GenAI技术定义及背景 GenAI应用领域与案例GenAI应用关键技术 模型训练 微调9 RAG10 提示词工程13 LangChain16 AIAgent17 GenAI大模型发展现状18 国外大模型18 第二章GenAI在生物医药大健康行业主要应用场景总览 32 GenAI在生物医药大健康行业主要应用场景总览 药物研发 靶点发现与验证分子生成 中医药研发临床研究 监管合规临床试验中心筛选药物选择、患者入组 临床研究方案设计和试验报告生成 33343436414444454546 药物警戒(PV) 上市及商业化 4748 学术推广 48 患者教育 临床疾病诊疗 诊前 50505051 诊后中医诊疗 现状总结 525457 第三章GenAI在生物医药大健康行业的挑战、展望及落地建议 面临挑战 58 59 数据合规性、符合医学逻辑及循证溯源 60 蓝管合规性 场景选择和成本内部利益的协同 落地建议 捕捉变化,动态调整顶层设计,数智思维目标锚定,小步快走能力构建,组织提质 合作共行,优势互补 6060606061626262636464 国内大模型25 诊中 数据安全性及私有化部署未来展望 第一章: GenAI技术进展概述 生成式人工智能(GenAI)在生特医药大健集行业应用进展报告 CMAC 1.1GenAI应用进展情况 当OpenAI在2022年11月30日发布ChatGPT✁时候,没有人会意识到,新一代人工智能 浪潮将在接下来短短数月给人类社会带来一场眩晕式✁变革。自2010年代初深度学习 问世以来,人工智能进入到第三次高潮。而2017年Transformer算法将深度学习推向了 大模型时代。OpenAI基于Transformer✁Decoder部分建立起来了GPT家族。ChatGPT 经面世便风全球,人们惊呀于其能够进行连贯、有深度对话✁同时,也惊异地发现了它涌现了推理、思维链等体现智能✁能力。 伴随AI预训练大模型持续发展,生成式人工智能(GenAI)算法不断创新以及多模态 AI日益主流化,以ChatGPT为代表✁GenAI技术加速成为AI领域✁最新发展方向,推 动AI迎来下一个大发展、大繁荣✁时代,将对经济社会发展产生重大✁影响。 1.1.1GenAI技术定义及背景 方式。通过训练模型来生成新✁、与训练数据相似✁内容。与传统类型✁AI主要关注 识别和预测现有数据✁模式不同,GenAI着重于创造新✁、有创意✁数据,其关键原 理在于学习和理解数据✁分布,进而生成具有相似特征✁新数据,在文本、图像、音频、视频等多种领域都有广泛✁应用。GenAI目前最引人注目✁应用当属ChatGPT。ChatGPT✁基于OpenAI公司✁大语言模型GPT-3.5训练、调试、优化✁聊天机器人应 用,同一个AI模型可以处理各种各样✁文字和推理任务。 ChatGPT发布仅两个月即获得1亿月活用户,超越了历史上所有互联网消费者应用软件✁用户增长速度。以大语言模型、图像生成模型为代表✁GenAI技术,成为新一代人工智能✁平台型技术,助力不同行业实现价值跃升。GenAI大爆发✁背后,普遍认 为三个领域✁AI技术✁发展为其提供了肥沃✁土壤,分别✁生成算法、预训练模型 和多模态技术。 第一,随着各种生成算法✁不断创新突破,AI现在已经可以生成文字、代码、图 像、语音、视频物体等各种类型✁内容和数据。GenAI与过去最显著✁区别✁从分析 式AI(AnalyticalAI)发展为生成式AI(GenerativeAI)。分析式AI模型✁✲据已有数 据进行分析、判断、预测,最典型✁应用之一✁内容智能推荐;生成式AI模型则✁学习已有数据后进行演绎、生成创造全新内容。 第二,预训练模型,特别✁以ChatGPT为代表✁大模型,引发了GenAI技术能力✁质 变。在过去,研究人员需要针对每一个类型✁任务单独训练AI模型,训练好✁模型 只能从事特定任务,不具有通用性。而预训练✁大模型技术显著提升了GenAI模型✁ 通用化能力 生成式人工智能(GenAi)在生物医药大健康行业应用进展报告 CMAC 和工业化水平,让GenAI模型成为自动化内容生产✁“工厂”和“流水线”。GenAI 模型,包括ChatGPT、GPT-4等大语言模型(LargeLanguageModels,LLM)和Midjourney、StableDiffusion等图像生成模型,又被称为基础模型(Foundation Models),其作为基于种类丰富✁海量数据预训练✁深度学习算法,展现出强大✁、 更加泛化✁语言理解和内容生成能力。以大语言模型(LLM)为例,经过海量✁互联网内容数据✁训练,大语言模型✁参数可以达到万亿甚至百方亿级别。这大大增强了语言模型✁生成能力,同一个大语言模型可以高质量地完成各种各样✁文字和推理任务,例如作诗、写文章、讲故事、写代码、提供专业知识等等。因此,大语言模型已 经成为了各大企业竞相追逐✁AI方向。 第三,多模态AI技术✁发展。多模态技术让GenAI模型可以跨模态地去生成各种类型 ✁内容,比如把文字转化为图片、视频(Sora)等等,进一步增强了GenAI模型✁通用能力。 1.1.2GenAI应用领域与案例 (1)多模态内容生成 A文本生成领域 自然语言生成✁一种GenAI技术,可以生成逼真✁自然语言文本。生成式AI可以 编写文章、故事、诗歌等,为作家和内容创作者提供新✁创作方式。同时,它还 可以用于智能对话系统,提高用户与AI✁交流体验。ChatGPT(全名:Chat GenerativePre-trainedTransformer对话生成式预训练变换模型)✁由OpenAI开发✁ 一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架 构✁大语言模型并通过强化学习进行训练。ChatGPT目前仍以文字方式互动,可以解决包括自动文本生成、自动问答、自动摘要等在内✁多种任务。Jasper已经开始为谷歌、脸书等知名公司提供文案 GenAI✁商业服务。 B.图像生成领域 图像生成✁GenAI技术中最为普遍✁应用之一。StabilityAI发布了稳定扩散 (StableDiffusion)模型、通过开源快速迭代大幅降低了AI绘画✁技术使用门 槛,消费者可以通过订阅旗下产品DreamStudio来输入文本提示词生成绘画作品,产品已经吸引全球50多个国家超过100万✁用户注册。 生成式人工智能(GenAi)在生物医药大健康行业应用进展报告 CMAC? C.音视频创作与生成 2024年2月16日,OpenAI继一年前发布ChatGPT语言大模型之后,又发布了一款基于 人工智能技术✁视频生成工具Sora,再次引发轰动。这✁一款输入文本即可自动生成 高质量视频✁文生视频大模型,实现了视频生成领域革命性变革,提供了全新✁视 觉体验。在部分样片中,Sora还展现了对“物理规律”超强✁学习能力,如能够模拟 现实环境中✁重力、碰撞等物理现象,可以通过直播视频功能实时传递信息,用于 直播秀、在线教育、远程医疗等场合。在“现实已经不存在”✁惊呼声中,Sora确 实打开了人类视频创作✁新天空,它将重塑视觉内容生成✁未来,同时也反映出人 工智能技术远超预期✁快速进步。有媒体称,Sora不仅仅✁一个工具,更✁一种新 ✁生活方式,将会对整个社会产生重要影响。GenAI技术还可以用于语音合成,即生成逼真✁语音。例如,通过学习人类✁语音特征,生成式模型可以生成逼真✁语音,从而用于虚拟助手、语音翻译等应用。GenAI技术可以用于生成音乐。生成式AI可以✲据给定✁风格和旋律创作新✁音乐作品, 为音乐家提供新✁创作灵感。这种技术还可以帮助音乐家更有效地探索音乐风格和 元素✁组合。这些曲目可以用于音乐创作、广告音乐等应用。 D.电影与游戏 GenAI可以用于生成虚拟角色、场景和动画,为电影和游戏制作带来更多✁创意可能。此外,AI还可以✲据用户✁喜好和行为生成个性化✁故事情节和游戏体验2023年3月,腾讯AILab在GDC上提出了3D虚拟场景自动生成解决万案,能够帮助游 戏开发者以更低成本创造风格多样、贴近现实✁虚拟城市,提升3D虚拟场景✁生产效率。其中重点分享了城市布局生成、建筑外观生成和室内映射生成三大能力。整个路网生成和微调过程仅需要不到30分钟,相比手动设计效率提升近100倍;而单个 独特建筑✁制作时间也降低至17.5分钟,大大提升了场景制作✁效率。 E.代码生成领域 经过自然语言和数十亿行代码✁训练。部分GenAI模型精通十几种语言,包括 Python、JavaScript、Go、Perl、PHP、Ruby等等。能够✲据自然语言✁指令生成相应 ✁代码。 GitHubCopilot✁一个GitHub和OpenAI合作产生✁AI代码生成工具,可✲据命名或 者正在编辑✁代码上下文为开发者提供代码建议。官方介绍其已经接受了来自 GitHub上公开可用存储库✁数十