热门搜索：

医疗AI专题二：专业性与实用性兼备，ChatGPT类聊天AI在医疗端的使用报告

医药生物2023-04-27谭国超、李昌幸华安证券南***

医药生物行业研究/行业专题医疗AI专题二：专业性与实用性兼备， ChatGPT类聊天AI在医疗端的使用报告 2023-04-27 报告日期：行业评级：增持主要观点： ChatGPT医学领域表现杰出，专业性凸显 ChatGPT是一个交互式人工智能模型，在医学领域，ChatGPT可行业指数与沪深300走势比较 4/227/2210/221/234/23 28% 19% 9% -1% -10% -20% 医药生物沪深300 分析师：谭国超执业证书号：S0010521120002邮箱：tangc@hazq.com 分析师：李昌幸执业证书号：S0010522070002邮箱：licx@hazq.com 相关报告【华安医药】医疗AI专题：AI浪潮已至，医药产业升级来袭，抓住解决核心需求、可商业化落地的公司2023.4.2 以用于辅助医生进行疾病诊断、医疗保健管理等方面。从文献上可以看出，ChatGPT专业性是有保障的。1.具备合格的医学水平，GPT-4针对USMLE的测试准确率高达78.63%，能够对患者的医疗咨询问题提供准确的回复。2.ChatGPT能够处理多科室的复杂病例，克服了不同科室之间的专业壁垒。3.ChatGPT在使用上没有时间和空间的限制，回复速度快，内容丰富，患者满意度较高。诚然，我们也应该注意到相关的劣势，仍存在可提升的空间。目前ChatGPT在针对中国地区的医疗问题时，回复准确性还未达到最佳性能，存在继续开发空间。此外，ChatGPT存在提供误导性错误答案的可能性。最后，由于ChatGPT无法获取医学影像信息，其提出的建议可能存在局限性。 实用性测试：各类聊天AI达到实用级别，回复相对准确，还兼具患者安抚性目前已进入市场的三种不同的主流AI交互软件是ChatGPT（OpenAI），NewBing（Microsoft），文心一言（百度）。其中ChatGPT包含GPT-3.5和GPT-4两种模式，NewBing（精准，平衡和创造三种模式）。因此我们用病例作为测试，以此来真实还原患者咨询场景。我们选取的常见的高血压，选取一个网上的病例作为样本，分别将病例输入到各模型，并结合指南和医生意见做对比分析。综合测试结果，各模型都有优劣，其中ChatGPT4.0表现亮眼。 ChatGPT4.0：GPT-4建议跟随原医生诊断用药，同时向患者建议要长期监测血压和尿酸，并通过改变生活模式的方式来降低血压。此外GPT-4提供的建议更具可读性，建议内容与医生基本一致，且建议内容更多，对患者的安抚性会更强，基本达到医生水平。 GPT-3.5和文心一言均建议患者通过药物控制高血压，在此之外 GPT-3.5也在生活习惯方面给到来患者建议。 相较于其它的AI交互软件，NewBing并没有直接给出诊断建议，而是通过搜索根据互联网已有信息对患者的情况进行分析，并且提供了相关信息来源。 应用场景：AI使C端医疗可及性大大提升，有望带来互联网医疗、基层医疗服务质量升级从以上两章可以得出结论，ChatGPT类聊天AI在医疗端是兼具专业性与实用性的。 专业性上，ChatGPT4.0的论文测试显示其在各地区考试中都能获得良好的成绩，并且综合性和专科性医学问题都有良好表现。可以说是初步具备合格的医疗水平，并且随着影像/检验数据分析的迭代升级，提升空间巨大。 实用性上，从我们测试的高血压患者病例中可以看到，主流的几款聊天AI，无论是ChatGPT、Newbing还是文心一言，都能够对患者做出相应的指导，并提示最终需要临床医生指导。但对于一般患者而言，医疗的可及性大大增加，因为其操作的方便性，使用体验也大幅升级。 投资建议诚然，目前ChatGPT类聊天AI在医疗应用端仍在探索阶段，并不能替代医生的诊断，但前景值得期待的。我们认为，随着人工智能技术的不断发展，AI技术在帮助提高医疗服务的可及性和质量上是明显的，为患者提供更加便捷、高效、精准的医疗服务。可以预见的，互联网医疗和基层（包括药店服务）医疗服务质量在AI辅助下将得到显著提升。相关标的： 互联网医疗：京东健康、阿里健康、平安好医生、思派健康、智云健康、叮当健康等； 基层医疗（包括药店服务）：润达医疗（检验数据）、健麾信息（基层医疗建设）、益丰药房、大参林、老百姓、一心堂、漱玉平民、健之佳等。 风险提示行业政策不及预期，产品迭代不及预期，研发进展不及预期。 *本文涉及的医疗结果仅作为测试，非医疗建议，具体病症请咨询医生。正文目录 1ChatGPT医学领域表现杰出，专业性凸显5 1.1ChatGPT具备合格的医学水平5 1.2ChatGPT可以解决综合学科医学问题，但在针对单学科问题时的表现更出色6 1.3AI影像/检验数据分析或推动ChatGPT医学性能再提升7 1.4小结：ChatGPT初步具有医疗专业性，优化空间8 2实用性测试：各类聊天AI达到实用级别，回复相对准确，患者安抚性强9 3应用场景：AI使C端医疗可及性大大提升，有望带来互联网医疗、基层医疗服务质量升级15 风险提示：17 图表目录图表1ChatGPT回答不同国家和地区执业医师考试试题情况5 图表2ChatGPT回答不同领域的医学领域试题情况6 图表3GPT-3.5针对心血管疾病的25个问题的回答6 图表4ChatGPT针对文字试题和图文试题的回答情况7 图表5ChatGPT在互联网医疗中应用的优劣势8 图表6主流AI交互软件9 图表7高血压患者的非药物干预措施10 图表8高血压患者的治疗方案10 图表9病例情况11 图表10医生处置建议11 图表11GPT-4处置建议：11 图表12GPT-3.5处置建议：12 图表13NewBing精准模式处置建议：13 图表14NewBing平衡模式处置建议：13 图表15NewBing更多创造模式处置建议：13 图表16文心一言处置建议：14 图表17三款AI交互软件（六种模式）针对高血压案例回复总结14 图表18AI赋能互联网医疗场景16 图表19ChatGPT在互联网医疗中的应用场景16 图表202022年中国互联网医疗TOP6公司情况16 图表212020年中国卫生技术人员分布（人）不均17 图表222017年世界医护资源情况对比17 1ChatGPT医学领域表现杰出，专业性凸显 ChatGPT是一个交互式人工智能模型，在医学中被广泛应用。ChatGPT是由OpenAI在2022年11月30日发布的一种基于GPT-3.5架构的大型自然语言处理模型，其参数量高达1.75万亿，被广泛应用于对话生成、文本摘要、机器翻译、问答系统等自然语言处理任务中。在医学领域，ChatGPT可以用于辅助医生进行疾病诊断、医疗保健管理等方面。例如，可以利用ChatGPT生成自然语言文本，从而帮助医生快速生成医学报告和病历记录。此外，ChatGPT还可以用于自然语言问答系统，帮助医生和患者解答医疗相关问题。 1.1ChatGPT具备合格的医学水平 GPT-4医学能力卓越，USMLE准确率78.63%优于GPT-3.5。根据微软和OpenAI于2023年3月20日共同发布的《CapabilitiesofGPT-4onMedicalChallengeProblems》一文展示，GPT-4在医学领域表现出卓越的能力。该项测试中，GPT-4针对MedQA题库中的美国医师执业资格考试（UnitedStatesMedicalLicensingExamination，USMLE）试题，准确率高达78.63%，明显优于GPT-3.5的47.05%准确率。这意味着GPT-4在医学性能上有显著提升，并且GPT-4优于平均水平（60%）。这进一步证明了ChatGPT在医学领域的卓越表现。针对中国地区的医学问题，目前人工智能交互软件的表现尚未达到最佳水平，还存在提升空间。微软和OpenAI针对MedQA数据集中的3426道中国大陆试题、1413道中国台湾试题和1273道美国试题进行了测试。测试结果显示，针对中国大陆试题，GPT-4的准确率为75.31%，GPT-3.5的准确率为40.31%。根据2022年执业医师考试的分数线360分，60%的正确率即可通过该考试。因此，GPT-4已经具备合格的医学水平，但GPT-3.5仍需改进。需要注意的是，GPT-4和GPT-3.5在中国大陆的表现仍未达到最佳水平，相较于美国和中国台湾的测试，准确率仍有5%-10%的提升空间。因此，未来这类人工智能技术的交互软件还需针对中国地区的医疗进一步开发，以更好地服务于中国的医学领域。数据集内容来源 GPT-4 (5shot*） GPT-4 (zeroshot) GPT-3.5 (5shot) GPT-3.5 (zeroshot) 图表1ChatGPT回答不同国家和地区执业医师考试试题情况中国大陆（5个选项） 75.31% 71.07% 44.89% 40.31% 中国台湾（4个选项） 84.57% 82.17% 53.72% 50.60% 美国（5个选项） 78.63% 74.70% 47.05% 44.62% MedQA** 美国（4个选项***） 81.38% 78.87% 53.57% 50.82% *Zero-shot测试是在没有任何相关样本的情况下评估模型处理新任务的能力；5-shot测试是通过提供5 个相关样本来评估模型在有限样本下处理新任务的性能。 **MedQA题库包含英文，简体中文和繁体中文的多项选择题，分别来自美国，中国大陆和中国台湾的临床执业医师考试。 ***4个选项的USMLE试题是在5个选项的试题中去除一个错误选项。资料来源：Microsoft，OpenAI，华安证券研究所 1.2ChatGPT可以解决综合学科医学问题，但在针对单学科问题时的表现更出色 ChatGPT聚焦单学科专业问题表现更佳。针对USMLE这一综合性医学考试，GPT-3.5和GPT-4的正确率分别为47.05%和78.63%。然而，当ChatGPT的测试聚焦到某个具体医学学科，例如医学遗传学或解剖学时，GPT-4的正确率平均比GPT-3.5提高了5%-10%。这表明GPT-4的医学基础更加扎实，针对综合性医学问题的处理能力更强。相较于医生，ChatGPT在医学领域的知识掌握没有科室壁垒。例如，当患者提及他们最近使用的药物或保健品时，医生可能无法立即了解该药物的具体情况。但是，ChatGPT不会受到这种限制。这也是ChatGPT与医生相比的主要优势之一。 GPT-4GPT-4GPT-3.5GPT-3.5 数据集内容来源 (5shot*）(zeroshot)(5shot)(zeroshot) 临床知识 86.42% 86.04% 68.68% 69.81% 医学遗传学 92.00% 91.00% 68.00% 70.00% 解剖学 80.00% 80.00% 60.74% 56.30% 专业医学 93.75% 93.01% 69.85% 70.22% 大学生物学 93.75% 95.14% 72.92% 72.22% 图表2ChatGPT回答不同领域的医学领域试题情况 MMLU 大学医学 76.30% 76.88% 63.58% 61.27% *Zero-shot测试是在没有任何相关样本的情况下评估模型处理新任务的能力；5-shot测试是通过提供5 个相关样本来评估模型在有限样本下处理新任务的性能。资料来源：Microsoft，OpenAI，华安证券研究所 GPT-3.5针对心血管疾病常见问题的回复有效。2022年12月发表的《AppropriatenessofCardiovascularDiseasePreventionRecommendationsObtainedFromaPopularOnlineChat-BasedArtificialIntellige

点击免费查看完整报告