AI for Science in the Era of Large Language Models
摘要
该研报总结了大型语言模型(LLMs)在科学研究中的应用,并探讨了其潜力和挑战。研究覆盖了文本、脑信号、生物序列等多种科学数据类型,并详细分析了不同领域的科学LLMs及其应用场景。
主要内容
-
科学LLMs的应用领域
- 文本:包括科学文献、电子健康记录等。
- 脑信号:如脑电图(EEG)信号。
- 生物序列:DNA、RNA、蛋白质序列等。
-
科学LLMs的挑战与机遇
- 复杂推理和规划。
- 多模态学习。
- LLMs的可信性问题。
-
科学LLMs概述
- 研究团队系统地调研了超过260种科学LLMs,涵盖不同领域(如自然科学、数学、物理、化学和材料科学、生物学和医学、地理学和环境科学)、模态(如文本、图形、视觉、表格、分子、蛋白质、基因组和气候时间序列)及规模(从约1亿到约100亿参数)。
- 通过遮蔽语言建模、下一个标记预测、对比学习等技术进行预训练。
- 针对不同领域,展示了如何利用LLMs增强科学发现的不同阶段,如假设生成、定理证明、实验设计、药物发现和天气预报。
-
专家级医疗问答
- Med-PaLM 2在多项医学问答任务中表现出色,特别是在多模态医学问答(MultiMedQA)中,实现了86.5%的准确率。
- 通过指令提示调优进一步改进了模型性能,使其在多个基准测试中接近或超过了现有最佳水平。
- 虽然模型在某些方面表现良好,但在生成长格式答案和确保安全性和一致性方面仍存在不足。
关键数据
- Med-PaLM 2:在MedQA数据集上的准确率为86.5%,优于其他模型。
- 科学LLMs调研:涵盖260多种模型,涉及多个领域和模态。
总结
该研报详细介绍了大型语言模型在科学研究中的应用现状和未来方向,强调了其在复杂推理、多模态学习和可信性方面的挑战,并展示了其在不同领域的广泛应用前景。