大模型数据安全的关键在训练数据,防止数据恶意输入是当下亟需解决的问题。目前大部分语言模型的训练数据来源是互联网的公开数据,如百度文心一言的训练数据集包含海量互联网文本数据、代码、对话等,这些数据输入层面可能会存在被操纵的风险,包括恶意偏见、虚假信息、隐私外泄等。 如何保证数据输入来源的可靠和安全,保证结果的公平公正合法,成为监管的关键。 从通用大模型走向行业大模型,行业数据安全监管有望被提上日程。而展望未来,我们认为,随着大语言模型与垂直行业相结合,当训练数据涉及行业数据时,在保证数据来源的可靠性、安全性之外,防止数据泄露更为关键。 比如金融行业大模型,除了公开的信息如金融行业专业知识,还涉及到行业的敏感数据,如果因此造成行业数据泄露则后果难以估量。 AI监管首先应从源头开始,从数据的托管开始(国家云)。我们认为,大模型数据安全的监管应当从源头开始加强,比如在国家统一规范下对数据进行托管,由国家云(云计算“国家队”运营)提供模型训练数据平台,保证数据的完整性、保密性,再在此基础上部署数据安全产品。例如,根据“华为中国”公众号,华为与工商银行合作搭建了基于自主昇腾AI的金融行业大模型。 建议关注: 国家云:深桑达、中国电信、品高股份、中国联通、中国移动数据安全:安恒信息、启明星辰、信安世纪、深信服、三未信安 数据要素:上海钢联、长亮科技、通行宝、京北方、中科江南、山大地纬、久远银海 *注:中国电信、中国联通、中国移动为通信组覆盖 风险提示:数据要素市场建设不及预期、国家云建设不及预期、AI在垂直行业落地不及预期