语势主题观察:网安协发布首批中文语料库,基础语料库是主权AI重要构成 事件:12月20日下午,中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会,面向社会发布用于大模型的首批中文基础语料库。该语料库是网安协会会同国家权威机构通过“共建-共享”机制,汇聚一批高质量可信数据形成。据悉,首批中文基础语料共120G,包括1亿余条数据,500亿个token。 图片(图片来源:互联网) 高质量语料是大语言模型训练的必需,中文数据在互联网数据中占比较少,高质量中文语料难以获取在一定程度上给大模型在中文训练带来困难。最近谷歌Gemini被爆“抄袭”百度文心一言,也反映其中文数据获取方面的不足。 图片(图片来源:互联网) 未来AI会是像“电网”一样的基础设施,普惠和安全将是发展重点。从普惠角度,开放共享的语料库将是构建AI基础设施的重要部分。从安全角度,高度“可信”的语料库则是AI生成内容合规的大前提。因此,由政府引导,通过“共建-共享”机制,推动基础语料库建设是大势所趋。 图片(图片来源:互联网) 今年7月北京市发布了第一批人工智能大模型高质量数据集;8月上海人工智能实验室开源发布“书生·万卷”1.0多模态预训练语料;11月,北京智源人工智能研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCIv1.0.0)。更多高质 量语料库的发布,有利于中文大模型的训练和应用的开发,同时语料库本身统一标准、规范建设也将更加重要。 图片(图片来源:互联网) 另外,从近期OpenAI与德国出版商AxelSpringer达成合作(OpenAI将向AxelSpringer支付数千万欧元的费用,以获取其新闻文章的访问权)看,即使开源语料库存在,媒体沉淀内容在AI时代仍有高变现价值,重申AI时代的IP价值提升。 免责声明: 本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性,本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。 客户不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 本报告的版权归本公司所有,属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。