行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

语势主题观察：网安协发布首批中文语料库，基础语料库是主权AI重要构成

2023-12-25 语势科技林菁｜Jade

事件：12月20日下午，中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会，面向社会发布用于大模型的首批中文基础语料库。该语料库是网安协会会同国家权威机构通过“共建－共享”机制，汇聚一批高质量可信数据形成。据悉，首批中文基础语料共120G，包括1亿余条数据，500亿个token。高质量语料是大语言模型训练的必需，中文数据在互联网数据中占比较少，高质量中文语料难以获取在一定程度上给大模型在中文训练带来困难。最近谷歌Gemini被爆“抄袭”百度文心一言，也反映其中文数据获取方面的不足。未来AI会是像“电网”一样的基础设施，普惠和安全将是发展重点。从普惠角度，开放共享的语料库将是构建AI基础设施的重要部分。从安全角度，高度“可信”的语料库则是AI生成内容合规的大前提。因此，由政府引导，通过“共建－共享”机制，推动基础语料库建设是大势所趋。今年7月北京市发布了第一批人工智能大模型高质量数据集；8月上海人工智能实验室开源发布“书生·万卷”1.0多模态预训练语料；11月，北京智源人工智能研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库（CCI v1.0.0）。更多高质量语料库的发布，有利于中文大模型的训练和应用的开发，同时语料库本身统一标准、规范建设也将更加重要。另外，从近期OpenAI与德国出版商AxelSpringer达成合作（OpenAI将向AxelSpringer支付数千万欧元的费用，以获取其新闻文章的访问权）看，即使开源语料库存在，媒体沉淀内容在AI时代仍有高变现价值，重申AI时代的IP价值提升。免责声明：本报告是基于已公开信息撰写，但本公司不保证该等信息的准确性或完整性，本报告所载的资料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。客户不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况，以及(若有必要)咨询独立投资顾问。在任何情况下本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的版权归本公司所有，属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。

点击免费查看完整报告

语势主题观察：网安协发布首批中文语料库，基础语料库是主权AI重要构成

你可能感兴趣

语势主题观察：国常会推动AI赋能新型工业化，制造业是AI落地重要方向

语势主题观察：英伟达 Q3 营收再超预期，财报会议大谈“主权 AI 基础设施”

语势主题观察：美国拟限制AI云算力“出口”，主权AI影响逐步显现

语势主题观察：美国政府联手科技公司推出NAIRR项目，主权AI能力建设加速

语势主题观察：美FCC启动物联网标签计划，网安正在成为新质产品力

语势主题观察：美国水务界拟单独制定网安规则，关键基建脆弱性凸显

语势主题观察：工银在美子公司遭网络攻击，AIGC时代网安需求凸显

语势主题观察：白宫发布首个生成式AI监管规定，强调创新和竞争

语势主题观察：乌克兰移动运营商被黑全国断网，上演现实版“断网假期”

语势主题观察：美韩联演网络战核心战术，欲切断朝鲜核发射指令网