您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:高书生ChatGPT对文化元宇宙的启示 2025 - 发现报告
当前位置:首页/其他报告/报告详情/

高书生ChatGPT对文化元宇宙的启示 2025

2023-03-09-未知机构J***
高书生ChatGPT对文化元宇宙的启示 2025

ChatGPT对文化元宇宙的启示 高书生 AIGC:开启文化元宇宙新纪元 解题: 从生产的角度探索文化元宇宙 不同的生产方式 PGC UGC 专业生产内容用户生产内容 AIGC 人工智能自动生成内容 数字化文化消费新场景数字化文化体验 消费 生产 文化元宇宙 AIGC 元宇宙初级阶段 生产和消费同一 文化元宇宙 段 元宇宙高级阶 数据 数字化时代的生产要素 数据如何保真? ChatGPT的启示(一) ChatGPT的训练数据集来源分为六类 ●维基百科:英文版维基百科中有超过640万篇文章,包含超40亿个词 ●书籍:故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力 ●期刊:预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础 ●Reddit链接:WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标 ●CommonCrawl:一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域 ●其他数据集:由GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集组成 数据失真的结果 ●互联网上的数据并不都是准确的,当错误的数据量足够大时,导致ChatGPT得出的结论也是错误的 ●案例:有个基于OpenAI的GPT-3的医疗聊天机器人,建议病人自杀 ●人工智能模型的学习是基于历史数据,其中很可能存在不必要的偏见,这种偏见可能导致社会排斥和歧视 扣好文化元宇宙的第一粒扣子 AIGC的充分必要条件 AIGC的数据集从何而来 中文互联网数据质量堪忧 从中华民族积淀了五千多年的文化资源转化 向公众开放 公共文化机构释放数据公共文化资源数据要依法 我国是文明古国,也是文化资源大国,海量的文化资源大多数集中在公共文化机构,属于文化事业。 这些年国家大力推动文化资源数字化,公共文化机构积攒了大量的文化资源数据,从中提取具有历史传承价值的中华文化元素、符号和标识,转化为文化生产要素,就可以为文化元宇宙提供丰富多彩的文化素材。 公共文化机构的数据量 图书馆:截至2021年底,全国县以上公共图书馆自建数字资源总量达2.5万TB,通过国家数字图书馆“文津”搜索系统整合共享馆藏元数据超过3.8亿条,关联文本、图像、音视频等不同形态的图书馆资源数据体系日益完善 文化馆:全民艺术普及数字资源建设,截至2021年底,统筹整合入库音视频资源43249部 (集),其中发展中心本级13099部(集)、地方30150部(集),资源来源包括9522场 “村晚”活动资源、244部“舞出中国红”广场舞展演活动资源及一批广场舞课程资源、457 部“大家唱”群众歌咏活动资源、125个“百姓大舞台”网络群众文化品牌活动资源、310 名优秀“乡村网红”短视频资源、1700名“学才艺”师资资源与1100门培训课程资源等 博物馆:第一次全国可移动文物普查(2012年始),共计10815万件/套采集15项文物基础信息,照片5000万张 美术馆:藏品592663件,藏品图片820288幅 地方志 三级志书 截至2020年 ,编纂完 成 版 25100 余 版 6000 余部 方志系统累计 三级建成100 5198部,公 开 部 达3500余部 个 出版4917. 5 部 12月31日 部门志行业志专题志 截至2019年年底,累计出 乡镇志村志 截至2019年年底,累计出 整理出版旧志 截至2019年年底,全国地 数字方志馆 (数据库) 截至2019年年底,省市县 民歌和民间故事 戏剧 民歌30万首 民间故事30万篇 民间歌谣和谚语 民间歌谣44941首 民间谚语576546条 舞蹈 舞蹈节目26995个 戏剧剧种394个 中国民族民间文艺 资源 唱腔17402段 曲艺 曲艺曲种591个 唱腔11108段 器乐曲 器乐曲曲目20698首 中央主要新闻单位的数据量 人民日报图文数据库收录人民日报1946年创刊至今七十多年来的新闻报道 ,是一座大型的、纪实的 、珍贵的资料库 新华社所属的中国照片档案馆是世界上最完整、最系统、最全面的中国历史照片总汇,馆藏照片涵盖了自19世纪下半叶以来各类中外珍贵历史资料图片1500余万底 中央电视台广播电视音像资料馆将早期的2吋带、3/4吋磁带全部抢救完毕,近70万盘磁带完成数字化转储,其中包括大量反映中国地理风光、生态植被、文化建筑的拍摄素材 出版物数据库 在期刊领域,有同方知网、万方数据、龙源期刊、维 普期刊等大型期刊数据库 在图书领域,综合性的有国家数字图书馆、读秀网、 掌阅科技、中文在线、方正电子书等图书数据库 在图书领域,专题性的有人民出版社的中国共产党思想理论资源数据库、科学出版社的科学文库、社科文献出版社的皮书数据库等,以及专业性的如中华古籍资源库、爱如生、翰堂典藏、书同文等古籍数据库等 扫叶汉字库6万字(《康熙字典》4万多 收录36万人、2400万字 (比《中国人名大辞典》多5倍) 字) 人名库 日历库 上起夏朝禹(公元前2071.12.28) ,下迄清末帝(公元1912.02.17) 有10亿字,把每个人的作 作品库 品归集于其个人名下 地名库每条地名均注文献出处及变更情 工具库、图片库、地图库、类书 收藏库、资料汇编库等 附加库 况已制作800万字 渭南“两河一山”文化数字记忆项目十个专题数据库 重点文物保护单位数据库(仰韶文化、龙山文化等为代表的农耕文明遗址) 古代书院数据库(渭南地区书院可稽者五十余所) 民间传说数据库(黄帝荆山铸鼎、大禹黄河治水、仓颉造字、女娲抟土造人) 古代诗词歌赋数据库(仅《全唐诗》就收录有数百篇) 历史文化名城名镇名村数据库(还有为数众多的国家级和省级“民间文化艺术之乡”) 历史文化名人数据库(“三圣故里”和“将相之乡”,宋代名相寇准等80多位宰相) 渭南“非遗”数据库(国家级“非遗”17项,省级“非遗”数百项) 渭南古籍目录数据库(十万余册,其中部分古籍可实现全文数字化) 渭南传统戏曲剧目剧本数据库(有“世界电影鼻祖”之称的华县皮影戏) 渭南红色文化资源数据库(1919—1949年间大量红色革命故事、红色文化遗迹和红色文献资源) 数据驱动 具有文化内涵的数据,才是真正的生产要素 基础不牢地动山摇 不能在沙漠上盖高楼 数据标注 ChatGPT的启示(二) ChatGPT 请模仿杜甫 写一首诗 测试结果:呈现并不好(模仿诗歌,英语比汉语好) 原因分析:语料库没有对汉语韵律、字节做 标注和训练 数据标注 分类 编目 特征描述 百度山西数据标注基地 ●2018年入驻山西综改示范区 ●办公面积超19000平方米,已有5000名 数据标注师,已入驻53家代理商 ●基地累计产值超5亿元 ●已累计培育孵化41家数据标注企业 ●百度已在山西太原、山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余7个地域建设百度智能云数据标注基地 中国知网太原数字出版数据加工基地 期刊19.05万本 ○现刊8.01万本 ○过刊全文回溯11.5万本 报纸146.70万篇 ●重要报纸文献137.38万篇 博硕士论文现刊37.99万本、过刊全文回溯36.4万本 年鉴、统计年鉴2398本 会议论文12.1万篇 布局国家文化大数据标识基地 标签、标注、标识 不同于互联网域名解析 文化数字化采用标识解析 域名解析标识解析 域名:www.baidu.com 域名解析系统 (DNS) 标识码:010000-000056780324-3 标识解析系统 (ISLI) 结果:123.124.12.41 结果:文化数据元数据信息+ 数字内容访问地址 国际标准关联标识符 (中I国S提L案I)创建 国际标准化组织2015年发 布 唯一标识实体之间关联关系的全球通 用标识符,ISLI不改变已有标识 鉴权 验证用户是否拥有访问系统的权利,版权认证 解析 提供文化数据元数据信息+数字内容访问地址 关联 以ISLI编码构建关联 标识 标识编码由十进制数字和三个字段构成 标识解析 01 数据互联互通 (数据地址 +核心元数据) 02 数据分布式存储 (物理分布、逻辑关联) 03 数据确权(每个数据都有唯一身份证,伴随全生命周期) 元宇宙 元宇宙的核心要素:数字身份、数字货币、数字资产 把电视机作为元宇宙的入口 将机顶盒改造成为元宇宙发射器 用ISLI标志码作为数字身份 ISLIDRA扮演元宇宙“户籍警”角色 主权链 依据:推动标识 解析与区块链、1 大数据等技术融 合创新 依据:我国主导 2的信息与文献相 关国际标准 3 实施:依托中国国家文化大数据标识注册中心 (ISLIDRA) 路径:ISLI同 4 各联盟链对接 元宇宙的治理成本 不能重蹈互联网“先发展、后治 理”的覆辙