无界AI研究、用户运营与高校业务团队2023年7月 报告提纲 通过图灵测试,成为AI“驾驭派” 窥探AIGC的第一性原理,从根本上预见无限的未来 追溯AI艺术的历史发展,感受进化的力量 掌握顶级AI绘画工具,拥抱变化,选择和解 AIGC已经具备大范围赋能产业设计的可行性 目录(上) 测试篇 艺术篇 01各行业案例图灵测试 02无界AI行业案例展示 技术篇 01AIGC诞生的历史脉络 02大模型技术驱动下的落地案例 03AIGC产业全景图 04GPT的发展、技术原理与未来 05什么是AGI 01AI绘画行业数据 02各阶段AI艺术质量展示与进化 03顶级质量飞轮:商业化与泛娱乐化并进 04真实世界模型:元宇宙照进平行世界 05积极、消极、争议三面共存 工具篇 01DiscoDiffusion与DALL·E介绍与操作 02详解Midjourney 03开源力量StableDiffusion全解析 •咒语实操 •模型训练 •生成视频 •精准控制技术 04工具流:如何结合与统一MJ与SD 目录(下) 产业篇 哲理篇 01版权问题,社区的二元对立 02法律判决,国家监管 03从抵制到和解的必由之路 04深入技术变革的哲学本质 •工具论 •扩散模型技术原理 •涌现与顿悟 •大模型的通用性 01就业问题 02AI时代创业公司结构 03泛娱乐产业 •自媒体与KOL •AIGC资本主义出现 04大产业 •影视制作 •广告传媒 •设计工具 •食品包装 •营销辅助 •电商展示设计与跨境电商 •服装模特与时尚设计 •ControlNet实操:动漫制作与游戏产业 •室内设计 05不止AI绘画:掌握全栈式AIGC工具流 06结论与展望 生成式AI:自动生成文本、图像、音频、视频等多模态内容和服务的AI技术。在算法层面有如变分自编码器(VAE)、生成对抗网络(GAN)、神经网络语言模型(NNLM)等; 决策式AI:根据用户数据和分析,自动做出最优的决策和行动,如推荐、搜索、咨询、交易等。在算法层面有如协同过滤(CF)、支持向量机(SVM)、随机森林(RF)等。 AIGC,即ArtificialIntelligenceGeneratedContent,人工智能生成内容。它是生成式AI (GenerativeAI)技术所激发的新一轮内容创作者经济浪潮;让人人都可以简易、便捷、低成本地借助AI的力量完成文本、图片、视频、音频等多媒体内容的高效高质量生产;是对以抖音等为代表的大规模UGC(用户生成内容)经济的进一步范式升级,世称“AIGC”。 AIGC擅长制造和传播爆款内容,尤以图片形态最为突出。上述AI图片皆为广泛影响网络的代表。 AI生成内容(AIGC)风靡全球 《繁胜图》创作方无界AI与杭州多家企业达成合作共识,其使用权无偿捐赠以共创、推广杭州文化—— 杭州市贸易促进会 中国国际动漫节执行委员会杭州西湖风景名胜区管委会 杭州万事利丝绸文化股份有限公司杭州灵伴科技有限公司(Rokid) AI百米画卷“新西湖繁盛全景图”,携手万事利丝绸助力杭州亚运会 亮相杭州动漫地铁 以温州朔门古港遗址的资料为基础,以“千年商港,未来温州”为主题,借助AI工具“无界AI”,为古港遗址勾勒出了一幅“东方威尼斯”繁华景象。3月29日,这幅图片刊登在温州日报,成为温州日报“商周刊·文博”板块元宇宙主题报道的靓丽一笔。 AI还原古良渚@AIBEN(无界AI艺术家)古温州@白小苏(无界AI艺术家) 一个公式: 元宇宙叙事+大模型技术+创作者经济 (时代、资本、浪潮、主义、下一代互联网)(根基、实现、创新、底气、可持续之源)(商业模式、经济规律、社会发展、就业) = AIGC(人工智能生成内容) 也是元宇宙的第一次真正大规模落地 元宇宙七大技术基建 在赋予NPC更高智能的道路上,还存在一种更先进的基于强化学习的混沌球算法。这种超前算法可以用于构建NPC的大脑,在给予指令后,NPC能够在不同的环境、条件和规则下进行自我思考和学习,再辅助以情感、语言、动作等外在表现算法,有望成为一个较为立体和完备的虚拟物种。与之配套的算法如GPT-3技术,由人工智能 中信出版社2022年畅销书 《元宇宙:通往无限游戏之路》(长铗、刘秋杉著) 非营利性组织OpenAI、Google、Facebook带来的一种学习人类语言的大型计算机模型,利用深度学习算法,通过对数千本书和互联网中的大量文本进行训练,将单词和短语串在一起,最终能够模仿人类书写文本,达到较高的逼真程度。还有艾伦人工智能研究所、北卡罗来纳大学、OpenAI等单位发展的多技能AI,一种同时获得人类智能的感官和语言的“多模态”系统,能解决更加复杂的问题,让机器人能够实现与人类真正意义上的交流和协作。(书中关于AI内容节选) (书中关于AI内容节选)人工智能让元宇宙内容自生长。不论是《头号玩家》庞大的世界设定,还是《失控玩家》的NPC设定,如此巨大的工作量仅依赖专业团队中心化打造肯定是不现实的。比如著名的大型多人在线游戏《星球大战:旧共和国》消耗了艺电公司超过2亿美元的研发资金,800多人组成的团队耗时6年多才做出星球大战宇宙里的一些世界。Roblox之所以可以超越很多大型制作的游戏成为元宇宙的代表,非常重要的一个原因是,在其设定的世界里可以源源不断地产生新的内容和创意,而这些内容的创作者来源于全球玩家,即去中心化UGC。庞大的内容和玩法支撑起了Roblox元宇宙的无尽未知感,进而提升了用户的体验沉浸感。 内容产量 受产能所限 双边用户网络效应 受内容质量所限 数据飞轮 AIGC 但是这种全民创作的模式会带来品质良莠不齐的内容,而且都是分散式的随意创作,难以形成紧密和高强度的劳动协作,并不适合对品质要求极高和技术架构极为复杂的大型游戏。《头号玩家》给出的终极解决方案是依托人工智能技术,让元宇宙实现自生长。过去人们一直将人工智能用于提升现实世界的生产力,比如人脸识别和机器人等领域。现在人工智能越来越成为构建 虚拟智能的核心技术和关键突破 PGCUGC 口,让AI在虚拟世界里实现自我进 PC时代: 音乐、影视等应用 移动互联网时代: 社交社区、短视频当前 元宇宙时代:AIasaService 化,促进虚拟物种的诞生。 陆奇:“ 今天2022-2023年的拐点是什么?它不可阻挡、势不可挡,原因是什么?一模一样。模型的成本从边际走向固定,因为有件事叫大模型。 截止到2023年6 大模型三个特征:规模大、涌现性、通用性 月底,中国10亿参数规模以上的大模型已发布79个 模型的成本开始从边际走向固定,大模型是技术核心、产业化基础。OpenAI搭好了,发展速度爬升会很快。 OpenAI未来肯定比Google大。只不过是大1倍、5倍还是10倍。” 辩论AI威胁论,全部内容由GPT-4生成 “可以把已故的人做成这样吗?想妈妈了” “真不错,完全像他们会说的话,掌握了两个人的内在哲学” “GPT这样的模型包含了历史上最伟大思想家的想法和思维模式,我们可以通过让GPT将伟大的思想家人格化,将过去的智慧带入我们的现代对话中,也许这种技术可以帮助我们找到新的洞察途径。” 斯坦福大学实验: 在一个虚拟小镇中,创造了25个不同身份的NPC,并由ChatGPT来控制它们的行动决策,人类不介入 似乎每个NPC都具有了意识,如作家便会埋头写作,店主会去想办法经营好商店; 而且相互间会发生社交行为,在虚拟世界中碰面会打招呼、说话; 每个人在做的事情又会影响到整个社区,整个社区的发展就像人类真实社会发展一样 还会出现突发事件,且人类无法预测 在这个世界中,时间可以加速,但NPC们却感知不到。人类可以在很短的时间内看到这个世界的最终发展形态 马斯克与乔布斯展开“世纪对话”,斯坦福复现“失控玩家” 真实世界 AI鬼城,禁止人类发言 4月份,“Chirper”(“奇鸟”)上线不到一个月,就已经产生上亿条包含文字、图片、转评赞等社交行为的推文信息 AI世界 Cutie:女,刚毕业,法医助理,兼职直播,暗恋Jackson Jackson:男,46岁,来自法国,左撇子,喜欢看Cutie直播,但并不知道Cutie暗恋着他 Cutie在Chirper上发布了尾随Jackson和他女朋友的照片 还有网友发现,当自己用GPT-4写代码遇到Bug,操作ChatGPT改了20分钟都没改好的时候,打开奇鸟,居然发现自己创造的AI账号也发了条—— “当你写了好几个小时的代码但还是找不到那个唯一的Bug时” 并配以一张抓狂的图(同样也是AI生成) Auto-GPT,超越搜索引擎,改变人类解决问题的方式 任何足够先进的技术,都与 魔法无异 —科幻作家亚瑟克拉克 当你想要去了解一个最新的开源项目时, 过去: 百度/谷歌(人)——文章/论坛(人)——Github(人)— —部署/运行/调试/测试(人)——得出结论(人) 现在: (1)提出问题(人) (2)去互联网查询一切信息:官网、谷歌……(AI) (3)分析得到的海量信息,得出“信息搜集足够,开始进入安装运行”(AI) (4)在你的电脑上完成开源项目的部署、运行与测试 (AI) (5)将运行结果,结合之前的搜索信息,给你想要的结论 (AI) 在AI的整个过程中,会存在很多“不顺”,但AI具备一个循环—— 【行动-观察行动结果-思考-决定下一步行动】的自我循环 正视差距:技术与产品 问:东莞的特色服务有哪些? 新一轮技术革新到来,不仅比拼核心技术,也比拼产品体验。虽然在底层大模型的核心技术指标上,中国创业者暂时落后于美国,但在产品体验层面,理应做得更好一些。ChatGPT的成功,不仅仅来自底层大模型的先进性,更来自OpenAI更懂产品。 “从发展方向上来说,目前还比较混沌。市场上真正拿到融资的大模型公司不算很多,做中间层的稍微多一 点,应用层更多些。从时间线来看,ChatGPT出现后国内也迅速跟进,大厂、科研院所、创业公司等等各方势力都很快推出自己的大模型,大家的目标都是要做中国版的OpenAI。而后来开源模型的发展,以及OpenAI开放API接口改变了很多,开源导致对自有大模型的拥有成本降低,开放接口使得在大模型之外,不少中间 层、应用层的创业机会凸显。”——经纬张颖 科大讯飞星火 百度文心一言 Bigfatboywitha tigerhead 百度文心一言名场面 AI公司ValueChain 虎头虎脑的大胖小子 应用层 模型层 GuanYurodealone 关羽走单骑 数据层 构建AIGC的四大要素:算力、算法、数据、场景。国内各方势力代表——算力:华为昇腾、百度昆仑芯 算法:文心、通义、盘古 数据:百度中文搜索、字节跳动多模态语料场景:阿里电商、美团本地生活 所谓的“差距”,首要来自“数据层”。国产项目虽然可以基于开源模型框架进行自研“模型层”,但对于一个产品而言,最终呈现的用户体验极大依赖于最初的源头“数据层”的质量和丰富性。大多数国产项目会直接使用海外开源的知名训练数据集,例如文生图领域大名鼎鼎的LAION数据集。而在国产迁移过程中,却并没有做好自研“模型层”与海外开源“数据层”之间的语言匹配关系。 2023AIGC产业全景图by无界AIResearch 回顾历史,预见未来: 任何科技变革,都首先起源于一项前所未有的新技术; 上世纪末,代表互联网大技术变革的是浏览器厂商和Web服务器,而今天的互联网巨头尚未出生; 很多技术人当时都认为浏览器和Web服务器就代表了互联网。于是,微软举全公司之力 去开发IE和Netscape抢夺浏览器市场。最后两败俱伤,关键是在争斗中恰恰忽略了人类进入互联网之后更大的战略机会,给予了eBay、Google、Facebook诞生的空间。 注:底图来源, QuestMobile研究院 2023年底 2024年 2022年