您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中科院]:技术结构图谱2022 - 发现报告
当前位置:首页/行业研究/报告详情/

技术结构图谱2022

信息技术2023-09-18中科院胡***
技术结构图谱2022

MtarpupctiunrgeTechnology 技术结构图谱 02技术结构图谱2022 CONTENTS 第一章引言 引言1 第二章研制方法 一、专利分析数据4 二、技术结构图谱构建方法5 第三章技术结构及其演变 一、技术结构图谱2016~202111 二、WIPO分类体系在技术结构图谱的映射18 三、不同核心专利数据集构建的技术结构图谱的对比分析.21 四、人工智能领域技术结构的演变分析25 第四章国家技术创新布局 一、中国及科技发达国家整体技术研发活跃度33 二、中国及科技发达国家技术研发覆盖广度35 三、基于技术结构图谱观察中国及科技发达国家的技术布局.38 四、中国及科技发达国家优势技术领域分析42 第一章引言03 第五章热点技术领域分析 一、手术器械47 二、智能诊察与监护51 三、通信网络54 四、光学与光电子57 五、锂离子电池60 六、智能汽车63 第六章结语 结语68 附录 附录一中国及科技发达国家技术研发活跃度排名前10的技术焦点 (含至少10件两方专利)69 附录二2016~2021年WIPO技术领域的技术焦点、专利数量统计75 附录三中国及科技发达国家在WIPO技术领域中两方专利分析76 附录四中国及科技发达国家在WIPO技术领域中技术焦点分析78 01 第一章引言 引言 第一章引言2 的文本规律 建设科技强国必须加强重大创新领域的战略研判和前瞻布局,加快科技安全预警监测体系建设。为了解世界技术创新布局,把握未来科技发展方向和关键核心技术,中国科学院科技战略咨询研究院利用大数据分析和深度学习技术,从百万级世界专利中发现专利 ,以揭示专利技术间隐藏的深层关联关系及结构特征。针对高影响力专利进行聚类分析,发掘全球领先机构聚焦的技术方向,构建了世界技术焦点数据库,并绘制描绘全球技术竞争态势的技术结构图谱。 技术结构图谱,通过深度学习技术与可视化技术,以直观形象的可视化方法宏观展示错综复杂的专利技术间的结构特征,揭示了技术方向间的关联关系与发展态势。通过图谱可以快速、全面、客观地把握世界技术态势,遴选国际上重要的技术焦点、技术前沿等,评估世界主要国家在这些技术焦点上的技术实力,寻找优势与差距方向等,为科学决策提供客观依据与数据支撑。 中国科学院科技战略咨询研究院技术结构研究组自2017年开展相关研究,持续跟踪业界最前沿的机器学习技术,不断改进分析数据和分析方法,先后构建了两版“专利文本特征抽取模型”。第二版“专利文本特征抽取模型”,通过结合大量专利文本及专利特征信息的后训练,改进Google的BERT预训练模型,使之适用于专利文本。运用该模型,对遴选专利数据进行聚类,构建了高影响力专利技术的世界技术焦点数据库,同时,利用技术焦点间的关联关系绘制技术结构图谱。至2023年,研究组先后完成了2012-2017年、2014-2019年、2016-2021年三个时期的技术焦点数据库构建与技术结构图谱绘制与解读分析工作,其中前两期报告的专利数据选用三方同族专利(同时在美国专利商标局、欧洲专利局、日本特许厅寻求保护的专利,简称“三方专利”),本期报告选取两方同族专利(同时在美国专利商标局、欧洲专利局寻求保护的专利,简称“两方专利”)作为底层数据。 专利信息可以反映全球所有技术领域的最新发展动态和最活跃的创新技术,但如何从海量的专利数据中,构建合适的数据集来研制技术结构图谱一直是本研究的一项核心研究任务。《技术结构图谱2021》中我们沿用创新性评价的一个重要指标,即三方专利,作为底层数据,报告获得了很好的反响的同时,专家也提出三方专利数据相对陈旧以及各国专利失衡的问题。《技术结构图谱2022》研制过程中,研究团队力求回应专家关切,在进行严谨数据分析的基础上,结合专家研判,选用两方专利作为本期报告的底层专利数据。与三方专利相比,两方专利总量增加了一倍,且平均公开年“更年轻”——提前了半年。同时,美国、欧洲和中国等国家和地区的头部企业无论是专利总量还是占比都有大幅增加。 122 《技术结构图谱2022》报告对公开日2016-2021年间的600654件两方专利进行聚类,形成了 93个技术焦点。通过将技术焦点中的高维专利文本特征向量映射到二维空间中,可视化展现全球视野的技术结构图谱,直观形象地展示世界专利技术的结构特征以及技术焦点间的关联关系与发展进程。基于技术结构图谱,叠加不同国家的专利份额,可清晰揭示不同国家在技术创新布局上的偏重,找出中国的差距。报告选取技术结构图谱中的热点技术领域(技术结构中的高密度区域)进行深入分析,分析热点技术领域中的技术重点及领先机构。除了热点技术领域,本报告还展示了另外一种基于技术结构图谱的专题领域分析模式,即采用检索策略,发现人工智能相关的技术焦点,分析其布局及特点,并通过两个时间窗,分析人工智能领域专利技术的演变。 3技术结构图谱2022 02 第二章研制方法 研制方法 一、专利分析数据 专利信息是反映全球所有技术领域的最新发展动态和最活跃的创新技术。世界知识产权组织 (WIPO)指出,90%以上的科技信息是通过专利信息反映出来的,若运用好专利信息,可以节约40%的科研开发经费和60%的科研时间。 与目前大多数以本国申请专利的统计分析不同,本研究的目标是构建具有代表性和相对完整性的世界技术焦点数据库,以及反映世界技术前沿态势的技术结构图谱。因此如何选择高价值专利构建核心专利数据集一直是本研究的首要任务。在2012-2017年、2014-2019年两个时期的技术结构图谱选取了在美国专利商标局、日本特许厅、欧洲专利局同时申请的“三方同族专利”(又名三方专利)作为核心专利数据集。通常三方专利被认为具有较高的科技含量和经济价值,反映一个国家技术发明的整体水平及在国际市场上的竞争力,被广泛应用于经济合作与发展组织、欧盟统计局、美国国家科学基金会等国际权威机构的统计报告中。 但由于申请三方专利时间较长,并且随着日本经济的日渐低落,世界一些顶级机构并不很重视日本市场等原因,专家提出我们遴选的核心专 利数据有一定的时滞性和不同国家专利的失衡性。在2022的技术焦点数据库的研制过程中,研究组在严谨数据分析的基础上,结合专家研判,选用了美国专利商标局和欧洲专利局共同保护的专利,后续简称两方专利,作为本期报告的核心专利数据集。 本报告的分析数据基于德温特创新平台 (DewentInnovation)最早公开年为2016-2021 年的两方专利数据,数据检索时间为2022年3月。 表2-1显示了三期技术结构图谱中专利数据总量及覆盖时间。连续三期技术结构图谱专利数据的时间间隔为2年,重叠时间为4年。需要说明的是,虽然两个时期技术结构图谱的时间窗有重叠部分,但由于专利公开的时滞在18个月左右,所有两个时期技术结构图谱在重叠窗口内的专利数据并不完全相同,尤其在重叠年份的后两年会出现较多新增数据。 与三方专利相比,两方专利的数据量比三方专利高出一倍,平均公开年提前了半年。并且,美国、欧洲和中国等国家和地区的龙头企业的专利量占比大幅增加。 表2-1三期技术结构图谱使用数据 技术结构图谱时间范围 2012~2017年 三方专利检索时间2018年8 月 2014~2019年 三方专利检索时间2020年3 月 2016~2021 两方专利检索时间2022 年 年3月 专利家族数 291498 272354 600654 二、技术结构图谱构建方法 专利布局分析中常用专利分类体系(比如IPC/CPC等)直接进行统计分析,发现技术领域内容的专利热点方向或技术布局。虽然各类专利分类体系都是较为成熟的标准分类,且通常包含多层分类关系,但在进行技术布局分析时存在一些局限性。现有的专利分类体系设计以功能性为主、应用性为辅,主要以满足检索功能为主要设计前提,在布局分析时难与具体产业技术领域对应,且分类体系粒度过大、更新缓慢,无法细致体现关键技术和最新变化。因此本研究没有直接使用现有的专利分类体系构建技术结构图谱,而是根据专利之间的关联关系发现技术结构,突破传统的分类体系,体现技术交叉融合的趋势。 技术结构图谱的构建在学术界暂时没有公认的最佳方案,传统的专利可视化分析通常称为专利地图,常参考科学论文的分析方法,多使用引文共现分析或关键词共现分析,但以上分析方法在分析专利时存在一定缺陷。专利引文分析中,首先专利的引用动机与科学论文引用动机有较大 的不同,在揭示知识关联方面存在较大差异[1,2]。其次,专利引用没有统一的规范,发明人引用与审查员引用各自有不同的引用目的。各国审查员引用要求也有很大差异,美国专利局审查员引用 数量是欧洲专利局的5倍。除此之外,专利间引 用的频次相比科学论文较低,本报告对6年的本底专利数据进行统计发现,专利间存在直接引用关系的专利只有29%,存在共被引关系的专利仅有37%,因此从数据统计出发,经典的论文引文分析方法也不适用于专利的技术图谱分析。而关键词等文本共现分析存在一词多义或一义多词、词间缺乏语义关系等问题,会造成分析结果存在一定误差。 术要素信息、 综上所述,我们有必要寻求一种更加科学、合理的技术结构发现方法,帮助相关技术领域的科研技术人员、科研单位以及专利情报分析人员更客观、准确地认识该领域的技术结构和技术方向之间的关联技关术系前,同沿时方还向有,利从于而发推现动隐技含术的创新。 随着近年来人工智能中深度学习的发展,为专利文本分析提供了有效支撑。本报告采用了基于深度学习模型的文本分析,融合了专利分类等影响专利技术结构的专利特征,构建专利技术结构图谱。技术结构分析方法流程如图2-1所示,主要分为三个主要步骤:首先是专利文本抽取模型,将专利文本转换成高维特征向量,抽取的专利文本 专利文本 文抽本取特模征型 聚类 可视化算法 图2-1技术结构图谱发现流程 1李睿,孟连生.论专利引用行为与期刊论文引用行为在揭示知识关联方面的差异[J].情报学报,2010,29(3):474--478. 2李睿.专利被引频次和施引频次与专利价值的相关性解析——以在美注册的中国专利为样本[J].情报学报,2014(4):395-404. 特征作为技术结构基本构成单元;其次,基于专利文本的高维特征,通过聚类算法发现技术主题;第三,使用可视化算法,将技术主题的高维特征向量映射入二维图谱,利用图中坐标分布特点,自动发现技术结构图谱中的结构特点,用于后续解读。相关步骤中设计算法与模型详见后续章节。 (一)专利文本特征抽取模型 为了抽取准确的专利文本特征,本报告训练了二版专利特征抽取模型。第一版专利文本特征抽取模型使用了一种不依赖任何预设领域词典、无需人工标注的无监督Doc2vec模型来实现专利文本特征抽取。利用海量专利文本作为学习语料训练模型,并利用IPC代码的层次关系构建多组专利特征抽取模型测试数据集。该模型在测试数据集中表现远高于当时被应用最广泛的词袋模型Tf-idf、主题模型LSA、LDA。 Doc2vec模型虽然采用深度学习的思想,但模型只有3层神经网络结构,严格来讲还属于浅 层深度学习模型。Google在2018年11月推出的 BERT预训练模型[3],是网络深度高达12层的深层神经网络结构,并采用基于自然语言连贯性假设的双向遮蔽语言模型理解自然语言规律。原生BERT模型的训练语料使用了海量的新闻、维基百科等综合文本上进行训练,显著提高了自然语言理解任务的准确率,是具有“里程碑”意义的技术进步。但是,BERT的训练语料与专利文本的特征还是具有很大的差别。因此,第二版专利特征抽取模型将专利文本特征作为先验知识与复杂的深度神经网络模型结合,并与专利已有的标注分类信息融合,进一步提升了专利文本特征抽取模型的准确率。 模型训练与文本特征抽取流程如图2-2所示,本报告在原生BERT预训练的模型之后加入海量专利文本进行后训练(post-training),并利用IPC/CPC专利分类标签对BERT