研究报告|2022/03 数字经济系列 概览摘要 另类数据热点及其获取技术分析 另类数据拥有容量大、传输快、种类多、价值高等特点,在数据形式和维度上都给数据行业带来革命性的跃进。随着分析技术和获取途径日渐成熟,另类数据的运用场景更加广泛。近年来,通过对另类数据挖掘得出的信息对投资领域具备高度价值和洞力。 随着Thas0s数据公司在2018年通过监测特斯拉 员工手机的信号输送,成功在特斯拉公司发布财报前准确预测出特斯拉第三季度的产量,另类数据挖掘逐步介入大众的视野。在随后数年,诸多企业通过对另类数据的挖掘和分析成功获取市场超额收益,在投资的信息获取竞赛中占得先机。 另类数据获取成本较高前期搭建难度大,对人才综合素质要求高,拥有另类数据挖掘赋能团队 虽然另类数据在维度,层次,和量级都赋予了投资者大盘洞察力信息,但是另类数据挖撼所需要的技术铺垫和人才引用同样对企业消耗巨大。所以,相比于中小规模基金,大规模在前期搭建和人才吸引方面更具优势,导致另类数据投资行业存在显苦马太效应 天然壁垒高.技术不易被复制。 另类数据的发展与人工智能算法在近年的快速选代有着密切的关系。如今,大多数高质量的另类数据分析都离不开人工智能算法的支持。可以说 人工智能技术是另类数据挖掘的根基。 量化投资在中国发展趋势分析 另类数据量化投资在中国还处于早期发展状态监管方面并未成熟,行业交易策略在市场大环境中野蛮生长。由于在中国市场的诸多限制.总体上来看国内量化基金目前是不及国外顶级量化基金的技术水平。但随着近年米另类数据的谨勃发展,国内量化的基金的规模突飞猛进。在全球范围内越来越多的人才回归国内市场和行业迎来合规和监管进一步落实的背景下,中国量化基金与世界的差距在逐步拉进 名词解释 公司的体系 RFID:RadioFrequencyIdentification,其原理为阅读器与标签直接进行非接触式的数据通信,达成 识别目标的目的 ETF基金:一种将指数证券化,然后允许投资人通过持有表彰指数标的方式投资一系列股票 标的随着业绩基准进行波动产生的收益 BETA收益: 超额收益: 标的超出业绩基准部分的收益 ewww.leadleo.com Chapter1: 另类数据是什么?它们是如何生产的? 另类数据的定义来自于金融行业,是对区别于传统数据的对投资有价值信息的统称,其定义与大数据趋同,有着容量大、传输快、种类多、价值高等特点 图表1:另类数据的定义及特点 另类数据的特点 特点二: 速度快 特点一:容量大 特点三:种类多 另类数据具体是怎样开发整理的? 和传统数据相似另类数据拥有采集、存储、分析、和运用的固定开发流程。由于另类数据在复杂程度和量级都要远高于传统数据,所以借助更先进的设备和技术来进行储存管理 图表4:另类数据的采集方法汇总 数据采集 软感知 硬感知 主要方法:K近邻法。随机森林SVM支持向量机等 主要工具:MySqlPython,R 智能一定的自主分析自由度 式 习,结构化预测等 Excel, spss等 应用 价值信息运用在金融决策之中 另类数据与传统投资方法有何不同? 与市场主流投资方法相比,另类数据无论从分析方法还是实际运用中都展现出来了一定的创新性。虽然另类数据搭建成本偏高,但低同质化效应带来了可观的边际收益 图表5:另类数据投资与传统投资方法的对比 标题 技术分析 另类数据投资 另类数据量化投资的市场规模有多少 压能力。量化基金稳定的表现使其规模在过去六年内以每年40.4%的复合增长率快速增长 图表6:主动型量化策略基金在中国和全球市场规模测算 点击前往查看点击前往查看 通过对基金的筛选,剔除ETF,指数基金,被动策略,固定收益等BETA收益后.选出公募和私募范围内具备另类数据投资能力的量化基金进行市场规模测算。 口 量化基金在过去5年增长速度强劲,从2016的2,740亿元规模增长至 2021的20,949亿元,CAGR达到40.4%。近些年,在经历过13-14年的 寒冬后,量化基金及时调整了整体的风险应对策略和暴露散口。结合相关技术蓬勃的发展和行业逐渐的规范化.量化投资规模有望保 持现有增速,在2025年达到超8万亿元规模。 ewww.leadleo.com 中国政策方面对另类数据投资发展提供了哪些支持? 大数据方面,国家对大数据发展提出全面战略规划,在过去5年间逐步落实到地区并执行。 量化投资方面,行业还处于野蛮生长状态,相关监管框架在2021年开始建立 图表7:大数据建设相关政策 政策名称 颁布日期 颁布主体 主要内容及影响 建造全国领先算力基础设施和重要数据汇聚枢纽,在2026年前打造全国大数据创新核心区和产业聚集区 湖北省市政府 在规划化数据处理、保障数据隐私安全,维护个人及组织合法权益的前提下,促进数据的开发和利用 全国人大 国内率先提出提升信息技术应用产业的创新知识产权保护力度的直辖市 天津市政府 发改委、科技重点培养新兴技术的发展,聚焦在5G技术建设、软件部、财政部等 技术发展、和芯片制造技术提升 国家发展改革委员会 鼓励具备条件的行业领域和企业范围内探索大数据、人工智能等新一代数字技术应用和集成创新 以强化大数据产业创新发展能力为核心,全面推动数据互通与开放,加强技术创新方式和产业研发底蕴,深化大数据在社会中的运用 工信部 主要内容及影响 中国证券政策指出券商需在次日前3个交易日内,按月度报送量化业协会交易数据信息 头的 中国证券投资基金协会 在规划化数据处理、保障数据隐私安全,维护个人及组织合法权益的前提下,促进数据的开发和利用 另类数据量化投资目前的瓶颈有哪些?未来发展趋势如何? 另类数据在投资领域的发展主要面对的两大瓶颈是前期系统搭建过于高昂的成本,和对从业人群综合素质的高要求。因此,在未来量化投资行业的马太效应会持续发酵 图表9:另类数据投资目前所遇到的瓶颈以及未来发展趋势 瓶颈一 系统搭建成本高 描述:另类数据的处理难度,数据维度,和分析方法都需要更多的人力和财力投入才有可能使杂乱无章的数据产生可观的价值。 发展痛点:目前市场上大多数量化资本的体量都无法承担数据挖掘分析等前期搭建的高昂成本,主要原因为数据投入成本过大一定程度抵消了绝对收益,导致另类数据在投资领域发展较为缓慢 高价值数据获取难 易获取数据质量低 Chapter3: 另类数据量化投资企业概览 由于量化基金行业具有马太效应,头部规模基金在另类数据挖掘中具有绝对优势。相比于公募基金,私募基金在策略选择灵活度更高,更适于另类数据投资策略的开发 图表10:百亿级以上规模量化私募介绍 口量化基金具有马太效应。头部基金在技术升级,设备搭建,人才招募,和资金募集方面都要领先于规模较小的基金。从过去几年的基金规模数据中便可看出头部基金的规模增量是量化基金行业增长的主要推动元素。马太效应在细分到另类数据量化投资领域中表现的更为明显。由于另类数据挖据涉及高昂的成本支出和大量的人才需求,大规模基金更具备前期研发投入和人才招揽能力,在数据开拓和投资运用中都更有可能实现价值输出。 的 口表格内基金均为私募基金。相比于公募基金,私募基金的执行自由度高,对回撤控制要求低,对于另类数据投资挖掘领域波动承受能力强,是开拓另类数据量化投资的主力军。 口资金规模达到百亿的量化基金在2020年只有10家,在2021年末来到了25家,单年增长率达150%。 名字 成立时间 公司风格及亮点介绍 规模 团队创始人来自斯坦福大学数学专业硕士,曾就职美国千禧年基金,所以的量化投资决策均依据模型进行 灵均资本 千亿 团队创始人来自浙江大学信息工程专业,投资理念以数学和计算为主,深度研究AI策略以及其在基本面量化的投资机会 团队核心创始人来自于复旦大学和北京大学,投资理念基于先进的统计学和数学理论获取低回撤,曲线平滑的超额收益团队创世人来自于清华大学和南京大学。投资理念结合量化和主观.通过量化约束主观的双逻辑实现投资收益最大化 千亿 千亿 百亿 团队85%以上成员来自清华和北大,核心成员均有华尔街量化对冲基金工作经历,投资理念专注于高频交易策略 百亿 团队成员大部分来自哈佛大学,投资理念专注于风险可控下的风格稳健、持续性强的中短期投资 百亿 团队创始人获得华盛顿大学金融学硕士学位。千象以管理期货为核心策略,追求收益曲线平滑、严格控制回测 百亿 团队创始人教育背景为西安交通大学计算机专业,曾就职于微软亚洲,百度集团等,投资理念高度量化,聚焦于股票类是中国最早的对冲基金之一,创始人袁宇博士在学术界小有成就,投资理念注重投资因子的逻辑性和可解释性 百亿 百亿 传递达尔文"物竞天择,适者生存"理念,拥抱时代变化和不断选代思想,投资理念风格覆盖领域多 百亿 创始人来自中国科技大学计算机专业,拥有超过10年的量化行业从业经验,投资理念专注超高频量化交易 百亿 团队80%的成员来自清北复交常春藤等顶尖名校,投资理念覆盖面均匀,投研流程高度数据规范化 百亿 另类数据投资企业案例 另类数据可以提供投资者给更有洞察力的信息,通过多个维度让投资者在信息时间竞赛上占取先机。历史上,已有多家企业通过挖掘另类数据的方式获取超额收益 图表11:Thanos公司通过手机信号准确预测特斯拉产量 口美国一家Thasos数据公司通过 SOSVHI 个月的时间内,头推特对270万用户以及9853,498条推文进行整 平均绝对百分 (3) DJIA 道琼指数 标准化 理归纳,进行Granger因果分析 比误差 后发现,推特用户推文展现出 每日股市指数 的情绪与道琼指数高度相关 图表13: 卫星数据公司通过车流量分析CMG的客流量变化 口美国卫星数据公司利用图像识别算法分析卫星图片,发现一 家食品快餐店上市公司 Chipotle(CMG)的停车场车流 高相关性 量(橙色线)与该公司股票的股价(白色性)由相当高的关联性。原因是美国是一个车上国家”门店停车场的车流量和该门店的客流量有较强的相关性,另类数据帮助人们更快更准确的将这些信息呈现 火豹 ewww.leadleo.com