您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:【Smartxt 创新策略】文本大数据因子的选股能力浅析 - 发现报告
当前位置:首页/宏观策略/报告详情/

【Smartxt 创新策略】文本大数据因子的选股能力浅析

2016-12-29冯剑东方证券杨***
【Smartxt 创新策略】文本大数据因子的选股能力浅析

HeaderTable_User 1186176660 1211774171 1360277706 HeaderTable_Stock 股票代码 投资评级 评级变化 行业code HeaderTable_Excel 东方证券股份有限公司经相关主管机关核准具备证券投资咨询业务资格,据此开展发布证券研究报告业务。 东方证券股份有限公司及其关联机构在法律许可的范围内正在或将要与本研究报告所分析的企业发展业务关系。因此,投资者应当考虑到本公司可能存在对报告的客观性产生影响的利益冲突,不应视本证券研究报告为作出投资决策的唯一因素。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 深度报告 【投资策略〃证券研究报告】 【Smartxt创新策略】文本大数据因子的选股能力浅析 研究结论 投资是人类的活动,但是传统因子库缺少直接对投资者行为进行预判的工具; 运用大数据的手段,可以获得近似描述投资者行为的工具,比如本文介绍的关注因子; 关注因子主要衡量股票的传播深度,包括投资者提及的频率和投资者看到的频率; 2008~2016回测表明,关注因子在IC、区分度和单调性方面表现良好; 回测表明,关注因子与市值因子相关性不大。 风险提示 基于大数据的因子属于创新因子,投资风险较大,不建议一般投资者参与。 东方创新Smartxt相关报告均采用互联网文本挖掘技术,基础数据由包括计算机爬虫、文本处理系统、智能匹配系统在内的东方创新Smartxt网站自动生成。与传统研究报告相比,本报告的信息来源更加广泛与多元化。特别地,系统挖掘出的个股因子,所体现出的是市场对该股票的一般性看法。尽管对文本信息进行了数据清洗,我们仍无法确保消除全部系统噪音。 报告结论仅供参考,特此声明。 报告发布日期 2016年12月29日 证券分析师 冯剑 021-63325888-4311 fengjian@orientsec.com.cn 执业证书编号:S0860515080003 联系人 张亚南 021-63325888-6117 zhangyanan@orientsec.com.cn 吴鸣远 021-63325888-6160 wumingyuan@orientsec.com.cn 相关报告 【Smartxt 创新策略】探索举牌话题传播对股价真实影响 2016-12-08 【Smartxt创新策略】机构调研行为交易策略详解 2016-08-30 【Smartxt创新策略】机构调研行为交易策略之增强版 2016-09-28 【Smartxt创新策略】寻找高送转话题传播对股价的真实影响 2016-08-25 【Smartxt高级应用】主题交叉搜索实现 2016-09-29 【Smartxt基础应用】利用大数据抓住突发事件投资机会 2016-07-18 【Smartxt基础应用】巧用调研信息,获取超额收益 2016-07-25 【Smartxt基础应用】如何利用大数据寻找概念龙头 2016-07-01 【Smartxt基础应用】如何利用大数据做主题轮动 2016-06-30 投资策略 请插入表格 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 【Smartxt创新策略】文本大数据因子的选股能力浅析 2 目录 一、文本大数据的投资价值 ............................................................................... 3 二、关注因子的回溯测试................................................................................... 4 (一)因子简介................................................................................................................................4 (二)因子IC...................................................................................................................................4 (三)因子区分度及单调性............................................................................................................6 (四)关注因子与市值因子的讨论................................................................................................7 三、关注因子VS市值的实证研究 .................................................................... 8 (一)方法讨论................................................................................................................................8 (二)沪深300股票池的因子IC...................................................................................................8 (三)沪深300股票池的因子区分度及单调性......................................................................... 10 四、结论 .......................................................................................................... 11 五、风险提示 ................................................................................................... 11 附:smartxt.cn简介....................................................................................... 12 1、任意词搜股票 .......................................................................................................................... 12 2、调研寻踪 .................................................................................................................................. 12 3、预期探索 .................................................................................................................................. 12 4、智能公告 .................................................................................................................................. 12 5、智能预警 .................................................................................................................................. 12 6、群聊助手 .................................................................................................................................. 12 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 【Smartxt创新策略】文本大数据因子的选股能力浅析 3 Smartxt.cn是东方证券金融创新团队自主研发的开放式证券智能搜索工具,目前正在公测。 Smartxt.cn网站目前拥有十亿级文本数据库,全面覆盖官媒、新闻、从业人员言论、公司公告、调研信息、互动平台、股票论坛、移动聊天工具等信息源。我们的目标是,建设人人可用的金融文本大数据平台,让用户可以方便地运用大数据帮助投资决策,带动证券投研领域的金融科技进步。 东方创新Smartxt平台主要功能目前包括主题股票互查、调研寻踪、预期探索、智能公告、智能预警、群聊助手。详情请参阅本报告后附的“Smartxt.cn简介”。 一、文本大数据的投资价值 投资是人类的活动,是投资者以其逻辑认知来指导的行为。所以,一切对于未来股价波动的分析预测,归根到底都离不开对投资者行为的判断。 遗憾的是,对于传统手段而言,投资者行为是一个黑箱,只能通过其结果进行事后的回顾,根据历史规律进行谨慎的外推。 比如,技术分析流派使用的量价指标,属于投资者行为的产生的结果,在时间上是滞后的,并不能直接对投资者行为进行预判,只是希望类似行为能够重复或持续; 又如,基本面流派使用的财务指标,本身并不会导致股价波动,只有投资者意识到的有利或不利因素,才会引致交易行为,从而导致股价波动。所以基本面分析转而判断财务指标有多“好”,才有可能引起投资者关注。 总之,传统手段并不能够对投资者行为进行判断,只是用一些间接的方式进行推测。 诚然,人类的投资行为在事前是隐密而无法直接观测的。幸而有了互联网和大数据的协助,可以使我们以一定的概率逼近投资者的真实行为。 依托于Smartxt平台丰富的文本贮备和结构化框架,我们整理出一系列文本大数据因子,用以推断投资者真实行为。 本文主要介绍其中的关注因子。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 【Smartxt创新策略】文本大数据因子的选股能力浅析 4 二、关注因子的回溯测试 (一)因子简介 整个Smartxt.cn平台的基础测度是统一的,正如我们前期报告中一再说明的,词频是我们运用的基础度量方式。 在整个文本数据库中,按天汇总各股票出现的频数,包括股票简称、股票代码、股票昵称,经整理而成股票的关注因子。 关注因子衡量两方面的信息: 1、某只股票被投资者提及的频率; 2、某只股票被投资者看到的频率; 我们把这两种信息统称为传播深度。 直观上理解,传播深度的不断增强,代表着对于某只股票的认知在投资者群体中的不断普及。如果认知将以一定的概率