您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国银河]:大数据量化投资研究之一:巧借东风,研报文本挖掘选股策略 - 发现报告
当前位置:首页/其他报告/报告详情/

大数据量化投资研究之一:巧借东风,研报文本挖掘选股策略

2014-12-23温尚清、王红兵中国银河望***
大数据量化投资研究之一:巧借东风,研报文本挖掘选股策略

www.chinastock.com.cn 证券研究报告 请务必阅读正文最后的中国银河证券股份公司免责声明 [table_research] 金融工程报告●量化策略 2014年12月23日 [table_main] 行业深度报告模板 巧借东风,研报文本挖掘选股策略 ——大数据量化投资研究之一 核心观点:  借力研报,打造开放的量化选股模型 传统的多因子量化选股模型是封闭的,缺乏捕捉市场热点的能力,通过大数据技术,从财经媒体和分析师研报中捕捉热点和政策的变化,可以打造开放的量化选股模型。 分析师个股类研报每年大约5万份,相比财经媒体,分析师研报在专业度、可信度、规范度、实时度等方面有明显优势,是大数据量化投资的重要数据来源之一。  热词库建设是构建量化选股模型的关键 通过对历史研报的统计,我们建立了基本面类、情绪面类、概念主题类三大热词库,其中基本面类和情绪类细分为正面词库和负面词库。我们统计了单个热词在近4年的选股效果,总体胜率比较高,相对沪深300有明显超额收益。  “基本面+情绪面”热词库选股策略表现稳定 2011-2014年,策略相对沪深300、中证500的年化超额收益为21.29%、14.84%,月度胜率大约70%。  “概念主题”热词库选股策略令人惊喜 以“油价下跌”和“一带一路”为例,截止12月19日,“油价下跌”热词概念股平均超额收益27.78%,“一带一路”热词概念股平均超额收益21.48%,其中表现最好的是中国交建,超额收益达93.28%、绝对收益达101.55%。  “银河大数据量化投资”体系 我们将逐步建立起“银河大数据量化投资”体系,数据来源包括财经媒体、分析师研报、行情财务三大部分。我们认为,通过对投资者情绪、行业政策舆论、概念主题舆论和个股舆论进行大数据分析,可以构建择时、行业配置、选股和组合管理等量化投资模型。 分析师 温尚清 :0755-83021715 :wenshangqing@chinastock.com.cn 执业证书编号:S0130514050007 王红兵 :0755-83479312 :wanghongbing_yj@chinastock.com.cn 执业证书编号:S0130514060001 相关研究 [table_report] 《金融工程:事件投资,有效的研报标题关键字130521》 请务必阅读正文最后的中国银河证券股份公司免责声明。 1 [table_page] 金融工程报告/量化策略 目 录 一、银河大数据量化投资体系 .......................................................................................................................................... 2 二、分析师研报是重要的数据来源................................................................................................................................... 2 (一)信息的传导路径 ............................................................................................................................................................. 2 (二)分析师研报数量庞大 ..................................................................................................................................................... 3 (三)简单的文本挖掘策略回顾 ............................................................................................................................................. 3 三、文本挖掘技术介绍与热词库建设............................................................................................................................... 4 (一)VSM模型与LSA模型 .................................................................................................................................................. 4 (二)热词库建设是构建量化选股模型的关键 ..................................................................................................................... 5 (三)基本面、情绪热词效果分析 ......................................................................................................................................... 6 四、“基本面+情绪面”热词库选股策略 .......................................................................................................................... 9 (一)策略净值 ......................................................................................................................................................................... 9 (二)相对优势分析 ............................................................................................................................................................... 10 (三)案例分析 ....................................................................................................................................................................... 11 五、“概念主题”热词库选股策略 .................................................................................................................................. 12 (一) “油价下跌”概念 ..................................................................................................................................................... 12 (二) “一带一路”概念 ..................................................................................................................................................... 12 (三) 案例分析:中国交建 ................................................................................................................................................. 13 六、风险提示 .................................................................................................................................................................... 13 请务必阅读正文最后的中国银河证券股份公司免责声明。 2 [table_page1] 金融工程报告/量化策略 传统的多因子量化选股模型是封闭的,缺乏捕捉市场热点的能力,通过大数据技术,从财经媒体和分析师研报中捕捉热点和政策的变化,可以打造开放的量化选股模型。 分析师个股类研报每年大约5万份,相比财经媒体,分析师研报在专业度、可信度、规范度、实时度等方面有明显优势,是大数据量化投资的重要数据来源之一。 一、银河大数据量化投资体系 近两年来,大数据和互联网金融发展迅猛,各大基金公司和券商纷纷加入大数据量化投资研究行列,甚至一些互联网公司已经布局,未来大数据量化投资研究将精彩纷呈。 国内已经有成功的案例,比如广发基金联合百度公司、中证指数公司开发百发100指数,南方基金则携手新浪财经、深证信息公司推出了i100指数和i300指数。 我们构建了银河大数据量化投资体系。理论上,大数据研究的引入,可以把量化投资各个领域重新建模,包括择时、行业配置、选股和组合管理等。 图1:“银河大数据量化投资”体系 资料来源:银河证券研究部 二、分析师研报是重要的数据来源 (一)信息的传导路径 传统的多因子量化选股模型依赖财报数据,其信息是非常滞后的,其封闭性让其无法跟上市场节奏,通过财经媒体和分析师研报,有助于量化选股模型捕捉到更加前沿的信息。 请务必阅读正文最后的中国银河证券股份公司免责声明。 3 [table_page1] 金融工程报告/量化策略 图2:上市公司信息的传导路径 资料来源:银河证券研究部 (二)分析师研报数量庞大 近4年来,个股类的分析师研报每年大约有5万分,是大数据量化投资的重要数据来源。 图3:2011-2014国内分析师个股研报数量 资料来源:朝阳永续,银河证券研究部整理 (三)简单的文本挖掘策略回顾 我们团队对分析师研报的应用有着深厚的积累。2013年我们推出了《事件投资,有效的研报标题关键字130521 》。 01000020000300004000050000600002011201220132014 请务必阅读正文最后的中国银河证券股份公司免责声明。 4 [table_page1] 金融工程报告/量化策略 该策略在2014年总体上还是有效的,但呈现一个特点,基本