蒙玺-在量化领域“另”辟蹊径 蒙玺大致情况□□上海蒙玺投资是一家专注于量化策略的私募基金,首先介绍一下企业文化,因为 作为一家量化基金,其实我们排在第一位的技术,我们对于技术的开发其实非常重视的,对细节我们是非常追求极致的,以及我们针对于整个投研团队的建设,也是非常重视的,这一块就是以人为本。蒙玺2016年成立,2017年在基金业协会备案,2018年成为了基金业协会的观察会员。20 19年公司已经成为国内比较头部的低延迟领域自营机构,然后从19年开始到公司开始决定做一些资管产品的拓展,像现在我们公司整体的资管规模是已经达到60亿,然后公司的人员也超过了70 人,而且现在公司还在处于不断迭代的过程当中,以及我们针对于投研团队的建设,也是一直不停去做铺垫,目前我们投研的占比其实已经非常高了。公司的创始人李骧总,李总它是中科大的本科,美国布朗大学化学硕士,李总现在也担任着上海浦东数据金融学会理事长,这个学会也是李总发起并成立的。那同时李总还担任的上海交大的高级金融学院的职业导师,以及中科大的金融硕士的职业导师 。李总其实08年就已经回到国内开始从事量化交易了,所以其实是有超过15年的量化策略的开发 以及交易经验的,也是咱国内最早一批从事量化交易的基金经理。李总首先在低延迟领域在国内是非常领先的,而且尤其擅长像股票、商品期货以及股指期货等等这方面的低延期策略的开发交易。 作为一家量化基金,其实我们不仅仅是一家科技公司,我们其实在数据方面在技术方面投入是非常高的。另外其实量化基金也是一家重人力资本的公司。首先其实我们在技术和数据上面的投入,你像我们每年其实购买另类数据库,就要有1,000万以上的数据成本的支出。另外我们在算法算力的构建 上面,每年也有数千万的硬件投入来构建一个强大的算力集群,这是在技术层面上以及硬件层面上的支出。那么从人力成本上来说,我们现在整个投研团队其实是超过了50个人了,而且我们采用大组 +小组的这种精细化的管理模式,基本上都来自于海内外这种顶级高校的,像数学、物理、计算机、统计等等这种以理工科为主的学科背景,而且还是以硕士、博士为主,而且核心团队也是来自于海内外的这种知名的对冲基金。我们公司针对于一些比较核心的从业人员,其实我们也组建了一个员工持股平台,也会给一些对公司有这种特殊贡献的投研人员给一些股权激励。 公司现在整体的资产规模是60个亿,差不多40多个亿都是以机构投资者为主。究其原因其实主要 还是跟公司的总体风格是有关系的。目前公司在做产品层面上,我们一直是秉持稳健均衡作为长期的发展目标,我们并不会去为了做高收益率而去放大产品的波动,因为其实在夏普不变的情况下,大家知道你只要放大一下波动,其实你的绝对收益就能够提高,其实这不是我们公司所追求的一个目标,我们更多的还是希望能够去做一些高夏普,同时又能够更好的去控制回撤,是以稳健均衡作为一个长期的发展目标的,所以也是得到了头部金融机构专业投资者的青睐。所以这一块机构投资者占比是很高的。 投研体系 □前面是我们公司的一个基本情况的介绍,下面具体介绍一下我们投研的体系和我们α策略具体是怎么去使用另类数据来做选股的?首先是我们投研架构,投研分组我们是按照中心化组和策略组把 整个公司投研分两个大的模块,左边是中心化组,中心化组又包含IT组和模型组,中心化组更多的是提供协同和支持,它们并不去针对于具体的策略做开发,右边叫策略组,策略组又细分了4个组,分别是α组、CTA组、低延迟组合、期权套利组,这4个策略组会针对于具体的品种做一些策略的研 发。 首先是α组,其实顾名思义α组主要做股票α策略的,而这一部分它们的主要工作一方面就是做因子 挖掘,包括像量价因子,基本面因子以及我们公司用的另类因子。这一块的因子挖掘是α所做的,完全是人工挖掘,所以每个因子背后都是有非常强的投资逻辑在里面,所以单个因子的预测性都很强,这也是比较经典的这种量化策略的应用,最早的这种多因子选股模型,其实每个因子的它的预测性都是非常强的,这些因子都是人工挖掘的,背后有很强的投资逻辑,然后也可以很简单的给它们做一个线性组合,这是α组在做的工作。 □CTA组去开发一些期货的策略,包括一些趋势跟踪,期货基本面以及一些截面的期限结构等等,这是CTA组。 低延迟组也是刚一开始介绍的公司的竞争优势。一些偏高频的策略低延迟策略在开发,包括像在我们投资领域的应用上,股票技能策略它其实是一类低延迟策略,像股指期货的高频,然后商品期货的日内高频,这都是低延迟策略,以及我们的去降低交易成本,优化我们交易订单的这种算法交易也是低延迟组负责开发的,所以低延迟组也是非常核心的一个组。 期权套利组去做一些期权的策略以及商品期货的套利策略。 中心化组里面第一个是IT组首先负责公司的交易系统的开发,因为我们跟券商如果对接的话,其实都要做一个系统的反采,系统公司自主研发的,以及平时的这些所有的交易的维护都是IT组去做,另外IT组还负责去处理数据。因为我们跟其它的管理人不一样的地方在于另类数据的使用比例是非常高的,那么另类数据它跟基本面或者说跟量价不一样的地方在于它的数据结构其实是非常多样化的,很多都是一些非结构化的数据,这种数据你拿过来没有办法直接放到量化模型里面去做一些开发,你必须要对数据进行一个前期的清洗和处理,这个工作量还是非常大的,所以我们有专门的数据组,其实是隶属于IT下面的做一些数据的处理。 □还有一个模型组,模型组也是在中心化组里面,主要开发非线性模型,使用的工具其实就是机器学习相关的一些工具。因为机器学习其实伴随着人工智能的发展,机器学习算法在各行各业它的使用是非常广泛的,尤其是在量化领域已经非常的深入的应用到量化里面去了。所以现在整个机器学习在量化里面,它所起到的作用还是非常大的,一方面包括像数据的处理,用一些机器学习的自然语言模型 ,包括像一些非线性模型的生成,一些机器学习因子的挖掘,一些比如说交易信号的生成,全部都会使用到机器学习来做,所以整个模型组会给其它的策略组提起到非常大的一个支持的工作,专门负责机器学习开发的,□□这是我们公司整个投研的架构,其实分组分得非常细,每个小组它其实只是针对于自己所开发的领域去做一个专注的研发,任何一个组单独拿出来,它其实都没有办法去做一个产品的运作,或者说做一个策略的开发,必须要有所有的组共同参与才可以。那就拿股票策略举例,首先 我们拿到数据之后,是要有IT组去做数据处理,然后处理好的数据做成标准化的数据,放到服务器里面,交给α组的研究员去做因子的挖掘,因此挖掘入库之后做一个线性组合。那么像很多基础的因子,包括一些特征指标,我们也会给到模型组,模型组最硬的会开发一些机器学习的交易信号,一些非线性的这种交易模型。最后在交易时,也要返还到IT组去做交易,同时叠加低延迟组开发的低延迟的算法交易,包括低 延迟组开发的T0策略,我们也会叠加到整个股票产品里面去。所以大家能看到选股策略其实我们就至少有4个组参与才能够完成。目前采用的就是这种流水线的模式。 选股端的两套方法论 也是两个模型,当然也是现在量化市场里面最常用的两个模型,一个就是非线性模型,一个就是比较经典的线性模型,线性模型也就是大家所常说的这种多因子选股模型,它其实把因子做一个简单的线性组合,而这一部分它会对因子的质量要求比较高。如果你的这些因子单个因子拿出来都没有很高的质量,都没有很强的预测性的话,你组合在一起其实大概率也没有什么作用,所以说线性模型一定对因子的质量要求是很高的。那么非线性模型其实指的就是机器学习,机器学习反而对因子的质量要求就没有那么高了,它更多的是对一个数据源,对数据的一个量来做随机生成、统计分析等等,然后它更多的剩在数量上,而不是质量上。然后我们其实内部会给这两个模型分别取了名字,一个叫做Sma rtβ,一个叫做Pureα。Smartβ指的就是以机器学习为主的非线性模型,Pu reα指的是以经典的线性模型,为什么这么取名字?其实这个是跟风控有一定关系。我们在做机 器学习模型的时候,我们也希望说能够把风控指标设得比较严格一点,这个情况下不去做风格暴露,它整体的波动会比较小,但我们也会发现,如果你给机器学习模型做比较严格的风控的话,它的波动率是降低的,但是你会发现它的收益率降低的是更多的,也就是说它整个模型的夏普比例是降低了,模型的性价比反而就变低了。所以机器学习模型或者说业内对机器学习模型统一的通用做法,不会给它特别严格的风控参数。所以说机器学习模型当它达到一个最优化的情况下,它的波动率相对来说还是有点高的,而且它会针对于接下来的市场风格做一个预测,它会赚取一些风格的钱,会在一些风格上面有一些适当的暴露,这种情况下我们认为要机器学习它赚取的这部分收益,并不是一个纯粹的超额收益,因为它还是有一些风格的钱在里面。那么风格因子的钱,我们认为它其实就是β的收益,所以我们会叫机器学习Smartβ。那么线性模型同样的我给它做风格约束、做风控模型,那么我们 就会发现在我风控收紧以后,它的波动率是降低了,但是它的收益率降低的幅度是很小的,也就是说 整个模型的夏普比率其实是提高的,也就是说在线性模型达到一个最优的夏普比率的情况下,它的波动是很低的,你可以给它设非常严格的这种风格暴露,我们公司在线性模型这一边其实就设置了非常严格的风格暴露,以及行业偏离都非常的严格。那么我们认为在这种情况下,你在赚取的这部分的收益,其实它就已经跟市场风格跟整个大盘跟β相关性非常低了,这一部分比较纯粹的超额收益了,我们叫它Pureα,这是两个模型它名字的由来。然后因为线性模型这边它对单因子的质量要求很 高,所以我们线性模型采用的全部都是我们研究员挖掘的这种人工因子,也是三个来源,包括像量价 因子、基本面因子、另类因子,当然现在另类因子占比是很高了,机器学习其实它可能对因子的质量要求就不高了,它更多的就是要求一个特定指标以及你给它的这些输入的数据,更多的我们会输入一些量价数据,一些高频的量价数据给到机器学习,所以机器学习可能还是以高频量价为主。但是线性模型这边我们目前就已经是以另类数据为主了。所以现在公司在选股模型上是机器学习加经典的线性模型同时在用,机器学习长期来看它属于一类高波动,但是高收益的一个策略模型。然后线性模型我们长期来看它就是属于一类,波动率特别低,但是夏普比例很高,稳健性很高的这种策略模型,所以我们是把两种策略模型做了一个有机的结合。 那回到我们在这个线性模型里面的因子使用上,具体做一个介绍,现在市场上基本上会把因此分为三类,就是量价因子、基本面因子和另类因子。当然量价因子目前还是中国量化市场的一个主流,占比是非常高的。其次也有一些管理人在使用一些基本面因子,只有非常少数的管理人或者说使用另类因子的占比也是非常低的。当然我们公司的目前另类因子占比已经达到了60%,基本面因子是30% ,量价因子10%,所以单从因子占比上能够看到,我们跟整个行业跟其它管理人其实差异化还是非常大的,这是我们因子的占比。 什么是另类因子? 首先我们要介绍一下另类数据,我们是从另类数据里面挖掘的因子,我们叫另类因子,像量价数据,基本面数据大家都已经非常熟了,因为量价数据它本身就是股票在交易所交易所产生的这种直接交易的数据,我们叫量价数据,那么基本面数据就是跟上市公司直接相关的,它的一些财务数据以及相关的一些衍生的数据,我们叫基本面数据。另类数据其实它并没有一个非常统一的定义,因为本身另类这个词指的就是一些小众的概念,所以说另类它的一个定义会随着时间所发生变化的。当某一类数据它的使用率变高,或者说在市场上被多数的基金所接纳的时候,它其实就没有那么另类的,像我们早期说的分析师一致预期、舆情数据,前几年的时候我们会把它们定义为另类数据,但最近很多年,其实很多管理人会把它们定义为基本面的数据,其实就是因为它使用的频率变高了,它就没有那么另类了。所以其实我们认为一个比较通用的定义,可以这么去定义另类数据,就是说在投资研究中使用的是一些非传统来源的新型数据,我们就可以把它叫做这种另类数据,或者说对于量化策略