有效的高频数据一定要经过清洗和对比

致我们深爱的债券市场
通过高频数据去捕捉可能性的预期差,是交易中一个重要的能力。

本文来源:致我们深爱的债券市场 (ID:furoyear),作者:杨为敩 王开

◆◆

1、经济数据对市场走势的影响至关重要,但大多数数据是相对低频的,在交易中,通过高频数据去捕捉可能性的预期差,是一个重要的能力。

2、但有时候,我们往往误会了预期差。有些高频数据对宏观指标来说,只有看上去的重要性,没有经验意义上的重要性;而有些指标尽管存在经验意义上的重要性,却没有逻辑上的重要性。

3、真正可以说明问题的高频数据,一定是经过清洗及对比过的高频数据:

1)高频数据一定要具有经验意义,其前提是可提供参考的样本容量足够多、样本时间范围足够长;

2)数据口径问题往往会造成“伪预期差”:譬如流量及存量混淆的问题、量纲需要齐平的问题以及阶次统一的问题。

4、经验上,与某类重要宏观指标同时具有相关性与先行性的高频指标是最重要的:

1)上下游传导时滞、行业周期和行业景气是数据领先滞后的重要轴载,钢铁产业链是非常经典的事例;

2)存在相关性的二者或具有共生关系(例如大宗商品价格之于出口),或相互存在巨大的交集(例如螺纹钢和原油价格之于PPI、布油价格和猪肉价格之于CPI)。

5、我们对高频指标分类的基本方法论是:

1)第一类:我们必须关注的最重要的高频指标系:相关系数大于0.6且高频数据具备领先性的指标对;

2)第二类:我们需要关注的次重要的高频指标系:指标对间相关系数在0.4-0.6之间,且存在领先性;

3)第三类:我们只需稍加关注的高频指标系:指标对间无领先性关系,相关系数大于0.6;

4)第四类:我们只需略加关注的高频指标系:指标对无领先关系,相关系数在0.4-0.6之间。

6、第一类及第二类的高频指标是良好的预警系统,例如6大发电集团耗煤量对发电量乃至工业增加值的警示作用;而第三类和第四类的指标若出现异动,我们必须通过第一类及第二类指标去佐证,才能得出更可靠的结论。

7、观察高频指标的异常,主要通过三个维度:(1)指标增长是否出现0值上下的跃迁;(2)是否处于历史最低或最高点;(3)与历史水平的偏离度。

风险提示:高频数据和重要数据背离

◆◆

目录◆◆

1 高频数据的清洗和对比细节

1.1 高频数据的定义:绝对的高频

1.2 存量和流量数据的变频

1.3 量纲统一:量对量,价对价

1.4 阶次统一:同比对同比

2 高频数据的领先、相关性研究

2.1 高频指标的领先性机理

2.2 相关性判定机理

2.3 伪相关性的经验筛选

2.4 四种数据类型的划分

3 高频数据的前瞻性研究

3.1 高能指标的预警效应——耗煤量领先发电量的案例

3.2 高频指标的异常判定

◆◆

正文◆◆

高频数据本身是敏感灵活的,一是数据更新的频率高,二是能即时反映出市场上库存量、价格等变化。但是,市场对高频指标却是钝感的,数据更新太快容易忽视,高频指标的“量变”最终引发重要宏观经济指标的“质变”,对投资而言已经后知后觉。市场似乎不会关注用电量、二手房销售面积这种高频数据的扰动,但这些扰动导致用电量、房价等变化时,债市已然做出调整,此时再回溯变动是由哪个分项所拉动的为时已晚。从投资角度讲,事前的预测比事后的归因更为重要。提前把控高频数据边际变化,分析其对重要指标的潜在影响,对于债券等投资研判至关重要。然而,高频数据成百上千,但囿于统计方式和经济含义,很多高频指标纷繁芜杂。这就需要我们删繁就简,找出瞬息万变又能前瞻宏观指标的重要高频数据。

宏观经济的走势和重要数据的公布牵动着债券市场的神经,比如社融、M2和企业存款指标是信用环境修复的观测信号,宏观数据公布后,可能会超出投资者的预期,进而影响债券市场,如2018年8月13日和10月17日2次社融口径调整后,和国开20180210两个券分别作出不同回应。CPI、固定资产投资、社融、房地产投资、制造业投资等数据对债市的短期波动和长期走势至关重要、但这些重要数据往往是低频的(月度、季度公布),要借助相应的高频指标来预判。

要寻找真正穿透影响债市的指标,逐步剥离出真正重要的高频数据,我们分三步走:第一步,根据经验找到影响债市的低频且重要的数据;第二步,找到可能影响这些数据的高频指标,核心是广而全;第三步:去伪存真,剔除伪逻辑、未经历一个完整周期的指标和相似指标。最终,我们从127个高频数据中筛选出31个重要数据,并根据数据间的相关性和领先性初步分为四类。

1 高频数据的清洗和对比细节

1.1 高频数据的定义:绝对的高频

本文中定义的高频数据是指绝对的高频:是指数据更新和披露的频率为日度、周度、旬度的数据;重要数据(月度数据、季度数据、年度数据等)的更新频率在30天以上。为了保证同一指标在两类范畴中没有交叉,我们并未考虑相对的高频数据(如相对季度公布的GDP而言,月度公布的CPI是相对高频的)。

高频数据的筛选也要考虑样本容量。若样本容量过少则相关系数波动较大,相关系数的绝对值容易偏大。只有样本容量足够多、样本时间范围足够长、跨越了几轮周期依然和重要数据相关的高频指标更有说服力,因此我们在选择指标的时候应该对那些公布时间长度不满一个朱拉格周期(9-10年)的予以剔除。在实际进行处理时我们剔除了公布时长不足9年的指标。

1.2 存量和流量数据的变频

由于我们所关注的重要低频数据是月度或季度数据,所以我们在对高频和低频数据进行相关性计算和领先性分析之前进行了预处理,将高频数据变频为重要低频数据的同频数据。我们研究的数据分为流量数据和存量数据。其中流量数据是时期数据,如在我们的研究中使用的累计值是从年初至今的累计数值。重要低频指标中的固定资产投资完成额和工业增加值和高频数据中的三十大中城市商品房成交面积就是以流量值形式呈现的。在重要低频数据的实际处理过程中,累计值是年初至今的累加数,在分析短期波动时需要化为当月值来分析,所以我们对存量数据进行了一阶差分处理,即使用本期累计值减去上期累计值的方法来计算得到当月值;而对于高频流量数据,我们取其月度或季度合计值。存量数据是时点数据,我们所选取的价格指数、钢厂数量等便是典型的存量数据,采取平均值变频的方式。

1.3 量纲统一:量对量,价对价

对数据进行处理时,除了不能违背经济逻辑以外,我们还应注意实际值对实际值、同比对同比这样一种形式上的匹配。比如工业增加值是实际值,和价格指标回归时要相应调为“PPI同比+工业增加值同比”的形式。

在量纲上要注意“量价齐平”,高频指标和重要指标做到“量对量”、“价对价”。自2015年以来,粗钢产量增速在持续上升,但工业增加值稳中有降,粗钢似乎失去了前瞻效果,这是由于供给侧改革下粗钢产能利用率回升造成的,2018年也有内外经济压力下环保限产边际放松的缘故。上一轮2006~2007年的背离也是发改委钢铁工业关停和淘汰落后产能催生的。在各行各业政策影响下,高频指标也可能会失去前瞻效果,所以我们采取“一个重要指标对应多个领先指标”的方法,这样做一是因为当某一两个高频受政策驱动失去前瞻性时,可以找到效果次优的替代指标,二是考虑多个高频指标能排除单个指标异常扰动。如粗钢和工业增加值走势背离时,关注发电量变化对判断实际增长有帮助。

1.4 阶次统一:同比对同比

高频和重要数据要“量对量”、“价对价”,这是量纲上的统一;我们还要注意“同比对同比”、“绝对量对绝对量”,这是阶次上的统一。二阶的同比指标刻画某个数量或价格指标的增速,增速的拐点反映边际切换,重要数据的同比要对应高频数据同比,而有时相关系数会“说谎”。

比如,布伦特原油(以下简称“布油”)的期货结算价格与CPI同比的相关系数为0.58,而布油价格同比与CPI同比的相关系数仅为0.36,是否证明油价本身(而非同比)前瞻通胀效果更好呢?实际上,我们观测到油价同比的拐点对通胀拐点的领先性更明显,相比而言油价同比与CPI同比的图表更具有指导意义。

2 高频数据的领先、相关性研究

2.1 高频指标的领先性机理

由于经济具有传导性,指标也有上中下游的区分,上游行业的产量、价格即中下游行业的供给和成本,同理,中下游行业也为上游行业提供了需求,而在传导过程中会出现时滞,如美国通胀指标PCE同比主要是在交通运输项中体现的,而油价传导到运输成本需要1个月左右,因此我们看到美国通胀PCE是滞后于油价的。在上下游的传导中,行业周期和行业景气也是数据领先滞后的重要轴线。

以钢铁产业链为例,从最上游的铁矿石到中游的螺纹钢、线材、板材等,再到下游的地产基建等,钢产量、钢价和基建、地产、PPI等国民经济指标密切相关。高频数据显示粗钢产量与实际工业产出、房地产投资具有高相关性,钢价领先固定资产投资价格指数3个月左右,领先PPI约1个月。本文框架中,相关性是领先性的基础,只有逻辑上有经济联系的指标,判断前瞻拐点才有意义。

2.2 相关性判定机理

2.2.1 钢价对PPI的前瞻框架

以PPI为例,我们计算得到螺纹钢现价和PPI同比的相关性是0.79,经过领先1月处理后的相关性高达0.82。PPI是衡量工业企业产品出厂价格变动趋势和变动程度的指数,而钢材是重要的生产原材料,用于建筑、机械、汽车、交通、铁路等各个领域,因此,钢价的涨跌可以部分解释工业产品出厂价格的变化。

工业离不开耗能(油、电)和耗材(钢铁),前瞻PPI走势的双指标是螺纹钢价格和原油价格,考虑油价和钢价的PPI预测模型拟合优度能达到0.86。我们用期货市场隐含的未来布油价格、螺纹钢价格来预测PPI的路径,发现2019年大概率是走向通缩,在10月达到PPI低点。

2.2.2 猪肉价格对CPI的前瞻研判

中国物价最明显的特征是生猪价格周期性波动,即“猪周期”,食品和能源是CPI中波动最高的两项,在中国食品项的象征是广大居民的刚需——猪肉。猪价可以作为通货膨胀的早期预警指标,猪价波动季节性较强、能依照存栏出栏等指标予以预测,我们结合猪肉价格高频指标给出前瞻判断CPI的框架。

从CPI的子项结构来看,猪肉仅占CPI约2.67%左右,但猪价无疑是边际变动最明显的指标,也是导致CPI超预期最常见的因素。我们对CPI同比与猪肉价格分项做了简单线性回归分析,猪肉价格项1个百分点的变动引起CPI整体同比约7%的变动。

猪肉价格是食品项的代表指标,我们用布油价格作为能源项的代表指标,二者和CPI同比的拟合度约0.8。 以期货市场结算价作为未来油价变动路径,用猪肉价格历史各月的环比变化来预测猪价路径,得到全年CPI预测路径。2019年1季度通胀依然有下行空间,边际上走弱,低点可能出现在4月,随后可能企稳回升。

2.2.3 大宗商品价格对出口、增长的前瞻

出口和投资是导致我国GDP波动的两大要素,用订单去前瞻出口并不完美,PMI出口订单是扩散指标,基于每月调查得出,仅能反映需求端的因素,而且是量的指标。而CRB现货指数依据21种现货商品价格编制而成,其组成结构中占比最高的三种商品类别是农产品、金属和能源,都是我国出口的主要上游商品,其价格走向常常会牵动其他中下游物价的波动,历史上CRB指数平均领先我国出口7个月左右,二者相关性达到0.7。

金属铜和铝作为工业部门重要的原材料,被广泛应用在机械制造、航天航空等领域,铝价与工业部门的名义增速密切相关,其内在逻辑是成本端向下游价格的传导。LME金属铝价格同比和工业部门名义GDP同比相关系数为0.68,经过领先一个季度处理后的相关性达0.72。由于期货市场的金属价格对市场变化反应更为灵敏,因此可以作为预判工业部门GDP变化的重要指标。

2.3 伪相关性的经验筛选

在相关性指标中,也有一些“伪逻辑”,两个指标相关系数看似很高,但二者间却没有经济学上的逻辑,需要我们去伪存真。如中国的猪肉均价和美国10年期国债收益率的相关系数为-0.62,看似相关性很高,然而二者间并没有联系,是一种逻辑谬误。统计上的强相关性,其背后不一定有经济意义上的高度联系,我们需要对伪逻辑予以剔除。

2.4 四种数据类型的划分

对特定的低频数据和我们所选的与之相对应的高频数据进行同期相关性分析及领先-滞后相关性分析,我们得到了如何对高频数据进行滞后处理才能使其与低频数据的关系最有意义,即对高频指标进行滞后多少期处理会使得高低频指标间相关系数最大。经滞后处理后,每个高频指标的相对重要性就得以区分。我们按照特定规则将每个低频指标对应的一系列的高频指标进行分类,以保证我们筛选得到对预判和确认低频指标走势最重要的几名高频指标。具体分类规则如下:

第一类是相关系数大于0.6且高频数据具备领先性的指标对,第二类指标对间相关系数在0.4-0.6之间,第三类指标对间无领先性关系,相关系数大于0.6,第四类指标对无领先关系,相关系数在0.4-0.6之间。

之后,我们以一个重要指标对应多个高频指标的形式重新汇总,筛选出与每一个低频指标相关系数最大的前五名高频数据,其余的被归为新的第四类。我们这样处理的理由在于每一个重要指标可能与很多高频指标都有联系,丰富多元的高频指标能帮助我们更为精确地判断重要数据。

3 高频数据的前瞻性研究

3.1 高能指标的预警效应——耗煤量领先发电量的案例

2018年上半年发电量超预期,一度引发市场对产生原因、对经济增速影响的探讨。由于国家统计局发电量和工业增加值的数据样本均为年主营业务收入在2000万及以上的工业企业,二者走势拐点很贴近,所以发电量的预测对中国经济增长的前瞻极为重要。而6大发电集团耗煤量领先发电量2个月左右,曾很好地预示了发电量在2018年初和3季度都有明显的上升和下滑态势。耗煤量指标为日度公布的高频数据,如果我们早些捕捉到耗煤量的变动,就能够预测发电量甚至是工业增加值的走势。

耗煤量的变动季节性较为显著。复盘发电量数据,2018年上半年6大发电集团的日均耗煤量明显超出过去5年的平均水平,3季度又明显跌破了去年的平均水平。

3.2 高频指标的异常判定

我们主要用三类因素去框定本期高频指标是否出现了异常波动:(1)是否由正转负或由负转正;(2)是否处于历史最低或最高点;(3)和历史水平的偏离度如何。其中第三个指标是考虑波动情况较为重要的锚,我们用高频指标本期环比值的标准分数来测算高频数据离历史数据中心值的偏离程度:

如果某一高频指标当周发生异动,我们归为“关注”类,如果该指标连续3周都属于“关注”类,我们将其上升为“预警”指标,并提示其相关的重要数据可能超预期。以最近1期指标为例,我们认为急需关注和预警的指标名单如下:

*感谢实习生周月、王贤敏对本文的贡献

本文内容源于已发布报告《有效的高频数据一定要经过清洗和对比:我们观察高频数据的方法论(2019.01.29)》

◆◆

原标题《【方正固收】有效的高频数据一定要经过清洗和对比——我们观察高频数据的方法论》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章