24 Matching Annotations
  1. Apr 2022
    1. 如今,国内普遍将2010-2019看作移动互联网的黄金十年,以智能手机为代表的移动终端从消费侧切入,反向推动了云计算、人工智能、大数据、物联网这些底层技术创新和变革,并延伸到制造、交通、能源、建筑等各行各业,还创造出自动驾驶、NLP、共享经济、SaaS这些新生事物,最终改变了全产业链。

      技术的不断迭代

    1. 以 FM regression 得到的 CS 因子作为解释变量的 CS 定价模型优于传统的 FF5,即 TS 定价模型(两个 CS 模型均优于 TS 模型)。当使用 CS 因子时,对应的 factor loadings 应采用 firm characteristics,而非像 Panels B1/2 中的时序回归。当使用 firm characteristics 作为 CS 模型的 factor loadings 时,时变 loadings 的效果好于恒定 loadings 的效果(Panels B5/6 优于 Panels B3/4),但这种差异并不明显;CS 模型之所以优秀源于通过 FM regression 得到的 CS 因子 factor returns(那些纯因子组合的收益率)。

      时变loading 更好

    2. 从上面的描述不难看出,第二个 CS 模型直接对标了 FF5。这二者唯一的区别就是在四个风格因子的构建上:FF5 使用 18 个 2 × 3 double sort 的投资组合构建;而在 CS 模型二中,使用 FM regression 求解纯因子模型来构建。

      截面回归得到纯因子收益 来代替 多空组合得到的收益

    1. 毫无疑问,multiple testing 下的数据挖掘是因子选股的大敌。通过 data mining,仅仅依靠运气,挑出来的因子 —— 哪怕再没有业务含义 —— 也会在样本内获得显著不为零的选股收益率,但它只是过拟合而已。

      对抗过拟合!

    1. 这个方法的巧妙之处在于通过正交化和 Bootstrap 得到了仅靠运气能够得到的显著性的经验分布;如果在排除了运气带来的显著性之后某个因子依然显著,那它就是真正的因子,而非 data mining 的结果。

      得到一个基于运气的经验分布,排除后来得到真正的因子!!

    2. 基于 regression 的检验框架排除 multiple testing 影响、解决因子挑选问题。它的优势是可以按顺序逐一挑出最显著的因子、第二显著的因子,以此类推,直到再没有显著因子。这么做的好处是可以评价每个新增加的因子在解释股票截面收益率时的增量贡献。这是传统的多重检验无法做到的。此外,该方法也可以被用来找到真正能够战胜市场的基金经理或投资策略。

      真正用来选因子的办法 因子的t-statistic>3

    3. 当学术界有大量因子来解释同一个问题 —— 股票截面预期收益(或者有许多不同的策略在同一个市场中交易时),仅考虑单一检验(single testing ,即每次检验一个 hypothesis,比如一个单因子是否有效?)就不再适合了;这时候必须要考虑 multiple testing(多重检验)造成的影响。在统计上,multiple testing 指的是同时检验多个 hypotheses。

      多重的影响

    1. 为了计算 的变化,我们只需要对原始样本数据进行大量的可置换重采样(为此需要使用计算机的计算能力,在没有计算机的年代,手动进行大量重采样的工作量可想而知),得到许多 Bootstrap 样本,并从每个样本中计算出统计量 的一个取值,这些取值便构成 的分布。使用 的分布计算出 如何围绕 变化,以此来推断统计量 如何围绕 变化。显然,统计量 的变化与样本大小有关。因此用 的变化作为 的变化的近似的前提是每个 Bootstrap 样本的大小和原始样本大小相同。根据 Bootstrap 原则,使用经验 Bootstrap 方法(empirical Bootstrap method)就可以计算任何总体统计量的置信区间。

      估计任何 总体统计量的置信区间!

    2. 样本统计量 是以总体统计量 为中心围绕其波动;Bootstrap 样本统计量 是以原始样本统计量 为中心围绕其波动。如果 和 有较大的差异,则 和 的分布也会不同(即 Bootstrap 百分位法的假设不成立)。反观 和 ,它们的分布各自描述 如何围绕 波动以及 如何围绕 波动。Bootstrap 原则指出即使 和 分布不同, 的分布仍然是 的分布的一个很好的近似,因此以原始样本均值 为中心,以 的分布计算出误差,最终得到的 的置信区间是比较准确的。由此可知,经验 Bootstrap 方法优于 Bootstrap 百分位法。在实践中,应该使用前者

      对区间的估计! 在均值已知的情况下,用样本来估计,加入权重向量的估计!

    3. The central idea is that it may sometimes be better to draw conclusions about the characteristics of a population strictly from the sample at hand, rather than by making perhaps unrealistic assumptions about the population. -- Mooney & Duval, Bootstrapping, 1993译:Bootstrap 的核心思想是,通过手头的样本数据本身对总体统计量进行推论,而非基于对于总体分布做出不切实际的假设。

      不需要假设分布,仅仅通过自己来估计统计量的误差

    4. The bootstrap is a computer-based method for assigning measures of accuracy to statistical estimates. -- Efron & Tibshirani, An introduction to the bootstrap, 1993译:Bootstrap 是一个基于计算机的方法,它可以计算统计估计的准确性。

      估计的准确性! 非常重要的视点!

    5. 可见,对于一个未知分布总体均值的推断,我们必须倚赖中心极限定理和正态分布的假设。如果未知分布非常不规则或样本数不足,则中心极限定理指出的均值近似为正态分布便难以成立,而基于 t 分布计算出来的均值置信区间也不够准确。除了均值外,对于人们关心的许多其他统计量,比如中位数、分位数、标准差、或者相关系数,它们与均值不同,无法从 Normal Theory 中可以得到优雅的解析表达式来计算其置信区间,因此上述传统方法无能为力。

      均值是个正态分布!

    1. 对于行业因子,Barra 将因子暴露处理成 binary 变量 —— 比如工商银行在银行业的暴露是 1,在其他行业的暴露为 0(对于业务涉及不同行业的大公司,Barra 允许该公司以不同权重属于多个行业)。我认为这个处理值得考量。假如某个公司属于行业 X,但是它的收益率和行业 Y 更相关,那么从建模的角度是不是把该公司算作行业 Y 更有道理?对于行业因子暴露,可以尝试使用个股的收益率和行业的收益率做时间序列回归,将回归系数当作行业因子的暴露。我不清楚 Barra 是否尝试过上述方法,但这是一个值得思考的问题。

      good idea! 直接用行业指数的ret来估计!

    2. Barra 模型(业界代表)和学术界流行的因子模型最大的不同就是因子暴露 的确定。

      业界中 对beta的确定

    3. Fama-MacBeth 先回归再均值;而传统截面回归先均值再回归。当截面回归中的 regressor,即 ,在所有 T 期上不变时,上述两种截面回归得到的 estimate 是一致的

      在估计因子收益和残差时 先求平均再估计 和 先估计再求平均 后者处理截面相关性更好!

    4. Fama-MacBeth 也是一个两步截面回归检验方法;它非常巧妙排除了残差在截面上的相关性对标准误的影响,在业界被广泛使用。这篇文章也是计量经济学领域被引用量最高的文章之一。

      两步回归 解决 截面异方差的问题!

    5. 当多个因子同时进行截面回归时,根据 Barra 纯因子模型的理论,得到的因子收益率是纯因子组合的收益率 —— 即截面回归后得到的因子组合中个股的权重与最初构建因子时使用的个股权重会有所不同。

      纯因子组合 其他无暴露,仅仅该因子

    6. 截面回归不要求因子是 portfolio returns,应用更加广泛(当然因子也可以是 portfolio returns)。但是截面回归的第一步仍然是通过时间序列回归得到投资品在因子上的暴露 。第二步才是截面回归。因此截面回归又称为 two-pass regression estimate。得到 后,使用个股的平均收益率 和 进行截面回归(一共 N 个点,每个点对应一对儿 和 ),回归得到因子的期望收益率 和个股的残差 。常见的回归方法是 OLS —— 以最小化残差平方和为目标,或 GLS —— 考虑残差之间的相关性。由于 是估计值,且 的协方差矩阵难以估计,更方便的办法是使用大杀器 GMM 得到准确的估计以及检验 是否为零。

      截面常数因子 使用两步回归的方法来做 同一个股票对一个因子的变化的敏感程度是不一样的

    7. 将时序回归结果在时间上取均值,就得到个股收益率和因子暴露在截面上的关系。该关系的确定不以最小化 的平方和为目标。

      用时序均值代替 截面随机变量的均值

    8. 一旦 之间存在相关性或者异方差性,传统 OLS 的标准误公式就是错误的,且上述 的检验统计量也是有问题的。在这种情况下,就要请出大杀器 Generalized Method of Moments(GMM)。它由 Lars Peter Hansen 于 1982 年提出(Hansen 1982),GMM 可以解决 OLS 中残差的相关性和异方差性的问题,得到准确的估计以及标准误。GMM 是 Hansen 于 2013 获得诺贝尔经济学奖的原因之一,足见其在计量经济学中的重要性。具体如何使用 GMM 超出本文的范畴,感兴趣的读者可以参考本文最后一节安利的参考文献。

      异方差问题怎么解决

    9. 在时间序列回归残差 不相关且方差相同(homoskedastic)时,时序回归参数的标准误可以由 OLS(ordinary least square)的标准公式给出。此外,如果 满足 IID Normal,Gibbons, Ross and Shanken (1989) 给出了 的检验统计量(又称为 GRS test statistic):

      时序回归中对残差假设下,alpha 的检验量

    10. 图中所有蓝黑色的点代表着个股;红色的点代表着因子投资组合。时间回归再按时间求均值而得到的因子模型 就是经过原点和红点的那条红色直线。所有蓝黑色点(个股)到这条红线的距离就是个股的定价错误 ,这条时序回归得到的直线并不是以最小化 的平方和为目的求出的,这是时序回归和下一节要介绍的截面回归的最大差别(截面回归是以最小化 的平方和为目标的)。

      时序回归和截面回归的区别!

    11. 回归方程右侧的 regressors 是因子收益率 ,左侧的变量是 ,回归得到的系数是个股 i 在因子上的暴露 ,截距 ,以及随机的残差

      截面为常数的因子! 使用时序回归得到对应的beta 和 alpha!

  2. Jan 2022