Hypothesis

24 Matching Annotations

Apr 2022
mp.weixin.qq.com mp.weixin.qq.com

信心比黄金更重要：2022年什么赛道值得做？｜36氪新风向

1
1. zgong 25 Apr 2022
  
  in Public
  
  如今，国内普遍将2010-2019看作移动互联网的黄金十年，以智能手机为代表的移动终端从消费侧切入，反向推动了云计算、人工智能、大数据、物联网这些底层技术创新和变革，并延伸到制造、交通、能源、建筑等各行各业，还创造出自动驾驶、NLP、共享经济、SaaS这些新生事物，最终改变了全产业链。
  
  技术的不断迭代
Visit annotations in context

Annotators

zgong

URL

mp.weixin.qq.com/s/TnXBJ4NbSMrOYAyqtZpIJA
zhuanlan.zhihu.com zhuanlan.zhihu.com

Which Beta (II) ?

2
1. zgong 12 Apr 2022
  
  in Public
  
  以 FM regression 得到的 CS 因子作为解释变量的 CS 定价模型优于传统的 FF5，即 TS 定价模型（两个 CS 模型均优于 TS 模型）。当使用 CS 因子时，对应的 factor loadings 应采用 firm characteristics，而非像 Panels B1/2 中的时序回归。当使用 firm characteristics 作为 CS 模型的 factor loadings 时，时变 loadings 的效果好于恒定 loadings 的效果（Panels B5/6 优于 Panels B3/4），但这种差异并不明显；CS 模型之所以优秀源于通过 FM regression 得到的 CS 因子 factor returns（那些纯因子组合的收益率）。
  
  时变loading 更好
2. zgong 12 Apr 2022
  
  in Public
  
  从上面的描述不难看出，第二个 CS 模型直接对标了 FF5。这二者唯一的区别就是在四个风格因子的构建上：FF5 使用 18 个 2 × 3 double sort 的投资组合构建；而在 CS 模型二中，使用 FM regression 求解纯因子模型来构建。
  
  截面回归得到纯因子收益来代替多空组合得到的收益
Visit annotations in context

Annotators

zgong

URL

zhuanlan.zhihu.com/p/84462587
zhuanlan.zhihu.com zhuanlan.zhihu.com

出色不如走运 (III)？

1
1. zgong 12 Apr 2022
  
  in Public
  
  毫无疑问，multiple testing 下的数据挖掘是因子选股的大敌。通过 data mining，仅仅依靠运气，挑出来的因子 —— 哪怕再没有业务含义 —— 也会在样本内获得显著不为零的选股收益率，但它只是过拟合而已。
  
  对抗过拟合！
Visit annotations in context

Annotators

zgong

URL

zhuanlan.zhihu.com/p/56154663
zhuanlan.zhihu.com zhuanlan.zhihu.com

出色不如走运 (II)？

3
1. zgong 12 Apr 2022
  
  in Public
  
  这个方法的巧妙之处在于通过正交化和 Bootstrap 得到了仅靠运气能够得到的显著性的经验分布；如果在排除了运气带来的显著性之后某个因子依然显著，那它就是真正的因子，而非 data mining 的结果。
  
  得到一个基于运气的经验分布，排除后来得到真正的因子！！
2. zgong 12 Apr 2022
  
  in Public
  
  基于 regression 的检验框架排除 multiple testing 影响、解决因子挑选问题。它的优势是可以按顺序逐一挑出最显著的因子、第二显著的因子，以此类推，直到再没有显著因子。这么做的好处是可以评价每个新增加的因子在解释股票截面收益率时的增量贡献。这是传统的多重检验无法做到的。此外，该方法也可以被用来找到真正能够战胜市场的基金经理或投资策略。
  
  真正用来选因子的办法因子的t-statistic>3
3. zgong 12 Apr 2022
  
  in Public
  
  当学术界有大量因子来解释同一个问题 —— 股票截面预期收益（或者有许多不同的策略在同一个市场中交易时），仅考虑单一检验（single testing ，即每次检验一个 hypothesis，比如一个单因子是否有效？）就不再适合了；这时候必须要考虑 multiple testing（多重检验）造成的影响。在统计上，multiple testing 指的是同时检验多个 hypotheses。
  
  多重的影响
Visit annotations in context

Annotators

zgong

URL

zhuanlan.zhihu.com/p/45715632
zhuanlan.zhihu.com zhuanlan.zhihu.com

用 Bootstrap 进行参数估计大有可为

5
1. zgong 12 Apr 2022
  
  in Public
  
  为了计算的变化，我们只需要对原始样本数据进行大量的可置换重采样（为此需要使用计算机的计算能力，在没有计算机的年代，手动进行大量重采样的工作量可想而知），得到许多 Bootstrap 样本，并从每个样本中计算出统计量的一个取值，这些取值便构成的分布。使用的分布计算出如何围绕变化，以此来推断统计量如何围绕变化。显然，统计量的变化与样本大小有关。因此用的变化作为的变化的近似的前提是每个 Bootstrap 样本的大小和原始样本大小相同。根据 Bootstrap 原则，使用经验 Bootstrap 方法（empirical Bootstrap method）就可以计算任何总体统计量的置信区间。
  
  估计任何总体统计量的置信区间！
2. zgong 12 Apr 2022
  
  in Public
  
  样本统计量是以总体统计量为中心围绕其波动；Bootstrap 样本统计量是以原始样本统计量为中心围绕其波动。如果和有较大的差异，则和的分布也会不同（即 Bootstrap 百分位法的假设不成立）。反观和，它们的分布各自描述如何围绕波动以及如何围绕波动。Bootstrap 原则指出即使和分布不同，的分布仍然是的分布的一个很好的近似，因此以原始样本均值为中心，以的分布计算出误差，最终得到的的置信区间是比较准确的。由此可知，经验 Bootstrap 方法优于 Bootstrap 百分位法。在实践中，应该使用前者
  
  对区间的估计！在均值已知的情况下，用样本来估计，加入权重向量的估计！
3. zgong 12 Apr 2022
  
  in Public
  
  The central idea is that it may sometimes be better to draw conclusions about the characteristics of a population strictly from the sample at hand, rather than by making perhaps unrealistic assumptions about the population. -- Mooney & Duval, Bootstrapping, 1993译：Bootstrap 的核心思想是，通过手头的样本数据本身对总体统计量进行推论，而非基于对于总体分布做出不切实际的假设。
  
  不需要假设分布，仅仅通过自己来估计统计量的误差
4. zgong 12 Apr 2022
  
  in Public
  
  The bootstrap is a computer-based method for assigning measures of accuracy to statistical estimates. -- Efron & Tibshirani, An introduction to the bootstrap, 1993译：Bootstrap 是一个基于计算机的方法，它可以计算统计估计的准确性。
  
  估计的准确性！非常重要的视点！
5. zgong 12 Apr 2022
  
  in Public
  
  可见，对于一个未知分布总体均值的推断，我们必须倚赖中心极限定理和正态分布的假设。如果未知分布非常不规则或样本数不足，则中心极限定理指出的均值近似为正态分布便难以成立，而基于 t 分布计算出来的均值置信区间也不够准确。除了均值外，对于人们关心的许多其他统计量，比如中位数、分位数、标准差、或者相关系数，它们与均值不同，无法从 Normal Theory 中可以得到优雅的解析表达式来计算其置信区间，因此上述传统方法无能为力。
  
  均值是个正态分布！
Visit annotations in context

Annotators

zgong

URL

zhuanlan.zhihu.com/p/41099219
zhuanlan.zhihu.com zhuanlan.zhihu.com

股票多因子模型的回归检验

11
1. zgong 12 Apr 2022
  
  in Public
  
  对于行业因子，Barra 将因子暴露处理成 binary 变量 —— 比如工商银行在银行业的暴露是 1，在其他行业的暴露为 0（对于业务涉及不同行业的大公司，Barra 允许该公司以不同权重属于多个行业）。我认为这个处理值得考量。假如某个公司属于行业 X，但是它的收益率和行业 Y 更相关，那么从建模的角度是不是把该公司算作行业 Y 更有道理？对于行业因子暴露，可以尝试使用个股的收益率和行业的收益率做时间序列回归，将回归系数当作行业因子的暴露。我不清楚 Barra 是否尝试过上述方法，但这是一个值得思考的问题。
  
  good idea！直接用行业指数的ret来估计！
2. zgong 12 Apr 2022
  
  in Public
  
  Barra 模型（业界代表）和学术界流行的因子模型最大的不同就是因子暴露的确定。
  
  业界中对beta的确定
3. zgong 12 Apr 2022
  
  in Public
  
  Fama-MacBeth 先回归再均值；而传统截面回归先均值再回归。当截面回归中的 regressor，即，在所有 T 期上不变时，上述两种截面回归得到的 estimate 是一致的
  
  在估计因子收益和残差时先求平均再估计和先估计再求平均后者处理截面相关性更好！
4. zgong 12 Apr 2022
  
  in Public
  
  Fama-MacBeth 也是一个两步截面回归检验方法；它非常巧妙排除了残差在截面上的相关性对标准误的影响，在业界被广泛使用。这篇文章也是计量经济学领域被引用量最高的文章之一。
  
  两步回归解决截面异方差的问题！
5. zgong 12 Apr 2022
  
  in Public
  
  当多个因子同时进行截面回归时，根据 Barra 纯因子模型的理论，得到的因子收益率是纯因子组合的收益率 —— 即截面回归后得到的因子组合中个股的权重与最初构建因子时使用的个股权重会有所不同。
  
  纯因子组合其他无暴露，仅仅该因子
6. zgong 12 Apr 2022
  
  in Public
  
  截面回归不要求因子是 portfolio returns，应用更加广泛（当然因子也可以是 portfolio returns）。但是截面回归的第一步仍然是通过时间序列回归得到投资品在因子上的暴露。第二步才是截面回归。因此截面回归又称为 two-pass regression estimate。得到后，使用个股的平均收益率和进行截面回归（一共 N 个点，每个点对应一对儿和），回归得到因子的期望收益率和个股的残差。常见的回归方法是 OLS —— 以最小化残差平方和为目标，或 GLS —— 考虑残差之间的相关性。由于是估计值，且的协方差矩阵难以估计，更方便的办法是使用大杀器 GMM 得到准确的估计以及检验是否为零。
  
  截面常数因子使用两步回归的方法来做同一个股票对一个因子的变化的敏感程度是不一样的
7. zgong 12 Apr 2022
  
  in Public
  
  将时序回归结果在时间上取均值，就得到个股收益率和因子暴露在截面上的关系。该关系的确定不以最小化的平方和为目标。
  
  用时序均值代替截面随机变量的均值
8. zgong 12 Apr 2022
  
  in Public
  
  一旦之间存在相关性或者异方差性，传统 OLS 的标准误公式就是错误的，且上述的检验统计量也是有问题的。在这种情况下，就要请出大杀器 Generalized Method of Moments（GMM）。它由 Lars Peter Hansen 于 1982 年提出（Hansen 1982），GMM 可以解决 OLS 中残差的相关性和异方差性的问题，得到准确的估计以及标准误。GMM 是 Hansen 于 2013 获得诺贝尔经济学奖的原因之一，足见其在计量经济学中的重要性。具体如何使用 GMM 超出本文的范畴，感兴趣的读者可以参考本文最后一节安利的参考文献。
  
  异方差问题怎么解决
9. zgong 12 Apr 2022
  
  in Public
  
  在时间序列回归残差不相关且方差相同（homoskedastic）时，时序回归参数的标准误可以由 OLS（ordinary least square）的标准公式给出。此外，如果满足 IID Normal，Gibbons, Ross and Shanken (1989) 给出了的检验统计量（又称为 GRS test statistic）：
  
  时序回归中对残差假设下，alpha 的检验量
10. zgong 12 Apr 2022
  
  in Public
  
  图中所有蓝黑色的点代表着个股；红色的点代表着因子投资组合。时间回归再按时间求均值而得到的因子模型就是经过原点和红点的那条红色直线。所有蓝黑色点（个股）到这条红线的距离就是个股的定价错误，这条时序回归得到的直线并不是以最小化的平方和为目的求出的，这是时序回归和下一节要介绍的截面回归的最大差别（截面回归是以最小化的平方和为目标的）。
  
  时序回归和截面回归的区别！
11. zgong 12 Apr 2022
  
  in Public
  
  回归方程右侧的 regressors 是因子收益率，左侧的变量是，回归得到的系数是个股 i 在因子上的暴露，截距，以及随机的残差
  
  截面为常数的因子！使用时序回归得到对应的beta 和 alpha！
Visit annotations in context

Annotators

zgong

URL

zhuanlan.zhihu.com/p/40984029
Jan 2022
sspai.com sspai.com

少数派作者的桌面长啥样？看 5 位作者分享自己的「桌面好物」 - 少数派

1
1. zgong 08 Jan 2022
  
  in Public
  
  分享下显示器
Visit annotations in context

Annotators

zgong

URL

sspai.com/post/70809

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL