Hypothesis

32 Matching Annotations

Aug 2018
zhuanlan.zhihu.com zhuanlan.zhihu.com

强化学习入门第三讲蒙特卡罗方法

10
1. loveisp 18 Aug 2018
  
  in Public
  
  没有简单地采样概率分布能与之相似
  
  什么情况会使用这种奇怪的采样分布？我们对动作采样会用这种奇怪的分布吗？是怎样的分布？
2. loveisp 18 Aug 2018
  
  in Public
  
  我们用表示用来评估和改进的策略，用表示产生样本数据的策略
  
  评估和改进是一个策略，而采样是另一个策略因为采样和评估不是一个，所以评估时一定要做修正二者计算积分时有不同的分布，所以是在不同的分布上求期望或积分，这是后面推导和证明的关键
3. loveisp 18 Aug 2018
  
  in Public
  
  保证每个状态行为对都有机会作为初始化
  
  均匀采样，这样每个状态都有均等的概率去探索？不过也许也有某些情况需要重点探索某些状态？每个状态都是独立探索的？状态与状态之间的关联这里并没有考虑到？那样也许要对状态参数化才可以了，在图像或视觉领域这很常见，因为图像作为状态的话搜索空间太大了
4. loveisp 18 Aug 2018
  
  in Public
  
  典型的温和策略是策略
  
  就是以一定概率（接近于1）取原本q值最大的动作，以各自很小的概率取其他的动作但改进时其实应该慢慢从较大的epsilon变到0，这样就越来越确定了
5. loveisp 18 Aug 2018
  
  in Public
  
  假设所有的动作都被无限频繁选中
  
  每个状态的值函数应该都是互相独立的？所以其实就在每个状态上用蒙特卡洛法就好不过这里说的是某个状态上的所有动作，所以策略函数不能是one-hot的，而是要每个动作都能选到
6. loveisp 18 Aug 2018
  
  in Public
  
  加权重要性采样
  
  实际上就是对权值做归一化，权重归一化到0-1之间后，方差会减小
7. loveisp 17 Aug 2018
  
  in Public
  
  贪婪策略
  
  一定程度上解决了贪婪策略在探索未知时的不给力行为？但pi和mu可能分布差别过大导致方差较大吧？
8. loveisp 17 Aug 2018
  
  in Public
  
  伪代码
  
  下面策略评估的那个框我觉得很重要，那个加权权值其实是梯度的学习率，而后面那项就相当于梯度？
9. loveisp 17 Aug 2018
  
  in Public
  
  无模型的方法充分评估策略值函数的前提是每个状态都能被访问到
  
  否则真到达某个稀有状态时，会因为这个状态没有充分探索、值函数可能很差（估计值的方差较大）而出问题
10. loveisp 17 Aug 2018
  
  in Public
  
  第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法
  
  为什么会有这种区别？每次访问样本数会更多，但有什么缺点？
Visit annotations in context

Annotators

loveisp

URL

zhuanlan.zhihu.com/p/25743759
zhuanlan.zhihu.com zhuanlan.zhihu.com

强化学习入门第二讲基于模型的动态规划方法

3
1. loveisp 17 Aug 2018
  
  in Public
  
  最优策略选择
  
  最优策略选择就使得策略变为one-hot变量而不是一个概率分布了？这感觉不太合理？不过只是对探索来说不合理？也未必，博弈论里有混合均衡策略，所以策略可能最优情况也会有概率而不是0-1，特别是在multi-agent的情况下？可能有竞争和合作？
2. loveisp 17 Aug 2018
  
  in Public
  
  解决最优控制的问题往往有三种思路：变分法原理、庞特里亚金最大值原理和动态规划的方法
  
  辉总说，其实model-based或者说知道转移函数的话，强化学习和最优控制其实就是一回事所以也许可以从最优控制里借鉴很多思想和方法到model-based RL中？
3. loveisp 17 Aug 2018
  
  in Public
  
  回报函数对应着具体的任务，所以强化学习所学到的最优策略是跟具体的任务相对应的。从这个意义上来说，强化学习并不是万能的，它无法利用一个算法实现所有的任务。
  
  真正的智能应该是自己去探索回报函数，而且这个回报函数应该是有一定的容错性或者说模糊性，比如我们手碰到一个烫的东西，感觉是很糟的，也会受到惩罚（手起泡、疼痛等），但这个惩罚到底是多少？很难讲。
Visit annotations in context

Annotators

loveisp

URL

zhuanlan.zhihu.com/p/25580624
zhuanlan.zhihu.com zhuanlan.zhihu.com

强化学习入门第一讲 MDP

7
1. loveisp 17 Aug 2018
  
  in Public
  
  最优策略
  
  很硬，是贪心策略
2. loveisp 17 Aug 2018
  
  in Public
  
  得到
  
  这里R其实还不是太清晰，主要是R和不和s'有关，还是只和s、a相关？如果和s'有关，那么也要写到后面的期望里。按理说应该和s'有关才对？因为比如走一步之后，是掉到陷阱了，还是拿到宝物都是不确定的，那么这个R其实也要看怎么转移的、对转移概率做加权才对？
3. loveisp 17 Aug 2018
  
  in Public
  
  实际真正计算和编程的时候并不会按照定义式去编程
  
  实际是按迭代的思路来编程而不是定义
4. loveisp 17 Aug 2018
  
  in Public
  
  补充证明
  
  重点在第二个等号，也就是期望的可分离性，st和s{t+1}是分开的两个期望，因为带st的项里不包含s{t+1}，反过来也是如此
5. loveisp 17 Aug 2018
  
  in Public
  
  不爱玩
  
  劳逸结合可能总的累积回报反而更高
6. loveisp 17 Aug 2018
  
  in Public
  
  当给定状态转移概率时，从某个状态出发存在多条马尔科夫链
  
  可能转移到不同的状态上，所以会有多条
7. loveisp 17 Aug 2018
  
  in Public
  
  当前状态其实是蕴含了所有相关的历史信息
  
  这个条件在现实中容易满足吗？仅知道s_t，损失掉的历史信息不会对未来的状态转移产生影响？
Visit annotations in context

Annotators

loveisp

URL

zhuanlan.zhihu.com/p/25498081
Jul 2018
xiaozhuanlan.com xiaozhuanlan.com

生成模型的评价方法－小专栏

1
1. loveisp 22 Jul 2018
  
  in Public
  
  类别概率最好是一家独大，而不是百花齐放
  
  对one-hot来说是对的，但如果是属性，则很可能不是这样
Visit annotations in context

Annotators

loveisp

URL

xiaozhuanlan.com/topic/1693728045
Jun 2018
mostafadehghani.com mostafadehghani.com

Fidelity-Weighted Learning

1
1. loveisp 29 Jun 2018
  
  in Public
  
  much easier to obtain small quantities of high-quality labeled data and large quantities of unlabeled data
  
  semi-supervised learning
Visit annotations in context

Annotators

loveisp

URL

mostafadehghani.com/2018/02/05/fidelity-weighted-learning/
christophm.github.io christophm.github.io

Interpretable Machine Learning

1
1. loveisp 28 Jun 2018
  
  in Public
  
  Making a small house big always adds 100,000 to the predicted value, no matter the location.
  
  如果好地段的小房子和差地段的小房子差一个值，但大房子相差另一个值，这就是说地段会影响大小的增加价格（或者说大小上的梯度）。
Visit annotations in context

Annotators

loveisp

URL

christophm.github.io/interpretable-ml-book/interaction.html
christophm.github.io christophm.github.io

Interpretable Machine Learning

2
1. loveisp 28 Jun 2018
  
  in Public
  
  Monte Carlo method
  
  就是在x_C上采样再求均值，这个应该比估计x_C的分布再计算期望方便不少。
2. loveisp 28 Jun 2018
  
  in Public
  
  Usually, there are only one or two features in xSxSx_S.
  
  可能是为了可视化这个partial linear relationship，变量多了可视化不出来。
Visit annotations in context

Annotators

loveisp

URL

christophm.github.io/interpretable-ml-book/pdp.html
christophm.github.io christophm.github.io

Interpretable Machine Learning

6
1. loveisp 28 Jun 2018
  
  in Public
  
  should not have to use the same feature representation as the model that is being explained
  
  不一定用模型训练时用的表示或特征，比如下面说到，文本分类器用的可能是word embedding，但解释的时候可以用单个词是否出现，就是one-hot向量。但想做到这点非常难，因为可能经过了各种特征工程，如果回去找到原特征之间的关系，可能并不那么容易？不过变化原特征看看模型输出如何相应变化应该也可以？这个在myth或kim的论文里似乎讨论了，就是如何处理经过特征变换的情况。
2. loveisp 28 Jun 2018
  
  in Public
  
  Why was a financial transaction classified as fraud?
  
  金融欺诈也是如此，如果一个规则很复杂却有效，是否向人类解释清楚还那么重要吗？说白了，哪些场景是必须向人类解释清楚的？看看后来的myth以及kim等论文吧。
3. loveisp 28 Jun 2018
  
  in Public
  
  What were the important features for a particular diagnosis?
  
  人命关天的事儿，总得说出个一二三吧？但这里其实也有矛盾，如果和人类认知不一致，但却真的有效呢，可能是某种超出人类认知的规则？
4. loveisp 28 Jun 2018
  
  in Public
  
  Desirable aspects
  
  这三种灵活性分别是模型、解释，以及表示，可以解释各种模型，也可以用各种形式去解释，也可以解释模型并没直接用到但涉及到的表示。
5. loveisp 28 Jun 2018
  
  in Public
  
  loose accuracy compared to other machine learning models
  
  直接可解释的模型往往准确率不高，比如线性回归或决策树什么的
6. loveisp 28 Jun 2018
  
  in Public
  
  flexibility
  
  并不是说知道模型之后按这个模型的方式来解释，而是用通用的方法去解释每一种模型
Visit annotations in context

Annotators

loveisp

URL

christophm.github.io/interpretable-ml-book/agnostic.html
Mar 2018
medium.com medium.com

Automating High-Level Economic Thinking using Deep Learning

1
1. loveisp 18 Mar 2018
  
  in Public
  
  short, or long-term time-dependent feedbacks
  
  这里没看懂，为什么或短或长？是说只能固定的n步短或长吗？传统时序模型的假设要搞清楚，与现在的RNN及其变种的区别与联系要搞清楚
Visit annotations in context

Annotators

loveisp

URL

medium.com/intuitionmachine/economic-modeling-and-deep-learning-dcd61b351cad

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL