32 Matching Annotations
  1. Aug 2018
    1. 没有简单地采样概率分布能与之相似

      什么情况会使用这种奇怪的采样分布?我们对动作采样会用这种奇怪的分布吗?是怎样的分布?

    2. 我们用表示用来评估和改进的策略,用 表示产生样本数据的策略

      评估和改进是一个策略,而采样是另一个策略 因为采样和评估不是一个,所以评估时一定要做修正 二者计算积分时有不同的分布,所以是在不同的分布上求期望或积分,这是后面推导和证明的关键

    3. 保证每个状态行为对都有机会作为初始化

      均匀采样,这样每个状态都有均等的概率去探索?不过也许也有某些情况需要重点探索某些状态? 每个状态都是独立探索的?状态与状态之间的关联这里并没有考虑到?那样也许要对状态参数化才可以了,在图像或视觉领域这很常见,因为图像作为状态的话搜索空间太大了

    4. 典型的温和策略是 策略

      就是以一定概率(接近于1)取原本q值最大的动作,以各自很小的概率取其他的动作 但改进时其实应该慢慢从较大的epsilon变到0,这样就越来越确定了

    5. 假设所有的动作都被无限频繁选中

      每个状态的值函数应该都是互相独立的?所以其实就在每个状态上用蒙特卡洛法就好 不过这里说的是某个状态上的所有动作,所以策略函数不能是one-hot的,而是要每个动作都能选到

    6. 贪婪策略

      一定程度上解决了贪婪策略在探索未知时的不给力行为? 但pi和mu可能分布差别过大导致方差较大吧?

    7. 伪代码

      下面策略评估的那个框我觉得很重要,那个加权权值其实是梯度的学习率,而后面那项就相当于梯度?

    8. 无模型的方法充分评估策略值函数的前提是每个状态都能被访问到

      否则真到达某个稀有状态时,会因为这个状态没有充分探索、值函数可能很差(估计值的方差较大)而出问题

    9. 第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法

      为什么会有这种区别?每次访问样本数会更多,但有什么缺点?

    1. 最优策略选择

      最优策略选择就使得策略变为one-hot变量而不是一个概率分布了?这感觉不太合理?不过只是对探索来说不合理? 也未必,博弈论里有混合均衡策略,所以策略可能最优情况也会有概率而不是0-1,特别是在multi-agent的情况下?可能有竞争和合作?

    2. 解决最优控制的问题往往有三种思路:变分法原理、庞特里亚金最大值原理和动态规划的方法

      辉总说,其实model-based或者说知道转移函数的话,强化学习和最优控制其实就是一回事 所以也许可以从最优控制里借鉴很多思想和方法到model-based RL中?

    3. 回报函数对应着具体的任务,所以强化学习所学到的最优策略是跟具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。

      真正的智能应该是自己去探索回报函数,而且这个回报函数应该是有一定的容错性或者说模糊性,比如我们手碰到一个烫的东西,感觉是很糟的,也会受到惩罚(手起泡、疼痛等),但这个惩罚到底是多少?很难讲。

    1. 得到

      这里R其实还不是太清晰,主要是R和不和s'有关,还是只和s、a相关?如果和s'有关,那么也要写到后面的期望里。 按理说应该和s'有关才对?因为比如走一步之后,是掉到陷阱了,还是拿到宝物都是不确定的,那么这个R其实也要看怎么转移的、对转移概率做加权才对?

    2. 补充证明

      重点在第二个等号,也就是期望的可分离性,st和s{t+1}是分开的两个期望,因为带st的项里不包含s{t+1},反过来也是如此

    3. 当前状态 其实是蕴含了所有相关的历史信息

      这个条件在现实中容易满足吗?仅知道s_t,损失掉的历史信息不会对未来的状态转移产生影响?

  2. Jul 2018
  3. Jun 2018
    1. Making a small house big always adds 100,000 to the predicted value, no matter the location.

      如果好地段的小房子和差地段的小房子差一个值,但大房子相差另一个值,这就是说地段会影响大小的增加价格(或者说大小上的梯度)。

    1. Usually, there are only one or two features in xSxSx_S.

      可能是为了可视化这个partial linear relationship,变量多了可视化不出来。

    1. should not have to use the same feature representation as the model that is being explained

      不一定用模型训练时用的表示或特征,比如下面说到,文本分类器用的可能是word embedding,但解释的时候可以用单个词是否出现,就是one-hot向量。 但想做到这点非常难,因为可能经过了各种特征工程,如果回去找到原特征之间的关系,可能并不那么容易?不过变化原特征看看模型输出如何相应变化应该也可以?这个在myth或kim的论文里似乎讨论了,就是如何处理经过特征变换的情况。

    2. Why was a financial transaction classified as fraud?

      金融欺诈也是如此,如果一个规则很复杂却有效,是否向人类解释清楚还那么重要吗?说白了,哪些场景是必须向人类解释清楚的?看看后来的myth以及kim等论文吧。

    3. What were the important features for a particular diagnosis?

      人命关天的事儿,总得说出个一二三吧?但这里其实也有矛盾,如果和人类认知不一致,但却真的有效呢,可能是某种超出人类认知的规则?

    4. Desirable aspects

      这三种灵活性分别是模型、解释,以及表示,可以解释各种模型,也可以用各种形式去解释,也可以解释模型并没直接用到但涉及到的表示。

    5. loose accuracy compared to other machine learning models

      直接可解释的模型往往准确率不高,比如线性回归或决策树什么的

  4. Mar 2018
    1. short, or long-term time-dependent feedbacks

      这里没看懂,为什么或短或长?是说只能固定的n步短或长吗?传统时序模型的假设要搞清楚,与现在的RNN及其变种的区别与联系要搞清楚