没有简单地采样概率分布能与之相似
什么情况会使用这种奇怪的采样分布?我们对动作采样会用这种奇怪的分布吗?是怎样的分布?
没有简单地采样概率分布能与之相似
什么情况会使用这种奇怪的采样分布?我们对动作采样会用这种奇怪的分布吗?是怎样的分布?
我们用表示用来评估和改进的策略,用 表示产生样本数据的策略
评估和改进是一个策略,而采样是另一个策略 因为采样和评估不是一个,所以评估时一定要做修正 二者计算积分时有不同的分布,所以是在不同的分布上求期望或积分,这是后面推导和证明的关键
保证每个状态行为对都有机会作为初始化
均匀采样,这样每个状态都有均等的概率去探索?不过也许也有某些情况需要重点探索某些状态? 每个状态都是独立探索的?状态与状态之间的关联这里并没有考虑到?那样也许要对状态参数化才可以了,在图像或视觉领域这很常见,因为图像作为状态的话搜索空间太大了
典型的温和策略是 策略
就是以一定概率(接近于1)取原本q值最大的动作,以各自很小的概率取其他的动作 但改进时其实应该慢慢从较大的epsilon变到0,这样就越来越确定了
假设所有的动作都被无限频繁选中
每个状态的值函数应该都是互相独立的?所以其实就在每个状态上用蒙特卡洛法就好 不过这里说的是某个状态上的所有动作,所以策略函数不能是one-hot的,而是要每个动作都能选到
加权重要性采样
实际上就是对权值做归一化,权重归一化到0-1之间后,方差会减小
贪婪策略
一定程度上解决了贪婪策略在探索未知时的不给力行为? 但pi和mu可能分布差别过大导致方差较大吧?
伪代码
下面策略评估的那个框我觉得很重要,那个加权权值其实是梯度的学习率,而后面那项就相当于梯度?
无模型的方法充分评估策略值函数的前提是每个状态都能被访问到
否则真到达某个稀有状态时,会因为这个状态没有充分探索、值函数可能很差(估计值的方差较大)而出问题
第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法
为什么会有这种区别?每次访问样本数会更多,但有什么缺点?
最优策略选择
最优策略选择就使得策略变为one-hot变量而不是一个概率分布了?这感觉不太合理?不过只是对探索来说不合理? 也未必,博弈论里有混合均衡策略,所以策略可能最优情况也会有概率而不是0-1,特别是在multi-agent的情况下?可能有竞争和合作?
解决最优控制的问题往往有三种思路:变分法原理、庞特里亚金最大值原理和动态规划的方法
辉总说,其实model-based或者说知道转移函数的话,强化学习和最优控制其实就是一回事 所以也许可以从最优控制里借鉴很多思想和方法到model-based RL中?
回报函数对应着具体的任务,所以强化学习所学到的最优策略是跟具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。
真正的智能应该是自己去探索回报函数,而且这个回报函数应该是有一定的容错性或者说模糊性,比如我们手碰到一个烫的东西,感觉是很糟的,也会受到惩罚(手起泡、疼痛等),但这个惩罚到底是多少?很难讲。
最优策略
很硬,是贪心策略
得到
这里R其实还不是太清晰,主要是R和不和s'有关,还是只和s、a相关?如果和s'有关,那么也要写到后面的期望里。 按理说应该和s'有关才对?因为比如走一步之后,是掉到陷阱了,还是拿到宝物都是不确定的,那么这个R其实也要看怎么转移的、对转移概率做加权才对?
实际真正计算和编程的时候并不会按照定义式去编程
实际是按迭代的思路来编程而不是定义
补充证明
重点在第二个等号,也就是期望的可分离性,st和s{t+1}是分开的两个期望,因为带st的项里不包含s{t+1},反过来也是如此
不爱玩
劳逸结合可能总的累积回报反而更高
当给定状态转移概率时,从某个状态出发存在多条马尔科夫链
可能转移到不同的状态上,所以会有多条
当前状态 其实是蕴含了所有相关的历史信息
这个条件在现实中容易满足吗?仅知道s_t,损失掉的历史信息不会对未来的状态转移产生影响?
类别概率最好是一家独大,而不是百花齐放
对one-hot来说是对的,但如果是属性,则很可能不是这样
much easier to obtain small quantities of high-quality labeled data and large quantities of unlabeled data
semi-supervised learning
Making a small house big always adds 100,000 to the predicted value, no matter the location.
如果好地段的小房子和差地段的小房子差一个值,但大房子相差另一个值,这就是说地段会影响大小的增加价格(或者说大小上的梯度)。
Monte Carlo method
就是在x_C上采样再求均值,这个应该比估计x_C的分布再计算期望方便不少。
Usually, there are only one or two features in xSxSx_S.
可能是为了可视化这个partial linear relationship,变量多了可视化不出来。
should not have to use the same feature representation as the model that is being explained
不一定用模型训练时用的表示或特征,比如下面说到,文本分类器用的可能是word embedding,但解释的时候可以用单个词是否出现,就是one-hot向量。 但想做到这点非常难,因为可能经过了各种特征工程,如果回去找到原特征之间的关系,可能并不那么容易?不过变化原特征看看模型输出如何相应变化应该也可以?这个在myth或kim的论文里似乎讨论了,就是如何处理经过特征变换的情况。
Why was a financial transaction classified as fraud?
金融欺诈也是如此,如果一个规则很复杂却有效,是否向人类解释清楚还那么重要吗?说白了,哪些场景是必须向人类解释清楚的?看看后来的myth以及kim等论文吧。
What were the important features for a particular diagnosis?
人命关天的事儿,总得说出个一二三吧?但这里其实也有矛盾,如果和人类认知不一致,但却真的有效呢,可能是某种超出人类认知的规则?
Desirable aspects
这三种灵活性分别是模型、解释,以及表示,可以解释各种模型,也可以用各种形式去解释,也可以解释模型并没直接用到但涉及到的表示。
loose accuracy compared to other machine learning models
直接可解释的模型往往准确率不高,比如线性回归或决策树什么的
flexibility
并不是说知道模型之后按这个模型的方式来解释,而是用通用的方法去解释每一种模型
short, or long-term time-dependent feedbacks
这里没看懂,为什么或短或长?是说只能固定的n步短或长吗?传统时序模型的假设要搞清楚,与现在的RNN及其变种的区别与联系要搞清楚