- May 2022
-
pan.baidu.com pan.baidu.com
-
Ethical issues for learning analytics fall into the following broad, often overlapping categories:
1.The location and interpretation of data 2. Informed consent, privacy and the de-identification of data 3. The management, classification and storage of data
Tags
Annotators
URL
-
- Jan 2022
-
zhuanlan.zhihu.com zhuanlan.zhihu.com
-
思维导图都会要求比较严格的层级分类。当你将一个内容写下时,你经常会卡壳:我该将这一点放在哪个层级比较好呢?它属于谁呢?
确实会存在
Tags
Annotators
URL
-
-
sspai.com sspai.com
-
我们常有的经历是:记录下一些想法,几则不知道怎么分类的笔记,积累到一定数量后某种笔记之间共通的特征概念逐渐清晰,随后特征被提炼出来作为一种分类,成为文件夹的名字。 经历这种过程是因为我们对许多领域了解甚少,或者干脆是在未知的领域里从零开荒。在最初我们所以很难做适合的分类,无序的笔记堆积成为了必经之路。
-
- Sep 2018
-
192.168.199.102:5000 192.168.199.102:5000
-
如何解决分类问题无法微分
- perceptron(introduce in future)
- SVM(introduce in future)
- generative model: probability based method(introduce here)
基于概率(Bayes)的分类问题解法 --- 生成模型:
蓝盒子,绿盒子,其中各置5个球,球也有蓝色和绿色。已知:
- 蓝盒:4蓝 + 1绿
- 绿盒:2蓝 + 3绿
问:现抽出一蓝球,问他来自两个盒子概率各是多少:P(blueBox | blueBubble)=?
这个问题使用 bayes 条件概率公式非常好求,只需要知道四个值:
- Prior of blueBox: \(P(blueBox)\)
- Priof of greenBox: \(P(greenBox)\)
- condition probability of blueBubble given blueBox: \(P(blueBubble | blueBox)\)
- condition probability of blueBubble given greenBox: \(P(blueBubble | greenBox)\)
类比:
蓝盒子 --- class 1;
绿盒子 --- class 2;
class 1,class 2,各有很多样本。已知:
- class 1:海龟,金枪鱼,
- class 2:老鹰,白鸽,
问:现有一鸭嘴兽,问他来自两个分类的概率各是多少?
我们同样需要知道 4 个值:
- Prior
- Prior
- condition prob
- condition prob
counting based method for Prior
从训练集中,直接“数”出标签为 C1 的样本数量,和标签为 C2 的样本数量各是多少,记做 N1 , N2.
\(P(C1) = N1/(N1 + N2)\)
\(P(C2) = N2/(N1 + N2)\)
naive bayes method for condition probability
分类问题中的条件概率不同于“盒子抽球”的最大地方在于:你要计算的 \(P(x|C1)\) 中的 x 是现有样本集中没有的。
把当前 c1 样本 和 c2 样本都想象成概率分布,而当前数据集仅仅是根据概率分布做的抽样(全体中的部分)
如果我们能得到这个概率分布,我们就可以知道鸭嘴兽属于陆生和海生的概率各是多少。
假设:c1 和 c2 的概率分布是高斯分布,且他们都是高斯分布集合( gaussian distribution hypothesis )中的一个 gaussian distribution, 我们该如何找到这个高斯分布呢 --- 只需确定 \(\Sigma\) 和 \(\mu \), 就可以唯一确定一个高斯分布。
那如何通过样本来倒推出 \(\Sigma\) 和 \(\mu \) 呢?
maximum likelihood
找到一个 \(\mu, \Sigma\) ,由他确定的高斯分布在所有的高斯分布中,产生数据集的概率是最高的。
\(f_{\mu,\Sigma}(x) = \frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^-1(x-\mu))\)
\(L(\mu,\Sigma) =f_{\mu,\Sigma}(x^1)f_{\mu,\Sigma}(x^2)f_{\mu,\Sigma}(x^3)......f_{\mu,\Sigma}(x^N)\)
\(\mu^\star, \Sigma^\star = \arg\max_{\mu,\Sigma}L(\mu,\Sigma)\)
这个 \(argmax\) 有一个很直观的公式解,可以直接记住:
\(\mu^\star = \frac{1}{N}\sum_{n=1}^{N}x^n\)
\(\Sigma^\star = \frac{1}{N}\sum_{n=1}^{N}(x^n-\mu^\star)(x^n-\mu^\star)^T\)
Naive Bayes
如果不适用极大似然估计,也可以使用 Naive Bayes 方法来推算 Prior probability.
\(P(y|x) = \frac{P(x|y)P(y)}{P(x)=\sum^K_{i=1}{P(x|y_i)P(y_i)}}\)
通过 count-based method 和 Naive Bayes(
\(P([1,3,9,0] | y_1)=P(1|y_1)P(3|y_1)P(9|y_1)P(0|y_1)\) ) 先计算出:
\(P(x|y_1)P(y_1)\)
\(P(x|y_2)P(y_2)\)
\(P(x|y_3)P(y_3)\)
...
All done
一旦得到了这个 \(\mu,\Sigma\) 我们就可以得到分类1 产生 x 的概率(即便他不存在于数据集中)的概率:
\( P(x | C_1) = P(x | Gaussian_1(\mu_1, \Sigma_1))\)
分类2 产生 x 的概率, 也很容易得到:
\( P(x | C_2) = P(x | Gaussian_2(\mu_2, \Sigma_2))\)
根据 bayes 公式:
\(P(C_1 | x) = \frac{P(x | C_1) * P(C_1)}{P( x | C_1) * P(C_1) + P(x | C_2) * P(C_2)}\)
-
直接用【线性回归】模型解【分类问题】的弊端
线性回归的标签值 \(y\) 都是实数(亦即可能任意大or任意小),同时线性回归的代价函数是平方误差 \((y-\hat{y})^2\) --- square error. 而代价函数又会通过 GD 直接影响 w 和 b --- 分界线。
在分类问题中,无论错误程度多高,错点的代价永远算作‘1’;而在线性回归中,做错点的代价与他的错误程度平方正比(远大于1)。两者的代价函数不一样,两者得到的函数(分界线)就肯定不一样。
-
多分类任务
主要就是利用 softmax:
第一步:计算 score
z1 = w1 * x + b1
z2 = w2 * x + b2
z3 = w3 * x + b3
第二步:对 score 做 exponential normalization
\(y_{1} = \frac{e^{z_{1}}}{\sum^3_{j=1}e^{z_{j}}}\)
\(y_{2} = \frac{e^{z_{2}}}{\sum^3_{j=1}e^{z_{j}}}\)
\(y_{3} = \frac{e^{z_{3}}}{\sum^3_{j=1}e^{z_{j}}}\)
第三步:以 yi 表示 P(Ci | x) --- x 属于第i个分类的预测概率
\(y_i = P(C_i | x)\)
为什么叫做 softmax 呢? exponential 函数会让大小值之间的差距变的更大,换言之他会强化最大值。
Tags
Annotators
URL
-