数学基础 | (6) 机器学习中的几个熵
原文地址 目录 1. 信息量 2. 信息熵 3. 相对熵(KL散度/KL divergence) 4. 交叉熵 5. 几个熵之间的关系 6. JS散度 7. Wasserstein距离 8. 总结 1. 信息量 事件发生的概率越小,信息量越大。 假设X是一个离散型随机变量,取值集合为 则定义事件的信息量为: 2. 信息熵 信息量的期望就是熵,假设事件X有n种可能,发生的概率为,那么该事件的熵H(X)为: 如果发生的事件只有两种可能性,那么熵的计算转化为下列式子: 3. 相对熵(KL散度/KL divergence) 相对熵又叫KL散度,也叫做信息增益,如果我们对于同一个随机变量X,有两个
下载地址
用户评论