spark机器学习.docx
信息熵
定义:假定当前样本集合D中的第k类样本所占的比例为p_k(k=1,2,3…,y),则D的信息熵定义为
Ent(D)=-∑_(k=1)^y▒〖p_k〖log〗_2p_k〗
Ent(D)的值越小,则D的纯度越高。
假设S是一个关于布尔概念的有14个样例的集合,它包括9个正例和5个反(我们采用记号[9+,5-]来概括这样的数据样例),那么S相对于这个布尔样例的熵为:Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940。
根据上述这个公式,我们可以得到:S的所有成员属于同一类,Entropy(S)=0;S的正反样例数量
下载地址
用户评论