KMeansClusteringDNA:识别HepC爆发来源的K手段 源码
这是“ K均值”聚类用于识别肝炎C暴发源的示例。 该项目的K Means部分完全从头开始编码,没有使用任何K Means库。 首先从处理.fas文件中的数据到我拥有一个数组(每个索引包含一个基因组)的地方开始。 然后,它计算每个基因组之间的汉明距离。 然后,我通过“多维缩放”来运行它,以获取数据的散点图以及该数据的数据帧。 我使用散点图来确定数据中有8个簇。 有了这些知识,我便可以通过我的K Means方法运行数据框。 K Means方法遵循以下过程: 指定要分配的集群数 随机初始化K重心 将每个点分配给最接近的质心 计算每个簇的新质心(均值) 返回第3步并重复直到质心的值不变 完成后
下载地址
用户评论