kmeans聚类算法matlab 结果不唯一么

点击联系发帖人 时间：2015-11-03 10:26

kmeans聚类算法原理

您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
KMeans聚类算法的研究与改进.pdf70页
本文档一共被下载：
次 ,您可免费全文在线阅读后下载本文档
文档加载中...广告还剩秒
需要金币：160 &&
你可能关注的文档：
··········
··········
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的
研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其
他人已经发表或撰写过的研究成果,也不包含为获得鎏辱参功鼋磐其他教育机构
的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均
已在论文中作了明确的说明并表示谢意。
乃年歹月≥石日
学位论文作者签名:锯丹丹
学位论文版权使用授权书
本学位论文作者完全了解苦≥栅关保留、使用学位论文的规定,
有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和
借阅。本人授权骞髯豁堤镑以将学位论文的全部或部分内容编入有关数据库进行
检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
保密的学位论文在解密后适用本授权书
学位论文作者签名:崔哥哥
签字日期:为年厂月形日蔟戽。
学位论文作者毕业去向:
通讯地址: 邮编:摘要摘要
数据挖掘是一种提取出隐含在大量数据中的潜在的、有用的信息并被人们识
别、处理的数据库中的知识发现
。数据挖掘技
术结合了模式识别、数据库、统计学、机器学习和人工智能等多个领域的一种新
兴的交叉的学科技术。数据挖掘有多个研究方向,包括分类、聚类、关联规则挖
掘等。聚类分析是数据挖掘领域中的一个比较热门的研究方向。聚类分析是要达
到这样一种目的,将数据对象进行划分成不同的簇使得同一个簇中的数据对象具
有较高的相似度,不同簇中的数据对象的相似度较低。
目前为止,聚类分析算法一般有以下五种分类:基于划分的聚类算法、基于
层次的聚类算法、基于
正在加载中，请稍后...mahout运行测试与数据挖掘算法之聚类分析（一）kmeans算法解析 - CSDN博客
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址：
mahout中的算法大致可以分为三大类：
聚类，协同过滤和分类
常用聚类算法有：canopy聚类，k均值算法（kmeans），模糊k均值，层次聚类，LDA聚类等
常用分类算法有：贝叶斯，逻辑回归，支持向量机，感知器，神经网络等
下面将运行mahout中自带的example例子jar包来查看mahou是否能正确运行
练习数据下载地址：
上面的练习数据是用来检测kmeans聚类算法的数据
使用hadoop命令运行mahout的例子程序（确保hadoop集群已开启）
在例子代码中写死了输入的路径是/user/hadoop/testdata
将练习数据上传到hdfs中对应的testdata目录下即可
写死的输出路径是/user/hadoop/output
执行命令：
hadoop jar ~/mahout/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
开始执行任务
由于聚类算法是一种迭代的过程（之后会讲解）
所欲他会一直重复的执行mr任务到符合要求（这其中的过程可能有点久。。。）
运行结果如下：
mahout无异常
执行完这个kmeans算法之后产生的文件按普通方式是查看不了的，看到的只是一堆莫名其妙的数据
需要用mahout的seqdumper命令来下载到本地linux上才能查看正常结果
查看聚类分析的结果：
./mahout seqdumper -s /user/hadoop/output/data/part-m-0000 /home/hadoop/res
之后使用cat命令即可查看
cat res | more
现在来说说什么是kmeans聚类算法
所谓聚类算法就是将一份数据，按照我们想要的或者这份数据中的规律来将数据分类的算法
现有一份杂乱的样本数据，我们希望数据最后按照某些类别来划分（红豆分为红豆，绿豆分为绿豆等意思）
聚类算法会从n个类的初始中心开始（如果没有人为设置，其会按照随机的初始中心开始）
什么意思呢？来看一张图
上图中，左一的圆圈表示原始数据在随机的初始中心划分后的的分布
但是可以看出很明显cluster1中有很多是靠近cluster2的数据点
所以kmeans会根据规则再次计算出更加合适的中心点来进行划分
这个规则就是：
计算每个数据点，到原始中心cluster1和cluster2的距离
离谁比较近就划分到谁那边去（形如中间的圆圈）
然后将cluster1和cluster2中的数据分别求平均值，得到的两个平均值成为新的cluster1和cluster2中心点
但是很明显这样划分还是不够合理
所以kmeans会继续迭代计算每个数据到新的中心点的距离
离谁比较近就划分给谁
然后在分别求平均值得到新的中心点
直到cluster1和cluster2中的数据平均值不在发生变化时认为此时是最理想的划分方式（也可以进行人工的干预）
该算法的最大优势在于简介快速。算法的关键在于初始中心的选择和计算距离的公式
最后在调用一个mahout的一个算法来测试mahout
调用fpg算法（实现计数频繁项集的算法）
测试数据下载（电商购物车数据）
在mahout的bin目录下
./mahout fpg -i /user/hadoop/testdata/tail.txt -o /user/hadoop/output -method mapreduce -s 1000 -regex '[]'
各个参数的意义：
-i:指定输入数据的路径
-o:指定输出结果的路径
-method:指定使用mapreduce方法
-s:最小支持度
-regex:使用指定的正则来匹配过滤数据
同样的，运行结果的数据要通过seqdumper来查看Kmeans K- K均值聚类算法，不是用工具箱编的，对随机产生的数据进行。压缩文件包括m matlab 238万源代码下载-
&文件名称: Kmeans
& & & & &&]
&&所属分类:
&&开发工具: matlab
&&文件大小: 48 KB
&&上传时间:
&&下载次数: 5
&&提供者:
&详细说明：K-means K均值聚类算法，不是用工具箱编的，对随机产生的数据进行聚类。压缩文件包括m函数、包含主程序和子函数的word文档。-K-means clustering algorithm, not with the toolbox series of randomly generated data clustering.M functions including compressed files, containing the main program and subroutines word document.
文件列表(点击判断是否您需要的文件，如果是垃圾请在下面评价投诉):
&&K均值聚类.docx&&KMeans.m
&近期下载过的用户:
&相关搜索:
&输入关键字，在本站238万海量源码库中尽情搜索：
&[] - PARTICLE SWARM OPTIMIZATION BASIC CODE
&[] - K均值聚类的代码，完整程序，有实验结果RGB显示，结果图和相应的灰度直方图
&[] - 利用K均值聚类对鸢尾花样本进行聚类的matlab程序，包含源代码、样本数据、聚类结果
&[] - K-均值聚类算法，对数据进行聚类分析，可用于提取关键帧等。用matlab实现
&[] - K均值算法使用的聚类准则函数的误差平方和准则，通过反复迭代优化聚类结果，使所有样本到各自所属类别的中心的距离平方和达到最小。}

久游无息网