爱豆吧!

idouba@beta.

Data Mining 笔记聚类k-medoids

一、概述 k-means利用簇内点的均值或加权平均值ci(质心)作为类Ci的代表点。对数值属性数据有较好的几何和统计意义。对孤立点是敏感的,如果具有极大值,就可能大幅度地扭曲数据的分布. k-medoids(k-中心点)算法是为消除这种敏感性提出的,它选择类中位置最接近类中心的对象(称为中心点)作为类的代表点,目标函数仍然可以采用平方误差准则。 PAM(Partitioning Around Medoids,围绕中心点的划分)是最早提出的k中心点算法之一。 二、算法思想: 随机选择k个对象作为初始的k个类的代表点,将其 Read more →

Data Mining 笔记之Classification

一、概念 监督式学习VS非监督式学习 Supervised learning (classification) Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations New data is classified based on the training set Unsupervised learning (clustering) The class labels of training data is unknown Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data –Jiawei Han 监督式学习:提供了训练元组的类标号,通过分析已知数据,得到一个分类模型,用来确定其它的对象属于哪个类别。 非监督式学习:不依赖有类标号的训练实例 分类Classification predicts categorical class labels (discrete or nominal) classifies data (constructs a model) based on the training set and the values (class labels) in a classifying attribute and uses it in classifying new data。 预测分类表示,通过分析训练集中数据的属性来进行构建一个模型来确定新的数据属于哪个 Read more →