聚类分析典型应用

2024-05-16 02:23

1. 聚类分析典型应用

 常见业务应用场景如下
    聚类分析的其他应用场景 
                                                                                   案例为一般消费场景中，通过将客户的消费行为数据转换成RFM特征数据，通过聚类分析对目标客户进行群体分类，找出有价值的特定群体。
                                           样本无缺失值，通过对样本绘制分布散点图，可以看到客户数据消费频数低，但消费金额高，由于并不清楚样本的业务类型及业务情况，无法判断这些数据是否为异常值，不处理这些数据。
                                                                                    考虑到部分群体内样本数量太少，在实际应用中可以忽略不计，上述聚类结论中比较代表性的群体如下

聚类分析典型应用

2. 聚类分析的介绍

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

3. 如何运用聚类分析法？

聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。
数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。 

聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method)  首先创建k个划分，k为要创建的划分个数；然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search). 
FCM
2 层次方法(hierarchical method)  创建一个层次以分解给定的数据集。该方法可以分为自上
而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合
并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定
量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。
3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如
DBSCAN）不断增长聚类。典型的基于密度方法包括：
  DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
  OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。
4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利
用网格结构完成聚类。
    STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
    CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。
5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括：
    统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量（属性-值）对来加以描述的。采用分类树的形式来创建
一个层次聚类。
    CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利
用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理.

如何运用聚类分析法？

4. 聚类分析方法应用于哪些问题的研究

1.聚类分析的特点
　聚类分析（cluster analysis）是根据事物本身的特性研究个体的一种方法,目的在于将相似的事物归类.它的原则是同一类中的个体有较大的相似性,不同类的个体差异性很大.这种方法有三个特征：适用于没有先验知识的分类.如果没有这些事先的经验或一些国际、国内、行业标准,分类便会显得随意和主观.这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别；可以处理多个变量决定的分类.例如,要根据消费者购买量的大小进行分类比较容易,但如果在进行数据挖掘时,要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂,而聚类分析法可以解决这类问题；聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术. 
　　这种较成熟的统计学方法如果在市场分析中得到恰当的应用,必将改善市场营销的效果,为企业决策提供有益的参考.其应用的步骤为：将市场分析中的问题转化为聚类分析可以解决的问题,利用相关软件（如SPSS、SAS等）求得结果,由专家解读结果,并转换为实际操作措施,从而提高企业利润,降低企业成本. 
2.应用范围
　聚类分析在客户细分中的应用 
　　 
　　消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的.常用的客户分类方法主要有三类：经验描述法,由决策者根据经验对客户进行类别划分；传统统计法,根据客户属性特征的简单统计来划分客户类别；非传统统计方法,即基于人工智能技术的非数值方法.聚类分析法兼有后两类方法的特点,能够有效完成客户细分的过程. 
　　例如,客户的购买动机一般由需要、认知、学习等内因和文化、社会、家庭、小群体、参考群体等外因共同决定.要按购买动机的不同来划分客户时,可以把前述因素作为分析变量,并将所有目标客户每一个分析变量的指标值量化出来,再运用聚类分析法进行分类.在指标值量化时如果遇到一些定性的指标值,可以用一些定性数据定量化的方法加以转化,如模糊评价法等.除此之外,可以将客户满意度水平和重复购买机会大小作为属性进行分类；还可以在区分客户之间差异性的问题上纳入一套新的分类法,将客户的差异性变量划分为五类：产品利益、客户之间的相互作用力、选择障碍、议价能力和收益率,依据这些分析变量聚类得到的归类,可以为企业制定营销决策提供有益参考. 
　　以上分析的共同点在于都是依据多个变量进行分类,这正好符合聚类分析法解决问题的特点；不同点在于从不同的角度寻求分析变量,为某一方面的决策提供参考,这正是聚类分析法在客户细分问题中运用范围广的体现. 
　　 
　　聚类分析在实验市场选择中的应用 
　　 
　　实验调查法是市场调查中一种有效的一手资料收集方法,主要用于市场销售实验,即所谓的市场测试.通过小规模的实验性改变,以观察客户对产品或服务的反应,从而分析该改变是否值得在大范围内推广. 
　　实验调查法最常用的领域有：市场饱和度测试.市场饱和度反映市场的潜在购买力,是市场营销战略和策略决策的重要参考指标.企业通常通过将消费者购买产品或服务的各种决定因素（如价格等）降到最低限度的方法来测试市场饱和度.或者在出现滞销时,企业投放类似的新产品或服务到特定的市场,以测试市场是否真正达到饱和,是否具有潜在的购买力.前述两种措施由于利益和风险的原因,不可能在企业覆盖的所有市场中实施,只能选择合适的实验市场和对照市场加以测试,得到近似的市场饱和度；产品的价格实验.这种实验往往将新定价的产品投放市场,对顾客的态度和反应进行测试,了解顾客对这种价格的是否接受或接受程度；新产品上市实验.波士顿矩阵研究的企业产品生命周期图表明,企业为了生存和发展往往要不断开发新产品,并使之向明星产品和金牛产品顺利过渡.然而新产品投放市场后的失败率却很高,大致为66%到90%.因而为了降低新产品的失败率,在产品大规模上市前,运用实验调查法对新产品的各方面（外观设计、性能、广告和推广营销组合等）进行实验是非常有必要的. 
　　在实验调查方法中,最常用的是前后单组对比实验、对照组对比实验和前后对照组对比实验.这些方法要求科学的选择实验和非实验单位,即随机选择出的实验单位和非实验单位之间必须具备一定的可比性,两类单位的主客观条件应基本相同. 
　　通过聚类分析,可将待选的实验市场（商场、居民区、城市等）分成同质的几类小组,在同一组内选择实验单位和非实验单位,这样便保证了这两个单位之间具有了一定的可比性.聚类时,商店的规模、类型、设备状况、所处的地段、管理水平等就是聚类的分析变量

5. 关于聚类分析

1。聚类分析的特点
　聚类分析（cluster analysis）是根据事物本身的特性研究个体的一种方法，目的在于将相似的事物归类。它的原则是同一类中的个体有较大的相似性，不同类的个体差异性很大。这种方法有三个特征：适用于没有先验知识的分类。如果没有这些事先的经验或一些国际、国内、行业标准，分类便会显得随意和主观。这时只要设定比较完善的分类变量，就可以通过聚类分析法得到较为科学合理的类别；可以处理多个变量决定的分类。例如，要根据消费者购买量的大小进行分类比较容易，但如果在进行数据挖掘时，要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂，而聚类分析法可以解决这类问题；聚类分析法是一种探索性分析方法，能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术。 
　　这种较成熟的统计学方法如果在市场分析中得到恰当的应用，必将改善市场营销的效果，为企业决策提供有益的参考。其应用的步骤为：将市场分析中的问题转化为聚类分析可以解决的问题，利用相关软件（如SPSS、SAS等）求得结果，由专家解读结果，并转换为实际操作措施，从而提高企业利润，降低企业成本。 
2.应用范围
　聚类分析在客户细分中的应用 
　　 
　　消费同一种类的商品或服务时，不同的客户有不同的消费特点，通过研究这些特点，企业可以制定出不同的营销组合，从而获取最大的消费者剩余，这就是客户细分的主要目的。常用的客户分类方法主要有三类：经验描述法，由决策者根据经验对客户进行类别划分；传统统计法，根据客户属性特征的简单统计来划分客户类别；非传统统计方法，即基于人工智能技术的非数值方法。聚类分析法兼有后两类方法的特点，能够有效完成客户细分的过程。 
　　例如，客户的购买动机一般由需要、认知、学习等内因和文化、社会、家庭、小群体、参考群体等外因共同决定。要按购买动机的不同来划分客户时，可以把前述因素作为分析变量，并将所有目标客户每一个分析变量的指标值量化出来，再运用聚类分析法进行分类。在指标值量化时如果遇到一些定性的指标值，可以用一些定性数据定量化的方法加以转化，如模糊评价法等。除此之外，可以将客户满意度水平和重复购买机会大小作为属性进行分类；还可以在区分客户之间差异性的问题上纳入一套新的分类法，将客户的差异性变量划分为五类：产品利益、客户之间的相互作用力、选择障碍、议价能力和收益率，依据这些分析变量聚类得到的归类，可以为企业制定营销决策提供有益参考。 
　　以上分析的共同点在于都是依据多个变量进行分类，这正好符合聚类分析法解决问题的特点；不同点在于从不同的角度寻求分析变量，为某一方面的决策提供参考，这正是聚类分析法在客户细分问题中运用范围广的体现。 
　　 
　　聚类分析在实验市场选择中的应用 
　　 
　　实验调查法是市场调查中一种有效的一手资料收集方法，主要用于市场销售实验，即所谓的市场测试。通过小规模的实验性改变，以观察客户对产品或服务的反应，从而分析该改变是否值得在大范围内推广。 
　　实验调查法最常用的领域有：市场饱和度测试。市场饱和度反映市场的潜在购买力，是市场营销战略和策略决策的重要参考指标。企业通常通过将消费者购买产品或服务的各种决定因素（如价格等）降到最低限度的方法来测试市场饱和度。或者在出现滞销时，企业投放类似的新产品或服务到特定的市场，以测试市场是否真正达到饱和，是否具有潜在的购买力。前述两种措施由于利益和风险的原因，不可能在企业覆盖的所有市场中实施，只能选择合适的实验市场和对照市场加以测试，得到近似的市场饱和度；产品的价格实验。这种实验往往将新定价的产品投放市场，对顾客的态度和反应进行测试，了解顾客对这种价格的是否接受或接受程度；新产品上市实验。波士顿矩阵研究的企业产品生命周期图表明，企业为了生存和发展往往要不断开发新产品，并使之向明星产品和金牛产品顺利过渡。然而新产品投放市场后的失败率却很高，大致为66%到90%。因而为了降低新产品的失败率，在产品大规模上市前，运用实验调查法对新产品的各方面（外观设计、性能、广告和推广营销组合等）进行实验是非常有必要的。 
　　在实验调查方法中，最常用的是前后单组对比实验、对照组对比实验和前后对照组对比实验。这些方法要求科学的选择实验和非实验单位，即随机选择出的实验单位和非实验单位之间必须具备一定的可比性，两类单位的主客观条件应基本相同。 
　　通过聚类分析，可将待选的实验市场（商场、居民区、城市等）分成同质的几类小组，在同一组内选择实验单位和非实验单位，这样便保证了这两个单位之间具有了一定的可比性。聚类时，商店的规模、类型、设备状况、所处的地段、管理水平等就是聚类的分析变量。 转

关于聚类分析

6. 聚类分析有什么用？

1、与多元分析的其他方法相比，聚类分析是很粗糙的，理论尚不完善，但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等，因此成了多元分析的重要方法，统计包中都有丰富的软件，对数据进行聚类处理。
2、聚类分析除了独立的统计功能外，还有一个辅助功能，就是和其他统计方法配合，对数据进行预处理。
例如，当总体不清楚时，可对原始数据进行聚类，根据聚类后相似的数据，各自建立回归分析，分析的效果会更好。同时如果聚类不是根据个案，而是对变量先进行聚类，聚类的结果，可以在每一类推出一个最有代表性的变量，从而减少了进入回归方程的变量数。
3、聚类分析是研究按一定特征，对研究对象进行分类的多元统计方法，它并不关心特征及变量间的因果关系。分类的结果，应使类别间个体差异大，而同类的个体差异相对要小。

扩展资料：
聚类效果的检验：
一、聚类分析后得到的每个类别是否可以进行有效的命名，每个类别的特征情况是否符合现实意义，如果研究者可以结合专业知识对每个聚类类别进行命名，即说明聚类效果良好，如果聚类类别无法进行命名，则需要考虑重新进行聚类分析。
二、使用判别分析方法进行判断，将SPSS生成的聚类类别变量作为因变量(Y)，而将聚类变量作为自变量(X)进行判别分析，判别分析具体分析聚类变量与类别之间投影关系情况，如果研究人员对聚类分析效果非常在乎，可以使用判别分析进行分析。
三、聚类分析方法的详细过程说明，描述清楚聚类分析的科学使用过程，科学的聚类分析方法使用即是良好结果的前提保障。
是、聚类分析后每个类别样本数量是否均匀，如果聚类结果显示为三个类别，有一个类别样本量非常少，比如低于30，此时很可能说明聚类效果较差。针对聚类效果的判断，研究者主要是结合专业知识判断，即聚类类别是否可以进行有效命名。
参考资料来源：百度百科—聚类分析

7. 聚类分析的定义

聚类分析的定义

8. 聚类分析

　　层次聚类也叫系统聚类，适合于小量数据的分类，由于需要计算两两数据之间的距离，如果数据多的话分类，分类速度慢，分类质量下降，这种方法能够根据聚合系数判断最佳的分类数目；K-均值聚类也叫快速聚类，适合于大量数据的分类，快速聚类作为一种简洁高效的聚类方法很受欢迎，但他最大的缺点是自身不能确定分类的数目，必须人为设置分成多少类，需要个人经验判断；两步聚类法是一种比较新的聚类方法，它弥补了前两种方法的缺陷，既能够很好的对大量数据进行聚类，也能自动判别分类数目，个人认为这种方法最好。
　　如果你想看每种方法的具体原理，可以看看的何晓群的多元统计分析，或吕振通的SPSS 统计分析与应用。