数据分析中的基本指标

2024-05-12 02:23

1. 数据分析中的基本指标

用户行为类指标
用户行为指标是互联网行业和传统行业最大区别。传统行业，用户行为发生在门店里，极难用数字化手段记录，因此只有在发生交易时，才能记录数据。
传统企业的大部分数据都是交易数据。而互联网行业依托小程序/H5/APP，能记录用户在每个页面的点击，相当于在网上店铺的每一步动作都有记录，因此能分析很多东西。
具体到指标上，可以套用AARRR模型，分模块展开：
拉新：主要用于分析拉新的转化效率与质量。拉新是很多互联网公司最重要的任务，拉新成本是很多互联网公司最大的成本支出，因此拉新关注度极高。


用户活跃类指标：用户活跃类指标是日常关注的重点。活跃用户是一切业务的基础，且活跃行为是可以每日记录的，因此运营/产品部门日常都盯得很紧。


用户留存类指标：留存指标一般和拉新/活跃指标结合起来看。由于留存统计相对滞后（要等XX天才能统计），因此一般是月度复盘/事后分析的时候看的多。


用户转化类指标：用户转化一般指付费行为，这是互联网商业模式变现的重要渠道。看的指标主要围绕有多少人买，买了多少，是否连续购买等展开。这里和传统企业的会员消费分析很像，能衍生出很多子指标。


用户转介绍类指标：用户转介绍行为类型很多，转发内容/转发商品/介绍新用户加入等，都是转介绍行为。因此转介绍行为的定义常常会结合具体的转介绍形态而变化。很少有统一的指标。如果一定要概括的话，可以概括为：
有转介绍行为人数：发生转发内容/转发商品/介绍新用户的用户人数
转介绍行为带来的效果：新注册用户/商品购买/内容阅读等等
除了AARRR以外，还有一类特殊的行为：风险类行为，用于识别用户的危险动作。在不同业务场景，风险定义不同。比如电商场景下刷单、薅羊毛，游戏场景下外挂使用，金融场景下欺诈交易等等。
产品类指标
产品类指标是互联网行业特色。用户在互联网APP/H5/小程序内会使用不同的功能，好用的话会一直用，不好用会中途放弃，这些都能记录数据，从而通过产品分析，不断淘汰没人用的功能，优化有人用的功能，提升效率。
产品分析的常见指标如下：

请点击输入图片描述
请点击输入图片描述
注意：产品分析是有级别的，最高级的是对整个APP/H5/小程序的页面/功能做盘点。其次是对某一个具体页面（比如首页、商品详情页、购物车页）或者某一个具体路径（比如从首页的banner位点广告进入商品详情，再选择商品进行交易这样一条路径）进行分析。
最细的则是分析某一次改版的，某一个按钮/页面布局调整等等。上边举例的指标更多是对页面/路径分析的指标，其他情况，有空再详细分享。
内容类指标
内容类指标也是互联网行业的特色。互联网上发布的视频/图文，能记录阅读情况。一般内容运营/营销推广/新媒体运营等与内容打交道密切的部门，会很关注这一类指标。
常见的内容指标如下：

请点击输入图片描述
请点击输入图片描述
通过这些指标的分析，创作内容的部门，比如：内容运营/新媒体运营，能找到哪些内容阅读高，哪些转发多，从而总结出写文章的套路，提升内容传播范围。利用内容的部门，比如营销推广，能关注哪些内容带来的转化好，从而提高推广效率。
活动类指标
活动类指标，在互联网和传统行业都很常见。相比之传统行业，互联网行业的营销活动密度更高、力度更大，经常是烧钱换增长。因此活动相关指标关注度很高。
常见的活动指标如下：

请点击输入图片描述
请点击输入图片描述
通过这些指标的分析，能让负责活动的同事直观看到活动效果，并且在不同类型/不同力度活动进行比较，找到更高效开展活动的方式。
有些活动会包含多个角色，比如拼团活动，会同时有团长/团员两个角色；裂变类活动，有裂变发起人/参与者两个角色。
不同角色的参与条件、达标动作、达标奖励不太一样，因此可以拆分两类群体，分别看活动目标人数/参与人数/达标人数等指标。
商品类指标
商品类指标，在互联网和传统行业都很常见。区别是传统企业大部分是实物商品，互联网则有一堆虚拟商品，比如虚拟货币、会员特权、游戏装备、直播打赏等等等。
因此互联网行业的商品管理，有可能比传统行业简单一点，不需要那么焦虑的盯着库存周转指标，生怕在仓库里待久了，货都过期了。
常见的商品指标如下：

请点击输入图片描述
请点击输入图片描述
通过这些指标的分析，能让负责商品运营的同事直观看到商品畅销/滞销情况，从而调整商品进销存计划，避免商品积压/缺货。
注意，虚拟商品原则上是没有库存的（或者说库存想设多少设多少）。但是滥发虚拟商品，又会引发互联网中通货膨胀与商品贬值。比如游戏里稀有皮肤卖的贵，是因为稀有才贵，为了短期收入搞大优惠，一但烂大街，反而大家都不稀罕了。
所以控虚拟商品的库存，不是看商品动销率或者在库时间，而是看GMV整体目标。在达成GMV整体目标情况下，高中低端商品保持一个稳定的库存结构，避免烂大街。

数据分析中的基本指标

2. 数据统计分析常用指标

数据统计分析常用指标
在进行数据分析时，经常会遇到一些分析指标或术语。这些术语是帮助我们打开思路，通过多个角度对数据进行深度解读，可以说是前人已经总结和使用的数据分析方法。下面是数据统计分析常用的指标或术语：1.平均数一般指算术平均数。算术平均数是指，全部数据累加除以数据个数。它是非常重要的基础性指标。几何平均数：适用于对比率数据的平均，并主要用于计算数据平均增长（变化）率。加权平均数：普通的算术平均数的权重相等，算术平均数是特殊的加权平均数（权重都是1）。例如，某人射击十次，其中二次射中10环，三次射中8环，四次射中7环，一次射中9环，那么他平均射中的环数为：（10×2+9×1+8×3+7×4）÷10=8.12.绝对数与相对数绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标，如GDP。此外，也可以表现在一定条件下数量的增减变化。相对数是指两个有联系的指标对比计算得到的数值，他是用以反映客观现象逐渐数量联系程度的综合指标。相对数=比较数值（比数）/基础数值（基数）基数：对比标准的指标数值。比数：是用作与基数对比的指标数值。3.百分比与百分点百分比表示一个数是另一个数的百分之几的数，也叫百分率。百分点是用以表达不同百分数之间的“算术差距”（即差）的单位。用百分数表达其比例关系，用百分点表达其数值差距。1个百分点=1%，表示构成的变动幅度不宜用百分数，而应该用百分点。举例说，0.05和0.2分别是数，而且可分别化为百分数（5%和20%）。于是比较这两个数值有几种方法：①0.2是0.05的四倍，也就是说20%是5%的四倍，即百分之四百（400%）。②0.2比0.05多三倍，也就是说20%比5%多三倍，即百分之三百（300%）。③0.2比0.05多出0.15，也就是说20%比5%多十五个百分点。4.频数与频率频数是指一组数据中个别数据重复出现的次数。频数是绝对数，频率是相对数。5.比例与比率两者都是相对数。比例是指总体中各部分的数值占全部数值的比重，通常反映总体的构成和结构。比率是指不同类别数值的对比，它反映的不是部分与整体之间的关系，而是一个整体中各部分之间的关系。这一指标经常会用在社会经济领域。6.倍数与番数同属于相对数。倍数是一个数除以另一个数所得的商。A÷B=C，A就是C的倍数。（倍数一般是表示数量的增长或上升幅度，而不适用于表示数量的减少或下降。）番数是指原来数量的2的N次方倍。比如翻一番就是原来数的2倍，翻二番就是原来数乘以4，翻三番就是原来数乘以8。7.同比与环比同比是指与历史同时期进行比较得到的数据，该指标主要反映的是事物发展的相对情况。如2012年12月与2011年12月相比。英文翻译同比为year-on-year ratio。环比是指与前一个统计期进行比较得到的数值，该指标主要反映的是事物逐期发展的情况。2010年12月与2010年11月相比。环比英文可翻译为compare with the performance/figure/statistics last month。同比是与上年的同期水平对比，环比是同一年连环的两期对比。8.基线和峰值、极值分析峰值：增长曲线的最高点（顶点），如中国总人口2033年将达峰值15亿，性别比严重失衡。拐点：在数学上指改变曲线向上或向下方向的点。在统计学中指趋势开始改变的地方，出现拐点后的走势将保持基本稳定。9.增量与增速增量是指数值的变化方式和程度。如3增大到5，则3的增量为+2；3减少到1，则3的增量为-2。增速是指数值增长程度的相对指标。

3. 数据分析常见业务指标

 以下资源来源于B站秦路老师 《七周成为数据分析师》 
    1.市场营销指标 
    1.数据源    购买CD的用户id、日期、数量和金额。   
                                           
                                           
                                           
                                            重点学会apply函数的使用，以及去重函数 
                                           数据透视表的index和column可以理解为groupby的字段，按照两个字段进行分组，values表示聚合的值
   
                                           
                                                                                   将一些比较离群点进行剔除,使用query函数（相当于sql中的where)
                                                                                   
                                           
                                                                                   第一次购买和最后一次购买都集中在前三个月，说明很多用户都是一次性消费
   返回结果：   True     12054   False    11516   dtype: int64
   返回结果：
                                                                                   结果

数据分析常见业务指标

4. 销售数据分析指标有哪些?

1、售罄率
计算公式：售罄率=(一个周期内)销售件数/进货件数
售罄率是指一定时间段某种货品的销售占总进货的比例，是根据一批进货销售多少比例才能收回销售成本和费用的一个考核指标，便于确定货品销售到何种程度可以进行折扣销售清仓处理的一个合理尺度。
2、库存周转率
计算公式：存货周转率=(一个周期内)销售货品成本/存货成本
库存天数=365天÷商品周转率
存货周转率是对流动资产周转率的补充说明,是衡量企业销售能力及存货管理水平的综合性指标。它是销售成本与平均存货的比率。
3、库销比
计算公式：库销比=(一个周期内)本期进货量/期末库存
是一个检测库存量是否合理的指标,如月库销比,年平均库销比等,计算方法:月库销比,月平均库存量/月销售额年平均库销比, 年平均库存量/年销售额,比率高说明库存量过大,销售不畅,过低则可能是生产跟不上。
4、存销比
计算公式：存销比=(一个周期内)库存/周期内日均销量
存销比是指在一个周期内，商品库存与周期内日均销量的比值，是用天数来反映商品即时库存状况的相对数。而更为精确的法则是使用日均库存和日均销售的数据来计算，从而反映当前的库存销售比例。
5、销售增长率
计算公式：销售增长率=(一周期内)销售金额或数量/(上一周期)销售金额或数量-1%
类似：环比增长率=(报告期-基期)/基期×100%
销售增长率是企业本年销售收入增长额同上年销售收入总额之比。本年销售增长额为本年销售收入减去上年销售收入的差额，它是分析企业成长状况和发展能力的基本指标。
6、销售毛利率
计算公式：销售毛利率=实现毛利额/实现销售额*100%
销售毛利率是毛利占销售净值的百分比，通常称为毛利率。销售毛利是销售净额与销售成本的差额，如果销售毛利率很低，表明企业没有足够多的毛利额，补偿期间费用后的盈利水平就不会高;也可能无法弥补期间费用，出现亏损局面。通过本指标可预测企业盈利能力。
7、老顾客贡献率
以销售额为例，计算公式=老顾客贡献的销售额/总体顾客的销售额 x 100%，分子分母也可以换成企业关心的其他指标，比如订单数、利润等。
8、品类支持率
计算公式：品类支持率=某品类销售数或金额÷全品类销售数或金额×100%
反应该品类对整体的贡献程度，越大说明对整体的贡献越大。
9、客单价
计算公式：客单价=总销售金额÷总销售客户数
是指店铺每一个顾客平均购买商品的金额，也即是平均交易金额。
10、坪效
计算公式： 平效 = 销售业绩÷店铺面积。
就是指终端卖场1平米的效率，一般是作为评估卖场实力的一个重要标准。
11、 交叉比率
计算公式： 交叉比率=毛利率×周转率
交叉比率通常以每季为计算周期，交叉比率低的优先淘汰商品。交叉比率数值愈大愈好，因它同时兼顾商品的毛利率及周转率，其数值愈大，表示毛利率高且周转又快。

5. 数据采集与分析的指标有哪些

讲解几个数据分析的常用指标

 
 
增长研究社
08-04 · 优质科技领域创作者
评价指标是评判数据表现的衡量标准，它是数据分析中非常重要的部分，也是产品经理必须掌握的重点内容。不同的数分任务采用不同的评价指标，对于同一种任务在不同场景下也会采用不同的评价指标。



例如在检测垃圾邮件这个场景中，这是一个典型的二分类问题，所以可以用精确率和AUC曲线这两个指标判断模型的效果；在人脸识别场景中，使用误识率、拒识率和ROC曲线这三个指标评判模型的效果。



不同指标的着重点不一样，一个指标在不同场景下适用性可能不一样，产品经理需要学习不同指标的特性，在项目中根据实际需要选择不同的评价指标。下文中我们重点讲解一些产品经理常用的评价指标。

01 混淆矩阵

混淆矩阵（Confusion Matrix）是评价模型精度的一种标准格式，用一个N行N列的矩阵形式来表示。矩阵每一列代表预测值，每一行代表实际值。



从混淆矩阵的名字不难看出来，它的作用是表明多个类别之间是否有混淆，也就是模型到底判断对了多少个结果，有多少个结果判断错了。同时混淆矩阵能够帮助我们理解准确率、精确率和召回率的区别。



面对一个二分类问题时，通常我们会将结果表示为正类与负类，两者可以随意指定。在上述区分猫狗图片的例子中，我们假定猫为正类、狗为负类。那么在实际进行预测的时候就会出现四种情况，如下图所示：


混淆矩阵

如果这张图片是猫，机器预测出来的结果也是猫，这种情况称为真正类（True Positive，以下简称TP）；

如果这张图片是狗，机器预测出来的结果也是狗，这种情况称为真负类（True Negative，以下简称TN）；

如果这张图片是猫，机器预测出来的结果是狗，这种情况称为假负类（False Negative，以下简称FN）；

如果这张图片是狗，机器预测的结果是猫，则为假正类（False Positive，以下简称FP）。



02 准确率

准确率（Accuracy）是指预测正确的样本占总样本的比例，即模型找到的真正类与真负类与整体预测样本的比例。用公式表示为：


Accuracy=(TP+TN)/(TP+TN+FP+FN)
准确率的取值范围为[0,1]，一般情况下取值越大，代表模型预测能力越好。



假设上述猫狗图片分类的例子中，猫狗图片各有500张。最后模型预测的结果中真正类有318个，真负类有415个，假正类有75个，假负类有182个。根据准确率的定义可以算出来目前模型的准确率为：（318+415）/（1000）=0.73。



准确率是评价模型效果最通用的指标之一，描述模型找到“真”类别的能力。也就是说模型准确识别出猫和狗的概率为0.73。但是在使用的时候有两点需要我们注意。首先是准确率没有针对不同类别进行区分，最后求得的准确率对每个类别而言是平等对待的，这种评价方式在很多场景下是有欠缺的。



在本例中，虽然可以看到模型的整体准确率是73.30%，但是从结果中明显可以看出来，模型对于猫的识别效果远不如对狗的识别效果。如果我们模型的目的是为了把猫的图片挑出来，那么这个准确率就有些虚高。



在实际的病患诊断中，计算机诊断出某患者患有癌症，实际上却未患癌症与计算机诊断出某患者未患有癌症，而实际上却患有癌症这两种情况的重要性不一样，不能一概而论。我们需要明确后续是降低误诊率还是提高确诊率，才能让后续模型优化更有针对性。



另外在正负样本极不平衡的情况下，准确率这个指标存在很大的缺陷。例如在银行的全量客户中，要寻找适合推荐信托产品的超高净值客户是非常难的。因为这部分人群要求存款较多、收入较高，比较稀少，往往只有万分之一的概率。



如果一个预测客户适不适合信托产品的模型用准确率去评判，哪怕模型把全部客户预测成负类，即全部都是不适合的情况，那么这个模型的精度也有 99% 以上。



但这个指标就失去了原有的意义，因为无法找到任何高净值的人群。所以我们一再强调，没有万能的指标，根据场景选择合适的指标非常重要。

03 精确率与召回率

精确率（Precision）和召回率（Recall）是一对好兄弟，虽然是两个不同的评价指标，但它们互相影响，通常一起出现。在很多书上又把精确率称为查准率，把召回率称为查全率。



召回率是针对原始样本而言的指标，它表示原始样本中的正例有多少被预测正确。



原始样本中的正例有两种情况，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)，这两种情况组成了原始样本所有的正例。计算公式为：


Recall=TP/(TP+FN) 
上述模型中识别猫类图片的召回率为：


318/（318+182）=0.63
从这个角度可以看出来总共500张猫的图片，模型只找对了318张，相比准确率而言，召回率更真实地反应了模型的效果。



而精确率是针对预测结果而言的指标，它表示预测为正类的样本中有多少是对的。预测结果为正例有两种情况，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)。所以精确率的计算公式为：


Precision=TP/(TP+FP)
即上述模型中识别猫类图片的精确率为：


318/（318+75）=0.81
从这个指标可以看出来模型总共把393张图片预测为猫，其中只有318张图片预测正确。所以模型可能存在欠拟合的情况，将部分狗的照片判断成猫，判断为正类的条件太宽松。下一步优化的时候可以选择适当降低条件以此提高模型效果。如下图所示可以看出精确率与召回率的区别：


精确率与召回率

在理想情况下，我们希望精确率和召回率两者都越高越好。



然而事实上这两者在很多情况下是互相矛盾的。当召回率变高时意味着需要尽可能找到原始样本的正例，因此模型覆盖的数量会变多，模型就更高的几率犯错，将原本不属于该分类的样本也加进来，这就导致精确率下降。



如果我们希望模型尽可能多得找出猫的图片，我们会想办法提高召回率；如果我们希望模型找到的图片少一点但找出来的都是猫的图片，我们会想办法提高精确率。



有两个很典型的场景可以说明这两个指标实际运用的区别，一个是对于地震的预测，我们希望尽可能预测到所有的地震，哪怕这些预测到的地震中只有少数真正发生了地震，在这个时候我们就可以牺牲精确率。



宁愿发出100次警报，但是把10次真实的地震都预测对了，也不希望预测了10次但是只有8次真实的地震被预测出来了，因为只要有1次地震没被发现都会造成巨大的损失。因此这是一个“宁可抓错，不可放过”的场景。



还有一种是垃圾邮件分类的场景，我们希望模型能够尽可能找到所有垃圾邮件，但是我们更不希望把自己正常的邮件被分到垃圾邮件中，哪怕是一封正常的邮件，这会对用户造成很严重的后果。对于少数没有被识别出来的垃圾邮件，其实用户是可以容忍的。



这时候我们宁可少分类成垃圾邮件，但必须确保分的都是对的，这就是一个“宁可放过，不可抓错”的场景。因此在不同的场合中，需要产品经理根据实际情况，自己判断希望是精确率比较高或是召回率比较高。



另外精确率和准确率是比较容易混淆的两个评估指标，两者的核心区别在于：精确率是一个二分类指标，只适用于二分类任务，而准确率能应用于多分类任务。

04 ROC曲线

在逻辑回归的分类模型里，对于正负例的界定，通常会设一个阈值。大于阈值的样本判定为正类，小于阈值的样本为负类。如果我们减小这个阈值，会让更多的样本被识别为正类，从而提高了正类的识别率，但同时也会使得更多的负类被错误识别为正类。



直接调整阈值可以提升或降低模型的精确率和召回率，也就是说使用精确率和召回率这对指标进行评价时会使得模型多了“阈值”这样一个超参数，并且这个超参数会直接影响模型的泛化能力。在数学上正好存在ROC曲线能够帮助我们形象化地展示这个变化过程。



ROC曲线是一个画在二维平面上的曲线，平面的横坐标是假正类率（FalsePositive Rate，简称FPR），计算公式为：


FPR=FP/(FP+TN)
纵坐标是真正类率（True Positive Rate，简称TPR），计算公式为：


TPR=TP/(TP+FN)
对于一个分类器而言，每一个阈值下都会有一个FPR和TPR，这个分类器就可以映射成ROC平面上的一个点。当我们调整这个分类器分类时使用的阈值，就可以得到一个经过(0,0)，(1, 1)的曲线，这条曲线就是这个分类器的ROC曲线，如下图所示。


ROC曲线

从图中可以看到，所有算法的ROC曲线都在y=x这条线的上方，因为y=x表示了随机的猜测的概率。所有二分类问题随便猜正确或不正确都是50%的准确率。



一般情况下不存在比随机猜测的准确率更糟糕的算法，因为我们总是可以将错误率转换为正确率。如果一个分类器的准确率是40%，那么将两类的标签互换，准确率就变为了60%。



从图中可以看出来，最理想的分类器是到达(0,1)点的折线，代表模型的准确率达到100%，但是这种情况在现实中是不存在的。如果我们说一个分类器A比分类器B好，实际上我们指的是A的ROC曲线能够完全覆盖B的ROC曲线。如果有交点，只能说明A在某个场合优于B，如下图所示。


分类器A与分类器B的ROC曲线

ROC曲线通常搭配着它对应的比率图一起使用，我们继续用猫狗图片分类的例子说明这两个图怎么看。原本我们猫狗的图片各有500张，如所示图形的X轴代表预测的概率值，Y轴代表观察的数量。



假设我们用一个新的分类器对图片进行分类，分类结果用黑色线代表狗图片的分布，用灰色代表猫图片的分布。模型给出的分值越高代表模型判断这张图片是猫的把握越大，反之模型的给出的分值越低代表模型判断这张图片不是猫的把握越大，也就是说这张图片更有可能是狗。



从下图中可以看出来这个分类器的分类效果还是挺好的，基本上基本把两个物群的分布分开，ROC曲线也非常靠近（0,1）这个点。


某分类器下的ROC曲线

如上图所示，如果将阈值设为0.3，左边划线部分的面积代表模型判断为狗的图片数量有300张左右，并且从图中可以看出来这300张图片全部分类正确。



如果将阈值设为0.5，则左边划线部分的面积代表模型判断为狗的图片有530张左右，从图中重叠部分可以看出来大约有40个分类结果是包含错误分类的，这些错误分类包括实际是狗的图片被分成猫的情况以及实际是猫的图片被分类成狗的情况。


0.3阈值与0.5阈值下的分类结果

这时候我们用另外一个分类器再进行分类，结果如图3-16所示。可以看到整个分类结果向右偏移，同时模型的效果变差，因为两个分类结果重叠的部分变大，无论我们把阈值设在哪里都会比上一个分类器产生更多的错误分类。



假如这时我们采用“宁可抓错，不可放过”的原则把阈值设置为0.8，则右边划线部分只有200个左右不会被分类为狗的图片，其余800个结果全部会被判定为狗的图片，尽管这里面有350个分类结果是错误的结果。


新的分类器下的ROC曲线

从上述例子中看出来，ROC曲线可以帮助我们从图像的角度分辨两个分类结果的分布情况以及选择模型合适的阈值。因此也是很多产品经理比较喜爱的指标之一。



这时很多读者可能会有疑问，既然已经有那么多评价标准，为什么还要使用ROC呢？



原因在于ROC曲线有个很好的特性：当测试集中的正负样本的分布变换的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡，即正负样本比例差距较大，而且测试数据中的正负样本也可能随着时间变化，使用ROC曲线不管是数据集怎么变换，都有直观的展示效果。

05 AUC值

ROC曲线一定程度上可以反映分类器的分类效果，但始终是以图像的形式，不能告诉我们直接的结果。我们希望有一个指标，这个指标越大代表模型的效果越好，越小代表模型的效果越差。于是引入了AUC值（Area Under Curve）的概念。



AUC是数据分析中最常用的模型评价指标之一，实际上AUC代表的含义就是ROC曲线下的面积，如下图所示，它直观地反映了ROC曲线表达的分类能力。AUC值通常大于0.5小于1，AUC（面积）越大的分类器，性能越好。


AUC值的图形展示

AUC值的定义是：从所有正类样本中随机选取一个样本，再从所有负类样本中随机选取一个样本，然后分类器对这两个随机样本进行预测，把正类样本预测为正类的概率为p1，把负类样本预测为正类的概率为p0，p1>p0的概率就等于AUC值。



即AUC值是指随机给定一个正样本和一个负样本，分类器输出该正样本为正的概率值比分类器输出该负样本为正的那个概率值要大的可能性，AUC值越高代表模型的排序能力越强。理论上，如果模型把所有正样本排在负样本之前，此时AUC的取值为1，代表模型完全分类正确，但这种情况在实际中不可能出现。



总结AUC值的四种取值结果有：

AUC=1时，代表采用这个预测模型，不管设定什么阈值都能得出完美预测，模型能够将所有的正样本都排在负样本前面。但是在现实中不存在完美的分类器。



0.5<AUC<1时，代表模型的效果比随机猜测的准确率高，也就是说模型能够将大部分的正样本排在负样本前面，模型有一定的预测价值。



AUC=0.5时，代表模型的预测效果与随机猜测一样，只有50%的准确率。也就是说模型完全不能区分哪些是正样本哪些是负样本，没有预测价值。



AUC<0.5时，代表模型的预测效果比随机猜测还差；但只要将样本正负例互换，结果就能优于随机猜测。

数据采集与分析的指标有哪些

6. 什么是数据分析？

7. 什么是数据分析？

数据分析有：分类分析，矩阵分析，漏斗分析，相关分析，逻辑树分析，趋势分析，行为轨迹分析，等等。 我用HR的工作来举例，说明上面这些分析要怎么做，才能得出洞见。
01） 分类分析比如分成不同部门、不同岗位层级、不同年龄段，来分析人才流失率。比如发现某个部门流失率特别高，那么就可以去分析。
02） 矩阵分析比如公司有价值观和能力的考核，那么可以把考核结果做出矩阵图，能力强价值匹配的员工、能力强价值不匹配的员工、能力弱价值匹配的员工、能力弱价值不匹配的员工各占多少比例，从而发现公司的人才健康度。
03） 漏斗分析比如记录招聘数据，投递简历、通过初筛、通过一面、通过二面、通过终面、接下Offer、成功入职、通过试用期，这就是一个完整的招聘漏斗，从数据中，可以看到哪个环节还可以优化。
04） 相关分析比如公司各个分店的人才流失率差异较大，那么可以把各个分店的员工流失率，跟分店的一些特性（地理位置、薪酬水平、福利水平、员工年龄、管理人员年龄等）要素进行相关性分析，找到最能够挽留员工的关键因素。
05） 逻辑树分析比如近期发现员工的满意度有所降低，那么就进行拆解，满意度跟薪酬、福利、职业发展、工作氛围有关，然后薪酬分为基本薪资和奖金，这样层层拆解，找出满意度各个影响因素里面的变化因素，从而得出洞见。
06） 趋势分析比如人才流失率过去12个月的变化趋势。
07）行为轨迹分析比如跟踪一个销售人员的行为轨迹，从入职、到开始产生业绩、到业绩快速增长、到疲惫期、到逐渐稳定。

通过面向企业业务场景提供一站式大数据分析解决方案，能够为企业在增收益、降成本、提效率、控成本等四个角度带来价值贡献。
1、增收益
最直观的应用，即利用数据分析实现数字化精准营销。通过深度分析用户购买行为、消费习惯等，刻画用户画像，将数据分析结果转化为可操作执行的客户管理策略，以最佳的方式触及更多的客户，以实现销售收入的增长。
下图为推广收支测算分析，为广告投放提供决策依据。

下图为渠道销量分析，为渠道支持提供数据支撑。

2、降成本
例如通过数据分析实现对财务和人力的管理，从而控制各项成本、费用的支出，实现降低成本的作用。
下图为生产成本分析，了解成本构成情况。

下图为期间费用预实对比分析，把控费用情况。


3、提效率
每个企业都会出具相关报表，利用数据分析工具，不懂技术的业务人员也能够通过简单的拖拉拽实现敏捷自助分析，无需业务人员提需求、IT人员做报表，大大提高报表的及时性，提高了报表的使用效率。
通过数据分析工具，能够在PC端展示，也支持移动看板，随时随地透视经营，提高决策效率。
4、控风险
预算是否超支？债务是否逾期？是否缺货了、断货了？客户的回款率怎么样？设备的运行是否正常？哪种产品是否需要加速生产以实现产销平衡？...其实，几乎每个企业都会遇到各种各样的风险问题。通过数据分析，能够帮助企业进行实时监测，对偏离了预算的部分、对偏离了正常范围的数值能够进行主动预警，降低企业风险。
下图为税负率指标，当综合税负率过高，可以实现提示和预警。


下图为重要指标预警，重点监控项目的毛利率。

什么是数据分析？

8. 什么是数据分析？

数据分析（Data Analysis） 数据分析概念 
　　数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 
　　数据也称观测值，是实验、测量、观察、调查等的结果，常以数量的形式给出。 
　　数据分析与数据挖掘密切相关，但数据挖掘往往倾向于关注较大型的数据集，较少侧重于推理，且常常采用的是最初为另外一种不同目的而采集的数据。 数据分析的目的与意义 
　　数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来，以找出所研究对象的内在规律。 
　　在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据分析是组织有目的地收集数据、分析数据，使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期，包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。例如J.开普勒通过分析行星角位置的观测数据，找出了行星运动规律。又如，一个企业的领导人要通过市场调查，分析所得数据以判定市场动向，从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。 数据分析的功能 
数据分析主要包含下面几个功能： 
　　1. 简单数学运算（Simple Math） 
　　2. 统计（Statistics） 
　　3. 快速傅里叶变换（FFT） 
　　4. 平滑和滤波（Smoothing and Filtering） 
　　5. 基线和峰值分析(Baseline and Peak Analysis) 
 
数据分析的类型 
　　在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。 
　　探索性数据分析：是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。 
　　定性数据分析：又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据（或者说资料）的分析。 
 
数据分析步骤 
　　数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步： 
　　1、探索性数据分析，当数据刚取得时，可能杂乱无章，看不出规律，通过作图、造表、用各种形式的方程拟合，计算某些特征量等手段探索规律性的可能形式，即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 
　　2、模型选定分析，在探索性分析的基础上提出一类或几类可能的模型，然后通过进一步的分析从中挑选一定的模型。 
　　3、推断分析，通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 
 
数据分析过程实施 
　　数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。 
　　一、识别信息需求 
　　识别信息需求是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求，提出对信息的需求。就过程控制而言，管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。 　　二、收集数据 
　　有目的的收集数据，是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑： 
　　① 将识别的需求转化为具体的要求，如评价供方时，需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据； 
　　② 明确由谁在何时何处，通过何种渠道和方法收集数据； 
　　③ 记录表应便于使用； 
　　④ 采取有效措施，防止数据丢失和虚假数据对系统的干扰。 
 
　　三、分析数据 
　　分析数据是将收集的数据通过加工、整理和分析、使其转化为信息，通常用方法有： 
　　老七种工具，即排列图、因果图、分层法、调查表、散步图、直方图、控制图； 
　　新七种工具，即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图； 
 
　　四、数据分析过程的改进 
　　数据分析是质量管理体系的基础。组织的管理者应在适当时，通过对以下问题的分析，评估其有效性： 
　　① 提供决策的信息是否充分、可信，是否存在因信息不足、失准、滞后而导致决策失误的问题； 
　　② 信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致，是否在产品实现过程中有效运用数据分析； 
　　③ 收集数据的目的是否明确，收集的数据是否真实和充分，信息渠道是否畅通； 
　　④ 数据分析方法是否合理，是否将风险控制在可接受的范围； 
　　⑤ 数据分析所需资源是否得到保障。