评估指标体系

2024-04-30 08:01

1. 评估指标体系

2.2.1 矿山地质环境背景条件
包括地貌、地质灾害分布、植被、年平均降雨量、土地利用和人口密度；
2.2.2 采矿活动影响
包括矿山地质灾害、土地资源占用和破坏、废水排放、固体废弃物排放、地下水均衡破坏五个指标层和11项评估因子。

评估指标体系

2. 分类指标

 评估结果用于反应模型的好坏，必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的，使用不同的评估指标对模型的判定会得到不一样的结果。   评估指标根据任务类型可以分为：分类指标、回归指标、聚类指标和排序指标等，本文主要关注分类指标。   分类的评价指标一般是分类准确率（accuracy）：对于给定的数据集，分类正确的样本数与总的样本数之比。准确率在二分类与多分类都能应用。   对于二分类常用的指标为精确率（precision）与召回率（recall）。
                                           根据上图的混淆矩阵可以得出精确率与召回率的定义：   TP—将正类预测为正类的样本数；   FN—将正类预测为负类的样本数；   FP—将负类预测为正类的样本数；   TN—将负类预测为负类的样本数；   精确率定义为：        召回率定义为：        精确率可以理解为在所有预测为正类这个事件的准确率有多高，召回率可以理解为真正的正类有多少被挑选了出来。理想情况下，精确率和召回率都是越高越好，但是事实一般相反，精确率高的时候，召回率低；召回率高的时候，精确率低。因此需要结合实际业务看更关注哪一个指标来判定模型好坏，为了达到更好效果，设计了一些综合考虑精确率与召回率的指标，如 $F_1$ 值， $F_1$ 值是精确率和召回率的调和平均值：        精确率和召回率都高时，  值也会高。
   [ROC曲线]作为常用的二分类评价指标，其全称为接收者操作特征曲线（Receiver Operating Characteristic）。该曲线纵坐标真正率（TPR），横坐标为假正率（FPR），其定义如下：             则ROC曲线位于横纵坐标阈值都为0-1之间，因此首先考虑4个特殊点（0，0）、（1， 1）、（0， 1）、（1， 0）。（0， 0）点表示TPR=FPR=0，即TP=FP=0，表示该分类器将所有样本都分为负类。同理，（1， 1）表示分类器将所有样本都分类为正类。（0， 1）点表示：FPR=0,TPR=1；意味着FP=0,FN=0，这样就是一个完美的分类器，正负类都分类完全正确。（1， 0）点表示TP=0, TN=0，这就是最糟糕的一个分类器，完美错过所有正确答案。综上，ROC曲线上的点越靠近左上方，那么该分类器就越好。   
                                           
   每一对TPR与FPR值可以描绘出一个点，为了得到一条ROC曲线，需要调整不同的预测概率，来得到不同TPR于FPR值对，这样就可以得到一条ROC曲线。AUC（Area under the Curve of ROC）即ROC曲线下的面积，取值越大说明正确率越高。
   sklearn.metrics模块实现了一些loss, score以及一些工具函数来计算分类性能。   一些二分类(binary classification)使用的case：

3. 评估种类分类12类

你好，很高兴能够解答您的问题，主要有以下12类，1、土地使用权出让和挂牌土地使用权的价格评估；2、企业改制、上市、资产重组、联营、兼并、合并、破产清算等各种经济活动中涉及房地产估价；3、房地产抵押价值评估；4、专业仲裁及司法诉讼中有关房地产价格评估；5、征地和房屋拆迁补偿评估；6、房地产转让价格评估；7、房地产租赁价格评估；8、房地产分割、合并估价；9、房地产拍卖底价评估；10、房地产课税价格评估；11、房地产保险评估；12、其他目的的房地产评估。希望我的回答对您能有所帮助，祝您生活愉快！【摘要】
评估种类分类12类【提问】
你好，很高兴能够解答您的问题，主要有以下12类，1、土地使用权出让和挂牌土地使用权的价格评估；2、企业改制、上市、资产重组、联营、兼并、合并、破产清算等各种经济活动中涉及房地产估价；3、房地产抵押价值评估；4、专业仲裁及司法诉讼中有关房地产价格评估；5、征地和房屋拆迁补偿评估；6、房地产转让价格评估；7、房地产租赁价格评估；8、房地产分割、合并估价；9、房地产拍卖底价评估；10、房地产课税价格评估；11、房地产保险评估；12、其他目的的房地产评估。希望我的回答对您能有所帮助，祝您生活愉快！【回答】

评估种类分类12类

4. 企业评价指标的指标分类

企业的评价指标按照数量化的程度可以分为计量指标和非计量指标。计量指标就是数值分析指标，它还可以继续细分，按计量方式不同，分为价值量指标和实物量指标；按用途不同，分为总量指标和比率指标。计量指标较为具体、直观，评价时有明确的实际数值和可供参考的标准值，评价结果表现为具体的分数，对企业所作的评价结论直接、明确，给外界的印象清晰。非计量指标即是人们通常说的定性指标，一般采用基本概念、属性特征、通行惯例等对被评价对象的某一方面进行语言描述和分析判断，达到剖析问题和解决问题的目的。非计量指标的特点是外延宽、内涵广，难以具体化。但非计量指标能将无法计量却反映了企业某方面状况的潜在因素纳入评价范围，通过分析判断，验证计量指标评价结果得出综合评价结论。对非计量指标进行评价计分，关键是要严格定义指标的内涵，并给出评价参考标准，如此才能实现经验判断的分数转换，融入整个评价指标体系。

5. 分类模型评估指标

 本篇先考虑二分类问题，记录常用到的评估指标。
   假设在训练之前和预测之后，一个样本的标记是确定的两个类别，一个是真实的1/0，一个是预测的1/0，其中1表示正例、0表示负例。
                                           其中：TP（实际为正预测也为正）、FP（实际为负但预测为正）、TN（实际为负预测也为负）、FN（实际为正但预测为负）
   通过混淆矩阵，可以给出以下各指标的值：
   查准率和查全率是一对矛盾的度量，一般来说，一个高的时候，另一个就低。
    F1值 --- 查准率与查全率的加权调和平均数    （1）当认为查准率与查全率一样重要时，即权重相同时：
                                           （2）当查准率和查全率的重要性不一样时，即权重不同时：   一般对于不同的问题，查准率与查全率的侧重不同。因此，F1值的一般形式为：
                                           其中β表示查全率与查准率的权重。下面对该这个一般形式的公式进行推导：   两个指标的设置及其关系如下，因为只考虑这两个指标，故二者权重之和为1，即：
                                           由上式可得到
                                           因此，可得带权重的调和平均数公式可变为
                                           进一步推导，可得
                                           总结
   在介绍ROC曲线前，先明确以下几个概念，在混淆矩阵中    真阳性率 (True Positive Rate, TPR )，灵敏度( Sensitivity )，召回率( Recall )：    Sensitivity=Recall=TPR= TP/(TP+FN)     真阴性率 (True Negative Rate, TNR )，特异度( Specificity )：    Specificity=TNR=TN/(FP+TN)     假阴性率 (False Negative Rate, FNR )，漏诊率(=1-灵敏度)：    FNR=FN/(TP+FN)     假阳性率 (False Positive Rate, FPR )，误诊率(=1-特异度)：    FPR=FP/(FP+TN) 
    ROC曲线 ：接收者操作特征曲线(receiver operating characteristic curve)，是反映敏感性和特异性连续变量的综合指标，ROC曲线上每个点反映着对同一信号刺激的感受性。
   下图是一个ROC曲线示例：
                                           在一个二分类模型中，例如逻辑回归学习器，针对其输出的每个样本为正例的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类，对应的就可以算出一个组（FPR,TPR），在平面中就得到对应的坐标点。随着阈值的逐渐减小，越来越多的样本被归为正类，但是这些正类中也会夹杂着真正的负例，即TPR和FPR会同时增大。阈值最大时为，对应的坐标为(0,0)，阈值最小时，对应的坐标为(1,1)。    理想目标 ：TPR=1，FPR=0，即图中的(0,1)点，所以ROC曲线越靠拢(0,1)点，即越偏离45度的直线越好。
    AUC值    AUC（Area Under Curve）被定义为ROC曲线下的面积。使用AUC值作为衡量模型准确性的评价标准是因为ROC曲线很多时候不能清晰的说明哪个分类模型的效果更好，而作为一个数值，对应AUC更大的模型效果更好，AUC值越接近1模型的效果越好。
   从AUC值判断模型的好坏：
   在评价模型时还会用到KS(Kolmogorov-Smirnov)值，KS=max(TPR-FPR)，即为TPR与FPR的差的最大值，KS值可以反映出模型的最优区分效果，此时所取的阈值一般作为定义好坏用户的最优阈值。一般KS>0.2认为模型有比较好的预测准确性。
                                           KS曲线的最高点(最大值)为KS值，KS值越大，模型的区分度越好，KS值为0代表是没有区分度的随机模型。准确的来说，KS是用来度量正样本与负样本区分程度的。但是KS值所代表的仅仅是模型的区分能力，并不代表区分的样本是准确的。如果正负样本完全分错，但KS值可以依旧很高。
   Lift提升图是不同阈值下Lift和Depth的轨迹。
                                                                                   Lift指标衡量的是，与不利用模型相比，模型的预测能力“变好”了多少。不利用模型，我们只能利用“正例的比例是(TP+FN)/(TP+FP+FN+TN)”这个样本信息来估计正例的比例（baseline model）,而利用模型之后，我们不需要从整个样本中来挑选正例，只需要从我们预测为正例的样本子集TP+FP中挑选正例，这时预测的准确率为TP/(TP+FP)。
   显然，lift（提升指数）越大，模型的运行效果越好。如果这个模型的预测能力和baseline model一样，那么TP/(TP+FP)就等于(TP+FN)/(TP+FP+FN+TN)，这个模型的效果就没有任何“提升”了。
   作图步骤：
                                           上图的纵坐标是lift值，横坐标是预测成正例的比例，随着阈值的减小，更多的观测值会被归为正例，也就是depth（预测成正例的比例）变大。当阈值设的够大，只有一部分观测值会被归为正例，但这一小部分一定是最具有正例特征的观测值集合，此时这个depth对应的lift值最大。同样地，当阈值设定的足够小的，那么几乎所有的观测值都会被归为正例(占比几乎为100%)，这时分类的效果就和baseline model差不多了，相对应的lift值就接近于1。
   一个好的分类模型，就是要偏离baseline model足够远。在Lift图中，表现就是，在depth为1之前，lift值一直保持较高的（大于1的）数值，也即曲线足够的陡峭。
   ROC曲线和Lift曲线都能评价逻辑回归模型的效果：
   Gains（增益）与Lift（提升）类似：Lift图是不同阈值下Lift和Depth的轨迹，Gains图是不同阈值下Precision和Depth的轨迹，而Precision=TP/TP+FP，显而易见地，它们的区别就是纵坐标不一样。   Gain增益图是描述整体精准率的指标。按照模型预测出的概率从高到低排序，将每一个百分位数内的精准率指标标注在图形区域内，就形成了非累积的增益图。如果对每一个百分位及其之前的精准率求和并标注在图形区域内，则形成累积的增益图。累积图通常可以更好的表现模型性能，而非累计图则更有利于指出模型中可能存在问题的地方。
    https://www.deeplearn.me/1522.html     https://cosx.org/2009/02/measure-classification-model-performance-lift-gain/

分类模型评估指标

6. 多分类算法的评估指标

 在以往的分类问题求解当中，我们遇到的问题多为二分类问题，我们常用的评估指标有accuracy, precision, recall_score, f1-score, roc_auc_score等。但是在实际生活中，多分类问题也是大量存在的。这一小节，我们就详细的说明一下多分类问题的评估指标。
                                           我们先来看一下sklearn库中的二分类的评估指标，以recall_score为例。在recall_score方法中，有一个很重要的参数'average'，它的默认值为'binary'。当在默认参数的情况，该评估方法只能求解二分类问题，如果将该评估方法用于多分类问题，则系统会报错。但'average'同时也向我们提供了其他四个用于解决多分类的问题的参数'micro','macro','weighted','samples'。下面我们以鸢尾花数据集为例来对这四个参数进行逐一说明。   [sklearn.metrics.recall_score](' https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html    ')
   我们以recall_score的计算为例，recall_score的计算公式如下：        为了计算recall_score，我们必须先计算出TP,FN值。我们采用sklearn中的混淆矩阵来计算TP,FN值。
   该分类问题的混淆矩阵如下，列为真实类别，行为预测类别：
    混淆矩阵（confusion matrix）说明：    TP(True positive)：把正例正确地预测为了正例，如把类别0预测为0的个数有16个。   FN(False negative)：把正例错误地预测为了负列，如把类别1预测为2的个数有5个。   FP(False positive)：把负例错误地预测为了正例，假设0为正例，错误地把1,2预测为0就是FP。   TN(True negative)：把负例正确地预测为了负例，假设0为正例，1,2为负例，正确地把1,2预测为1,2就是TN。   对于混淆矩阵，可以这样理解。第一个字母T/F，表示预测的正确与否；第二个字母P/N，表示预测的结果为正例或者负例。如TP就表示预测对了，预测的结果是正例，那它的意思就是把正例预测为了正例。
   Micro：把所有类汇总在一起计算出最终recall值，其计算公式如下：        在使用Micro参数时，其recall_score = (16+13+11)/(16+13+11+5) = 0.89。   使用sklearn.metrics方法计算：
   从上述计算结果可以看出，两者的计算结果是一致的，均为0.89。
   Macro：分别计算出每一类的recall值，再取算数平均值，其计算公式如下：        在使用Macro参数时，其recall_score = [16/(16+0+0) + 13/(0+13+5) + 11/(11+0+0)] * 1/3 = 0.91   使用sklearn.metrics方法计算：
   从上述计算结果可以看出，macro参数下的recall值为0.91。
   Weighted：分别计算每一类的recall值，再乘以各自的权重，然后求和，其计算公式如下：        计算各类的权重：
   在使用weighted参数时，其recall_score = 16/(16+0+0) * 0.356 + 13/(0+13+5)  * 0.4 + 11/(11+0+0) * 0.244 = 0.89   使用sklearn.metrics方法计算：
   从上述计算结果可以看出，weighted参数下的recall值为0.89。
   samples应用于多标签的分类问题，每一个样本拥有一个以上的标签。如一个感染病毒性肺炎的患者，就可以说他既属于病毒性肺炎患者这一类，也可以说他属于肺炎患者类。
    小结：    1.对于多分类算法的评估，我们需要将sklearn.metrics.recall_score中的'average'参数修改为'micro'或'macro'或者'weighted'。   2.在这个例子当中，我们以recall来举例，像其他的评估指标precision, roc_auc_score, f1-score都是采用同样的方法。
    文章参考：    [1]. https://zhuanlan.zhihu.com/p/59862986

7. 评价-分类算法的评价指标

 对于二元分类，通常可以输出混淆矩阵，看预测的情况，并从中总结出一些指标，给予评价。   混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等，这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中，混淆矩阵（confusion matrix）是可视化工具，特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中，主要用于比较分类结果和实际测得值，可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。
   以二元分类举例，混淆矩阵为：
   每个样本会对应一个预测值和一个实际标签值，从上图可以知道，实际为1分类，预测结果也是1分类的有100个，而实际是0，预测是1的有3个，以此类推。
   为了方便记忆，混淆矩阵的各个单元格有一个统一的称呼：
   True很好理解，就是预测对了的，Positive代表的意思是实际分类为1的值，Negative代表的是实际分类为0的值。括号里面的就是简称了，这在后面会有用处。
   假定1为正样本，0为负样本，则混淆矩阵的各个单元格表述如下：
    真正率（true prositive rate, TPR） 或灵敏度（sensitivity）定义为被模型正确预测的正样本比例，为：  
   同理可得其他：
   从直观印象上来说，判断一个分类模型是不是准确，肯定是直接判断分类模型的正确率，这样就可以对模型有一个大概的评价，但是在某些时候，这么做并不靠谱：   假如我有一组产品，其中正品率可能是99.5%，次品率是0.5%，我的预测模型得到的结果是正品99%，次品1%，如果用正确率来算，是相当可观的，但是实际上次品的预测差距是整整1倍，很难说这是一个好的模型。    这种不同类的样本数量完全不成比例的情况，叫做不平衡类（倾斜类）。 
   对于这种分类，可以根据混淆矩阵来设计一些指标，从而评估模型，精准率就是其中之一：      精准率从公式上看，表达的意思就是预测为正样本的样本中，有多少是真正为正的，代表了预测的精确程度 。以下面的混淆矩阵为例：
        所以精准率就是0.9804。
   同上，召回率也是从混淆矩阵中总结出来的指标：      表达的意思则是，实际为正样本的个数中，有多少被成功的预测了 （有点类似于我现在从事行业的回收率，姑且这么理解吧）   还是上面的矩阵，那么召回率就是  
   事实上一个模型大部分时候是很难做到精确率和召回率两全的，有可能追求完美的精确率但是召回率很低，反之也一样，为了同时最大化精确率和召回率，可以用F1值对分类模型进行评价：     这个值肯定是在小于1的范围以内，原则上越大越好了。
   ROC曲线是显示分类算法真正率和假正率之间折中的一种可视化方法，把真正率（TPR）作为y轴，假正率（FPR）作为x轴。   设定一个阈值，阈值之上的样本为正样本，之下为负样本，阈值降低，则真正率越高，假正率也会越高（因为判断正样本的条件宽松了），所以ROC曲线应该是x轴和y轴同时增长的，如图：
                                           如果是一个随机分类，则ROC曲线应该是沿着对角线的，如果是分类算法，那么图像越靠近左上角，模型效果越好（假正率很低的时候真正率高）。
   AUC是ROC曲线下方的面积，很显然，面积越大越好，如果模型是完美的，那么面积等于1，如果是随即分类，那么就是0.5。
   以上这几种常用方法都是二元分类的方法，其中有一些也可以扩展到多分类，另外还有多分类专用的评价方法。
   转自 https://www.zhihu.com/question/56403549/answer/151310817    应用多分类问题，把每个类别单独视为”正“，所有其它类型视为”负“，考虑如下的混淆矩阵：
   Kappa统计是比较两个或多个观测者对同一事物，或观测者对同一事物的两次或多次观测结果是否一致，这个系数的取值范围是[-1,1]，实际应用中，一般是[0,1]，这个系数的值越高，则代表模型实现的分类准确度越高。
   Kappa统计数字的意义如下：
          其中，p0表示为总的分类准确度;   pe表示为
        其中，  代表第i类真实样本个数，  代表第i类预测出来的样本个数。
                                           对于该表中的数据，则有：
               
   海明距离也适用于多分类的问题，简单来说就是衡量预测标签与真实标签之间的距离，取值在0~1之间。距离为0说明预测结果与真实结果完全相同，距离为1就说明模型与我们想要的结果完全就是背道而驰。
   它与海明距离的不同之处在于分母。当预测结果与实际情况完全相符时，系数为1；当预测结果与实际情况完全不符时，系数为0；当预测结果是实际情况的真子集或真超集时，距离介于0到1之间。   我们可以通过对所有样本的预测情况求平均得到算法在测试集上的总体表现情况。
   铰链损失（Hinge loss）一般用来使“边缘最大化”（maximal margin）。损失取值在0~1之间，当取值为0，表示多分类模型分类完全准确，取值为1表明完全不起作用。
   参考： https://www.jianshu.com/p/573ba75aec94

评价-分类算法的评价指标

8. 评核指标分类指

从绩效考核指标的性质和结构以及侧重点来看，目前企业常用的考核指标可分为三类。

1、品质特征型考核指标

这类考核指标主要是以评估员工的个性、品质、潜能、兴趣为主。主要是通过员工过去的工作行为表现出来的个人品质和发展潜力进行评估。品质特征型考核指标适用于员工能力评估。
2、行为过程型考核指标

这类考核指标主要侧重于对员工工作过程的考核，包括员工工作中的工作方式和工作行为。此类指标适用于无法直接产生绩效结果的岗位，如一些辅助性岗位和服务性岗位。

3、工作结果型考核指标

这类考核指标主要侧重于对员工工作结果和工作质量的考核，如产量、效率、质量等。此类指标适用于能直接产生绩效结果的岗位。

工作结果型考核指标通常具体表现为任务完成性指标、质量指标、工作效率指标以及成本费用指标等，一般可以分为以下几种：
        1） 任务完成性指标。指那些直接显示绩效成果的指标，通过任务完成性指标来【摘要】
评核指标分类指【提问】
从绩效考核指标的性质和结构以及侧重点来看，目前企业常用的考核指标可分为三类。

1、品质特征型考核指标

这类考核指标主要是以评估员工的个性、品质、潜能、兴趣为主。主要是通过员工过去的工作行为表现出来的个人品质和发展潜力进行评估。品质特征型考核指标适用于员工能力评估。
2、行为过程型考核指标

这类考核指标主要侧重于对员工工作过程的考核，包括员工工作中的工作方式和工作行为。此类指标适用于无法直接产生绩效结果的岗位，如一些辅助性岗位和服务性岗位。

3、工作结果型考核指标

这类考核指标主要侧重于对员工工作结果和工作质量的考核，如产量、效率、质量等。此类指标适用于能直接产生绩效结果的岗位。

工作结果型考核指标通常具体表现为任务完成性指标、质量指标、工作效率指标以及成本费用指标等，一般可以分为以下几种：
        1） 任务完成性指标。指那些直接显示绩效成果的指标，通过任务完成性指标来【回答】