过拟合与欠拟合
[toc]
过拟合与欠拟合,偏差与方差过拟合与欠拟合过拟合直观理解就是模型在训练集上表现很好,但是对于没见过的样本,或者在测试集上的表现很差,过拟合产生的原因很有可能是模型不止学习到了数据分布的一般特征,还学习到了训练集特殊特征,通常这种模型对应着高方差的模型。
欠拟合与过拟合相反,欠拟合在训练集上的表现就很差,一般这种模型相对于数据而言表示能力不够强,或者复杂度比较低。对应着高偏差的模型。
方差与偏差以回归为例来解释,给定了一个数据集D,并且假设D是存在一个完美的函数F(x)产生了数据的子集,我们希望通过D来拟合推测F(x),一个模型在数据D上拟合出来的函数$ g(x;D)$,我们肯定是希望
...
决策树
[toc]
决策树##分类树 分类树的生成过程:当前节点,特征集A,数据集D,先判断能不能分裂节点,数据集中只有一种类别,或者特征集中的特征在数据集上的类别表现一样,没办法分再或者数据集的样本比较少了,达到了预先设定的最小分裂数目,前面一种情况就停止分裂,直接当做叶子节点,类别直接是数据集样本类别,后两种情况类别取决于哪种类别多。在能节点能够分裂的前提下,要先判断选择哪种特征进行节点分裂,这一步是决策树最重要的一步,不同的分裂手段产生了不同的决策树,分裂后继续递归。
节点分裂标准 首先熵的概念:$Ent(D) = -\sum_{i=1}^C p_i
...
机器学习模型评价指标
机器学习模型评价指标分类模型的评价指标,准确率P、召回率R、F1、PR曲线、ROC、AUC混淆矩阵 假设问题为二分类问题,样本中有一部分正例和一部分反例,用一个模型F对这组样本预测,预测的结果中有正例(P)有反例(N),有的预测对了,有的预测错了,若一个正(反)样本预测成了正(反)值,这时候就叫做真正例、真反例(TP,TN),但是有的正样本预测成了反样本,反样本预测成了正样本,这是就分别叫做假反例和假正例(FN,FP),我们就基于这些值来评估一个模型的好坏。
查准率与查全率 评估模型的好坏,首先要知道我们主要关注的是什么,先说P和R的定义。$ P = \frac{TP}{TP+FP} $,意思
...
《Hands on sklearn & TensorFlow》读书笔记--end to end machine learning project
[toc]
end to end machine learning project这一章主要介绍了整个机器学习的过程,从获取数据处理数据开始,然后到应用到模型,调整模型。本章数据为加州某个时期房价的数据,所以主要的任务是一个回归任务,下面具体总结一下作者在这一章主要传授的观点和自己的一些收获。
Look at the big picture也就是说,在可是意向任务之前,需要思考一下,你需要解决一个什么样的问题?期望得到的结果是什么?为了得到这样的结果需要做哪些工作?手头有哪些数据?需不需要获取额外的data?可以把这个问题抽象成一个什么样的问题?supervised or unsupervis
...