Fork me on GitHub
phi的博客

慢就是快!


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

《流畅的Python》读书笔记----第一章 Python数据模型

发表于 2018-11-11 | 分类于 读书笔记
字数统计: 401
[toc] 第一章 Python数据模型一摞Python风格的纸牌123456789101112import collectionsCard = collections.namedtuple('Card',['rank','suit'])class FrenchDeck: ranks = [str(n) for n in range(2,11)] + list("JQKA") suits = 'spades diamonds clubs hearts'.split() def __init__(self): self.__cards = [Card(rank,s ...
阅读全文 »

理解主成分分析(PCA)

发表于 2018-08-08 | 分类于 学习
字数统计: 1.2k
[toc] 理解主成分分析(PCA)PCA的推导过程涉及较多的数学知识,主要有SVD、特征值分解、Lagrange乘子法求解带约束优化问题、矩阵求导、子空间的概念等,如果对这些数学知识没有兴趣的话,可以只看下面一句话概括PCA。 PCA是用来降维的(废话),我们知道在n维空间正交基有无数组,一般我们使用的都是标准正交基,有了标准正交基就可以得到任意一个向量的坐标表示,开始时我们拿到的样本都是标准正交基下的坐标,PCA本质上是在n维特征空间重新找一组正交基(可以理解为将坐标轴旋转了一下),然后计算出样本在这组新正交基下的坐标,这就是PCA所做的工作,如何找这样的一组正交基呢,就是下文中的推导过 ...
阅读全文 »

KKT条件是怎么来的--约束优化问题的最优性条件

发表于 2018-07-23 | 分类于 学习
字数统计: 2.4k
最优性条件是最优化理论重要的组成部分,本文详细介绍了带约束优化问题的最优性条件--KKT条件是如何一步步被推导出来的。
阅读全文 »

《推荐系统实践》读书笔记

发表于 2018-07-18 | 分类于 读书笔记
字数统计: 5k
《推荐系统实践》读书笔记第一章,好的推荐系统评价推荐系统好坏的指标 用户的满意度 准确率和召回率 覆盖率。覆盖率描述的是一个模型能够挖掘长尾数据的能力,一般定义为推荐商品的种类比上所有商品的类别,还可以用信息熵和基尼指数来定义。若覆盖率较低,则出现了马太效应,也就是说一个物品越流行,越容易被推荐,越被推荐,它的流行度就越高。 多样性。多样性描述了推荐列表中物品两两之间的不相似性。推荐给用户u的商品列表R(u)的多样性定义为:$$\text{Diversity} = 1-\frac{\sum_{i,j \in R(u),i\neq j}s(i,j)}{\frac{1}{2}|R(u)|(|R(u ...
阅读全文 »

几种常见的无约束优化算法

发表于 2018-07-11 | 分类于 学习
字数统计: 2k
本文介绍了梯度下降法、牛顿法、共轭梯度法和拟牛顿法的推导过程。
阅读全文 »

XGBoost

发表于 2018-07-08 | 分类于 学习
字数统计: 1.6k
[toc] XGBoost  XGBoost也是一种 Boosting 方法,是陈天奇大佬提出的,广泛应用于各大数据挖掘比赛,它几乎就是在GBDT的基础之上做了很多细节的优化,这些细节的优化使得XGBoost在很多数据集上拥有比GBDT更强的泛化性能。回归树在做节点分裂的时候需要遍历所有的特征,以确定最佳的特征进行分裂,这一算法在工程实现时,对特征选择进行了并行化处理,使得其在多核计算机上拥有更快的训练速度。 算法推导目标函数  上一篇讲解过GBDT,与GBDT类似,XGBoost也是基于前向分步加法模型进行迭代地求解每一个基学习器。在建立目标函数方面, ...
阅读全文 »

GBDT(Gradient Boosting Decision Tree)

发表于 2018-07-06 | 分类于 学习
字数统计: 1.9k
本文详细介绍了GBDT的提出背景以及推导过程,详细说明了对于不同的损失函数,每一步迭代的回归树究竟在拟合什么。
阅读全文 »

理解AdaBoost

发表于 2018-07-04 | 分类于 学习
字数统计: 1.8k
本文介绍了AdaBoost的算法流程和推导过程,并且详细分析了AdaBoost损失函数的特点。
阅读全文 »

支持向量机 vs 逻辑回归

发表于 2018-06-28 | 分类于 学习
字数统计: 1.5k
本文主要从以下方面对比了一下支持向量机和逻辑回归:1.目标函数,2.概率输出,3.核方法,4.对噪声的敏感程度。
阅读全文 »

分式二次规划问题的线性时间算法

发表于 2018-06-26 | 分类于 我的研究
字数统计: 558
针对分式二次规划问题,通过迭代地求解它的最优拉格朗日乘子,设计出一个线性时间复杂度的算法,并通过数值实验与主流的优化求解器做了一个比较。文章内容为正在投稿的一篇文章的概述(optimization letters 在投)。
阅读全文 »
123…5
phi

phi

41 日志
5 分类
10 标签
© 2019 phi | Site words total count: 53k
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4