决策树 发表于 2016-06-17 | 分类于 机器学习 | 基本概念决策树是一种常见的分类算法。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。 阅读全文 »
Python排序总结 发表于 2016-05-18 | 分类于 Python | 简介本文对Python的排序方法做一个总结,主要的参照是Andrew Dalke的“Sorting Mini-HOWTO”。 阅读全文 »
Python多条件排序 发表于 2016-05-18 | 分类于 Python | 背景全球三大MOOC网站之一的Udacity进入了中国市场,更名为优达学城,还给了一个月的免费学习时间!我一下瞄准了一门机器学习工程师的纳米学位,上之前,有几个测试的题目,其中有一个Python排序题还蛮有意思的: 统计 Python 中的字数 阅读全文 »
Python中range与xrange比较 发表于 2016-05-15 | 分类于 Python | 用法Python中的range和xrange基本都是在循环的时候使用,输出结果是一样的: 阅读全文 »
Python中重要数据结构总结 发表于 2016-05-14 | 分类于 Python | 简介本文主要对Python中一些重要的内置数据结构做一个梳理,主要包括列表(list)、元组(tuple)和字典(dict)。 阅读全文 »
k-近邻算法(kNN) 发表于 2016-05-14 | 分类于 机器学习 | kNN简介简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 它的工作原理是:存在一个样本数据集合,也称做训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。 阅读全文 »
ggplot2减少重复性工作 发表于 2016-05-07 | 分类于 R语言 | 简介好的数据分析都应该具有灵活性这一优点。如果数据发生变化,或者出现一些很不利于基本假设的信息时,这时候我们应该能够快速、便捷地更改之前的图形。下面主要介绍三种减少重复性工作的方法。 阅读全文 »