决策树

发表于 2016-06-17 | 分类于机器学习 |

基本概念

决策树是一种常见的分类算法。

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

缺点：可能会产生过度匹配问题。

适用数据类型：数值型和标称型。

阅读全文 »

设计原则

发表于 2016-05-23 | 分类于 OOP |

背景

本文为《冒号课堂：编程范式与OOP思想》一书中第十二课的思考与总结。

阅读全文 »

值与引用

发表于 2016-05-23 | 分类于 OOP |

背景

本文为《冒号课堂：编程范式与OOP思想》一书中第十一课的思考与总结。

阅读全文 »

多态机制

发表于 2016-05-23 | 分类于 OOP |

背景

本文为《冒号课堂：编程范式与OOP思想》一书中第十课的思考与总结。

阅读全文 »

Python排序总结

发表于 2016-05-18 | 分类于 Python |

简介

本文对Python的排序方法做一个总结，主要的参照是Andrew Dalke的“Sorting Mini-HOWTO”。

阅读全文 »

Python多条件排序

发表于 2016-05-18 | 分类于 Python |

背景

全球三大MOOC网站之一的Udacity进入了中国市场，更名为优达学城,还给了一个月的免费学习时间！我一下瞄准了一门机器学习工程师的纳米学位，上之前，有几个测试的题目，其中有一个Python排序题还蛮有意思的：

统计 Python 中的字数

阅读全文 »

Python中range与xrange比较

发表于 2016-05-15 | 分类于 Python |

用法

Python中的range和xrange基本都是在循环的时候使用，输出结果是一样的：

阅读全文 »

Python中重要数据结构总结

发表于 2016-05-14 | 分类于 Python |

简介

本文主要对Python中一些重要的内置数据结构做一个梳理，主要包括列表(list)、元组(tuple)和字典(dict)。

阅读全文 »

k-近邻算法(kNN)

发表于 2016-05-14 | 分类于机器学习 |

kNN简介

简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

它的工作原理是：存在一个样本数据集合，也称做训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

阅读全文 »

ggplot2减少重复性工作

发表于 2016-05-07 | 分类于 R语言 |

简介

好的数据分析都应该具有灵活性这一优点。如果数据发生变化，或者出现一些很不利于基本假设的信息时，这时候我们应该能够快速、便捷地更改之前的图形。下面主要介绍三种减少重复性工作的方法。

阅读全文 »

zzanswer

学而不思则罔，思而不学则殆