R语言之bagging和随机森林 发表于 2016-08-26 | 分类于 R语言 | 背景之前我们用过决策树算法,决策树有一些缺点,其中有一个就是训练方法很高,在这里,我们使用bagging技术来改进决策树模型,并且还会用到随机森林。 阅读全文 »
R语言之聚类分析 发表于 2016-08-22 | 分类于 R语言 | 背景聚类分析的目的是将观测数据聚为若干个簇(cluster)。与其他簇的数据相比,簇中的每个数据和本簇的数据更加相似。这里讨论两种方法:层次聚类和k-means聚类算法。 阅读全文 »
R语言之Logistic回归 发表于 2016-08-20 | 分类于 R语言 | 背景Logistic回归通常情况下会用在分类问题中,一般是二分类问题。Logistic回归直接将预测限定在(0, 1)区间内,因此也可以将它理解为线性回归的归一化。 阅读全文 »
R语言之线性回归 发表于 2016-08-19 | 分类于 R语言 | 背景线性回归是一种最基本的预测方法。线性回归根据数值型或类别型输入(称为自变量)建模一个数值型的期望值(称作因变量)。 阅读全文 »
支持向量机 发表于 2016-08-14 | 分类于 机器学习 | 概念介绍支持向量机(support vector machines, SVM)是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。 阅读全文 »
leetcode Add Two Numbers 发表于 2016-07-12 | 分类于 数据结构与算法 | 题目You are given two linked lists representing two non-negative numbers. The digits are stored in reverse order and each of their nodes contain a single digit. Add the two numbers and return it as a linked list. Input: (2 -> 4 -> 3) + (5 -> 6 -> 4) Output: 7 -> 0 -> 8 阅读全文 »
Logistic回归 发表于 2016-06-26 | 分类于 机器学习 | 概念介绍回归指的是假设现在有一些数据点,我们用一条直线对这些点进行拟合,这个拟合过程叫回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。 阅读全文 »
朴素贝叶斯 发表于 2016-06-23 | 分类于 机器学习 | 基本概念朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。其中朴素指的就是特征条件独立,贝叶斯指的是基于贝叶斯定理。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 阅读全文 »