zzanswer读paper之Big Data Opportunities and Challenges:Discussions from Data Analytics Perspectives

背景

这篇paper题目是Big Data Opportunities and Challenges:Discussions from Data Analytics Perspectives,大意是从数据分析的角度来讨论大数据的机遇和挑战。论文的作者之一是南京大学教授周志华老师,周志华老师是机器学习的大牛,同时也是西瓜书的作者。论文地址在这里

思维导图

下面的图是根据论文的标题整理出来的大致提纲,先宏观看一下行文思路。

id

边读边评

概要

这篇paper不是一篇综合的调查研究,而是汇集了不同的专业知识来阐述大数据的机遇与挑战,唤起大家的讨论。这并不是一篇完全的技术文章,而是通过四位作者在不同领域的知识来说明他们对大数据的理解和对未来的展望。

机器学习与大数据

三个误解

在这一部分中,作者首先阐述了目前大家对于大数据的三个误解。第一是“模型再也不重要了”,这一点的反驳此文用一个图形来论述,在数据量大的时候,模型的准确率大大提高。其中还有一点就是最差的模型和最简单的模型之间没有必然的关系,这一点我觉得还是要结合实际的问题来看,毕竟,特征工程很重要。第二是“相关性已经足够了”,关于相关性和因果性的讨论也是非常多的,其实这也就是一个数据分析的深度的问题,从数据到信息,从信息到知识,从知识到智慧,每一个层次都代表了认知的不同。第三是“先前的方法论不再有用了”,在这里作者阐述的是时代在改变,所谓“大”数据的定义也在改变,方法论还是会一直有作用的,而就目前来说,并行计算分布式计算会是下一个流行热点。

机遇与挑战

大数据对机器学习带来的机遇与挑战,第一是数据量大,对于硬件的要求,这里,作者提出一个问题,是不是所有的数据都是重要的?或者说都是必要的,这就引出了一个问题,如何去筛选数据的子集,第二是大数据给机器学习的模型训练带来了好处,大量的数据可以改善过拟合等问题。第三是统计学在机器学习中的应用,用来评估模型,假设检验等。此外还有的就是大数据的存储一般是用分布式的方式,这里的问题就是数据传输访问中的权限和安全性。此外就是不同的用户对于数据会有不同的需求。而大数据时代的隐私问题会是一个重要问题。

数据挖掘与大数据

这一部分主要介绍了大数据对各个领域的重构,对数据的速度、准确性等要求。

从数据到知识到行动

大数据的时代数据驱动决策对各个行业都产生了深刻的影响,实质就是将之前不可量化的东西量化来进行处理,从而对现有情况进行改善。

机遇与挑战

数据挖掘是数据驱动的保障,在大数据时代中,数据挖掘在算法、技术上都有改变。比如NoSQL和Hadoop架构的应用。最后对人的素质也提出要求,要充满好奇心,善于发现数据中出现的问题。

全局优化与大数据

这一部分主要阐述大数据时代全局优化所能做的事情,目标是优化决策变量。

复杂系统的全局优化

在应对复杂系统的全局优化中,作者提到了分治的策略。还有就是复杂系统优化计算的评估过于昂贵和耗时。

优化中的大数据

这里作者主要举了两个实例来说明,一个是职业赛车的设计与优化,另一个是生物基因的调控。

机遇与挑战

三个问题:一是如何无缝集成现代学习和优化技术?作者主要表明是否可以用元启发式优化来对目前的机器学习算法进行优化。二是如何制定优化问题?对于复杂系统的问题可能需要迭代。三是如何将高维的决策空间以及高维解空间的理解实现的解决方案来做选择?如何将大数据的分析技术来被优化?

工业、政府、社会与大数据

在应用中有以下几个点需要注意:

  1. 分散的数据
  2. 目标放在子集上
  3. 对的时间,实时,在线分析
  4. 极端数据分布:隐私和所有权

总结

最后的总结主要从数据大小、数据变化、数据信任、分布式、极值分布、需求不同、子模型、数据直觉、快速模型、大优化、复杂优化等。大数据代表了广泛和多样,从这个角度说,大数据带来的是技术、商业等方面的综合。