2014年11月28日
摘要: 源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文... 阅读全文
posted @ 2014-11-28 20:18 船长 阅读(161) 评论(0) 推荐(0)
摘要: Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,... 阅读全文
posted @ 2014-11-28 20:17 船长 阅读(571) 评论(0) 推荐(0)
摘要: 尊重原创,注重版权,转贴请注明原文地址:http://chuna2.787528.xyz/vincent-hv/p/3322966.html1、配置程序使用资源:System.setProperty("spark.executor.memary", "512m")2、创建自己的SparkContext对... 阅读全文
posted @ 2014-11-28 20:16 船长 阅读(138) 评论(0) 推荐(0)
摘要: 主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性, 即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽... 阅读全文
posted @ 2014-11-28 20:11 船长 阅读(344) 评论(0) 推荐(0)