2014 年 11月 28 日随笔档案 - 船长

2014年11月28日

摘要：源码阅读是一件非常容易的事，也是一件非常难的事。容易的是代码就在那里，一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计，设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前，如果想要快速对Spark的有一个整体性的认识，阅读Matei Zaharia做的Spark论文... 阅读全文

posted @ 2014-11-28 20:18 船长阅读(161) 评论(0) 推荐(0)

Spark简介

摘要： Spark已正式申请加入Apache孵化器，从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名，展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，... 阅读全文

posted @ 2014-11-28 20:17 船长阅读(571) 评论(0) 推荐(0)

Spark 编程指南

摘要：尊重原创，注重版权，转贴请注明原文地址：http://chuna2.787528.xyz/vincent-hv/p/3322966.html1、配置程序使用资源：System.setProperty("spark.executor.memary", "512m")2、创建自己的SparkContext对... 阅读全文

posted @ 2014-11-28 20:16 船长阅读(138) 评论(0) 推荐(0)

主成分分析（1）

摘要：主成分分析是一种降维方法，主要用于数据压缩，数据可视化以及特征提取等方面。现实中我们经常可以遇到维数很高的数据，如一张28*28的图片，可以看作维度为784。类似图片这样的高维数据，实际上各个维度之间具有高度的关联性，即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽... 阅读全文

posted @ 2014-11-28 20:11 船长阅读(344) 评论(0) 推荐(0)