摘要:
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 阅读全文
posted @ 2017-01-20 23:54
duanxz
阅读(9191)
评论(1)
推荐(3)
摘要:
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每个元素都应用f函数操作,不返回RDD 阅读全文
posted @ 2017-01-20 20:48
duanxz
阅读(1215)
评论(0)
推荐(0)
摘要:
spark 阅读全文
posted @ 2017-01-20 20:47
duanxz
阅读(1043)
评论(0)
推荐(0)
摘要:
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的算子类型 阅读全文
posted @ 2017-01-20 20:46
duanxz
阅读(940)
评论(0)
推荐(0)
摘要:
RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD 阅读全文
posted @ 2017-01-20 20:36
duanxz
阅读(2233)
评论(0)
推荐(0)
摘要:
RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已 阅读全文
posted @ 2017-01-20 20:35
duanxz
阅读(791)
评论(0)
推荐(0)
摘要:
其实腾讯并不是最早弄中台的,但今年中台是被腾讯带火的。国内最早弄中台的公司是阿里巴巴!说到阿里巴巴的中台就不得不说到芬兰的一家游戏公司Supercell! 芬兰游戏公司Supercell 2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的移动游戏公司Supercell。Superce 阅读全文
posted @ 2017-01-20 18:18
duanxz
阅读(839)
评论(0)
推荐(0)
摘要:
1、启动spark shell,在doc窗口上打开spark-shell(环境安装见:二、Spark在Windows下的环境搭建) 并行化scala集合(Parallelize) 并行化scala集合(Parallelize) //加载数据1~10 val num=sc.parallelize(1 阅读全文
posted @ 2017-01-20 18:17
duanxz
阅读(322)
评论(0)
推荐(0)
浙公网安备 33010602011771号