mengrennwpu

2019年10月28日

摘要：本文主要参考： a. https://chuna2.787528.xyz/yy3b2007com/p/10934090.html 0. 说明 a. 关于spark源码会不定期的更新与补充 b. 对于spark源码的历史博文，也会不定期修改、增加、优化 c. spark源码对应的spark版本为2.4.1 阅读全文

posted @ 2019-10-28 18:47 mengrennwpu 阅读(2071) 评论(0) 推荐(0)

2019年9月2日

Spark源码资料汇总

摘要：近几月，想要了解Spark的内部实现原理，因此想要查阅Spark的源码信息，现将所了解的资料汇总如下： 1. 博客文字类 (1) 官网 1) github 2) Spark官网 (2) gitbook 1) The Internals of Spark Structured Streaming：对s 阅读全文

posted @ 2019-09-02 15:33 mengrennwpu 阅读(362) 评论(0) 推荐(0)

Spark源码(1): SparkConf

摘要： 1. 简介 SparkConf类负责管理Spark的所有配置项。在我们使用Spark的过程中，经常需要灵活配置各种参数，来使程序更好、更快地运行，因此也必然要与SparkConf类频繁打交道。了解它的细节不无裨益。 2. SparkConf类的构造方法下面先来看一看SparkConf类的构造方法。阅读全文

posted @ 2019-09-02 14:59 mengrennwpu 阅读(559) 评论(0) 推荐(0)

2019年8月5日

Scala使用备注一

摘要： package com.ws.spark.study.scala import java.io.File import org.scalatest.FlatSpec import scala.io.Source class TestScala extends FlatSpec{ "for循环" should "成功" ignore { // 1. for中增加多个过滤 ... 阅读全文

posted @ 2019-08-05 09:58 mengrennwpu 阅读(353) 评论(0) 推荐(0)

SparkMLLib的简单学习

摘要：一. 简介 1. 机器学习中，可以将数据划分为连续数据和离散数据 a. 连续数据：可以取任何值，如房价 b. 离散数据：仅有少量特殊值，如一个房屋有2个或3个房间，但不能为2.75个房间二. 创建向量 1. 向量中的各个维度称为特征 2. Spark中既有局部向量、矩阵，也有分布式矩阵。分布式矩阵阅读全文

posted @ 2019-08-05 09:56 mengrennwpu 阅读(745) 评论(2) 推荐(0)

scalaTest的初步使用

摘要： 1. 概述 ScalaTest是scala生态系统中最流行和灵活的测试工具，可以测试scala、js、java代码。 2. ScalaTest的特性 a. ScalaTest的核心是套件(suite)，即0到多个测试的集合b. 测试可以是含有一个名称的任意内容，该名称可以用来启动、待处理或取消，也可阅读全文

posted @ 2019-08-05 09:53 mengrennwpu 阅读(6058) 评论(0) 推荐(0)

2019年6月28日

工作采坑札记: 4. linux指定目录使用df和du的统计结果相差很大

摘要： 1. 背景近日，线上的服务出现异常，调用服务返回的JSON格式数据不完整，导致客户端解析异常，因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析登录到服务所在linux服务器，查看磁盘I/O信息iotop、CPU信息top、网络请求netstat -alnp等一通操作，阅读全文

posted @ 2019-06-28 11:16 mengrennwpu 阅读(481) 评论(0) 推荐(0)

2019年6月18日

Spark在Windows上调试

摘要： 1. 背景 (1) spark的一般开发与运行流程是在本地Idea或Eclipse中写好对应的spark代码，然后打包部署至驱动节点，然后运行spark-submit。然而，当运行时异常，如空指针或数据库连接等出现问题时，又需要再次修改优化代码，然后再打包....有木有可能只需一次部署？ (2) 当阅读全文

posted @ 2019-06-18 15:56 mengrennwpu 阅读(1610) 评论(0) 推荐(0)

2019年5月13日

Spark读取HDFS中的Zip文件

摘要： 1. 任务背景近日有个项目任务，要求读取压缩在Zip中的百科HTML文件，经分析发现，提供的Zip文件有如下特点(=>指代对应解决方案)： (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹，且各包含n个小zip文件阅读全文

posted @ 2019-05-13 23:05 mengrennwpu 阅读(4197) 评论(0) 推荐(0)

2019年5月7日

Es性能优化

摘要： 1. Es中10亿级别的数据量，如何提高查询效率 (1) 性能优化关键：file system cache a. 不要期待随手挑一个参数，就可以万能的应对所有性能慢的场景 b. es依赖于底层的file system cache，如果给file system cache更多的内存，尽量让内存容纳所有阅读全文

posted @ 2019-05-07 08:50 mengrennwpu 阅读(2050) 评论(0) 推荐(0)

好学求知，稳健中流

公告