会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Xiaohu_BigData
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
···
23
下一页
2020年1月3日
Week09_day05(Hbase的介绍和工作原理)
摘要: HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于B
阅读全文
posted @ 2020-01-03 21:55 Xiaohu_BigData
阅读(262)
评论(0)
推荐(0)
2019年12月29日
Week08_day07(DataX从mysql上读取数据传输到HDFS上)
摘要: 简介DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。 Data
阅读全文
posted @ 2019-12-29 21:52 Xiaohu_BigData
阅读(862)
评论(0)
推荐(0)
Sqoop增量导入注意事项 incremental lastmodified与target-dir连用报错 Imported Failed: Wrong FS
摘要: 这里引用一篇博客 写的很好 https://blog.csdn.net/C_time/article/details/101109071
阅读全文
posted @ 2019-12-29 10:38 Xiaohu_BigData
阅读(329)
评论(0)
推荐(0)
2019年12月28日
大数据之路Week08_day06 (Zookeeper搭建)
摘要: Zookeeper集群搭建 在本文中Zookeeper节点个数(奇数)为3个。Zookeeper默认对外提供服务的端口号2181 。Zookeeper集群内部3个节点之间通信默认使用2888:3888 192.168.129.101 192.168.129.102 192.168.129.103 下
阅读全文
posted @ 2019-12-28 15:34 Xiaohu_BigData
阅读(292)
评论(0)
推荐(0)
大数据之路Week08_day06 (Zookeeper初识)
摘要: 让我们来回顾一下我们在学习Hadoop中的HDFS的时候,肯定见过下面这样的两幅图: 这副图代表着什么呢?它介绍的是Hadoop集群的高可靠,也就是前面提过的HA,仔细观察一下这副图,我们发现有两个NameNode,只不过一个是活跃的状态 ,一个是热备状态,什么是热备状态?比如说在之前的Hadoop
阅读全文
posted @ 2019-12-28 15:23 Xiaohu_BigData
阅读(183)
评论(0)
推荐(0)
2019年12月27日
阿里巴巴开源ETL(数据的抽取、转换、加载)工具-----DataX
摘要: 一个比Sqoop好用的数据传输工具 下载maven的时候,加一个 -P让下载的压缩包到指定目录 而要让档案自动储存到指令的目录下,则需要借用-P这个参数wget -p 目录 网址wget -P /root/download 网址 解压的时候: 其中用到了tar这个命令,发现在Qt中的file取得路径
阅读全文
posted @ 2019-12-27 20:40 Xiaohu_BigData
阅读(2424)
评论(0)
推荐(0)
2019年12月25日
大数据之路Week08_day03 (Hive的动态分区和分桶)
摘要: 一、动态分区 先来说说我对动态分区的理解与一些感受吧。 由于我们通过hive去查询数据的时候,实际还是查询HDFS上的数据,一旦一个目录下有很多文件呢?而我们去查找的数据也没有那么多,全盘扫描就会浪费很多时间和资源。 为了避免全盘扫描和提高查询效率,引入了分区的概念。 分区的展现形式,就是在HDFS
阅读全文
posted @ 2019-12-25 20:29 Xiaohu_BigData
阅读(437)
评论(0)
推荐(0)
大数据之路Week08_day03 (Hive优化)
摘要: Hive优化(下面的红色标记是十分重要的,大部分情况是需要开启的) 优化1:hive的抓取策略理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们省略掉了这个过程,把切片split的过程提前帮我们做了。Set hive.fetch.task.conversio
阅读全文
posted @ 2019-12-25 16:13 Xiaohu_BigData
阅读(287)
评论(0)
推荐(0)
2019年12月24日
java.lang.IllegalStateException: File name has been re-used with different files. (flume报错)
摘要: 报错日志: java.lang.IllegalStateException: File name has been re-used with different files. Spooling assumptions violated for /usr/local/data/flumedata/wo
阅读全文
posted @ 2019-12-24 22:04 Xiaohu_BigData
阅读(1120)
评论(0)
推荐(0)
大数据之路Week08_day02 (Flume的使用举例(从控制台输入数据,从本地打数据到HDFS,从java代码中进行捕获打入到HDFS,flume监控http source))
摘要: 在使用之前,提供一个大致思想,使用Flume的过程是确定scource类型,channel类型和sink类型,编写conf文件并开启服务,在数据捕获端进行传入数据流入到目的地。 实例一、从控制台打入数据,在控制台显示 1、确定scource类型,channel类型和sink类型 确定的使用类型分别是
阅读全文
posted @ 2019-12-24 21:59 Xiaohu_BigData
阅读(407)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
···
23
下一页
公告