[大数据] 使用waterdrop将kudu数据抽取到clickhouse

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 使用waterdrop将kudu数据抽取到clickhouse -> 正文阅读

[大数据]使用waterdrop将kudu数据抽取到clickhouse

1.waterdrop下载

下载链接:https://github.com/InterestingLab/waterdrop/releases
在这里插入图片描述
根据waterdrop官网提示:我本地测试环境spark版本是2.4.8,waterdrop版本是1.5.1。

先解压缩：tar -zxvf waterdrop-1.5.1.zip -C /opt/
然后修改配置文件:vim /opt/waterdrop-1.5.1/config/waterdrop-env.sh
# 添加spark执行环境
SPARK_HOME=/opt/spark-2.4.8-bin-hadoop2.7

2.kudu数据准备

kudu表结构如下图所示:
在这里插入图片描述

3.clickhouse建表

CREATE TABLE test.user_info
(
    `id` String,
    `name` String,
    `sex` String,
    `city` String,
    `occupation` String,
    `tel` String,
    `fixPhoneNum` String,
    `bankName` String,
    `address` String,
    `marriage` String,
    `childNum` String
)
ENGINE = MergeTree
ORDER BY id;

4.配置文件

spark {
  #程序名称
  spark.app.name = "Waterdrop"
  #executor的数量(数据量大可以适当增大)
  spark.executor.instances = 1
  #每个excutor核数(并行度,数据量大可以适当增大到服务器核数一半以下,尽量不要影响clickhouse)
  spark.executor.cores = 1
  #每个excutor内存(不能小于512m)
  spark.executor.memory = "1g"
}
 
input {
 kudu{
   kudu_master="node04:7051"
   kudu_table="user_info"
 
  #输出中需要指定sourcex_table_name="kudu_source"
   result_table_name="user_info"
 }
}
 
filter {
}
 
output {
 
 clickhouse {
 
  #指定从哪个源临时表输出
    source_table_name="user_info"
    host = "node04:8123"
    clickhouse.socket_timeout = 50000
    database = "test"
    table = "user_info"
    fields = ["id","name","sex","city","occupation","tel","fixPhoneNum","bankName","address","marriage","childNum"]
    username = ""
    password = ""
    bulk_size = 20000
}
}

5.效果展示

启动任务:/opt/waterdrop-1.5.1/bin/start-waterdrop.sh --master local[1] --deploy-mode client --config /opt/waterdrop-1.5.1/config/kudu2clickhouse.conf

查询clickhouse表:select * from test.user_info;
在这里插入图片描述

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-07-31 16:42:40 更:2021-07-31 16:44:58

360图书馆购物三丰科技阅读网日历万年历 2026年2日历

-2026/2/13 23:45:46-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码