Tiger_pop's Blog

tiger_pop 的博客

0%

hive优化及新特性

发表于 2022-10-29 分类于 hive

这是文章开头，显示在主页面，详情请点击此处。

简介
截屏2022-03-19 16.07.25

截屏2022-03-19 16.09.04

截屏2022-03-19 16.09.34

表设计优化

截屏2022-03-21 18.18.25

截屏2022-03-21 18.21.46

截屏2022-03-21 18.23.38

截屏2022-03-21 18.24.04

截屏2022-03-24 11.01.11

截屏2022-03-24 11.02.09

截屏2022-03-24 11.03.08

不按join字段分桶，将毫无意义。

截屏2022-03-24 11.11.45

截屏2022-03-24 11.14.05

截屏2022-03-24 11.15.02

截屏2022-03-24 11.17.40

截屏2022-03-24 11.19.36

截屏2022-03-24 11.20.20

截屏2022-03-24 11.20.51

截屏2022-03-24 11.23.49

表数据优化

截屏2022-03-24 11.50.02

截屏2022-03-24 11.25.16

截屏2022-03-24 11.26.34

截屏2022-03-24 11.36.31

截屏2022-03-24 11.37.34

截屏2022-03-24 11.38.26

load 只是搬运数据，不改变数据结构，用orc格式或者别的什么格式，都用insert into加载。

截屏2022-03-24 11.41.36

截屏2022-03-24 11.43.02

截屏2022-03-24 11.43.13

截屏2022-03-24 11.43.54

截屏2022-03-24 11.47.56

截屏2022-03-24 11.45.06

截屏2022-03-24 11.48.48

截屏2022-03-24 11.51.48

截屏2022-03-24 11.55.01

截屏2022-03-24 11.55.53

截屏2022-03-24 11.56.45

截屏2022-03-24 11.58.18

任务执行优化

截屏2022-03-24 12.06.48

截屏2022-03-24 12.04.22

截屏2022-03-24 12.05.38

截屏2022-03-24 12.05.46

截屏2022-03-25 11.11.54

截屏2022-03-25 11.15.22

截屏2022-03-25 11.16.54

截屏2022-03-25 11.17.26

截屏2022-03-25 11.21.38

截屏2022-03-25 11.23.01

截屏2022-03-25 11.23.45

减少笛卡尔积的好方法。

截屏2022-03-25 11.24.50

截屏2022-03-25 11.25.10

截屏2022-03-25 11.28.30

截屏2022-03-25 11.28.50

截屏2022-03-25 11.30.26

截屏2022-03-25 11.31.59

截屏2022-03-25 11.33.00

截屏2022-03-25 11.39.08

截屏2022-03-25 16.36.53

截屏2022-03-25 16.39.04

数据倾斜

截屏2022-03-25 16.42.17

截屏2022-03-25 16.47.46

截屏2022-03-25 16.54.24

截屏2022-03-25 16.56.31

截屏2022-03-25 16.56.55

截屏2022-03-25 16.58.22

截屏2022-03-25 16.59.14

新特性

截屏2022-03-25 17.01.35

不推荐再使用mapreduce引擎，推荐用spark。

截屏2022-03-25 17.02.55

DAG有向无环图

截屏2022-03-25 17.04.55

截屏2022-03-25 17.07.10

截屏2022-03-25 17.08.07

tez 引擎安装集成到Hadoop和hive中，参考别的资料，这里就不再介绍了。

截屏2022-03-25 17.12.33

截屏2022-03-25 17.15.09

spark 好于 tez 好于 mapreduce。

独立于hive的metastore也可以安装部署，脱离hive自己运行的metastore，不做过多介绍。