Hive文件存储格式
2019-02-10
Carpe diem
导致数据倾斜的操作:GROUP BY, COUNT DISTINCT, join
Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL(称为HQL)查询功能,可以将HQL语句转换为MapReduce任务进行运行。
Hive SQL的语法和传统的SQL语法相似,但也存在差异。这里将简单介绍部分常用命令。
在日常使用中时常会遇到一些复杂的查询需求,Hive便内置了一些分析函数供用户使用。本文将介绍部分常用的分析函数。