向Hive导入TPC-H测试数据集-程序员宅基地

技术标签: Hive  

在数据库和大数据领域,TPC提供的基准测试数据集是做Benchmark的事实标准。常用且主要的TPC数据集有如下几种:

  • TPC-C:模拟一个库存-订单系统以及其上的多用户并发事务;
  • TPC-DI:模拟多种类型的大数据源的ETL过程;
  • TPC-DS:模拟大型零售业务的系统,该系统主要用于BI和决策支持,数据量和OLAP查询复杂度都很高,是TPC数据集中最大的;
  • TPC-E:模拟证券经纪人的系统,该系统主要用于提供大量查询的OLTP服务;
  • TPC-H:可以近似视为TPC-DS的简化版本。

最近正在写一篇大数据领域SQL优化器(基于规则优化、基于代价优化)方面的文章,需要现成的基准数据来做支持,TPC正好符合这种需求。下面选择TPC-H来生成测试数据,并将其导入到Hive。

来到http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp,其中列出了当前有效的TPC数据集文档以及源码。点击图中红框链接的TPC-H源码。

195230-df2c06698013e4ff.png

然后会要求填写包括邮箱在内的基本信息,点击captcha确认之后,下载链接会发送到邮箱,直接下载即可。注意有效期只有3个小时。

195230-0aaff29463fb718e.png

将其上传到服务器上空间比较充裕的分区,并解压之,然后修改其中的makefile文件。

~ cd /var/tpc-h/2.18.0_rc2/dbgen
~ cp makefile.suite makefile
~ vim makefile

################
## CHANGE NAME OF ANSI COMPILER HERE
################
CC      = gcc
# Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)
#                                  SQLSERVER, SYBASE, ORACLE, VECTORWISE
# Current values for MACHINE are:  ATT, DOS, HP, IBM, ICL, MVS,
#                                  SGI, SUN, U2200, VMS, LINUX, WIN32
# Current values for WORKLOAD are:  TPCH
DATABASE = SQLSERVER
MACHINE = LINUX
WORKLOAD = TPCH

如果机器上没有GCC的话,就另外安装。从上面的数据库支持列表可以看出并没有原生支持Hive,所以就得借助其他类型(比如SQL Server),再修改一下源码,将其对应的语句改成Hive风格的。

~ vim tpcd.h

#ifdef  SQLSERVER
#define GEN_QUERY_PLAN  "explain;"
#define START_TRAN      "start transaction;\n"
#define END_TRAN        "commit;\n"
#define SET_OUTPUT      ""
#define SET_ROWCOUNT    "limit %d;\m"
#define SET_DBASE       "use %s;\n"
#endif

在该目录下执行make命令,再执行./dbgen -s 5命令,即可以生成测试数据。其中5代表数据大小为5个SF,可以视需要更改。SF为TPC中描述数据量的单位,1个SF约等于1GB(仅包含原始数据量,不包含索引等其他结构)。最终会生成8个扩展名为.tbl的文件,代表8张表的数据,如下图所示。

195230-d5337b87e0ccfcbd.png

建表语句在dss.ddl文件中,但是它的格式与HiveQL不符,因此需要另外改写建表语句,如下所示。

create database tpch;
use tpch;

create external table lineitem (
  l_orderkey int, 
  l_partkey int,
  l_suppkey int,
  l_linenumber int,
  l_quantity double,
  l_extendedprice double,
  l_discount double,
  l_tax double,
  l_returnflag string,
  l_linestatus string,
  l_shipdate string,
  l_commitdate string,
  l_receiptdate string,
  l_shipinstruct string,
  l_shipmode string,
  l_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/lineitem';
 
create external table nation (
  n_nationkey int,
  n_name string,
  n_regionkey int,
  n_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/nation';
 
create external table region (
  r_regionkey int,
  r_name string,
  r_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/region';
 
create external table part (
  p_partkey int, 
  p_name string, 
  p_mfgr string, 
  p_brand string, 
  p_type string, 
  p_size int, 
  p_container string, 
  p_retailprice double, 
  p_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/part';
 
create external table supplier (
  s_suppkey int, 
  s_name string,
  s_address string, 
  s_nationkey int, 
  s_phone string, 
  s_acctbal double, 
  s_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/supplier';
 
create external table partsupp (
  ps_partkey int, 
  ps_suppkey int, 
  ps_availqty int, 
  ps_supplycost double, 
  ps_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/partsupp';
 
create external table customer (
  c_custkey int, 
  c_name string, 
  c_address string, 
  c_nationkey int, 
  c_phone string,
  c_acctbal double, 
  c_mktsegment string, 
  c_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/customer';
 
create external table orders (
  o_orderkey int, 
  o_custkey int, 
  o_orderstatus string,
  o_totalprice double,
  o_orderdate date, 
  o_orderpriority string, 
  o_clerk string, 
  o_shippriority int, 
  o_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/orders';

以上8个表的Schema如下图,其行数也是SF的倍数。

195230-179fb36b81a16f6a.png

接下来就可以用load data语句导入数据了,以lineitem表为例。

load data local inpath '/var/tpc-h/2.18.0_rc2/dbgen/lineitem.tbl' 
into table tpch.lineitem;

TPC-H一共有22条基准SQL查询,把它们都改写成Hive风格显然很费事。好在这件事已经有人做过了,见HIVE-600。下载其中的压缩包并解压,tpch文件夹中的文件即是。

195230-3d14d4e5ae4feb7b.png

关于这22条语句的具体分析,可以查看之前下载下来的压缩包中Specification文档,也可以参考中文版的分析

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/nazeniwaresakini/article/details/104220173

智能推荐

探索Dashicons:WordPress的图标字体库-程序员宅基地

文章浏览阅读316次,点赞3次,收藏6次。探索Dashicons:WordPress的图标字体库项目地址:https://gitcode.com/WordPress/dashicons项目简介Dashicons是WordPress官方开发的一个图标字体库,它提供了一系列SVG图标供开发者在构建WordPress主题和插件时使用。这些图标具有高度可定制性、轻量级且易于集成的特点,旨在提升用户体验并增强界面设计的一致性。技术分析字体...

前端程序调试方法总结--初级版_数据库前端调试方法-程序员宅基地

文章浏览阅读674次。文章目录VUE程序调试的方法1.写本文的背景2.调试与测试3.Console调试法3.1 添加console.log指令3.2 调出温度界面如下3.3 Google浏览器的Console窗口3.4 console.error输出3.5 浏览器输出4.alert 调试法4.1 alert方法代码4.2 alert提示效果5 断点调试法5.1 设置断点5.2 运行代码5.3 输入关心的属性5.3.1 ..._数据库前端调试方法

2023年第七届强网杯初赛 WP_2023强网杯赛题-程序员宅基地

文章浏览阅读1.8k次,点赞22次,收藏21次。最坏情况下,前5次全输,需要87步即可达到260分,即第92轮时,因此可以通过本题。利用SQL注入修改data数据的值,本题data是数组,且会插入数据库,最终的payload需要改一下让前后闭合,且TP5,在网上找一个链子的EXP改一下。当然,前一题的SQL注入点依然存在,不过依然需要鉴权进入后台,这意味着,只需要我们能进入后台,就能通过load_file的方式读取flag。简单来说,就是能set任意的值,例如下方的payload,就能注入一个snowwolf的键,且值为wolf,4代表数据长度。_2023强网杯赛题

JavaWeb CURD 一键生成,再也不要重复搬砖了!【免费源码】_基于java类的curbecms-程序员宅基地

文章浏览阅读836次,点赞2次,收藏2次。简介本文将给您介绍 AppAdmin 后台管理系统开发框架。AppAdmin后台管理系统开发框架是一套Java开发的整合了当前众多比较流行的Java后台开发框架的系统,使用H5响应式布局。整合了 spring + springMVC + hibernate (JPA) + shiro + ehcache 等框架,功能包括基本的系统管理、权限、角色、存储(oss、本地、ftp)、缓存、站内信、..._基于java类的curbecms

记录:jackson报错问题:com.fasterxml.jackson.core.TSFBuilder-程序员宅基地

文章浏览阅读9.2k次。背景:java -jar启动报错,但是本地idea运行正常。环境:jdk1.8jackson: <dependency> <groupId>com.fasterxml.jackson.core</groupId> <artifactId>jackson-core</artifactId> <version>2.9.5</version&_com.fasterxml.jackson.core.tsfbuilder

Palworld幻兽帕鲁自建服务器教程,1分钟自建幻兽帕鲁服务器教程-程序员宅基地

文章浏览阅读77次。2024阿里云和腾讯云均推出专属幻兽帕鲁Palworld游戏优惠服务器,阿里云配置分为4核16G和4核32G服务器,4核16G配置32.25元/1个月、10M带宽66.30元/1个月、4核32G配置113.24元/1个月,4核32G配置3个月339.72元。幻兽帕鲁服务器官方推荐是4核16G配置,Windows和Linux服务器操作系统,Windows-Steam,Linux-SteamCMD,默认端口port=8211,玩家players=32。14带宽3个月277.2元,一年1584元。

随便推点

C语言实现基2DIF-FFT算法(桑德·图基快速傅立叶变换)_桑德图基-程序员宅基地

文章浏览阅读9.1k次,点赞8次,收藏31次。傅立叶变换能将时域信号转换为由sin函数为基底的频域信号,从而我们可以从信号中提取出频率信息或截断频谱简化信号压缩信息。计算机难以处理连续信号。DFT是一种适用于计算机处理的有限信号时频转换方法。DFT用一句话概括,就是将连续信号(频域也是连续函数)经过时域采样(这样会使信号的频域发生周期延拓,得到周期连续的函数,计算机无法处理),再经过频域采样(这样会使时域信号发生周期延拓,时域周期延拓这一步可..._桑德图基

指针的基本知识_指针指向的是值还是地址-程序员宅基地

文章浏览阅读1.4k次。指针一、指针是什么1、指针是什么?指针理解的2个要点:1. 指针是内存中一个最小单元的编号,也就是地址;2. 平时口语中说的指针,通常指的是指针变量,是用来存放内存地址的变量总结:指针就是地址,口语中说得指针通常值得是指针变量2、指针变量我们可以通过&(取地址操作符)取出变量的内存真实地址,吧地址可以存放到一个变量中,这个变量就是指针变量。实例#include <stdio.h> { int a=10; _指针指向的是值还是地址

力扣Leetcode 2 两数相加 Add Two Numbers_力扣 2. 两数相加 add two numbers 调试-程序员宅基地

文章浏览阅读85次。暴力法递归法_力扣 2. 两数相加 add two numbers 调试

单目深度估计评估指标_单目系统中的量化评估指标-程序员宅基地

文章浏览阅读7.6k次,点赞15次,收藏35次。KITTI Depth以及ScanNet评估指标 指标 名称 表达式 abs rel. absolute relative error mae mean absolute error log mae mean absolute logarithmic error imae inverse mean absolu..._单目系统中的量化评估指标

探索 `ansible-role-nginx`: 简化Nginx服务器配置的Ansible角色-程序员宅基地

文章浏览阅读870次,点赞7次,收藏20次。探索 ansible-role-nginx: 简化Nginx服务器配置的Ansible角色项目地址:https://gitcode.com/jdauphant/ansible-role-nginx在现代Web服务管理中,自动化运维工具起着至关重要的作用,而Ansible就是其中的一把利剑。今天我们要介绍的是一个由jdauphant维护的Ansible角色——ansible-role-nginx...

利用tkinter制作一个用户界面:开始研究界面的零件及细节_python tkinter 注册页面-程序员宅基地

文章浏览阅读555次,点赞2次,收藏4次。导入:我想作为一名Python程序猿,大家对于tkinter大家应该不陌生了吧,那么在接下几篇博文里我将跟大伙一起来实现tkinter的用户登录界面。注意:该界面没有注册哦~tkinter的基础:想要先实例化一个窗口我们就得学会以下代码:import tkinter as tkwindow = tk.Tk()window.title("xxx")window.geometry("300x500")#注意,引号中的窗口大小必须用"x",而不是“*”window.mainloop()运行了_python tkinter 注册页面

推荐文章

热门文章

相关标签