技术标签: hive
desc function extended 函数名字;
比如查函数date_add函数的用法:
desc function extended date_add;
运行结果如下:
1.log(double base,double a):返回以base为底数a的对数。返回类型为double
select log(2,8);
运行结果如下:
2.pow(double base,double p):返回以base为底数p的幂值。返回类型为double
select pow(2,3);
运行结果如下:
select pow(4,0.5);//相当于开方
运行结果如下:
3.conv(bigint/string base,int from_base,int to_base):将数值base从from_base进制转为to_base进制string
select conv('10010',2,10);(2进制转10进制)
运行结果如下:
4.pmod(int/double a,int/double b):求a余b的结果。返回类型为int/double
select pmod(5,2);
运行结果如下:
5.hex(string a)/unhex(string a):求字符串a的正反16进制转化(可以当成简单的加密)
select hex('abc');
运行结果如下:
select unhex('616263');
运行结果如下:
6.sin(double/decimal a):求a的正弦值。返回类型为:double
select sin(2);
运行结果如下:
asin(double/decimal a):求a的反正弦值。返回类型为:double
select asin(2);
运行结果如下:
7. cos(double/decimal a):求a的余弦值。返回类型为:double
select cos(2);
运行结果如下:
acos(double/decimal a):求a的反余弦值。返回类型为:double
select acos(2);
运行结果如下:
8.tan(double/decimal a) :求a的正切值。返回类型为:double
select tan(2);
运行结果如下:
atan(double/decimal a) :求a的反正切值。返回类型为:double
select atan(2);
运行结果如下:
9. degree(double/decimal a):将弧度a转为角度。返回类型为:double
select degrees(2);
运行结果如下:
10. radians(double/decimal a):将角度a转为弧度。返回类型为:double
select radians(114.59155902616465);
运行结果如下:
11.positive(int/double a):返回a本身。返回类型为 int/double
select positive(6);
运行结果如下:
12.negative(int/double a):返回a的相反数。返回类型为 int/double
select negative(6);
运行结果如下:
13.sign(double/decimal a):返回a的符号。返回类型为 int/double。正数返回1.0,负数返回-1.0
select sign(-6);
运行结果如下:
14.e():返回e的值
select e();
运行结果如下:
15.pi():返回π的值
select pi();
运行结果如下:
16.greatest(数1,数2,数3...) :返回最大的数(横向)
select greatest(3,6,9);
运行结果如下:
17.least(数1,数2,数3...):返回最小的数(横向)
select least(3,6,9);
运行结果如下:
18.bround(double a,int b):四舍六入五取偶
19.factorial(int a):20以内阶乘
20.shiftleft(int a,int b):位左移
21.shiftright(int a,int b):位右移
1.size(Map<k,v>/Array<T>):返回Map或者数组中元素的个数或者说返回Map或者数组的长度。返回类型为 int
select size(array(1,2,3));
运行结果如下:
2.map_keys(Map<k,v>):返回对应的键
select map_keys(str_to_map('name:henry'));
运行结果如下:
3.map_values(Map<k,v>):返回对应的值
select map_values(str_to_map('name:henry'));
运行结果如下:
4.array_contains(Array<T>,T):如该数组Array<T>包含value返回true,否则返回false。返回类型为boolean
select array_contains(array('a','b','c'),'a');
运行结果如下:
5.sort_array(Array<T>):排序并返回。返回类型为Array<T>
select sort_array(array('5','3','2'));
运行结果如下:
6.array(T...t):返回数组类型
select array('a','b','c');
运行结果如下:
7.map(K k1,V v1...):返回map类型
select map('name','henry');
运行结果如下:
8.struct(p1,v1,p2,v2...):返回struct(结构体)类型
select struct('henry','22');
运行结果如下:
cast(expr as<type>) :将expr表达式转换成type类型
select cast(current_date() as string);
运行结果如下:
1.from_unixtime(bigint time,string time_format):格式化时间,也可提取指定部分
select from_unixtime(12345678,'yyyy-MM-dd HH:mm:ss');
运行结果如下:
select from_unixtime(12345678,'ss');
运行结果如下:
2.date_format(date/timestamp/string date,string format):返回指定的日期部分
select date_format('1970-05-24 05:21:18','MM');
运行结果如下:
3.current_date():返回当前系统日期
select current_date();
运行结果如下:
4.to_date(string timestamp):将完整的日期及时间字符串返回日期
select to_date('2020-11-11 17:46:54.982');
运行结果如下:
5.current_timestamp():返回当前系统日期及时间
select current_timestamp();
运行结果如下:
6.unix_timestamp():获取当前系统时间长整数
select unix_timestamp();
运行结果如下:
7.unix_timestamp(string datetime):将日期及时间返回一个长整数
select unix_timestamp('2020-11-11 17:46:54.982');
运行结果如下:
8.unix_timestamp(string datetime,string format_pattern):将日期根据指定的格式提取并转成长整数
select unix_timestamp('2020-11-11 17:46:54.982','yyyy-MM');
运行结果如下:
9.date_add(string date,int days):返回日期加上或减去天数的日期
select date_add(current_date(),-10);
运行结果如下:
10.add_months(string date,int numberOfMonths):返回日期加上或减去月份数的日期
select add_months(current_date(),2);
运行结果如下:
11.last_day(string date):该月最后一天
select last_day(current_date());
运行结果如下:
12.next_day(string date,string dayOfWeek):date之后的下一个dayOfWeek为哪一天(MO,TU,WE,TH,FR,SA,SU)
select next_day(current_date(),'TH');//(下一个周四是啥时候,写前两个字母即可)
运行结果如下:
13.trunc(string date,string format):返回日期的最开始日期
select trunc(current_date(),'YY');//返回本年的第一天
运行结果如下:
select trunc(current_date(),'MM');//返回本月第一天
运行结果如下:
返回本周的第一天
select date_add(next_day(current_date(),'SU'),-7);
运行结果如下:
返回本季度的第一天
select concat_ws('-',cast(year(current_date())as string),cast(ceil(month(current_date())/3)*3-2 as string),'1');
运行结果如下:
14.months_between(string datefrom,string dateto):返回两个日期相差的月份数
select months_between(current_date(),'2019-10-1');
运行结果如下:
15.datediff(string datefrom,string dateto):返回两个日期相差的天数
select datediff(current_date(),'2019-10-1');
运行结果如下:
1.if(boolean,T vtrue,T vfalse):第一个参数表达式为真,则返回第二个参数,否则返回第三个参数
select if(true,0,1);
运行结果如下:
2.nvl(T value,T default):若第一个值为空,则返回第二个值
select nvl(NULL,1);
运行结果如下:
select nvl(2,3);
运行结果如下:
3.coalesce(a,b,...):返回第一个非空的值
select coalesce(NULL,1,2);
运行结果如下:
4.case when expr1 then v1 [when expr2 then v2 …][else vn] end:case表示函数开始,end表示函数结束。
如果表达式expr1成立,则返回v1的值;如果表达式expr2成立,则返回v2的值。依次类推,最后遇到else时,返回vn的值。
5.case expr when e1 then v1 [when e2 then v2 …][else vn] end:case表示函数开始,end表示函数结束。
如果表达式expr取值为e1,则返回v1的值;如果表达式expr取值为e2,则返回v2的值,依次类推,最后遇到else,则返回vn的值
6.isnull(a):返回a是否为空值。返回类型为boolean
select isnull(1);
运行结果如下:
select isnull(null);
运行结果如下:
7.isnotnull(a):返回a是否不为空值。返回类型为boolean
select isnotnull(null);
运行结果如下:
select isnotnull(2);
运行结果如下:
1.ascii(string a):返回字符串首字符的ASC码
select ascii('234');//返回的是2的ASC码
运行结果如下:
2.concat_ws(string sep,array<string>/string...array):将字符串或者数组以分隔符连接起来。返回类型为string
select concat_ws('-',array('aa','bb'));
运行结果如下:
select concat_ws('-','aa','bb');
运行结果如下:
3.sentences(string sentence):拆词
select sentences('hello kb10,how are you');
运行结果如下:
select sentences('hello kb10!how are you');
运行结果如下:
4.ngrams(array<array<string>> arr,int n,int k):按n个单词出现频次,倒序取top k
select ngrams(sentences('hello kb10!how are you'),1,2);
运行结果如下:
select ngrams(sentences('hello kb10!how are you,are you'),2,2);
运行结果如下:
5.context_ngrams(array<array<string>> arr,array<string>,int k):与array中指定单词之后配合出现频次,倒序取top k
select context_ngrams(sentences('hello kb10?how are you,hello word,are you ok,are we?'),array('are',null),2);
运行结果如下:
6.encode(string source,string charset):使用指定的字符集charset将字符串编码成二进制值('US-ASCII','ISO-8859-1','UTF-8','UTF-16BE','UTF-16LE','UTF-16')
select encode('我爱你','UTF-16BE');
运行结果如下:
7.decode(binary,string charset)将二进制值转为原字符串
select decode(encode('我爱你','UTF-16BE'),'UTF-16BE');
运行结果如下:
8.format_number(小数,int num):格式化保留精度
select format_number(129876.3456,2);
运行结果如下:
9.get_json_object(string json,string path):提取元素,可以多层提取,解析比较复杂的语句
Object表示对象,类似于C语言中的结构体,以花括号"{}"括起来,其元素要求为键值对,key必须为String类型的,而value则可为任意类型。key和value之间以":"表示映射关系,元素之间也是以逗号分隔。
select get_json_object('{"name":"henry"}','$.name');
运行结果如下:
select get_json_object('{"name":"henry","info":{"city":"nj"}}','$.info.city');
运行结果如下:
select get_json_object('{"name":"henry","info":["city","nj"]}','$.info[0]');
运行结果如下:
10.in_file('文件中一行内容','虚拟机上文件位置'):返回参数1是否在参数2中存在,若存在返回true,不存在返回false
文件alisa.log中有以下内容:
select in_file('hive','/root/hadooptmp/alisa.log');
运行结果如下:
11.parse_url('网址','HOST'):解析URL字符串,通过关键字可以获得url中对应的字段数据。
第二个参数可以是HOST(主机)、PATH、☆QUERY(查询)、☆REF(引用自哪里)、PROTOCOL(协议)、AUTHORITY(授权)、FILE(文件)、USERINFO
select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1','QUERY');
运行结果如下:
12.printf('%s,%d,%.nf','字符串',数字,小数....):按参数1的顺序打印出后面的参数。%s表示字符串;%d表示整数;%.nf表示保留几位小数
select printf('%s,%d,%.2f','henry',18,78.333);
运行结果如下:
13.like '...%':%也可以是#,_
比如,有一张表如下,想要查18开头的电话号码:
select* from shop where contact.mobile like '18%';
运行结果如下:
14.rlike # [] {} ? + * \d \w...(正则表达式)
select* from shop where contact.mobile rlike '18\\d{9}';
运行结果如下:
15.regexp_replace('1','2','3'):将1中包含的2用3替代
select regexp_replace('you are my hero are you','you','YOU');
运行结果如下:
select regexp_replace('you are my hero are you young','y\\w{2,3}','YOU');//以y开头后面有两个或三个字母的都替换成YOU
运行结果如下:
16.regexp_extract('','',数字):提取元素
select regexp_extract('namehenryokdalingduck','name(.*?)(ok)(.*?)duck',3);
运行结果如下:
select regexp_extract('namehenryokdalingduck','name(.*?)ok(.*?)duck',2);
运行结果如下:
17.split('','正则'):正则分割
例子1:
select split('[email protected]','\\.|@');
运行结果如下:
例子2:
select split(regexp_replace('["henry","pola","ariel"]','\\[|\\]|"',''),',');
运行结果如下:
可以通过size方法查看是否分割了:
select size(split(regexp_replace('["henry","pola","ariel"]','\\[|\\]|"',''),','));
运行结果如下:
结果为3,说明已分割。
18.str_to_map('字符串')或者str_to_map('字符串','正则'):字符串转换成map形式
select str_to_map('name:henry');
运行结果如下:
select str_to_map('name#henry|age#22','\\|','#');
运行结果如下:
19.translate('字符串','子字符串','3'):按字符替换。将参数1字符串中包含参数2子字符串的用参数3替换
select translate('abcdbceab','ab','#*');//将a替换成#,将b替换成*
运行结果如下:
20.initcap(' '):单词首字母大写
select initcap('abc');
运行结果如下:
21.substr(' ',n)或者substr(' ',n,len):截取字符串
select substr('abcdfgeabcdf',2);
运行结果如下:
select substr('abcdfgeabcdf',2,3);
运行结果如下:
22.locate('子字符串','字符串',n):返回子字符串在字符串中,第几个子字符串的位置。位置从1开始,如果没有就会返回0
select locate('ab','abcdfab',2);
运行结果如下:
23.instr('字符串','子字符串'):返回子字符串在字符串中的位置
select instr('cdab','ab');
运行结果如下:
24.md5(' '):加密
select md5('abc');
运行结果如下:
25.base64(''):将二进制格式转换成base 64位的字符串
select base64(cast('henry' as binary));
运行结果如下:
26.unbase64(' '):将64位的字符串转换二进制值
select unbase64('aGVucnk=');
运行结果如下:
27.sha2(''/binary,长度):加密。
select sha2('henry',1);
运行结果如下:
28.soundex(string src):返回字符串的soundex码。表现形式:首字母+3个数字
select soundex('hero');
运行结果如下:
29.levenshtein(' ',' '):计算两个字符串之间的差异大小
select levenshtein('aa','a');
运行结果如下:
1.count(*):计数。统计所有行
2.count(expr):计数。统计expr。expr不能为空
3.count(distinct expr...):计数。所有表达式(列)唯一并不为空
4.sum(distinct expr...):求和。
5.avg(distinct expr...):求平均值。
6.min(col):求最小值。
7.max(col):求最大值。
8.var_pop(col):方差(离散程度)
9.var_sample(col):样本方差(变异程度)
10.studev_pop(col):标准偏差
11.studev_sample(col):样本标准偏差
12.covar_pop(col1,col2):协方差
13.covar_sample(col1,col2):样本协方差
14.corr(col1,col2):两列数值的相关系数
15.percentile(bigint col,int p):返回col的p(0~1)%分位数
16.collect_list(col):行转列(可以想象一下group_concat)。重复值不会舍去
17.collect_set(col):行转列。将重复的值舍去
1.explode(array<T>/Map<k,v>):展开array或者Map,对列进行多行转换
select explode(array('aa','bb','cc'));
运行结果如下:
举个小例子:
有一张表,内容如下:
想要对上述的cities转多行:
select name,city from employee_id lateral view explode(cities) ct as city;
运行结果如下:
想要对上述scores转多行:
select name,pos,score from employee_id lateral view explode(scores) st as pos,score;
运行结果如下:
2.posexplode(array<T>):将一列数据转为多行之后,还会输出数据的下标。表现得像数组爆炸,但包括原始数组中项目的位置
select posexplode(array('aa','bb','cc'));
运行结果如下:
举个小例子,对cities转多行。
select name,pos,city from employee_id lateral view posexplode(cities) ct as pos,city;
运行结果如下:
3.stack(rowNum,v1,...vm):将v1~vm拆成rownum行
select stack(2,'aa','bb');
运行结果如下:
4.json_tuple(string json,string...key):对json数据格式解析 。tuple表现形式为 (key,value),要配合侧视图lateral view。tuple只能一层层提取
举个例子,有一张表jsontuple:
提取line层:
select name,hobbies,age from jsontuple lateral view json_tuple(line,'name','hobbies','age') jt as name,hobbies,age;
运行结果如下:
提取name层:
select printf('%s %s',first,last)name,hobbies,age from jsontuple
lateral view json_tuple(line,'name','hobbies','age') jt as name,hobbies,age
lateral view json_tuple(name,'first','last') jt1 as first,last;
运行结果如下:
提取hobbies层:
select printf('%s %s',first,last)name,age,hobby from jsontuple
lateral view json_tuple(line,'name','hobbies','age') jt as name,hobbies,age
lateral view json_tuple(name,'first','last') jt1 as first,last
lateral view explode(split(regexp_replace(hobbies,'\\[|\\]|"',''),',')) hs as hobby;
运行结果如下:
5.parse_url_tuple():通过关键字可以获得url中对应的字段数据,可以同时提取多个部分并返回
select parse_url_tuple('http://baidu.com/path1/p.php?k1=v1&k2=v2#Ref1','QUERY:k1', 'QUERY:k2');
运行结果如下:
6.inline():将单列扩展成多行
select inline(array(struct('aa','bb','cc'),struct('dd','ee','ff')));
运行结果如下:
如需控制范围需要指定...over(...rows between ??? and ???)
1.first_value(col):分组内排序后截止到当前行的第一个值
2.last_value(col):分组内排序后截止到当前行的最后一个值
3.lag(col,n,default value):窗口内往前第n行col的值
4.lead(col,n,default value):窗口内往后第n行col值
其中,n 可选,默认为1。default value 默认值,如果第n行col值为NULL,取default value
over(partition by ??? order by ??? rows|range between ??? and ???)
其中,partition by 分区,
order by 全表排序
有partition by:分区内排序,否则全局排序
rows|range between ??? and ???
有partition by:
unbounded preceding:区内第一行
unbounded following:区内最后一行
无partition by:
unbounded preceding:表内第一行
unbounded following:表内最后一行
1、使用标准的聚合函数COUNT、SUM、MIN、MAX、AVG
2、使用partition by语句,使用一个或多个原始数据类型的列
3、使用partition by语句与order by语句,使用一个或者多个数据类型的分区或者排序列
4、使用窗口规范,窗口规范支持以下格式:
(rows | range) between (unbounded | [num]) preceding and ([num] preceding | current row | (unbounded | [num]) following)
(rows | range) between current row and (current row | (unbounded | [num]) following)
(rows | range) between [num] following and (unbounded | [num]) following
5、当order by后面缺少窗口从句条件,窗口规范默认是 range between unbounded preceding and current row.
6、当order by和窗口从句都缺失, 窗口规范默认是 row between unbounded preceding and unbounded following.
7、over从句支持以下函数, 但是并不支持和窗口一起使用它们。
8、ranking函数: rank, ntile, denserank, cumedist, percentrank,lead 和 lag 函数。
1.row_number():从1开始的行序号
2.rank():从1开始的名次(并列出现空缺) 1,2,2,4
3.dense_rank():从1开始的名次(并列不留空缺) 1,2,2,3
4.cume_dist:小于等于当前值得行数/分组内总行数
比如,统计小于等于当前薪水的人数,所占总人数的比例
5.percent_rank:分组内当前行当前行的rank值-1/分组内总行数-1
6.ntile(n):用于将分组数据按照顺序切分成n片,返回当前切片值,如果切片不均匀,默认增加第一个切片的分布
ntile不支持rows between,
比如 ntile(2) over(partition by cookieid order by createtime rows between 3 preceding and current row)
格式为:
create view V_NAME as
select语句
侧视图出现要与表生成函数一起使用。它是一张虚拟的临时表。能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合
格式为:
select...from 表名 lateral view 函数(expr) 别名 as 属性名;
文章浏览阅读1.5w次,点赞9次,收藏26次。简介一个创建某个文件到桌面快捷方式的BAT批处理.代码@echooff::设置程序或文件的完整路径(必选)setProgram=D:\Program Files (x86)\格式工厂.4.2.0\FormatFactory.exe::设置快捷方式名称(必选)setLnkName=格式工厂v4.2.0::设置程序的工作路径,一般为程序主目录,此项若留空,脚本将..._批处理创建桌面快捷方式
文章浏览阅读2k次。射频识别技术漫谈(6-10),概述RFID的通讯协议;射频ID卡的原理与实现,数据的传输与解码;介绍动物标签属性与数据传输;RFID识别号的变化等_芯片 ttf模式
文章浏览阅读1.1k次。今天小编心血来潮,为大家带来一个很有趣的项目,那就是使用 Python web 框架 Django 来实现支付宝支付,废话不多说,一起来看看如何实现吧。_django 对接支付宝接口流程
文章浏览阅读842次。Zabbix 5.0 LTS,跑了一年多了一直很稳定,前两天空间显示快满了,于是手贱清理了一下history_uint表(使用mysql truncate),结果折腾了一周。大概故障如下:然后zabbix论坛、各种群问了好久都没解决,最后自己一番折腾似乎搞定了。初步怀疑,应该是由于历史数据被清空后,zabbix需要去处理数据,但是数据量太大,跑不过来,所以来不及更新了(?)..._zabbix问题没有更新
文章浏览阅读296次。一、数据结构之字典 key-value
文章浏览阅读9.7k次,点赞3次,收藏13次。最近项目中遇到一个问题,是关于mybatis-plus的字段注解策略,记录一下。1问题调用了A组件(基础组件),来更新自身组件的数据,发现自己组件有个字段总是被清空。2原因分析调用的A组件的字段,属于基础字段,自己业务组件,对这个基础字段做了扩展,增加了业务字段。但是在自己的组件中的实体注解上,有一个注解使用错误。mybatis-plus封装的updateById方法,如果..._mybatisplus strategy
文章浏览阅读3.8k次。如何构建倒排索引,我们将这个过程叫做“索引构建”。如果我们的文档很多,这样索引就一次性装不下内存,该如何构建。硬件的限制 我们知道ram读写是随机的操作,只要输入相应的地址单元就能瞬间将数据读出来或者写进去。但是磁盘不行,磁盘必须有一个寻道的过程,外加一个旋转时间。那么只有涉及到磁盘,我们就可以考虑怎么节省I/O操作时间。【注】操作系统往往以数据块为单位进行读写。因为读一_为某一文档及集构件词项索引时,可使用哪些索引构建方法
文章浏览阅读836次。英特尔技术与制造事业部副总裁卞成刚7日在财富论坛间隙接受中新社记者采访时表示,该公司看好中国市场前景,扎根中国并以此走向世界是目前最重要的战略之一。卞成刚说,目前该公司正面临战略转型,即从传统PC服务领域扩展至所有智能设施领域,特别是移动终端。而中国目前正引领全球手机市场,预计未来手机、平板电脑等方面的发明创新将大量在中国市场涌现,并推向全球。持相同态度的还有英特尔中国区执行董事戈峻。戈峻
文章浏览阅读627次。https://blog.csdn.net/zrs19800702/article/details/53101213http://blog.csdn.net/lzw06061139/article/details/51445311https://my.oschina.net/linuxhunter/blog/654080rgw 概述Ceph 通过radosgw提供RES..._radosgw -c
文章浏览阅读3.7k次,点赞6次,收藏9次。我为什么选择ECharts ? 本周学校课程设计,原本随机佛系选了一个51单片机来做音乐播放器,结果在粗略玩了CN-DBpedia两天后才回过神,课设还没有开始整。于是懒癌发作,碍于身上还有比赛的作品没交,本菜鸡对硬件也没啥天赋,所以就直接把题目切换成软件方面的题目。写python的同学选择了一个时间序列数据的可视化曲线程序设计题目,果真python在数据可视化这一点性能很优秀。..._echarts 时间序列
文章浏览阅读1.6k次。事件类:/** * * * @className: EarlyWarnPublishEvent * * @description:数据风险预警发布事件 * * @param: * * @return: * * @throws: * * @author: lizz * * @date: 2020/05/06 15:31 * */public cl..._applicationeventpublisheraware
文章浏览阅读1.2k次。如需转载请注明出处!点击小图片转到图片查看的页面在Android开发中很常用到,抱着学习和分享的心态,在这里写下自己自定义的一个ImageView,可以实现类似微信朋友圈中查看图片的功能和效果。主要功能需求:1.缩放限制:自由缩放,有最大和最小的缩放限制 2居中显示:.若图片没充满整个ImageView,则缩放过程将图片居中 3.双击缩放:根据当前缩放的状态,双击放大两倍或缩小到原来 4.单指_imageview图片边界回弹