技术标签: elasticsearch
在ES 1.4.X-5.0版本,Groovy是作为ES的脚本语言。
其他支持脚本:
① expression:每个文档的开销较低:表达式的作用更多,可以非常快速地执行,甚至比编写native脚本还要快,支持javascript语法的子集:单个表达式。缺点:只能访问数字,布尔值,日期和geo_point字段,存储的字段不可用
② mustache:提供模板参数化查询
③ java
在ES6之后,更多的是使用Painless作为脚本。
Painless:Painless是一种专门用于Elasticsearch的简单,用于内联和存储脚本,类似于Java,也有注释、关键字、类型、变量、函数等,安全的脚本语言。它是Elasticsearch的默认脚本语言,可以安全地用于内联和存储脚本。 本次将主要针对Painless进行script讲解。
{
"_index" : "product",
"_type" : "_doc",
"_id" : "3",
"_score" : 1.0,
"_source" : {
"name" : "nfc phone",
"desc" : "shouji zhong de hongzhaji",
"price" : 2999,
"tags" : [
"xingjiabi",
"fashao",
"menjinka"
]
}
}
针对上面的文档,对里边的tags进行新增元素:
POST product/_update/3
{
"script": {
"lang": "painless",
"source": "ctx._source.tags.add('无线充电')"
}
}
{
"_index" : "product",
"_type" : "_doc",
"_id" : "3",
"_score" : 1.0,
"_source" : {
"name" : "nfc phone",
"desc" : "shouji zhong de hongzhaji",
"price" : 2999,
"tags" : [
"xingjiabi",
"fashao",
"menjinka"
]
}
}
针对上面的文档,对价格进行更新:
POST product/_update/3
{
"script": {
//语法:#ctx._source.<field-name>
"source": "ctx._source.price-=1"
}
}
如果数据存在,执行partial update操作,如果数据不存在,那么执行create操作
POST product2/_update/15
{
//存在执行这个:
"script": {
"source": "ctx._source.price += params.param1",
"lang": "painless",
"params": {
"param1": 100
}
},
//不存在进行插入这个:
"upsert": {
"name": "小米10",
"price": 1999
}
}
POST product/_update/15
{
"script": {
"lang": "painless",
"source": "ctx.op='delete'"
}
}
POST _bulk
{
"update" : {
"_id" : "0", "_index" : "product2", "retry_on_conflict" : 3} }
{
"script" : {
"source": "ctx._source.price += params.param1", "lang" : "painless", "params" : {
"param1" : 100}}, "upsert" : {
"price" : 1999}}
{
"_index" : "product",
"_type" : "_doc",
"_id" : "4",
"_score" : 1.0,
"_source" : {
"name" : "xiaomi erji",
"desc" : "erji zhong de huangmenji",
"price" : 999,
"tags" : [
"low",
"bufangshui",
"yinzhicha"
]
}
}
针对上面的文档,可以这样使用脚本查询:
GET /product/_search
{
"script_fields": {
//取个展示的名字
"test_filed": {
"script": {
"lang": "painless",
//使用doc对象用(点操作符)来得到对应的字段,
"source": "doc.price.value"
}
}
}
}
但是对于一些text类型的文本,脚本中必须需要使用它的keyword,此时用点操作符就不行了,其实脚本中访问字段还有另外一种方式:
GET /product/_search
{
"script_fields": {
"test_filed": {
"script": {
"lang": "painless",
//像这种访问字典的方式
"source": "doc['name.keyword'].value"
}
}
}
}
同时展示价格的原始价格和100倍后的价格:
GET /product/_search
{
"script_fields": {
"nature_source": {
"script": {
"lang": "painless",
"source": "doc.price.value"
}
},
"test_filed": {
"script": {
"lang": "painless",
//script中可以进行计算 并支持参数
"source": "doc.price.value*params.size",
"params": {
"size": 100
}
}
}
}
}
展示原始价格 和 多个打折价格:
GET product2/_search
{
"script_fields": {
"price": {
"script": {
"lang": "painless",
"source": "doc['price'].value"
}
},
"discount_price": {
"script": {
"lang": "painless",
//之前看返回结果注意到,这里可以返回一个数组(也就是可以返回多个元素内容):
"source": "[doc['price'].value * params.discount_8,doc['price'].value * params.discount_7,doc['price'].value * params.discount_6,doc['price'].value * params.discount_5]",
"params": {
"discount_8": 0.8,
"discount_7": 0.7,
"discount_6": 0.6,
"discount_5": 0.5
}
}
}
}
}
上面的脚本我们可以看到有的地方进行了调用参数params中声明的变量。
ES在首次执行脚本时,会对脚本进行编译(编译行为每分钟默认为15次,比较消耗性能),然后将编译好的内容缓存放入内存(可缓存大小有限制,默认为100M),
没有过期时间 可以手工设置过期时间script.cache.expire 通过script.cache.max_size设置缓存大小 脚本最大64MB 通过script.max_size_in_bytes配置
但如果脚本内容发送修改,缓存失效。但通过传入参数的方式,而后续只改变参数的值,这样在后续执行起来都是非常快的。
也就是说:如果需要将变量传递到脚本中,则应以命名形式传递变量params,而不是将值硬编码到脚本本身中。例如,如果你希望能够将字段值乘以不同的乘数,请不要将乘数硬编码到脚本中
当你有一段脚本逻辑是通用的,你这时候可能想把它抽象成一个模板,让各个地方直接调用,那这个时候就可以用这个,它可以理解为script模板 缓存在集群的cache中,它类似数据库中的存储过程 ,作用域为整个集群
这里以一个折扣计算的脚本为例:
//语法: POST _scripts/名字
POST _scripts/calculate-discount
{
"script": {
"lang": "painless",
"source": "doc['price'].value * params.discount"
}
}
GET _scripts/calculate-discount
DELETE _scripts/calculate-discount
GET product/_search
{
"script_fields": {
"discount_price": {
"script": {
//这里不需要再指定source,而是直接指定对应上面存储了的脚本id名即可
"id":"calculate-discount",
"params": {
"discount": 0.8
}
}
}
}
}
日期字段实际为ZonedDateTime的一个类,因此它们支持诸如此类的方法:getYear,getDayOfWeek 或例如从历元开始到毫秒getMillis。要在脚本中使用它们,请省略get前缀并继续使用小写的方法名其余部分。
getYear() //year
getMonth() //month
getDayOfMonth() //dayOfMonth
getDayOfWeek() //dayOfWeek
getDayOfYear() //dayOfYear
getHour() //hour
getMinute() //minute
getSecond() //second
getNano() //nano
例如获取创建时间所属的年:
GET product/_search
{
"script_fields": {
"test_year": {
"script": {
//对应的就是getYear()
"source": "doc.createtime.value.year"
}
}
}
}
当遇到复杂脚本,可能需要写很多行,这个时候上面的那种单行的写起来就太难受了。。。
实际上,ES是支持多行脚本编写的:
只需要source后面的语句的开头和结尾都是三个引号,在两对三引号之间写下多行内容即可,语句和语句直接使用“;”结尾,和java差不多:
POST product2/_update/1
{
"script": {
"lang": "painless",
"source": """
ctx._source.name += params.name;
ctx._source.price -= 1
""",
"params": {
"name": "无线充电",
"price": "1"
}
}
}
1、部分匹配,如果对应文档的name字段中包含phone,就把它的name字段加上标识符号:
POST product/_update/1
{
"script": {
"lang": "painless",
"source": """
// =~ 部分匹配
if (ctx._source.name =~ /[\s\S]*phone[\s\S]*/) {
//加上标识
ctx._source.name += "***|";
} else {
//啥也不做
ctx.op = "noop";
}
"""
}
}
这里如果没有在elasticsearch.yml文件中设置开启正则,会报错:
script.painless.regex.enabled: true
2、完全匹配,如果日期完全符合正则的要求,也就是日期格式为 类似 2018-12-31 这种的日期才行,然后加上标识符号:
POST product2/_update/1
{
"script": {
"lang": "painless",
"source": """
// ==~ 完全匹配
if (ctx._source.createtime ==~ /[0-9]{4}-[0-9]{2}-[0-9]{2}/) {
ctx._source.name += "|***";
} else {
//啥也不做
ctx.op = "noop";
}
"""
}
}
3、针对price小于1000的文档,进行统计出它们tag元素的总数:
每个文档的结构是这样:
{
“_index” : “product”,
“_type” : “_doc”,
“_id” : “5”,
“_score” : 0.0,
“_source” : {
“name” : “hongmi erji”,
“desc” : “erji zhong de kendeji”,
“price” : 399,
“tags” : [
“lowbee”,
“xuhangduan”,
“zhiliangx”
]
}
}
查询:
GET product/_search
{
"query": {
"bool": {
"filter": [
{
"range": {
"price": {
"lt": 10000
}
}
}
]
}
},
"aggs":{
"tag_count_aggs":{
"sum":{
"script":{
"lang":"painless",
//这里最后的聚合结果,是把每个文档经过这个脚本的结果分别进行累加后得到
"source":"""
int total = 0;
for(int i =0; i<doc['tags.keyword'].length;i++){
total+=i;
}
return total;
"""
}
}
}
}
理解它们之间的区别是很重要的,首先,使用doc关键字,将导致该字段的条件被加载到内存(缓存),这将导致更快的执行,但更多的内存消耗。
此外,doc[…]符号只允许简单类型(不能返回一个复杂类型(JSON对象或者nested类型)),只有在非分析或单个词条的基础上有意义。
但是,doc如果可以使用的情况下(返回非复杂类型),仍然是从文档中进行访问值的推荐方式,因为_source每次使用时都必须加载并解析,因此使用_source非常缓慢。
例子演示:
创建索引:
PUT /test_index2
{
"mappings": {
"properties": {
"ajbh": {
"type": "text",
"fields": {
}
},
"ajmc": {
"type": "text"
},
"lasj": {
"type": "date",
"format": "yyyy/MM/dd HH:mm:ss"
},
"jsbax_sjjh2_xz_ryjbxx_cleaning": {
"properties": {
"XM": {
"type": "text",
"fields":{
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"NL": {
"type": "integer"
},
"SF": {
"type": "keyword"
}
}
}
}
}
}
插入数据:
PUT test_index2/_bulk?refresh
{
"index":{
"_id":1}}
{
"ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
"XM": "张三","NL": "30","SF": "男"},{
"XM": "李四","NL": "31","SF": "男"},{
"XM": "王五","NL": "30","SF": "女"},{
"XM": "赵六","NL": 23,"SF": "男"}]}
{
"index":{
"_id":2}}
{
"ajbh": "563245","ajmc": "结案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
"XM": "张三2","NL": "30","SF": "男"},{
"XM": "李四2","NL": "31","SF": "男"},{
"XM": "王五2","NL": "30","SF": "女"},{
"XM": "赵六2","NL": 23,"SF": "女"}]}
{
"index":{
"_id":3}}
{
"ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
"XM": "张三3","NL": "30","SF": "男"},{
"XM": "李四3","NL": "31","SF": "男"},{
"XM": "王五3","NL": "30","SF": "女"},{
"XM": "赵六3","NL": 23,"SF": "男"}]}
从所有文档中统计jsbax_sjjh2_xz_ryjbxx_cleaning中一共出现男性的次数:
GET /test_index2/_search
{
"aggs": {
"sum_gender": {
"sum": {
"script": {
"lang": "painless",
"source": """
int total = 0;
//注意这里写的就是params['_source'],因此返回的是复杂对象
for(int i =0; i< params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'].length; i++){
if(params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'][i]['SF']=='男'){
total++;
}
}
return total;
"""
}
}
}
}
}
ES除了painless语言 ,其实还支持很多语言,比如expression就是一种特点是快速的自定义排名和排序的语言,这个应用的不是很多,但是某些场景性能可能会更好。
GET product2/_search
{
"script_fields": {
"test_field": {
"script": {
"lang": "expression",
//和painless相比,这里就不用后面跟写“.value”了
"source": "doc['price']"
}
}
}
}
文章浏览阅读3.8k次,点赞9次,收藏28次。直接上一个工作中碰到的问题,另外一个系统开启多线程调用我这边的接口,然后我这边会开启多线程批量查询第三方接口并且返回给调用方。使用的是两三年前别人遗留下来的方法,放到线上后发现确实是可以正常取到结果,但是一旦调用,CPU占用就直接100%(部署环境是win server服务器)。因此查看了下相关的老代码并使用JProfiler查看发现是在某个while循环的时候有问题。具体项目代码就不贴了,类似于下面这段代码。while(flag) {//your code;}这里的flag._main函数使用while(1)循环cpu占用99
文章浏览阅读347次。idea shift f6 快捷键无效_idea shift +f6快捷键不生效
文章浏览阅读135次。Ecmacript 中没有DOM 和 BOM核心模块Node为JavaScript提供了很多服务器级别,这些API绝大多数都被包装到了一个具名和核心模块中了,例如文件操作的 fs 核心模块 ,http服务构建的http 模块 path 路径操作模块 os 操作系统信息模块// 用来获取机器信息的var os = require('os')// 用来操作路径的var path = require('path')// 获取当前机器的 CPU 信息console.log(os.cpus._node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是
文章浏览阅读10w+次,点赞435次,收藏3.4k次。SPSS 22 下载安装过程7.6 方差分析与回归分析的SPSS实现7.6.1 SPSS软件概述1 SPSS版本与安装2 SPSS界面3 SPSS特点4 SPSS数据7.6.2 SPSS与方差分析1 单因素方差分析2 双因素方差分析7.6.3 SPSS与回归分析SPSS回归分析过程牙膏价格问题的回归分析_化工数学模型数据回归软件
文章浏览阅读7.5k次。如何利用hutool工具包实现邮件发送功能呢?1、首先引入hutool依赖<dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.7.19</version></dependency>2、编写邮件发送工具类package com.pc.c..._hutool发送邮件
文章浏览阅读867次,点赞2次,收藏2次。docker安装elasticsearch,elasticsearch-head,kibana,ik分词器安装方式基本有两种,一种是pull的方式,一种是Dockerfile的方式,由于pull的方式pull下来后还需配置许多东西且不便于复用,个人比较喜欢使用Dockerfile的方式所有docker支持的镜像基本都在https://hub.docker.com/docker的官网上能找到合..._docker安装kibana连接elasticsearch并且elasticsearch有密码
文章浏览阅读1.3w次,点赞57次,收藏92次。整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)近年来,随着机器学习的兴起,有一门编程语言逐渐变得火热——Python。得益于其针对机器学习提供了大量开源框架和第三方模块,内置..._beeware
文章浏览阅读7.9k次。//// ViewController.swift// Day_10_Timer//// Created by dongqiangfei on 2018/10/15.// Copyright 2018年 飞飞. All rights reserved.//import UIKitclass ViewController: UIViewController { ..._swift timer 暂停
文章浏览阅读986次,点赞2次,收藏2次。1.硬性等待让当前线程暂停执行,应用场景:代码执行速度太快了,但是UI元素没有立马加载出来,造成两者不同步,这时候就可以让代码等待一下,再去执行找元素的动作线程休眠,强制等待 Thread.sleep(long mills)package com.example.demo;import org.junit.jupiter.api.Test;import org.openqa.selenium.By;import org.openqa.selenium.firefox.Firefox.._元素三大等待
文章浏览阅读3k次,点赞4次,收藏14次。Java软件工程师职位分析_java岗位分析
文章浏览阅读2k次。Java:Unreachable code的解决方法_java unreachable code
文章浏览阅读1w次。1、html中设置标签data-*的值 标题 11111 222222、点击获取当前标签的data-url的值$('dd').on('click', function() { var urlVal = $(this).data('ur_如何根据data-*属性获取对应的标签对象