ES第十一天-script_es script-程序员宅基地

ES Scripts简介

在ES 1.4.X-5.0版本，Groovy是作为ES的脚本语言。
其他支持脚本：
① expression：每个文档的开销较低：表达式的作用更多，可以非常快速地执行，甚至比编写native脚本还要快，支持javascript语法的子集：单个表达式。缺点：只能访问数字，布尔值，日期和geo_point字段，存储的字段不可用
② mustache：提供模板参数化查询
③ java

在ES6之后，更多的是使用Painless作为脚本。
Painless：Painless是一种专门用于Elasticsearch的简单,用于内联和存储脚本，类似于Java,也有注释、关键字、类型、变量、函数等，安全的脚本语言。它是Elasticsearch的默认脚本语言，可以安全地用于内联和存储脚本。本次将主要针对Painless进行script讲解。

script中的新增

  {
    
        "_index" : "product",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 1.0,
        "_source" : {
    
          "name" : "nfc phone",
          "desc" : "shouji zhong de hongzhaji",
          "price" : 2999,
          "tags" : [
            "xingjiabi",
            "fashao",
            "menjinka"
          ]
        }
      }

针对上面的文档，对里边的tags进行新增元素：

POST product/_update/3
{
    
  "script": {
    
    "lang": "painless",
    "source": "ctx._source.tags.add('无线充电')"
  }
}

script中的修改

 {
    
    "_index" : "product",
    "_type" : "_doc",
    "_id" : "3",
    "_score" : 1.0,
    "_source" : {
    
      "name" : "nfc phone",
      "desc" : "shouji zhong de hongzhaji",
      "price" : 2999,
      "tags" : [
        "xingjiabi",
        "fashao",
        "menjinka"
      ]
    }
  }

针对上面的文档，对价格进行更新：

POST product/_update/3
{
    
  "script": {
    
     //语法：#ctx._source.<field-name>
    "source": "ctx._source.price-=1"
  }
}

upsert

如果数据存在,执行partial update操作,如果数据不存在,那么执行create操作

POST product2/_update/15
{
    
    //存在执行这个：
  "script": {
    
    "source": "ctx._source.price += params.param1",
    "lang": "painless",
    "params": {
    
      "param1": 100
    }
  },
  //不存在进行插入这个：
  "upsert": {
    
    "name": "小米10",
    "price": 1999
  }
}

script中的删除

POST product/_update/15
{
    
  "script": {
    
    "lang": "painless",
    "source": "ctx.op='delete'"
  }
}

script中的批量操作bulk

POST _bulk
{
     "update" : {
     "_id" : "0", "_index" : "product2", "retry_on_conflict" : 3} }
{
     "script" : {
     "source": "ctx._source.price += params.param1", "lang" : "painless", "params" : {
    "param1" : 100}}, "upsert" : {
    "price" : 1999}}

script中的查询

   {
    
        "_index" : "product",
        "_type" : "_doc",
        "_id" : "4",
        "_score" : 1.0,
        "_source" : {
    
          "name" : "xiaomi erji",
          "desc" : "erji zhong de huangmenji",
          "price" : 999,
          "tags" : [
            "low",
            "bufangshui",
            "yinzhicha"
          ]
        }
      }

针对上面的文档，可以这样使用脚本查询：

GET /product/_search
{
    
  "script_fields": {
    
      //取个展示的名字
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //使用doc对象用（点操作符）来得到对应的字段，
        "source": "doc.price.value" 
      }
    }
  }
}

但是对于一些text类型的文本，脚本中必须需要使用它的keyword，此时用点操作符就不行了，其实脚本中访问字段还有另外一种方式：

GET /product/_search
{
    
  "script_fields": {
    
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //像这种访问字典的方式
        "source": "doc['name.keyword'].value"
      }
    }
  }
}

同时展示价格的原始价格和100倍后的价格：

GET /product/_search
{
    
  "script_fields": {
    
    "nature_source": {
    
      "script": {
    
        "lang": "painless",
        "source": "doc.price.value"
      }
    },
    "test_filed": {
    
      "script": {
    
        "lang": "painless",
        //script中可以进行计算 并支持参数
        "source": "doc.price.value*params.size",
        "params": {
    
          "size": 100
        }
      }
    }
  }
}

展示原始价格和多个打折价格：

GET product2/_search
{
    
  "script_fields": {
    
    "price": {
    
      "script": {
    
        "lang": "painless",
        "source": "doc['price'].value"
      }
    },
    "discount_price": {
    
      "script": {
    
        "lang": "painless",
        //之前看返回结果注意到，这里可以返回一个数组（也就是可以返回多个元素内容）：
        "source": "[doc['price'].value * params.discount_8,doc['price'].value * params.discount_7,doc['price'].value * params.discount_6,doc['price'].value * params.discount_5]",
        "params": {
    
          "discount_8": 0.8,
          "discount_7": 0.7,
          "discount_6": 0.6,
          "discount_5": 0.5
        }
      }
    }
  }
}

脚本和参数

上面的脚本我们可以看到有的地方进行了调用参数params中声明的变量。
ES在首次执行脚本时，会对脚本进行编译（编译行为每分钟默认为15次，比较消耗性能），然后将编译好的内容缓存放入内存（可缓存大小有限制，默认为100M），
没有过期时间可以手工设置过期时间script.cache.expire 通过script.cache.max_size设置缓存大小脚本最大64MB 通过script.max_size_in_bytes配置
但如果脚本内容发送修改，缓存失效。但通过传入参数的方式，而后续只改变参数的值，这样在后续执行起来都是非常快的。
也就是说：如果需要将变量传递到脚本中，则应以命名形式传递变量params，而不是将值硬编码到脚本本身中。例如，如果你希望能够将字段值乘以不同的乘数，请不要将乘数硬编码到脚本中

Stored scripts

当你有一段脚本逻辑是通用的，你这时候可能想把它抽象成一个模板，让各个地方直接调用，那这个时候就可以用这个，它可以理解为script模板缓存在集群的cache中，它类似数据库中的存储过程，作用域为整个集群

这里以一个折扣计算的脚本为例：

创建脚本

//语法： POST _scripts/名字
POST _scripts/calculate-discount
{
    
  "script": {
    
    "lang": "painless",
    "source": "doc['price'].value * params.discount"
  }
}

查看脚本

GET _scripts/calculate-discount

删除脚本

DELETE _scripts/calculate-discount

引用脚本

GET product/_search
{
    
  "script_fields": {
    
    "discount_price": {
    
      "script": {
    
         //这里不需要再指定source，而是直接指定对应上面存储了的脚本id名即可 
        "id":"calculate-discount",
        "params": {
    
          "discount": 0.8
        }
      }
    }
  }
}

date类型的查询

日期字段实际为ZonedDateTime的一个类，因此它们支持诸如此类的方法：getYear，getDayOfWeek 或例如从历元开始到毫秒getMillis。要在脚本中使用它们，请省略get前缀并继续使用小写的方法名其余部分。

getYear()  //year
getMonth() //month
getDayOfMonth() //dayOfMonth
getDayOfWeek() //dayOfWeek
getDayOfYear() //dayOfYear
getHour() //hour
getMinute() //minute
getSecond() //second
getNano() //nano

例如获取创建时间所属的年：

GET product/_search
{
    
  "script_fields": {
    
    "test_year": {
    
      "script": {
    
          //对应的就是getYear() 
        "source": "doc.createtime.value.year"
      }
    }
  }
}

脚本中的多行语句

当遇到复杂脚本,可能需要写很多行，这个时候上面的那种单行的写起来就太难受了。。。
实际上，ES是支持多行脚本编写的：
只需要source后面的语句的开头和结尾都是三个引号，在两对三引号之间写下多行内容即可，语句和语句直接使用“；”结尾，和java差不多：

POST product2/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
      ctx._source.name += params.name;
      ctx._source.price -= 1
    """,
    "params": {
    
      "name": "无线充电",
      "price": "1"
    }
  }
}

例子

1、部分匹配，如果对应文档的name字段中包含phone，就把它的name字段加上标识符号：

POST product/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
        // =~ 部分匹配
      if (ctx._source.name =~ /[\s\S]*phone[\s\S]*/) {
          //加上标识
        ctx._source.name += "***|";
      } else {
         //啥也不做 
        ctx.op = "noop";
      }
    """
  }
}

这里如果没有在elasticsearch.yml文件中设置开启正则，会报错：
在这里插入图片描述

script.painless.regex.enabled: true

2、完全匹配，如果日期完全符合正则的要求，也就是日期格式为类似 2018-12-31 这种的日期才行，然后加上标识符号：

POST product2/_update/1
{
    
  "script": {
    
    "lang": "painless",
    "source": """
      // ==~ 完全匹配
      if (ctx._source.createtime ==~ /[0-9]{4}-[0-9]{2}-[0-9]{2}/) {
        ctx._source.name += "|***";
      } else {
      //啥也不做 
        ctx.op = "noop";
      }
    """
  }
}

3、针对price小于1000的文档，进行统计出它们tag元素的总数：

每个文档的结构是这样：

{
“_index” : “product”,
“_type” : “_doc”,
“_id” : “5”,
“_score” : 0.0,
“_source” : {
“name” : “hongmi erji”,
“desc” : “erji zhong de kendeji”,
“price” : 399,
“tags” : [
“lowbee”,
“xuhangduan”,
“zhiliangx”
]
}
}

查询：

GET product/_search
{
    
  "query": {
    
    "bool": {
    
      "filter": [
        {
    
          "range": {
    
            "price": {
    

              "lt": 10000
            }
          }
        }
      ]
    }
  },
  "aggs":{
    
    "tag_count_aggs":{
    
      "sum":{
    
        "script":{
    
          "lang":"painless",
          //这里最后的聚合结果，是把每个文档经过这个脚本的结果分别进行累加后得到
          "source":"""
          int total = 0;
          for(int i =0; i<doc['tags.keyword'].length;i++){
            total+=i;
          }
          return total;
          """
        }
      }
    }
  }

doc[‘field’].value和params[’_source’][‘field’]的区别

理解它们之间的区别是很重要的，首先，使用doc关键字，将导致该字段的条件被加载到内存（缓存），这将导致更快的执行，但更多的内存消耗。
此外，doc[…]符号只允许简单类型（不能返回一个复杂类型(JSON对象或者nested类型)），只有在非分析或单个词条的基础上有意义。
但是，doc如果可以使用的情况下（返回非复杂类型），仍然是从文档中进行访问值的推荐方式，因为_source每次使用时都必须加载并解析，因此使用_source非常缓慢。

例子演示：

创建索引：

PUT /test_index2
{
    
  "mappings": {
    
    "properties": {
    
      "ajbh": {
    
        "type": "text",
        "fields": {
    }
      },
      "ajmc": {
    
        "type": "text"
      },
      "lasj": {
    
        "type": "date",
        "format": "yyyy/MM/dd HH:mm:ss"
      },
      "jsbax_sjjh2_xz_ryjbxx_cleaning": {
    
        "properties": {
    
          "XM": {
    
            "type": "text",
            "fields":{
    
              "keyword": {
    
              "type": "keyword",
              "ignore_above": 256
            }
            }
          },
          "NL": {
    
            "type": "integer"
          },
          "SF": {
    
            "type": "keyword"
          }
        }
      }
    }
  }
}

插入数据：

PUT test_index2/_bulk?refresh
{
    "index":{
    "_id":1}}
{
    "ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三","NL": "30","SF": "男"},{
    "XM": "李四","NL": "31","SF": "男"},{
    "XM": "王五","NL": "30","SF": "女"},{
    "XM": "赵六","NL": 23,"SF": "男"}]}
{
    "index":{
    "_id":2}}
{
    "ajbh": "563245","ajmc": "结案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三2","NL": "30","SF": "男"},{
    "XM": "李四2","NL": "31","SF": "男"},{
    "XM": "王五2","NL": "30","SF": "女"},{
    "XM": "赵六2","NL": 23,"SF": "女"}]}
{
    "index":{
    "_id":3}}
{
    "ajbh": "12345","ajmc": "立案案件","lasj": "2020/05/21 13:25:23","jsbax_sjjh2_xz_ryjbxx_cleaning": [{
    "XM": "张三3","NL": "30","SF": "男"},{
    "XM": "李四3","NL": "31","SF": "男"},{
    "XM": "王五3","NL": "30","SF": "女"},{
    "XM": "赵六3","NL": 23,"SF": "男"}]}

从所有文档中统计jsbax_sjjh2_xz_ryjbxx_cleaning中一共出现男性的次数：

GET /test_index2/_search
{
    
  "aggs": {
    
    "sum_gender": {
    
      "sum": {
    
        
        "script": {
    
          "lang": "painless",
          "source": """
          
          int total = 0;
          //注意这里写的就是params['_source']，因此返回的是复杂对象
          for(int i =0; i< params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'].length; i++){
            if(params['_source']['jsbax_sjjh2_xz_ryjbxx_cleaning'][i]['SF']=='男'){
              total++;
            }
          }
          return total;
          
          """
        }
        
        
      }
    }
  }
}

扩展

ES除了painless语言，其实还支持很多语言，比如expression就是一种特点是快速的自定义排名和排序的语言，这个应用的不是很多，但是某些场景性能可能会更好。

GET product2/_search
{
    
  "script_fields": {
    
    "test_field": {
    
      "script": {
    
        "lang":   "expression",
        //和painless相比，这里就不用后面跟写“.value”了
        "source": "doc['price']"
      }
    }
  }
}

本文链接：https://blog.csdn.net/darkness0604/article/details/107594190

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

while循环&CPU占用率高问题深入分析与解决方案_main函数使用while(1)循环cpu占用99-程序员宅基地

文章浏览阅读3.8k次，点赞9次，收藏28次。直接上一个工作中碰到的问题，另外一个系统开启多线程调用我这边的接口，然后我这边会开启多线程批量查询第三方接口并且返回给调用方。使用的是两三年前别人遗留下来的方法，放到线上后发现确实是可以正常取到结果，但是一旦调用，CPU占用就直接100%(部署环境是win server服务器)。因此查看了下相关的老代码并使用JProfiler查看发现是在某个while循环的时候有问题。具体项目代码就不贴了，类似于下面这段代码。while(flag) {//your code;}这里的flag._main函数使用while(1)循环cpu占用99

【无标题】jetbrains idea shift f6不生效_idea shift +f6快捷键不生效-程序员宅基地

文章浏览阅读347次。idea shift f6 快捷键无效_idea shift +f6快捷键不生效

node.js学习笔记之Node中的核心模块_node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是-程序员宅基地

文章浏览阅读135次。Ecmacript 中没有DOM 和 BOM核心模块Node为JavaScript提供了很多服务器级别，这些API绝大多数都被包装到了一个具名和核心模块中了，例如文件操作的 fs 核心模块，http服务构建的http 模块 path 路径操作模块 os 操作系统信息模块// 用来获取机器信息的var os = require('os')// 用来操作路径的var path = require('path')// 获取当前机器的 CPU 信息console.log(os.cpus._node模块中有很多核心模块,以下不属于核心模块,使用时需下载的是

数学建模【SPSS 下载-安装、方差分析与回归分析的SPSS实现(软件概述、方差分析、回归分析)】_化工数学模型数据回归软件-程序员宅基地

文章浏览阅读10w+次，点赞435次，收藏3.4k次。SPSS 22 下载安装过程7.6 方差分析与回归分析的SPSS实现7.6.1 SPSS软件概述1 SPSS版本与安装2 SPSS界面3 SPSS特点4 SPSS数据7.6.2 SPSS与方差分析1 单因素方差分析2 双因素方差分析7.6.3 SPSS与回归分析SPSS回归分析过程牙膏价格问题的回归分析_化工数学模型数据回归软件

利用hutool实现邮件发送功能_hutool发送邮件-程序员宅基地

文章浏览阅读7.5k次。如何利用hutool工具包实现邮件发送功能呢？1、首先引入hutool依赖<dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.7.19</version></dependency>2、编写邮件发送工具类package com.pc.c..._hutool发送邮件

docker安装elasticsearch，elasticsearch-head，kibana，ik分词器_docker安装kibana连接elasticsearch并且elasticsearch有密码-程序员宅基地

文章浏览阅读867次，点赞2次，收藏2次。docker安装elasticsearch，elasticsearch-head，kibana，ik分词器安装方式基本有两种，一种是pull的方式，一种是Dockerfile的方式，由于pull的方式pull下来后还需配置许多东西且不便于复用，个人比较喜欢使用Dockerfile的方式所有docker支持的镜像基本都在https://hub.docker.com/docker的官网上能找到合..._docker安装kibana连接elasticsearch并且elasticsearch有密码

随便推点

Python 攻克移动开发失败！_beeware-程序员宅基地

文章浏览阅读1.3w次，点赞57次，收藏92次。整理 | 郑丽媛出品 | CSDN（ID：CSDNnews）近年来，随着机器学习的兴起，有一门编程语言逐渐变得火热——Python。得益于其针对机器学习提供了大量开源框架和第三方模块，内置..._beeware

Swift4.0_Timer 的基本使用_swift timer 暂停-程序员宅基地

文章浏览阅读7.9k次。//// ViewController.swift// Day_10_Timer//// Created by dongqiangfei on 2018/10/15.// Copyright 2018年飞飞. All rights reserved.//import UIKitclass ViewController: UIViewController { ..._swift timer 暂停

元素三大等待-程序员宅基地

文章浏览阅读986次，点赞2次，收藏2次。1.硬性等待让当前线程暂停执行，应用场景：代码执行速度太快了，但是UI元素没有立马加载出来，造成两者不同步，这时候就可以让代码等待一下，再去执行找元素的动作线程休眠，强制等待 Thread.sleep(long mills)package com.example.demo;import org.junit.jupiter.api.Test;import org.openqa.selenium.By;import org.openqa.selenium.firefox.Firefox.._元素三大等待