Java编程之伪共享与缓存行填充-程序员宅基地

技术标签: java  缓存  

最近在回顾Disruptor的相关知识,觉得Disruptor在计算机底层的领域确实比一般人厉害不少,以前在写程序的时候,基本是从应用逻辑的角度考虑,觉得设计模式+少量算法+ 优美的代码=理想的结果,但看完Disruptor的设计后,觉得只考虑应用本身是有一定的局限性,还需要懂底层,硬件层面的东西,就像Disruptor一样,通过底层优化,让程序有质的飞跃。

下面就Disruptor提到的CPU缓存话题,做了一些尝试和研究,如Disruptor所说,CPU有缓存伪共享的问题,并且通过缓存行填充能完美的解决这个问题。

CPU缓存

CPU是机器的心脏,最终由它来执行所有运算和程序。主内存(RAM)是存放数据(包括代码行)的地方。CPU和主内存之间有好几层缓存,即使直接访问主内存也是非常慢的。如果你正在多次对一块数据做相同的运算,那么在执行运算的时候把它加载到离CPU很近的地方就有意义了(比如一个循环计数)。下面是CPU的缓存结构图:

在这里插入图片描述

越靠近CPU的核缓存越快但是也越小,所以一级缓存很小但很快,并且紧靠着在使用它的CPU内核。二级缓存大一些,也慢一些,注意一级二级缓存只能被一个单独的CPU的单个核使用。三级缓存在现代多核机器中更普遍,仍然更大,更慢,但是被单个插槽上的所有CPU核共享。最后,你拥有一块主存,由全部插槽上的所有CPU核共享。当CPU执行运算的时候,它先去一级缓存查找所需的数据,再去二级缓存,然后是三级缓存,最后如果这些缓存中都没有,所需的数据就要去主内存拿。走得越远,运算耗费的时间就越长。所以如果你在做一些很频繁的事,你要确保数据在一级缓存中。

这是在网上找到的一份CPU缓存未命中时候的CPU时钟消耗一级大概的耗时:
在这里插入图片描述

CPU缓存行与伪共享

数据在缓存中不是以独立的项来存储,不是单独的变量,也不是单独的指针。缓存系统中是以缓存行(cache line)为单位存储,缓存行是2的整数幂个连续字节,一般为32-256个字节,最常见的缓存行大小是64个字节。下面是CPU缓存行的逻辑图:
在这里插入图片描述

CPU从主内存中加载数据的时候,不是只加载某一个变量的值,而是加载一个缓存行的值,例如一个Java的long类型是8字节,因此在一个缓存行中可以存8个long类型的变量。如果你访问一个long类型的数组,当数组中的一个值被加载到缓存中,它会额外加载另外7个。如果你数据结构中的项在内存中不是彼此相邻的,例如链表LinkedList结构,你将得不到缓存行加载所带来的优势,并且在这些数据结构中的每一个项都可能会出现缓存未命中,这是也是链表不适合遍历的原因之一。

但是,缓存行加载某一块内存数据,这个有好处也有坏处,缓存行不是单个数据,而是一组数据,如上图所示当2个线程同时运行在2个core上,同时加载了同一个缓存行,Core1修改X数据,Core2读Y数据,Core1修改后提交,Core2发现X数据有变化,缓存未命中,就会重新加载整个缓存行,但是Core2并不会用X数据,而是读Y数据,去重新加载整个缓存行的数据,无意中影响彼此的性能。如果两个独立的线程同时写两个不同的值会更糟,因为每次线程对缓存行进行写操作时,每个内核都要把另一个内核上的缓存块无效掉并重新读取里面的数据。你基本上是遇到两个线程之间的写冲突了,尽管它们写入的是不同的变量。每个线程都要去竞争缓存行的所有权来更新变量。如果核心1获得了所有权,缓存子系统将会使核心2中对应的缓存行失效。当核心2获得了所有权然后执行更新操作,核心1就要使自己对应的缓存行失效。这会来来回回的经过CPU三级缓存,大大影响了性能。如果互相竞争的核心位于不同的插槽,就要额外横跨插槽连接,问题可能更加严重,这就是CPU缓存伪共享。

Java处理缓存伪共享-缓存行填充

因为是硬件底层的逻辑,几乎所有程序在跑的时候都会遇到这个问题,那么java是如何处理这个问题呢?答案就是缓存行填充。

对于HotSpot JVM,所有对象都有两个字长的对象头。第一个字是由24位哈希码和8位标志位(如锁的状态或作为锁对象)组成的Mark Word。第二个字是对象所属类的引用。如果是数组对象还需要一个额外的字来存储数组的长度。每个对象的起始地址都对齐于8字节以提高性能。因此当封装对象的时候为了高效率,对象字段声明的顺序会被重排序成下列基于字节大小的顺序:

doubles (8) 和 longs (8)
ints (4) 和 floats (4)
shorts (2) 和 chars (2)
booleans (1) 和 bytes (1)
references (4/8)
<子类字段重复上述顺序>

通过对热点变量周围进行缓存行填充,来规避缓存伪共享带来的问题,对于缓存行大小是64字节或更少的处理器架构来说是这样的,有可能处理器的缓存行是128字节,那么使用64字节填充还是会存在伪共享问题,通过增加补全变量的个数来确保热点变量不会和其他东西同时存在于一个缓存行中。下面是Disruptor对ring buffer的序列号做的补全代码:

public long p1, p2, p3, p4, p5, p6, p7; // cache line padding
private volatile long cursor = INITIAL_CURSOR_VALUE; 
public long p8, p9, p10, p11, p12, p13, p14; // cache line padding

当CPU缓存加载cursor变量的时候,会连带加载周边的7个long类型变量,但是这几个long类型变量不会有任何线程去修改它,因此不会出现缓存未命中问题,完美规避了缓存伪共享的问题。

Java程序代码验证

官方也给了一个java的测试demo,那么下面针对各种不同的情景,做一下实验看看,是不是有缓存伪共享这个问题,测试代码如下:
在这里插入图片描述

下面针对各个测试场景,做一下简单的描述:

场景一:对Long变量进行写入,没有缓存行填充,没有volatile关键字。

场景二:对Long变量进行写入,有缓存行填充,没有volatile关键字。

场景三:对Long变量进行写入,没有缓存行填充,有volatile关键字。

场景四:对Long变量进行写入,有缓存行填充,有volatile关键字。

下面是针对各个场景的测试结果(每个场景测试3次,取平均值):

在这里插入图片描述

从测试结果来看,场景一和场景二差不多,有缓存行填充的稍微快那么一点点,区别不大,都是192276000纳秒左右。场景三和场景四有volatile关键字的就不一样了,这里可以看出volatile关键字对一个变量的读取和写入性能影响还是比较大,写入耗时是直接写入的200多倍,因此volatile关键字怎么用很关键,用到哪些地方也很关键,不要在代码里面随便加,不会用反而会影响程序运行效率。场景三有volatile关键字,但是没有进行缓存行填充,耗时是有缓存行填充的10几倍,这里就能看出缓存行填充的效果在用到了内存屏障的时候还是很明显。

CPU缓存伪共享的问题,确实打破了很多人对常规程序执行的理解,如何才能应用到工作中呢?有以下几点需要注意:

对volatile很熟悉,并且代码里面使用到了缓存屏障,需要看看能否用到这个缓存填充行。
清楚程序在某个时刻会有缓存伪共享问题,例如某几个代码在一起的变量会被多个线程同时使用并且有写入操作,需要用缓存填充行把这几个变量隔开。
能使用工具分析自己写的程序,看看有缓存填充行过后,是否真的能提升效率,例如JProfiler分析工具。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_44592002/article/details/120503639

智能推荐

API网关之动态路由_api路由-程序员宅基地

文章浏览阅读1.3k次。AIP网关 动态路由_api路由

强一致性 弱一致性 最终一致性-程序员宅基地

文章浏览阅读4.5k次,点赞4次,收藏22次。在足球比赛里,一个球员在一场比赛中进三个球,称之为帽子戏法(Hat-trick)。在分布式数据系统中,也有一个帽子原理(CAP Theorem),不过此帽子非彼帽子。CAP原理中,有三个要素:一致性(Consistency)可用性(Availability)分区容忍性(Partition tolerance)CAP原理指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。因此在进行分..._强一致性 弱一致性 最终一致性

Android 相册图库功能,按时间排序_android 加载网络图片列表时间轴相册-程序员宅基地

文章浏览阅读8.6k次,点赞4次,收藏21次。TimeAlbum 时间相册功能说明1、图片和视频资源根据日期排序显示。 2、图片视频预览功能,图片、视频预览带缓存功能。 3、单个图片或视频可进行删除及分享操作。 4、多张图片进行分享功能,多张图片和视频进行删除功能。 5、Decoration可自定义扩展。 6、图片显示可自定义扩展。 7、图片视频可自定义预览操作。依赖如何使用只需要继承AlbumFr..._android 加载网络图片列表时间轴相册

echarts动态时间轴,以秒为单位更新_echarts实现以秒为单位的动态折线图显示-程序员宅基地

文章浏览阅读2.2w次。echarts官网上的案例是按天来更新数据的http://echarts.baidu.com/demo.html#dynamic-data2 现在我需要改成以秒为单位动态刷新的案例,类似于股票实时刷新的那种,代码位置http://download.csdn.net/download/u013720726/9963108_echarts实现以秒为单位的动态折线图显示

macOS VSCode 配置 Go 编程环境_failed to run "go env env,-json,goprivate,gomod,go-程序员宅基地

文章浏览阅读1.5k次。macOS VSCode 配置 Go 编程环境笔者使用 macOS BigSur 安装完 Go 1.16.6 和 VSCode Go插件,然后运行时,往往会报诸如下面的错误:build esc: cannot load xxx : malformed module path “xxx”: missing dot in first path elementwarning: GOPATH set to GOROOT (/Users/xxx/go/) has no effect实际上,这都是由于 GO_failed to run "go env env,-json,goprivate,gomod,gowork,goenv,gotoolchain": s

C++多线程并发(三)---线程同步之条件变量_线程同步condition variables-程序员宅基地

文章浏览阅读1.7w次,点赞66次,收藏303次。一、何为条件变量在前一篇文章《C++多线程并发编程(二)—线程同步之互斥锁》中解释了线程同步的原理和实现,使用互斥锁解决数据竞争访问问题,算是线程同步的加锁原语,用于排他性的访问共享数据。我们在使用mutex时,一般都会期望加锁不要阻塞,总是能立刻拿到锁,然后尽快访问数据,用完之后尽快解锁,这样才能不影响并发性和性能。如果需要等待某个条件的成立,我们就该使用条件变量(condition var..._线程同步condition variables

随便推点

SQL语句操作优先级顺序_inner left优先级-程序员宅基地

文章浏览阅读1.7w次,点赞4次,收藏18次。SQL语句操作优先级顺序原文所在SQL 不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中,代码按编码顺序被处理,但是在SQL语言中,第一个被处理的子句是FROM子句,尽管SELECT语句第一个出现,但是几乎总是最后被处理。 每个步骤都会产生一个虚拟表,该虚拟表被用作下一个步骤的输入。这些虚拟表对调用者(客户端应用程序或者外部查询)不可用。只是最后一步生成的表才会返回_inner left优先级

C51单片机:点击一次按键,实现LED显示状态的亮灭转变_单片机按键按一次亮一个灯-程序员宅基地

文章浏览阅读9.1k次,点赞3次,收藏30次。#include <REGX52.H>sbit led=P1^0;//p1.0口接ledsbit button=P3^0;//p3.0口接控制int i,j;//整数i,jvoid main( )//主函数{ led=1;//led初始状态 while(1)//循环 { if(button==0)//按下开关 { for(i=0;i<10;i++);//延时去抖 while(button==0);//检测松手 l._单片机按键按一次亮一个灯

Python 爬取红酒网站https://www.vivino.com_vivino网站爬虫-程序员宅基地

文章浏览阅读2.6w次。用到了进程池,代理import requestsimport jsonimport jsonpathimport pymysqlimport queuefrom multiprocessing import Poolimport randomrequests.packages.urllib3.disable_warnings()# 创建连接db = pymysql.c..._vivino网站爬虫

nginx中try_files $uri $uri/ /index.html的作用 和 $uri的含义

的含义是:首先尝试按照请求的URI去寻找对应的文件,如果找不到,再尝试将请求作为目录处理,如果还是找不到,最后就返回。这对于单页应用来说非常有用,因为无论用户请求的是什么URL,服务器都会返回同一个HTML文件(即。:这是Nginx内置的一个变量,代表当前请求的URI,不包括参数部分。例如,如果请求的URL是。:尝试将请求作为目录处理,如果这个目录存在,Nginx会试图返回该目录下的默认文件(通常是。这句话是Nginx服务器配置中的一条指令,用于设置处理请求的策略。都无法找到对应的文件或目录,那么就返回。

KUKA机器人KR3 R540维护保养——更换齿形带

我们知道机器人长时间运行后,部分轴的齿形带会发生磨损,张力也会发生变化,这时就需要更换齿形带。本篇文章还是以KUKA机器人KR3 R540的A5轴为例,对KUKA机器人更换轴A2、A3、A5齿形带的操作方法进行介绍,有需要的可以参考。4、从齿形带轮上取下旧的齿形带A5。2、接下来用T10规格的内梅花扳手将盖罩A5上的4 颗螺丝拧出,放到指定位置,易于保管。1、我们前期需要准备一些工具:开口扳手(7毫米)、内六角梅花扳手、内六角扳手。三、对机器人A2、A3轴齿形带的更换方法步骤和以上类似。

【Qt QML】QLibrary加载共享库中的类

QLibrary是一个用于加载动态链接库(或称为共享库)的类。它提供了一种独立于平台的方式来访问库中的功能。在QLibrary中,可以通过构造函数或setFileName()方法设置要加载的库文件名。当加载库文件时,QLibrary会搜索所有平台特定的库位置,除非传入的文件名具有绝对路径。如果传入的文件名具有绝对路径,那么会首先尝试加载该目录。如果该文件找不到,QLibrary会使用不同的平台特定的文件前缀或后缀再次尝试。