是时候了解下 mmap 了

news/2024/7/2 23:55:07

欢迎关注方志朋的博客,回复”666“获面试宝典

作者:逗逼程序员
链接:https://www.jianshu.com/p/0ce91e10d026

1、mmap基础概念

mmap 是一种内存映射文件的方法,即将一个文件或者其他对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一映射关系。

实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页面到对应的文件磁盘上,即完成了对文件的操作而不必调用read,write等系统调用函数。相反,内核空间的这段区域的修改也直接反应用户空间,从而可以实现不同进程的文件共享。如下图所示:

4627d03cbba02bce9f31eade77e90765.jpeg

由上图可以看出,进程的虚拟地址空间,由多个虚拟内存区域构成。虚拟内存区域是进程的虚拟地址空间中的一个同质区间,即具有同样特性的连续地址范围。上图中所示的text数据段、初始数据段、Bss数据段、堆、栈、内存映射,都是一个独立的虚拟内存区域。而为内存映射服务的地址空间处在堆栈之间的空余部分。

linux 内核使用的vm_area_struct 结构来表示一个独立的虚拟内存区域,由于每个不同质的虚拟内存区域功能和内部机制不同;因此同一个进程使用多个vm_area_struct 结构来分别表示不同类型的虚拟内存区域。各个vm_area_struct 结构使用链表或者树形结构链接,方便进程快速访问。如下图所示:

ef5a24984b1a5a8c8f4e730464eb70ef.jpeg

vm_area_struct 结构中包含区域起始和终止地址以及其他相关信息,同时也包含一个vm_ops 指针,其内部可引出所有针对这个区域可以使用的系统调用函数。这样,进程对某一虚拟内存区域的任何操作都需要的信息,都可以从vm_area_struct 中获得。mmap函数就是要创建一个新的vm_area_struct结构 ,并将其与文件的物理磁盘地址相连。具体步骤如下:

2、mmap 内存映射原理

mmap 内存映射实现过程,总的来说可以分为三个阶段:

(一)进程启动映射过程,并在虚拟地址空间中为映射创建虚拟映射区域

1、进程在用户空间调用函数mmap ,原型:void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);

2、在当前进程虚拟地址空间中,寻找一段空闲的满足要求的连续的虚拟地址

3、为此虚拟区分配一个vm_area_struct 结构,接着对这个结构各个区域进行初始化

4、将新建的虚拟区结构(vm_area_struct)插入进程的虚拟地址区域链表或树中

(二)调用内核空间的系统调用函数mmap (不同于用户空间函数),实现文件物理地址和进程虚拟地址的一一映射关系

5、为映射分配新的虚拟地址区域后,通过待映射的文件指针,在文件描述符表中找到对应的文件描述符,通过文件描述符,链接到内核“已打开文集”中该文件结构体,每个文件结构体维护者和这个已经打开文件相关各项信息。

6、通过该文件的文件结构体,链接到file_operations模块,调用内核函数mmap,其原型为:int mmap(struct file *filp, struct vm_area_struct *vma),不同于用户空间库函数。

7、内核mmap函数通过虚拟文件系统inode模块定位到文件磁盘物理地址。

8、通过remap_pfn_range函数建立页表,即实现了文件地址和虚拟地址区域的映射关系。此时,这片虚拟地址并没有任何数据关联到主存中。

(三)进程发起对这片映射空间的访问,引发缺页异常,实现文件内容到物理内存(主存)的拷贝。

前两个阶段仅在于创建虚拟区间并完成地址映射,但是并没有将任何文件数据拷贝至主存。真正的文件读取是当进程发起读或者写操作时。

9、进程的读写操作访问虚拟地址空间这一段映射地址后,通过查询页表,先这一段地址并不在物理页面。因为目前只建立了映射,真正的硬盘数据还没有拷贝到内存中,因此引发缺页异常。

10、缺页异常进行一系列判断,确定无法操作后,内核发起请求掉页过程。

11、调页过程先在交换缓存空间中寻找需要访问的内存页,,如果没有则调用nopage函数把所缺的页从磁盘装入到主存中。

12、之后进程即可对这片主存进行读或者写的操作了,如果写操作改变了内容,一定时间后系统自动回写脏页面到对应的磁盘地址,也即完成了写入到文件的过程。

注:修改过的脏页面并不会立即更新回文件,而是有一段时间延迟,可以调用msync() 来强制同步,这样所写的内容就能立即保存到文件里了。

3、mmap和常规文件操作的区别

首先我们来回顾一下常规文件操作,函数的调用过程:

1、进程发起读文件请求

2、内核通过查找进程文件符表。

3、inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。如果存在,则直接返回这片文件页的内容。

总的来说,常规文件操作为了提高读写效率和保护磁盘,使用了页缓存机制,这样造成了读文件时需要先将文件页从磁盘拷贝到缓存中,由于页缓存处在内核空间,不能被用户进程直接寻址,所以还需要将页缓存中数据页再次拷贝到内存对用的用户空间中。这样通过两次拷贝过程,才能完成进程对文件内容的获取。写操作也一样,待写入的Buffer在内核空间不能直接访问,必须先拷贝到内核空间对应的主存,再回写磁盘中,也是需要两次数据拷贝。而使用mmap 操作文件中,创建新的虚拟内存区域、建立文件磁盘地址和内存区域映射这两步,没有任何文件拷贝操作。而之后访问数据时,发现内存中并无数据而发起的缺失页异常过程,可以通过建立好的映射关系,只使用一次数据拷贝,就从磁盘中将数据传入内存的用户空间中,供过程使用。

总而言之,常规的文件操作需要从磁盘到页缓存再到用户主存的两次数据拷贝,而mmap操作文件,只需要从磁盘到用户主存的一次数据拷贝过程。说白了,mmap的关键点是实现了用户空间和内核的数据直接交互省去了空间不同数据不通的繁琐过程。因此 mmap效率更高。

mmap优点总结

由上文讨论可知,mmap 优点共有以下几点:

对文件的读取操作跨过了页缓存,减少了数据的拷贝次数,用内存读写取代了I/O读写,提高了读取的效率。

实现了用户空间和内核空间的高校交互方式,两空间的各自修改操作可以直接反映在映射的区域内,从而被对方空间及时捕捉。

提供进程间共享内存及互相通信的方式。不管是父子进程还是无亲缘关系进程,都可以将自身空间用户映射到同一个文件或者匿名映射到同一片区域。从而通过各自映射区域的改动,打到进程间通信和进程间共享的目的。

同时,如果进程A和进程 B 都映射了区域C,当A第一次读取C时候,通过缺页从磁盘复制文件页到内存中,但当B再读C的相同页面时,虽然也会产生缺页异常,但是不会从磁盘中复制文件过来,而是直接使用已经保存再内存中的文件数据。

可用于实现高效的大规模数据传输。内存空间不足,是制约大数据操作的一个方面,解决方案往往是借助于硬盘空间的协助,补充内存的不足。但是进一步造成大量的文件I/O操作,极大影响效率。这个问题可以通过mmap映射很好的解决。换句话说,但凡需要磁盘空间代替内存的时候,mmap都可以发挥功效。

mmap使用细节

使用mmap需要注意一点,mmap映射区域大小必须是物理页大小(page_size)的整数倍,原因是:内存的最小粒度是页,而进程虚拟地址空间和内存的映射单位也是以页为单位,为了匹配内存操作,mmap从磁盘到虚拟地址空间的映射也必须是页。

内核可以跟踪被内存映射的底层对象,大小。就是说,如果文件的大小一直再扩张,只要再映射区域范围内的数据,进程都可以依法得到,这和映射建立时文件的大小无关。

映射建立后,即使文件关闭,映射依然存在。因为映射的是磁盘的地址,不是文件本身,和文件句柄无关,同时可用于进程间通信的有效地址空间,不完全受限于被映射文件的大小,因为是按页映射。

热门内容:
  • 别再写 main 方法测试了,太 Low!这才是专业 Java 测试方法!

  • 2 万字详解,吃透 ES!

  • 从零到上亿用户,我是如何一步步优化MySQL数据库的?(真实案例)

  • 发现一款 JSON 可视化工具神器,太爱了!

  • 国内怎么就做不出 JetBrains 那样的产品?

91cc4c05f3f6b2daadfecb305da54a41.jpeg

最近面试BAT,整理一份面试资料《Java面试BAT通关手册》,覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。
获取方式:点“在看”,关注公众号并回复 666 领取,更多内容陆续奉上。

明天见(。・ω・。)ノ


http://lihuaxi.xjx100.cn/news/254292.html

相关文章

2018 蓝桥杯省赛 B 组模拟赛(一)-年龄

今天蒜头君带着花椰妹和朋友们一起聚会,当朋友们问起年龄的时候,蒜头君打了一个哑谜(毕竟年龄是女孩子的隐私)说:“我的年龄是花椰妹年龄个位数和十位数之和的二倍”。 花椰妹看大家一脸懵逼,就知道大家也不…

Numpy入门教程:04. 数学函数

背景 什么是 NumPy 呢? NumPy 这个词来源于两个单词 – Numerical和Python。其是一个功能强大的 Python 库,可以帮助程序员轻松地进行数值计算,通常应用于以下场景: 执行各种数学任务,如:数值积分、微分、…

PHP生成PDF文档的FPDF类

以前在PHP4的早期版本中用PDFlib生成PDF文档比较容易,现在升级到PHP5了,发现更麻烦了,装的PHP 5.2.4默认没有PHPlib,从php.net上找了一个,装上竟一直报错,开始以为是版本兼容问题,后来在租来的服…

Gartner发布:2023年十大重要技术趋势

Datawhale干货 发布:Gartner,方向:技术趋势前言Gartner是全球领先的信息技术研究和咨询公司。日前,Gartner发布企业机构在2023年需要探索的十大战略技术趋势。Gartner杰出研究副总裁Frances Karamouzis表示:“为了在经…

ISA---不能访问网址或是多次刷新才能访问的解决方法一则

当你安装ISA2006在WINDOWS 2003 SERVER上,并打上SP2补订时。遇SNAT客户端不能访问WEB,但能PING通,能TELNET通,也能访问QQ或是MSN的问题时可以利用以下方法解决。同时,如果你遇到在此环境下,客户端访问外部网…

Pandas 表格样式设置指南,看这一篇就够了!

作者 | 阳哥来源 | Python数据之道最近这些年,Python在数据分析以及人工智能领域是越来越火。这离不开pandas、numpy、sklearn、TensorFlow、PyTorch等数据科学包,尤其是 Pandas,几乎是每一个从事Python数据科学相关的同学都绕不过去的。Pand…

PAT (Advanced Level) 1132~1135:1132 模拟 1133模拟(易超时!) 1134图 1135红黑树

1132 Cut Integer(20 分) 题意:将一个含K(K为偶数)个数字的整数Z割分为A和B两部分,若Z能被A*B整除,则输出Yes,否则输出No。 分析:当A*B为0的时候,不能被Z整除…

侠客X官方网站成立,第一个内测版本即将放出,敬请期待.

这是一个难忘的日子,西方的情人节,本站的成立代表侠客X,即将与大家见面了。 我们的要做的是,传承侠客站群经典模式,打造SEO王者力作,侠客X即将公开测试,敬请期待。 http://xpk.in Qin 转载于:ht…