Advanced Format (4K扇区) 磁盘

磁盘的高级格式(Advanced Format)使用4K作为扇区的大小。

传统磁盘的扇区大小是512B,盘上的扇区不是一个接一个紧密排列的,相邻的扇区之间有一个间隙(gap),并且每个扇区前面有一个sync字段和一个address mark字段,接着才是我们所知的512B数据(data),后面还有一个纠错码ECC(error correcting code)。并且:

  • gap+sync+addressmark=15B
  • data=512B
  • ECC=50B

这样,磁盘空间的利用率是:

$$512/(15+512+50)= 88.7\%$$

显然,增大扇区可以提高空间的利用率。另外,由于纠错码ECC只有50B,纠错算法也受限,无法使用更高级的纠错算法来提高磁盘的可靠性。于是,2010年的时候,International Disk Drive Equipment and Materials Association (IDEMA)完成了一个新的标准:采用4096B作为扇区大小,并且把ECC增大到100B。虽然ECC增大了,但现在一个扇区相当于原来的8个扇区,空间利用率还是提高了:

  • gap+sync+addressmark=15B
  • data=4096B
  • ECC=100B

那么,磁盘空间利用率是:

$$4096/(15+4096+100)= 97.3\%$$

总结来说,引入4K扇区有两个好处:

  1. 提高空间利用率;
  2. 可以引入更高级的纠错算法,来提高磁盘的可靠性;

4K native, 简写为4Kn,这类磁盘firmware里不会把4K的物理扇区模拟成512B的逻辑扇区,也就是说,外部可见的逻辑扇区直接映射到内部的物理扇区。自从2014年开始,企业级的4K native磁盘已经在市场上流通了。这类磁盘的logo如下:

  • 4Kn不兼容512B扇区的软硬件系统,它的使用并不广泛;
  • Windows 8+ 和Linux(kernel 2.6.31 +) 支持4Kn的磁盘,无需转换;
  • 然而很多操作系统不能从4Kn磁盘引导,这些磁盘通常作为外部存储使用;

2.1 512e

512e, 为了向下兼容,磁盘提供商在firmware里模拟512B扇区1),目前这也是事实上的标准(见这里)。这类磁盘被叫做Advanced Format 512e, 或者512 emulation磁盘。它的logo如下:

操作系统读取512B数据,磁盘驱动器会:

  1. 读取目标扇区4096B;
  2. 从中抽取被读取的512B返回给操作系统;

对于读操作来说,这个过程带来的性能损失很小,可以忽略不计。但是对于写操作,问题就麻烦了。操作系统写512B数据,磁盘驱动器必须采用“读-修改-写”(RMW: Read-Modify-Write)的方式:

  1. 读取目标扇区4096B;
  2. 修改其中的512B;
  3. 把目标扇区写回;

可以预见,这种方式有明显的性能影响。但是,假如操作系统写入的要是整个4K,并且和一个扇区对齐,那么就不必采用RMW的方式了,性能的影响可以规避。

以下命令输出如果 物理山区大小 = 逻辑山区大小 ,则 该磁盘为4k盘:

sudo smartctl -i /dev/sda | grep "Sector Sizes"
sudo hdparm -I /dev/sda | grep -i "sector size"
cat /sys/class/block/sda/queue/physical_block_size
cat /sys/class/block/sda/queue/logical_block_size

历史原因,给这个看上去很好的优化带来很多麻烦。因为直到现在,还有很多硬件、软件系统是基于512B的扇区设计的,包括芯片组,操作系统,数据库引擎、磁盘分区工具、文件系统等。为了和现有系统兼容,就引入物理扇区和逻辑扇区的概念。

  • 物理扇区是磁盘驱动器读写的最小单元,也就是说,操作系统读写100B,磁盘驱动器也必须读写一整个扇区;
  • 逻辑扇区是磁盘的firmware模拟出来的操作系统看到的扇区。比如为了兼容老的软硬件系统,很多4K扇区的磁盘(512e类型),都模拟512B扇区;

为了避免RMW带来性能损耗,最好能做到如下两点:

  1. 写入大小是4K的整数倍;
  2. 写入边界和物理扇区边界对齐;

Linux系统已经作了优化:

  1. 尽量写入4K的整数倍;
  2. 尽量和分区对齐
    • 这要求分区和物理扇区是对齐的。假如分区和物理扇区没有对齐,而每个写操作和分区又是对齐的,导致的结果是,每个写操作恰恰和物理扇区没有对齐。如图所示:

  • 可见,系统IO-1和系统IO-2和分区是对齐的。但是,分区和物理扇区没有对齐,导致磁盘IO-1和磁盘IO-2都没对齐,并且每个磁盘IO需要两次RMW,共4个RMW才能完成。所以,分区和物理扇区的对齐至关重要。
  • parted可以检查已有分区是否对齐;并且在做新分区时,若没对齐,也会得到警告。


Linux上,可以通过parted命令来检查4k对齐情况,以及分区:

# 检查现有的分区是否对齐
parted /dev/sdh print  # 查看分区编号
parted /dev/sdh align-check opt 2  # 检查分区#2是否对齐
# 一个老外写的脚本,后面跟/dev/sdx
https://raw.githubusercontent.com/crysman/check-partitions-alignment/master/checkpartitionsalignment.sh
 
# 使用0%这样的开始扇区,而不是0,可以有效对齐分区!
(parted) mkpart primary ext4 0% 100%

1)
4096B扇区和512B扇区之间的转换是磁盘的firmware完成的,对外界透明,也就是说,可以像读写传统磁盘一样来读写512e磁盘
  • hardware/advanced_format磁盘.txt
  • 最后更改: 2019/07/29 09:37
  • 由 mrco