当前位置:首页 > 技术分析 > 正文内容

Bcache详解及踩坑记录(bce ce)

ruisui883个月前 (02-03)技术分析13

关注公众号 singless ,后台回复bcache,获取bcache相关资料

1 介绍

1.1 背景介绍

Bcache是Linux内核块设备层的软件驱动,使用高速存储设备为传统机械磁盘做IO缓存,经常访问的热数据会缓存在固态硬盘中并直接返回给应用程序,大大提升了具有热数据访问特征的应用场景的IO性能。

Bcache在Linux kernel v3.10被合并到官方内核,Linux kernel v5.3版本之后趋于稳定,目前支持Bcache的企业级Linux多采用Linux kernel v5.14及之后的版本。SUSE Linux 和SUSE Euler Linux中包含了Linux kernel v5.19中的稳定性和性能修复。

Bcache的作者为Kent Overstreet,其同时也编写了bcachefs。bcache目前的维护者为Coly Li,目前供职于SUSE公司。

1.2 功能介绍

Bcache设备:应用程序直接读写的虚拟块设备

Cache设备:存储热数据的高速设备(固态硬盘,非易失性内存等)

Backing设备:传统机械硬盘或低速固态硬盘



bcache的缓存模式

  • writethrough (直写策略): 数据写入时, 必须SSD和HDD盘都写入成功, 写入请求才算完成, 写入请求才返回. 因此对于写入, 该策略并未有性能提升. 适用于读多写少的场景, 可以保证数据的强一致性
  • writeback (回写策略): 数据写入时, 只要SSD中写入成功, 写入请求就立即返回. SSD中的脏数据会由后台线程定时刷写到HDD盘中. 因此对于写入, 该策略会有明显的性能提升(除非到了SSD的性能瓶颈). 但是可能会造成数据丢失, 比较适用于底层有独立供电的RAID卡的服务器或者对数据一致性要求不是很高的场景
  • writearound (绕写 策略): 数据写入时, 绕过SSD, 直接写入到HDD盘中. 可以防止SSD因写I/O而填满, 导致以后不可重新读取. 缺点是: 当数据第一次读取, 由于写入时绕过了SSD, 因此会有SSD从HDD加载数据的操作
  • none: 读写操作都不会涉及到缓存盘, 将直接与后端磁盘交互。


查看缓存模式

root@node1:~# cat /sys/block/bcache1/bcache/cache_mode
[writethrough] writeback writearound none


bcache的缓存状态

  • no cache: 这代表你还没有绑定缓存设备到你的后端设备上
  • clean: 这代表一切正常,缓存是clean的
  • dirty: 这代表一切正常,缓存模式被设置成了writeback,缓存是dirty的
  • inconsistent: 这代表问题很大,后端设备与缓存设备没有同步使用一个没有缓存设备的 /dev/bcache0 的话所有的IO都会直接在后端设备上执行,等于pass-through模式。
root@node2:~# cat /sys/block/bcache0/bcache/state
clean


2 创建Bcache设备

创建bcache设备需要用到bcache-tools工具,ubuntu和suse中默认已安装bcache-tool工具。

root@ceph-1:~# apt install bcache-tools -y  ##安装bcache工具,ubuntu及suse默认已安装
root@ceph-1:~# modprobe bcache  ##导入模块
root@ceph-1:~# lsmod |grep bcache
bcache                245760  0
crc64                  16384  1 bcache
root@ceph-1:~# make-bcache -C /dev/nvme0n1 -B /dev/sdc --writeback ##-C指定ssd或nvme加速盘,-B指定后端hdd慢速设备,--writeback指定缓存模式为writeback

通常系统会自动注册cache设备和backing设备并自动生成虚拟的bcache设备/dev/bcache0

  • 如果udev规则没有安装,则需要手动注册设备
root@ceph-1:~# echo /dev/nvme0n1 > /sys/fs/bcache/register

root@ceph-1:~# echo /dev/sdb > /sys/fs/bcache/register


  • 如果udev规则没有安装,还需要手动将cache设备挂载到backing设备上,否则高速缓存不会介入。
root@ceph-1:~# echo <cache-set-UUID> > /sys/block/bcache0/bcache/attach

<cache-set-UUID>是在格式化cache设备时为高速缓存设备生成的全局唯一标识,可以在/sys/fs/bcache/目录下查找到。

创建完成后可以看到有bcacheX命名的盘,bcache盘是一个裸设备,可以直接格式化使用。

指定慢速盘查看bcache信息,其中dev.uuid是后端盘符的uuid,cset是前端加速盘的uuid

root@node1:~# bcache-super-show /dev/sdb
sb.magic                ok
sb.first_sector         8 [match]
sb.csum                 6B53E06D649610FF [match]
sb.version              1 [backing device]

dev.label               (empty)
dev.uuid                d4a72085-d765-4c15-ac33-2f65e3f09dd0
dev.sectors_per_block   1
dev.sectors_per_bucket  1024
dev.data.first_sector   16
dev.data.cache_mode     0 [writethrough]
dev.data.cache_state    1 [clean]

cset.uuid               d75fef3e-7036-4c5a-97c4-467ce1ea66e6

root@node1:~# blkid |grep sdb
/dev/sdb: UUID="d4a72085-d765-4c15-ac33-2f65e3f09dd0" TYPE="bcache"


3 Bcache清理

每一块低速盘(HDD)在经过make-bcache后, 都会对应一个bcacheX设备, 删除低速盘就是将对应的bcacheX设备停掉(删掉). 如果该bcacheX设备有绑定前端盘(SSD), 需要先解除与前端盘的关联。

root@node3:~# lsblk |grep sda -A 1 ##确定要删除bcache盘的后端盘
sda                       8:0    0  14.6T  0 disk
└─bcache0               252:0    0  14.6T  0 disk
root@node3:~# bcache-super-show /dev/sda|grep cset  ##获取到cset
cset.uuid               ae6bf031-bd04-47f5-a273-48f2dd514268
root@node3:~# echo "ae6bf031-bd04-47f5-a273-48f2dd514268" > /sys/block/bcache0/bcache/detach  ##通过获取到的cset.uuid移除bcache0的绑定
root@node3:~# echo 1 >/sys/fs/bcache/ae6bf031-bd04-47f5-a273-48f2dd514268/unregister
root@node3:~# echo 1 > /sys/block/bcache0/bcache/stop


4 参数优化

Bcache大部分参数都是开箱即用的,Bcache默认参数能覆盖90%以上的场景,不过有几个参数我们仍然可以进行调整。

echo "writeback" > /sys/block/bcache$i/bcache/cache_mode
echo $((1024*1024)) > /sys/block/bcache$i/bcache/sequential_cutoff
echo 40 > /sys/block/bcache$i/bcache/writeback_percent
  • cache_mode,设置BCache设备的缓存模式为"writeback"
  • 设置BCache设备的顺序截断(sequential cutoff)。顺序截断是指当连续IO操作的大小超过该阈值时,BCache会将这些IO操作视为顺序访问,而不会缓存到缓存中。这有助于避免将大量连续IO操作缓存到BCache中,保持缓存的有效性。这里的1024*1024表示1MB。
  • 设置BCache设备的写回百分比(writeback percent)。写回百分比表示当缓存容量占用达到一定百分比时,BCache会开始执行写回操作。


5 Bcache使用建议

5.1 内核版本的选择

bcache在3.10版本开始合并到官方内核。在5.4内核版本中逐渐趋于稳定,在5.15和5.19版本中修复了部分问题。因此如果需要使用bcache建议选择这几个内核的最新版本。

5.2 bcache设备盘符变化问题

有多个bcache设备的情况下,在系统重启后,bcache的盘符会发生变化,如bcache0重启后可能变为bcache1或bcache2。因此在创建好bcache设备后,不要直接mount bcache设备,而是应该通过bcache设备格式化后的文件系统uuid来进行mount。

root@node1:~# blkid |grep bcache0
/dev/bcache0: UUID="ed31e3ca-9bec-44bb-aa1a-a2a3ed428cb2" TYPE="xfs"


5.3 垃圾回收(gc)对性能的影响

由于Bcache在存储数据和元数据时,均是追加写,因此需要及时进行垃圾回收。将不再使用的存储空间回收后,供后续申请使用。

每写入缓存总容量1/16的数据量后,会触发一次垃圾回收操作。bcache 自身的 gc 操作,会停止前端 io 的下发。可以通过以下方式观察bcache的gc操作

root@node1:~# grep . /sys/block/bcache0/bcache/cache/internal/btree_gc_*
/sys/block/bcache0/bcache/cache/internal/btree_gc_average_duration_ms:1762
/sys/block/bcache0/bcache/cache/internal/btree_gc_average_frequency_sec:66602
/sys/block/bcache0/bcache/cache/internal/btree_gc_last_sec:16437
/sys/block/bcache0/bcache/cache/internal/btree_gc_max_duration_ms:3588
  • btree_gc_average_duration_ms(平均持续时间):
    • 较小的值表示平均每次垃圾收集操作的执行速度较快。
    • 这个值表示每次B树垃圾收集操作的平均持续时间,单位是毫秒(ms)。
  • btree_gc_average_frequency_sec(平均频率):
    • 较小的值表示平均垃圾收集操作执行的频率较低,系统压力较小。
    • 这个值表示B树垃圾收集操作的平均执行频率,单位是秒(sec)。
  • btree_gc_last_sec(最近一次垃圾收集操作的持续时间):
    • 它提供了最近一次垃圾收集操作的执行效率。
    • 这个值表示最近一次B树垃圾收集操作的持续时间,单位是秒(sec)。
  • btree_gc_max_duration_ms(最大持续时间):
    • 较小的值表示没有出现非常耗时的垃圾收集操作。
    • 这个值表示所有垃圾收集操作中的最大持续时间,单位是毫秒(ms)。

5.4 cache的容量设置为多少合适

需要根据具体的业务场景来看,cache内主要存储的是热数据,容量设置为backing设备的10% ~ 20%都是可以的。

5.5 cache容量使用完后对性能的影响

cache容量不会被使用完,因为为了防止出现死锁,bcache限制了脏数据最多只能使用cache 70%的容量。随着容量的使用,对性能的影响有以下几个区别。

  • 当脏数据达到writeback_percent设置的值时

writeback线程将启动,将cache设备上的脏数据写入到backing设备,并限制前端的写入速度。回写的带宽由软件模拟的比例微分积分控制器动态控制。脏数据越多,分配给回写线程的带宽越多,则业务IO的的性能会逐步降低。

  • 当脏数据超过缓存设备容量40%时

部分IO请求会跳过缓存直接访问后端设备。这会进一步降低业务IO性能来确保回写线程能够处理更多脏数据。

  • 当脏数据容量超过缓存容量70%时

后续业务IO将不再进入缓存设备,避免过多脏数据导致垃圾回收和空间分配算法死锁。

5.6 cache设备故障如何修复

当cache对应的ssd或nvme设备损坏,且cache设备上还有脏数据未写回到backing设备时。这部分cache上的数据可能会丢失。因此为了保证数据安全,需要业务层具有相应的备份策略,例如ceph的副本策略等。

5.7 bcache的性能是否和cache所用的ssd或nvme性能相当

大家可能会想,既然在writeback模式下,数据是直接写到cache设备中的,那是不是相当于我只要使用bcahe就能获得和ssd或nvme设备相当的性能呢。不是这样的,因为对于I/O请求,bcache都需要更新B+tree索引、缓存数据、写journal,可能还需要分裂B+tree节点,并且I/O过程中还会受到gc和脏数据写回的影响。因此比起ssd或nvme设备,bcache性能会差一些,但是比起纯HDD设备,也已经足够好了。

6 参考资料

  • [1] https://docs.kernel.org/admin-guide/bcache.html
  • [2] https://wiki.archlinux.org/title/Bcache

关注公众号 singless,获取更多有价值的文章

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/1085.html

标签: nocache
分享给朋友:

“Bcache详解及踩坑记录(bce ce)” 的相关文章

景区游船计时收费管理系统--收费分类版

景区游船计时收费管理系统--收费分类版headerfooter《景区游船计时收费管理系统--收费分类版》是专门旅游景区或度假村开发的一款游船计时收费软件。主要功能:1. 基础数据:单位信息、船号状态、脚踏船船号设置、画舫船号设置、船价设置(脚踏船、画舫);2.业务管理:脚踏船(脚踏船开台、脚踏船前台...

基于archlinux的发行版有哪些?

Arch Linux 是一个 Linux 发行版,采用滚动更新的模型,这意味着 Arch Linux 不会定期发布新版本,而是持续接收更新和升级,保持系统与最新软件版本的同步。Arch Linux 以其极简主义、简单性和用户定制为中心的特点而闻名,专注于让用户对其系统配置具有完全控制权。然而,它也以...

vue组件间的九种通信方式

前言Vue组件实例间的作用域是相互独立的,而通常一个页面是由很多个组件构成,这些组件可能又嵌套了组件,形成了一个关系网图,它们的关系可能是像下图中一样,大致分为两种使用场景,父子组件间通信和非父子组件间通信,父子组件间通信又分为直接父子关系和间接父子关系。vue提供了多种通信方法,针对不同的通信需求...

GitLab 14.6发布,优化Geo高可用,安全更新等

昨天,GitLab官方按照管理发布了有一个月度版本GitLab 14.6的发布,这也是本年度收官版本。14.6中在安全合规性方面,在Geo方面以及MD代码块一键复制等方便做了优化,另外还在UI图标方面发布了一套全新的图标。详细情况请和虫虫一起学习。GitLab 14.6主要改进使用 Geo 实现无缝...

7 招教你轻松搭建以图搜图系统

作者 | 小龙责编 | 胡巍巍当您听到“以图搜图”时,是否首先想到了百度、Google 等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到库中进行搜索,并得到与其相似的若干图片。Milvus 作为一款针对海量特征向量的相似性检索引擎,旨在...

一次Java内存占用高的排查案例,解释了我对内存问题的所有疑问

问题现象7月25号,我们一服务的内存占用较高,约13G,容器总内存16G,占用约85%,触发了内存报警(阈值85%),而我们是按容器内存60%(9.6G)的比例配置的JVM堆内存。看了下其它服务,同样的堆内存配置,它们内存占用约70%~79%,此服务比其它服务内存占用稍大。那为什么此服务内存占用稍大...