最近笔者在对kernel cephfs客户端进行fio direct随机大io读测试时发现,在numjobs不变的情况下,使用libaio作为ioengine,无论怎么调节iodepth,测试结果都变化不大,咦,这是为什么呢?

 

一、撇开fio,单看libaio的使用

    ......
rc = io_setup(maxevents, &ctx);
for (j = 0; j < IO_COUNT; j++) {
......
io_prep_pread(iocb, fd, (void *)buf_, io_size, offset);
}
rc = io_submit(ctx, IO_COUNT, &iocbray[count]);
......
rc = io_getevents(ctx, IO_COUNT, IO_COUNT, events, &timeout);
......
}

代码中,io_setup函数创建一个异步io的上下文,io_prep_pread函数准备了IO_COUNT个读请求,通过io_submit函数批量提交IO_COUNT个读请求,最后通过io_getevents函数等待请求的返回。
笔者通过该代码来对kernel cephfs客户端进行direct随机读测试,发现io_submit函数非常耗时,这完全不符合笔者对libaio的预期(io_submit提交请求应该非常快,时间应该耗费在io_getevents等待io结束上)。

笔者决定一探究竟...

二、探索libaio源码

SYSCALL_DEFINE3(io_submit, aio_context_t, ctx_id, long, nr,struct iocb __user * __user *, iocbpp){
return do_io_submit(ctx_id, nr, iocbpp, 0);
}
long do_io_submit(aio_context_t ctx_id, long nr,struct iocb __user *__user *iocbpp, bool compat){
...
for (i=0; i<nr; i++) {
ret = io_submit_one(ctx, user_iocb, &tmp, compat);
}
...
}
static int io_submit_one(struct kioctx *ctx, struct iocb __user *user_iocb,struct iocb *iocb, bool compat){
...
ret = aio_run_iocb(req, compat);
...
}
static ssize_t aio_run_iocb(struct kiocb *req, bool compat){
...
case IOCB_CMD_PREADV:
rw_op = file->f_op->aio_read;
...
}
// 后面的代码不再赘述

这段是3.10.107内核的io_submit系统调用的源码,并不复杂,总结下就是,对于批量的读请求,io_submit会逐个通过io_submit_one函数进行提交,而io_submit_one最终是调用底层文件系统的aio_read函数进行请求提交。
这里说的底层文件系统当然是cephfs文件系统,不妨来看下它的aio_read函数。

三、探索kernel cephfs源码

const struct file_operations ceph_file_fops = {
...
.read = do_sync_read,
.write = do_sync_write,
.aio_read = ceph_aio_read,
.aio_write = ceph_aio_write,
.mmap = ceph_mmap,
...
};

通过上述代码可以看出,kernel cephfs的aio_read上注册的是ceph_aio_read函数,让我们看看该函数。

static ssize_t ceph_aio_read(struct kiocb *iocb, const struct iovec *iov,   unsigned long nr_segs, loff_t pos){
...
if ((got & (CEPH_CAP_FILE_CACHE|CEPH_CAP_FILE_LAZYIO)) == 0 ||
(iocb->ki_filp->f_flags & O_DIRECT) ||
(inode->i_sb->s_flags & MS_SYNCHRONOUS) ||
(fi->flags & CEPH_F_SYNC))
/* hmm, this isn't really async... */
ret = ceph_sync_read(filp, base, len, ppos, &checkeof);
else
ret = generic_file_aio_read(iocb, iov, nr_segs, pos);
...
}

相信你已经注意到了这条注释 /* hmm, this isn't really async... */,在direct读模式下,当上层的io_submit调用到这里时,并没有进行async的调用,而是sync调用,即请求发送后需等待结果返回。

在3.10.107内核下,由于kernel cephfs没有实现真正的aio,导致批量提交的请求,io_submit会逐一处理提交,然后等待请求结果,再处理下一请求,而非批量提交请求,批量等待请求结果,这便是io_submit耗时的原因。

四、回到fio

理解了io_submit为什么费时,也就能理解fio下以libaio作为ioengine,无论怎么调节iodepth,测试结果都变化不大的原因。所以,当底层文件系统不支持aio时,fio测试时,libaio跟sync是几乎没有差别的。

五、聊聊cephfs、libaio、fio

4.14内核上,kernel cephfs在实现上支持了libaio,笔者分别做了以sync和libaio为ioengine的fio direct随机大io读测试。

对于sync:
在numjobs数达到一定的值后,fio的带宽已经到达了瓶颈(远小于客户机的万兆网卡带宽、集群有36个sata osd),再提高numjobs数已经不再起作用,这一点笔者非常费解,原因不得而知,知晓原因的朋友可以评论中告知笔者,万分感谢。

对于libaio:
在numjobs设置成较小值(4、8)时,通过增大iodepth就可以打满kernel cephfs客户机的万兆网卡(测试文件较小,集群osd足以将其缓存)。因此,通过libaio,我们可以向ceph集群提交大量的io,这样便可以测出集群的io极限。

六、关注笔者

专注笔者公众号,阅读更多干货文章:)

 

最新文章

  1. Atitit.如何建立研发体系
  2. Java学习之多态
  3. SQL Server 插入数据后获得自增主键值
  4. NOIP201504推销员
  5. AndroidUI 视图动画-自定义动画效果 (Animation)
  6. 可删除超炫&amp;amp;多种特效的Card视图(改造自cardsui-for-android开源项目),提供DEMO下载
  7. SpringBoot vue
  8. jQuery中 对标签元素操作(1)
  9. 【模板】多项式乘法(FFT)
  10. 在WPS中删除整行的快捷键是什么?
  11. 2-sat学习笔记
  12. Android 7.0 行为变更
  13. STM32.SPI(25Q16)
  14. Android 利用ViewPager、Fragment、PagerTabStrip实现多页面滑动效果
  15. SQL优化技巧-批处理替代游标
  16. linux服务器检测CPU使用率、负载以及java占用CPU使用率的shell脚本
  17. Django 之 自定义中间件
  18. Genymotion安卓模拟器和VirtualBox虚拟机安装、配置、测试(win7_64bit)
  19. 《iOS应用逆向工程:分析与实战》
  20. js时间字符串转时间戳

热门文章

  1. ios 时间戳 当前时间 相互转化
  2. teamcity build web project arguments
  3. 微信小程序把玩(四)应用生命周期
  4. WPF应用App.Config文件的保存路径
  5. 微信小程序把玩(三十二)Image API
  6. Android零基础入门第28节:轻松掌握RelativeLayout相对布局
  7. Mysql下载(on windows-noinstall zip archive)
  8. [转]深入Android内存泄露
  9. Qt 5.3更新无数,更改C++控制台输出最为赞(这样就和普通C++ IDE没区别了)
  10. QT_NO_CAST_FROM_ASCII这个宏的,禁用一切来自双引号字符串字面量传入QString(有2种解决方法)