使用异步HTTP提升客户端性能(HttpAsyncClient)

大家都知道,应用层的网络模型有同步、异步之分。

同步,意为着线程阻塞,只有等本次请求全部都完成了,才能进行下一次请求。
异步,好处是不阻塞当前线程,可以“万箭齐发”的将所有请求塞入缓冲区,然后谁的请求先完成就处理谁。

大家也注意到了,同步模式阻塞的只是“线程”。实际上,在异步模式流行之前,人们也经常用多线程的方式处理并发请求。然而,随着数据规模的不断加大,线程开销所带来的CPU、内存剧增,因此这种方法的应用比较有限。

近几年来,随着异步处理方案在node.js、Nginx等系统中的成功应用,异步模式的到了越来越多的关注。另外提一句:客户端与服务器端的异步处理是相互透明的,即允许客户端采用同步而服务器端采用异步。只是一般来说,异步的处理比同步要复杂许多。

下面回到实际问题上。
在近日的工作中,需要从Hadoop Job中调用一个Http计算服务以完成一些处理工作。我们使用了经典的HttpClient 3.x进行了实现。在一个HDFS文件分片上,性能数据大致是这样的:171237个文档、耗时305076ms。

备注:由于我们的Job跑在Hadoop上,在未来是会有N个Mapper同时运行,因此没有采用多线程的处理方式。

看看上面的数据,乍一看似乎还可以:平均每个文档的处理只需要1.8毫秒。然而从整个Map的角度来看,调用Http服务已经成为了整个Job的瓶颈,有必要进行一些优化。

在HttpClient进化到4.x后,官方提供了基于nio的异步版本:HttpAsyncClient。

这个异步版本的客户端,借助了Java并发库和nio进行封装,提供了非常方便的调用方式。

我们来看一下异步的代码:

Java
public void test2() throws InterruptedException, ExecutionException,
IOException {
CloseableHttpAsyncClient httpclient = HttpAsyncClients.createDefault();
// Start the client
httpclient.start();

// Execute 100 request in async
final HttpGet request = new HttpGet(
"http://xxxx");
request.setHeader("Connection", "close");
List<Future<HttpResponse>> respList = new LinkedList<Future<HttpResponse>>();
for (int i = 0; i < 50; i++) {
respList.add(httpclient.execute(request, null));
}

// Print response code
for (Future<HttpResponse> response : respList) {
response.get().getStatusLine();
// System.out.println(response.get().getStatusLine());
}

httpclient.close();
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
public void test2() throws InterruptedException, ExecutionException,
            IOException {
        CloseableHttpAsyncClient httpclient = HttpAsyncClients.createDefault();
        // Start the client
        httpclient.start();
 
        // Execute 100 request in async
        final HttpGet request = new HttpGet(
                "http://xxxx");
        request.setHeader("Connection", "close");
        List<Future<HttpResponse>> respList = new LinkedList<Future<HttpResponse>>();
        for (int i = 0; i < 50; i++) {
            respList.add(httpclient.execute(request, null));
        }
 
        // Print response code
        for (Future<HttpResponse> response : respList) {
            response.get().getStatusLine();
            // System.out.println(response.get().getStatusLine());
        }
 
        httpclient.close();
    }

再来看一下同步的:

Java
public void test1() throws ClientProtocolException, IOException {
CloseableHttpClient httpclient = HttpClients.createDefault();

// Execute 500 request in async
for (int i = 0; i < 50; i++) {
HttpGet request = new HttpGet(
"http://xxxx");
request.setHeader("Connection", "close");
CloseableHttpResponse response = httpclient.execute(request);
// System.out.println(response.getStatusLine());
response.getStatusLine();
response.close();
}

httpclient.close();
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
    public void test1() throws ClientProtocolException, IOException {
        CloseableHttpClient httpclient = HttpClients.createDefault();
 
        // Execute 500 request in async
        for (int i = 0; i < 50; i++) {
            HttpGet request = new HttpGet(
                    "http://xxxx");
            request.setHeader("Connection", "close");
            CloseableHttpResponse response = httpclient.execute(request);
            // System.out.println(response.getStatusLine());
            response.getStatusLine();
            response.close();
        }
 
        httpclient.close();
    }

不难发现,异步的代码使用了Future,使得最终的处理异常非常简单。

备注:我这里偷懒没有使用countdown latcher,所以future.get()实际还是会阻塞,但是发送http请求的client.execute阶段是非阻塞的。

下面来测一下性能。

我们采用了与Job中几乎相同的配置:每次batch发起50次请求,共50个batch。

结果如下:

Shell
async 2879 ms
sync 4190 ms
1
2
async 2879 ms
sync 4190 ms

使用异步请求的方式,比同步的时间节约了31%!

当然,尽管使用异步可以提升客户端调用的性能,但实际上是以提升并发为代价的,也就是latency和qps的关系。

换句话说,客户端异步没问题,但服务器端的性能必须跟的上,在我们的系统中,会通过控制batch的数量以及同时并发的mapper数量限制并发,以防止压垮服务器:-)

====2014.11.13 更新====

昨天忘记写如何获取返回的正文了,实际还是用Future返回的,补充如下:

Java
HttpResponse resp = respFuture.get();
InputStream input = resp.getEntity().getContent();
1
2
HttpResponse resp = respFuture.get();
InputStream input = resp.getEntity().getContent();

接下来,如何读取input的content就不再贴代码了。用IOUtil或者裸写BufferedInputStream/ByteArrayOutputStream都可以。

此外再补充下,实际线上效果比上面测试的要好,客户端大约节省了62%的时间开销。

最新文章

  1. asp.net identity UserSecurityStamp 的作用
  2. 主席树+启发式合并(LT) BZOJ3123
  3. 第二章 XHTML基础
  4. STL六大组件之——分配器(内存分配,好深奥的东西)
  5. ORCLE INNODB 博客与 innodb_lru_scan_depth
  6. Mongodb PHP开发类库
  7. Logistic Regression(逻辑回归)(一)基本原理
  8. Nginx支持Socket转发过程详解
  9. css加载会造成阻塞吗?
  10. A computer hardware platform abstraction - part.1
  11. LIUNX-Centos 7 编译GDAL
  12. Spark学习之编程进阶总结(一)
  13. 【JavaScript】快速入门
  14. kafka-producer配置
  15. vue项目中在同一页面多次引入同一个echarts图表的自适应问题
  16. UIView的alpha、hidden和opaque属性之间的关系和区别
  17. PAT甲 1012. The Best Rank (25) 2016-09-09 23:09 28人阅读 评论(0) 收藏
  18. Datatable.Select()用法简介
  19. redis使用场景介绍
  20. ionic2——开发利器之Visual Studio Code 常用快捷键

热门文章

  1. vim 操作指令2
  2. InitInheritedComponent的执行过程
  3. gridView自己定义做时间排版
  4. 新建表维护程序SM30
  5. OCA读书笔记(7) - 管理数据库存储结构
  6. 使用visual c++ 2005远程调试64位系统上32位与64位程序
  7. 【iOS发展-44】通过案例谈iOS重构:合并、格式化输出、宏观变量、使用数组来存储数据字典,而且使用plist最终的知识
  8. Advanced Data Structures
  9. 《Java程序代理器》- java桌面程序运行的前端启动框架
  10. linux使用进阶(一)