Node.js采用事件驱动和异步I/O的方式,实现了一个单线程、高并发的Javascript运行时环境,而单线程就意味着同一时间只能做一件事,那么Node.js如何通过单线程来实现高并发和异步I/O?本文将围绕这个问题来探讨Node.js的单线程模型:
1、高并发一般来说,高并发的解决方案就是提供多线程模型,服务器为每个客户端请求分配一个线程,使用同步I/O,系统通过线程切换来弥补同步I/O调用的时间开销。比如Apache就是这种策略,由于I/O一般都是耗时操作,因此这种策略很难实现高性能,但非常简单,可以实现复杂的交互逻辑。
而事实上,大多数网站的服务器端都不会做太多的计算,它们接收到请求以后,把请求交给其它服务来处理(比如读取数据库),然后等着结果返回,最后再把结果发给客户端。因此,Node.js针对这一事实采用了单线程模型来处理,它不会为每个接入请求分配一个线程,而是用一个主线程处理所有的请求,然后对I/O操作进行异步处理,避开了创建、销毁线程以及在线程间切换所需的开销和复杂性。
2、事件循环 ( Event Loop )Node.js 在主线程里维护了一个事件队列,当接到请求后,就将该请求作为一个事件放入这个队列中,然后继续接收其他请求。当主线程空闲时(没有请求接入时),就开始循环事件队列,检查队列中是否有要处理的事件,这时要分两种情况:如果是非I/O任务,就亲自处理,并通过回调函数返回到上层调用;如果是I/O任务,就从线程池中拿出一个线程来处理这个事件,并指定回调函数,然后继续循环队列中的其他事件。
当线程中的I/O任务完成以后,就执行指定的回调函数,并把这个完成的事件放到事件队列的尾部,等待事件循环,当主线程再次循环到该事件时,就直接处理并返回给上层调用。 这个过程就叫事件循环(Event Loop),其运行原理如下图所示:
这个图是整个Node.js的运行原理,从左到右,从上到下,Node.js被分为了四层,分别是应用层、V8引擎层、Node API层 和 LIBUV层。
在Node中,无论是Linux平台还是Windows平台,内部都是通过线程池来完成IO操作的,而LIBUV就是针对不同平台的差异性实现了统一调用。因此,Node.js的单线程仅仅是指Javascript运行在单线程中,而并非Node.js是单线程。
3、事件驱动模型Node.js实现异步的核心是事件驱动,也就是说,它把每一个任务都当成事件来处理,然后通过Event Loop 模拟了异步的效果,为了更具体、更清晰的理解和接受这个事实,我们用代码来描述这个实现过程:
【1】定义事件队列
既然是队列,那就是一个先进先出(FIFO)的数据结构,我们用JS数组来描述,如下:
/** * 定义事件队列 * 入队:unshfit() * 出队:pop() * 空队列:length == 0 */ eventQueue:[]
为了方便理解,我们规定:数组的第一个元素是队列的尾部,数组的最后一个元素是队列的头部,unshfit() 就是在队列尾部插入一个元素,pop() 就是从队列头部弹出一个元素,这样就实现了一个简单的事件队列。
【2】定义接收请求入口
每一个请求都会被拦截并进入处理函数,如下所示:
/** * 接收用户请求 * 每一个请求都会进入到该函数 * 传递参数request和response */ processHttpRequest:function(request,response){ //定义一个事件对象 var event = createEvent({ params:request.params, //传递请求参数 result:null, //存放请求结果 callback:function(){} //指定回调函数 }); //在队列的尾部添加该事件 eventQueue.unshift(event); }
这个函数很简单,就是把用户的请求包装成事件,放到队列里,然后继续接收其他请求。
【3】定义事件循环 ( Event Loop )
当主线程处于空闲时就开始循环事件队列,所以我们还要定义一个函数来循环事件队列:
/** * 事件循环主体,主线程择机执行 * 循环遍历事件队列 * 处理事件 * 执行回调,返回给上层 */ eventLoop:function(){ //如果队列不为空,就继续循环 while(this.eventQueue.length > 0){ //从队列的头部拿出一个事件 var event = this.eventQueue.pop(); //如果是IO任务 if(isIOTask(event)){ //从线程池里拿出一个线程 var thread = getThreadFromThreadPool(); //交给线程处理 thread.handleIOTask(event) }else { //非IO任务处理后,直接返回结果 var result = handleEvent(event); //最终通过回调函数返回给V8,再由V8返回给应用程序 event.callback.call(null,result); } } }
主线程不停的检测事件队列,对于IO任务就交给线程池来处理,非IO任务就自己处理并返回。
【4】处理I/O任务
线程池接到任务以后,直接处理IO操作,比如读取数据库:
/** * 处理IO任务 * 完成后将事件添加到队列尾部 * 释放线程 */ handleIOTask:function(event){ //当前线程 var curThread = this; //操作数据库 var optDatabase = function(params,callback){ var result = readDataFromDb(params); callback.call(null,result) }; //执行IO任务 optDatabase(event.params,function(result){ //返回结果存入事件对象中 event.result = result; //IO完成后,将不再是耗时任务 event.isIOTask = false; //将该事件重新添加到队列的尾部 this.eventQueue.unshift(event); //释放当前线程 releaseThread(curThread) }) }
当IO任务完成以后就执行回调,把请求结果存入事件中,并将该事件重新放入队列中,等待循环,最后释放当前线程,当主线程再次循环到该事件时,就直接处理了。
总结以上过程我们发现,Node.js只用了一个主线程来接收请求,但它接收请求以后并没有直接做处理,而是放到了事件队列中,然后又去接收其他请求了,空闲的时候,再通过Event Loop 来处理这些事件,从而实现了异步效果,当然对于IO类任务还需要依赖于系统层面的线程池来处理。因此,我们可以简单的理解为:Node.js本身是一个多线程平台,而它对JS层面的任务处理是单线程的。
4、Node.js的短板至此,对于Node.js的单线程模型,我们应该有了一个简单而又清晰的认识,它通过事件驱动模型实现了高并发和异步I/O,然后也有Node.js不擅长做的事情: