文/赵杰
2015.11.04
服务端日志你有多重视?
只做到第1点的,你可以洗洗去睡了。很多公司都有做到第2点和第3点,这些公司的服务端程序基本已经跑了很长时间了,已比较稳定,确实无需花太多时间去关注。如果一个新产品,在上线初期,我觉得就有必要做到第4点。
日志怎么看?
tail+grep或者把日志下载下来再搜索,可以应付不多的主机和不多的应用部署场景。但对于多机多应用部署就不合适了。这里的多机多应用指的是同一种应用被部署到几台服务器上,每台服务器上又部署着不同的多个应用。可以想象,这种场景下,为了监控或者搜索某段日志,需要登陆多台服务器,执行多个tail -F和grep命令。一方面这很被动。另一方面,效率非常低,数次操作下来,你心情也会变糟。
这篇文章讲的就是如何解决分布式系统的日志管理问题。先给大家看看最终的效果:
单个屏幕上所有服务器的日志实时滚动着显示。每条日志开头还标明日志的来源(下图)。
实现这种效果的原理是后台跑着一个程序,这个程序负责汇总所有日志到一个本地文件中。只要执行tail -f这个文件就可以做到监控日志了。因为所有日志都汇总在一个文件里了,所以日志搜索的时候只要搜索这一个文件就可以了。
本文介绍的,能够汇总日志文件的工具名字叫Logstash。使用JRuby编写,开源,主流,免费,使用简单。
2. Logstash部署架构Logstash的理念很简单,它只做3件事情:
别看它只做3件事,但通过组合输入和输出,可以变幻出多种架构实现多种需求。这里只抛出用以解决日志汇总需求的部署架构图:
解释术语:
无论是Shipper还是Indexer,Logstash始终只做前面提到的3件事:
一个Logstash进程可以有多个输入源,所以一个Logstash进程可以应付一台服务器上的所有日志。Redis是Logstash官方推荐的Broker角色“人选”,支持订阅发布和队列两种数据传输模式,推荐使用。输入输出支持过滤,改写。Logstash支持多种输出源,可以配置多个输出实现数据的多份复制,也可以输出到Email,File,Tcp,传递给其他程序作为输入,或者安装插件实现和其他系统的对接,如搜索引擎Elasticsearch。
总结:Logstash概念简单,通过组合可以满足多种需求。
3. Logstash的安装,搭建和配置 3.1. 安装Java下载JDK压缩包。
一般解压到/user/local/下,形成/usr/local/jdk1.7.0_79/bin这种目录结构。
配置JAVA_HOME环境变量:echo 'export JAVA_HOME=/usr/local/jdk1.7.0_79' >> ~/.bashrc。
去官网下载Logstash的压缩包。
一般也解压到/usr/local/下,形成/usr/local/logstash-1.4.3/bin这种目录结构。
Logstash的运行方式为主程序+配置文件。Collect,Enrich和Transport的行为在配置文件中定义。配置文件的格式有点像json,又有点像php。
3.3. 编写Shipper角色的配置文件:shipper.conf input { file { path => [ # 这里填写需要监控的文件 "/data/log/php/php_fetal.log", "/data/log/service1/access.log" ] } }如上,input描述的就是数据如何输入。这里填写你需要收集的本机日志文件路径。
output { # 输出到控制台 # stdout { } # 输出到redis redis { host => "10.140.45.190" # redis主机地址 port => 6379 # redis端口号 db => 8 # redis数据库编号 data_type => "channel" # 使用发布/订阅模式 key => "logstash_list_0" # 发布通道名称 } }如上,output描述的就是数据如何输出。这里描述的是输出到Redis。
data_type的可选值有channel和list两种。用过Redis的人知道,channel是Redis的发布/订阅通信模式,而list是Redis的队列数据结构。两者都可以用来实现系统间有序的消息异步通信。channel相比list的好处是,解除了发布者和订阅者之间的耦合。举个例子,一个Indexer在持续读取Redis中的记录,现在想加入第二个Indexer,如果使用list,就会出现上一条记录被第一个Indexer取走,而下一条记录被第二个Indexer取走的情况,两个Indexer之间产生了竞争,导致任何一方都没有读到完整的日志。channel就可以避免这种情况。这里的Shipper和下面将要提到的Indexer配置文件中都使用了channel。
filter { mutate { # 替换元数据host的值 replace => ["host", "10.140.46.134 B[1]"] } }如上,filter描述的是如何过滤数据。mutate是一个自带的过滤插件,它支持replace操作,可以改写数据。这里改写了元数据中的host字段,替换成了我们自己定义的文本。
Logstash传递的每条数据都带有元数据,如 at version,@timestamp,host等等。有些可以修改,有些不允许修改。host记录的是当前的主机信息。Logstash可能不会去获取主机的信息或者获取的不准,这里建议替换成自己定义的主机标示,以保证最终的日志输出可以有完美的格式。
3.4 编写Indexer角色的配置文件:indexer.conf input { redis { host => "10.140.45.190" # redis主机地址 port => 6379 # redis端口号 db => 8 # redis数据库编号 data_type => "channel" # 使用发布/订阅模式 key => "logstash_list_0" # 发布通道名称 } }如上,input部分设置为从redis接收数据。
output { file { path => "/data/log/logstash/all.log" # 指定写入文件路径 message_format => "%{host} %{message}" # 指定写入格式 flush_interval => 0 # 指定刷新间隔,0代表实时写入 } }如上,output部分设置为写入本地文件。