filebeat是一个轻量级的日志收集工具,相比logstash,功能更加单一,但是占用的资源较小,下面介绍如何使用docker来部署filebeat。更多信息请参考官方文档。
运行Filebeat设置命令将创建索引模式和负载可视化,指示板和机器学习工作。运行这个命令:
docker run \ docker.elastic.co/beats/filebeat:7.9.2 \ setup -E setup.kibana.host=kibana:5601 \ -E output.elasticsearch.hosts=["elasticsearch:9200"]Docker映像提供了几种配置Filebeat的方法。传统的方法是通过卷挂载提供配置文件,但也可以创建包含配置的自定义映像。
下载此示例配置文件作为起点:
curl -L -O https://raw.githubusercontent.com/elastic/beats/7.9/deploy/docker/filebeat.docker.yml在Docker上配置Filebeat的一种方法是提供filebeat.docker.yml通过卷挂载。在docker run时,可以这样指定卷挂载。
docker run -d \ --name=filebeat \ --user=root \ --volume="$(pwd)/filebeat.docker.yml:/usr/share/filebeat/filebeat.yml:ro" \ --volume="/var/lib/docker/containers:/var/lib/docker/containers:ro" \ --volume="/var/run/docker.sock:/var/run/docker.sock:ro" \ docker.elastic.co/beats/filebeat:7.9.2 filebeat -e -strict.perms=false \ -E output.elasticsearch.hosts=["elasticsearch:9200"]为了防止docker重启后,filebeat的传递状态(每个文件写了多少,写到哪里)不丢失,需要把镜像的数据目录(/usr/share/filebeat/data)挂载到宿主机,更多目录布局信息请参考官方文档。(貌似还是不行)
前面下载的filebeat.docker.yml文件被配置为基于应用于容器的Docker标签部署Beats模块。有关更多细节,请参见基于提示的自动发现。在应用Docker容器中添加标签,当部署时,Beats自动发现特性将提取标签。下面是一个Apache HTTP服务器容器的命令示例,该容器带有用于配置Apache HTTP服务器的Filebeat和Metricbeat模块的标签:
docker run \ --label co.elastic.logs/module=apache2 \ --label co.elastic.logs/fileset.stdout=access \ --label co.elastic.logs/fileset.stderr=error \ --label co.elastic.metrics/module=apache \ --label co.elastic.metrics/metricsets=status \ --label co.elastic.metrics/hosts='${data.host}:${data.port}' \ --detach=true \ --name my-apache-app \ -p 8080:80 \ httpd:2.4可以在自定义镜像中嵌入Filebeat配置。这里有一个例子Dockerfile来达到这个目的(不用操心文件权限问题):
FROM docker.elastic.co/beats/filebeat:7.9.2 COPY filebeat.yml /usr/share/filebeat/filebeat.yml USER root RUN chown root:filebeat /usr/share/filebeat/filebeat.yml USER filebeatFilebeat是用于转发和集中日志数据的轻量级传送器。Filebeat作为代理安装在服务器上,它监视您指定的日志文件或位置,收集日志事件,并将它们转发到Elasticsearch或Logstash进行索引。
以下是Filebeat的工作原理:当您启动Filebeat时,它将启动一个或多个查找您为日志数据指定的位置的输入。对于Filebeat所定位的每个日志,Filebeat将启动一个收割机。每个收割机读取新内容的单个日志,并将新的日志数据发送到libbeat,后者聚合事件并将聚合的数据发送到为Filebeat配置的输出。 Filebeat由两个主要组件组成:输入和收割机。这些组件一起工作来跟踪文件并将事件数据发送到您指定的输出。
收割机负责读取单个文件的内容。收割机逐行读取每个文件,并将内容发送到输出。为每个文件启动一台收割机。收割机负责打开和关闭文件,这意味着在收割机运行时,文件描述符保持打开状态。如果在收集文件时删除或重命名文件,Filebeat将继续读取该文件。这样做的副作用是,磁盘上的空间一直保留到收割机关闭。默认情况下,Filebeat保持文件打开,直到达到close_inactive。
关闭一个收割机具有以下后果:
文件处理程序关闭,如果文件在收割机仍在读取文件时被删除,则释放底层资源。只有在scan_frequency结束之后,才会再次启动文件的收集。如果该文件在收割机关闭时被移动或删除,该文件的收集将不会继续。要控制收割机何时关闭,使用close_*配置选项。
一个输入负责管理收割机和寻找所有来源读取。
如果输入类型是log,则输入将查找驱动器上与定义的glob路径匹配的所有文件,并为每个文件启动一个收割机。每个输入在它自己的Go例程中运行。
下面的示例将Filebeat配置为从所有与指定的glob模式匹配的日志文件中获取行:
filebeat.inputs: - type: log paths: - /var/log/*.log - /var/path2/*.logFilebeat目前支持几种输入类型。每个输入类型都可以定义多次。日志输入检查每个文件,以查看是否需要启动收割机、收割机是否已经在运行,或者是否可以忽略该文件(参见ignore_older)。只有在关闭收割机后文件大小发生变化时才会拾取新行。
Filebeat保存每个文件的状态,并经常将该状态刷新到注册表文件中的磁盘。该状态用于记住收割机读取的最后一个偏移量,并确保发送了所有日志线。如果不能访问Elasticsearch或Logstash等输出,Filebeat将跟踪最后发送的行,并在输出再次可用时继续读取文件。当Filebeat运行时,每个输入的状态信息也保存在内存中。当重新启动Filebeat时,将使用来自注册表文件的数据重新构建状态,Filebeat将在最后已知的位置继续每个收割机。
对于每个输入,Filebeat保存它找到的每个文件的状态。因为文件可以重命名或移动,所以文件名和路径不足以识别文件。对于每个文件,Filebeat存储唯一标识符,以检测之前是否收集了文件。
如果您的用例每天都要创建大量的新文件,那么您可能会发现注册表文件变得太大了。有关可设置以解决此问题的配置选项的详细信息,请参阅“注册表文件太大”。
Filebeat保证事件将至少一次传递到配置的输出,并且不会丢失数据。Filebeat能够实现此行为,因为它将每个事件的传递状态存储在注册表文件中。
在定义的输出被阻塞且没有确认所有事件的情况下,Filebeat将继续尝试发送事件,直到输出确认已接收到事件为止。
如果Filebeat在发送事件的过程中关闭,它在关闭之前不会等待输出确认所有事件。当重新启动Filebeat时,将再次发送发送到输出中但在Filebeat关闭前未确认的任何事件。这可以确保每个事件至少发送一次,但最终可能会将重复的事件发送到输出。通过设置shutdown_timeout选项,可以配置Filebeat在关闭之前等待特定的时间。
Filebeat的至少一次传递保证有一个限制,涉及到日志旋转和旧文件的删除。如果日志文件被写入磁盘并旋转的速度比Filebeat处理它们的速度快,或者在输出不可用时删除了文件,那么数据可能会丢失。在Linux上,由于inode重用,Filebeat也可以跳过行。有关inode重用问题的详细信息,请参阅常见问题。
完整的配置选项,请参考官方文档。
最简单的一个例子是读取日志文件并发送到elasticsearch:
filebeat.inputs: - type: log paths: - /usr/share/filebeat/logs/level0.json output.elasticsearch: hosts: ["http://elasticsearch:9200"]