基于Prometheus和Grafana的监控平台

环境准备

在开始配置之前请下载以下几个软件(直接从github或者grafana官网下载太慢了，简直是龟速而且容易下载失败，建议使用迅雷下载)。

安装

准备两台服务器，一台用作安装prometheus和grafana，一台用作放置exporter组件。建立应用文件夹，将相关软件上传至服务器。

192.168.249.131 prometheus，grafana
192.168.249.129 exporter

prometheus

使用如下shell命令进行安装并启动

tar zxvf prometheus-2.13.1.linux-amd64.tar.gz
mv prometheus-2.13.1.linux-amd64 prometheus
cd prometheus
nohup ./prometheus &

启动完成后，用浏览器打开http://192.168.249.131:9090进行访问，效果如下：
基于Prometheus和Grafana的监控平台 - 环境搭建

grafana

使用如下shell命令进行安装并启动

tar grafana-6.4.3.linux-amd64.tar.gz
cd grafana-6.4.3
nohup ./grafana-server &

启动完成后，用浏览器打开http://192.168.249.131:3000进行访问，默认账号密码为admin/admin，初次登陆需要修改密码，修改密码并登陆效果如下：
基于Prometheus和Grafana的监控平台 - 环境搭建

node_exporter

使用如下shell命令进行安装并启动

tar zxvf node_exporter-0.18.1.linux-amd64.tar.gz
mv node_exporter-0.18.1.linux-amd64 node_exporter
nohup ./node_exporter &

node exporter默认使用9100端口，可以使用--web.listen-address=":9200"指定端口号。
启动完成后，用浏览器打开http://192.168.249.129:9100/进行访问,显示效果如下：
基于Prometheus和Grafana的监控平台 - 环境搭建

配置

prometheus

进入prometheus安装目录，修改prometheus.yml文件，增加监听job server-192.168.249.129，完整配置如下：

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"


scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'
    static_configs:
    - targets: ['localhost:9090']

  - job_name: '192.168.249.129'
    static_configs:
    - targets: ['192.168.249.129:9100']

配置完成后重启prometheus，查看监听状态。
基于Prometheus和Grafana的监控平台 - 环境搭建