本章概述 安装alertmanager 邮件告警 钉钉告警 企业微信通知 消息分类发送 自定义消息模板 告警抑制和静默 alertmanager高可用 PrometheusAlert 前言 prometheus 触发一条告警的过程: prometheus--->触发阈值--->超出持续时间--->alertmanager--->分组|抑制|静默--->媒体类型--->邮件|钉钉|微信等。 名词介绍: 分组(group): 将类似性质…
本章概述 安装alertmanager 邮件告警 钉钉告警 企业微信通知 消息分类发送 自定义消息模板 告警抑制和静默 alertmanager高可用 PrometheusAlert 前言 prometheus 触发一条告警的过程: prometheus--->触发阈值--->超出持续时间--->alertmanager--->分组|抑制|静默--->媒体类型--->邮件|钉钉|微信等。 名词介绍: 分组(group): 将类似性质…
本章概述 监控tomcat 监控redis 监控mysql 监控haproxy 监控nginx blackbox_exporter监控URL 前言 基于第三方 exporter 实现对目的服务的监控 exporter功能: (1)收集指标数据 (2)将收集的数据进行格式转换,转换为prometheus能够识别的为key/value格式的数据 (3)将转化后的数据暴露出去 7.1 监控tomcat 监控 tomcat 的活跃连接数、堆栈内存等信息: 活跃连接数: # TYPE tomcat_connections_a…
本章概述 部署kube-state-metrics Prometheus配置job采集数据 Grafana查看监控数据 前言 Kube-state-metrics:用来监控k8s资源状态的组件 通过监听API Server生成有关资源对象的状态指标,比如Deployment、Node、Pod,需要注意的是kube-state-metrics的使用常见不是用于监控对方是否存活,而是用于周期性获取目标对象的metrics指标数据并在web界面进行显示或被prometheus抓取(如pod的状态是…
本章概述 relabeling简介 动态发现:kubernetes_sd_configs 静态发现static_configs consul实现服务发现:consul_sd_configs 基于文件的服务发现:file_sd_configs DNS服务发现 前言 prometheus 默认是采用pull方式拉取监控数据的,也就是定时去目标主机上抓取metrics数据,每一个被抓取的目标需要暴露一个 HTTP 接口,prometheus通过这个暴露的接口就可以获取到相应的指标数据。这种方式需要…
本章概述 通过docekr部署cadvisor 通过daemonset部署cadvisor daemonset部署node-exporter Deployment部署prometheus server 前言 监控Pod指标数据需要使用cadvisor,cadvisor由谷歌开源,cadvisor不仅可以收集一台机器上所有运行的容器信息,还提供基础查询界面和http接口,方便其他组件如Prometheus进行数据抓取,cAdvisor可以对节点机器上的资源及容器进行实时监控和性能数据采集,包括…
本章概述 PromQL数据基础 PromQL-指标数据 PromQL匹配器 PromQL-时间范围 PromQL-运算符 PromQL-聚合运算 前言 官网链接:https://prometheus.io/docs/prometheus/latest/querying/basics/ Prometheus提供一个函数式的表达式语言PromQL (Prometheus Query Language),可以使用户实时地查找和聚合时间序列数据,表达式计算结果可以在图表中展示,也可以在Prometh…
本章概述 Docker部署prometheus Operator 部署prometheus 二进制安装prometheus 二进制安装node-exporter 配置prometheus server收集node-exporter指标数据 部署Grafana Grafana导入模板 前言 Prometheus监控可以通过不同的方式安装部署,但是实际生产环境只需要根据实际需求选择其中一种方式部署即可,无论使用哪一种方式安装部署的prometheus server,使用方式都是一样的,这里以二进…
本章概述 监控逻辑架构图 整体布局 常见监控方案 Prometheus简介 前言 监控的重要性: 通过业务监控系统,全面掌握业务环境的运行状态,通过白盒监控能够提前预知业务瓶颈,通过黑盒监控能够第一时间发现业务故障并通过告警通告运维人员进行紧急恢复,从而将业务影响降到最低。 黑盒监控,关注的是时时的状态,一般都是正在发生的事件,比如nginx web界面打开的是界面报错503、磁盘无法报错数据等,即黑盒监控重点在于能对正在发生的故障进行通知告警。 白盒监控,关注的是原因,也就是系统内部暴露的…
本章概述 service回顾 ingress介绍和部署 实现单host及多host的ingress 实现基于URL的ingress ingress实现单域名及多域名https ingress证书更新 前言 由于ingress会用到service,这里对service进行回顾 17.1 service回顾 service类型包括四种: NodePort、clusterIP、loadBalancer、ExternalName。 其中NodePort和clusterIP在第…
本章概述 kubernetes网络组件flannel kubernetes网络组件calico kubernetes NetworkPolicy(网络策略) 通过网络策略限制通信案例 16.1 kubernetes网络组件flannel 官网:https://coreos.com/flannel/docs/latest/ 文档:https://coreos.com/flannel/docs/latest/kubernetes.html 由CoreOS开源的针对k8s的网络服务,其目的为解决k…