Prometheus指标采集和查询存储方案-2020年
我们分一级监控平台和二级集群Prometheus监控采集组件。一级提供kafka集群和Prometheus聚合组件,二级各集群部署Prometheus和Prometheus-kafka-adapter组件,采集和远程送数据到一级的kafka集群。
该方案优点:
1.业务系统可以跨集群聚合数据,如图k8s集群-1和k8s集群-2数据聚合到Top-1的Prometheus上。
2.一级监控平台上只要有足够的cpu、存储资源,理论上可以水平扩展接入更多集群。2020年底采集的指标量每天3194亿的量级,吞吐量达370万/s。
3.采集端Prometheus可以保留极少数据,比如6小时的数据,减少资源消耗。而上层Prometheus由于落数据到时序数据库influxdb中,可以保存一个月数据量甚至更多。
该方案没做到什么:
1.采集端Prometheus扩容问题,单集群中数据规模受Prometheus原生的限制。
2.一级监控平台上时序数据库influxdb有单点问题,数据规模和数据安全性受其影响。 简单聊聊运维监控的其他用途。方案运维监控供应
监控是一项非常重要的运维工作,尤其对于一些比较重要的业务,如果没有监控,就只能等着用户反馈。常见的开源监控软件有 Cacti、Nagios、Zabbix、Smokeping 和 Open-falcon 等。Cacti 和 Smokeping 倾向于基础监控,成图非常漂亮。Cacti、Nagios 和 Zabbix 服务端监控中心需要 PHP 环境支持,其中 Zabbix 和 Cacti 需要安装 MySQL 作为存储数据库。Nagios 不用存储历史数据,注重服务或监控项的状态。Zabbix 会获取服务或监控项目的数据,把数据记录到数据库中,可以成图查看。Argus是基于Zabbix的IT运维监控平台,打造完整的Iaas&Paas兼容感知解耦Zabbix版本限制,生态无缝兼容 要求运维监控好选择我们要运维监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。
Argus运维监控中硬件监控包括:可以通过IPMI对硬件详细情况进行监控,并对CPU、内存、磁盘、温度、风扇、电压等设置报警设置报警阈值(自行对监控报警内容编写合理的报警范围)IPMI工具无法获取到硬件的状态,可以借助MegaCli工具探测Raid磁盘队列状态zabbix提供IPMI监控模板:ZabbixIPMIInterface。同时也能够实时采集到服务器的硬件报错日志,代替管理员的日常机房巡检工作,使管理员实时了解到服务器底层硬件的运行情况。带外方式不通过操作系统,即使系统关机的状态下仍可监控服务器的基本硬件健康状况
对于IaaS层的监控,本质来说就是监控组成IaaS层的各个资源对象,那么资源对象代表什么呢?
例如物理服务器、交换机、一条专线与一个公网IP等等都是一个个资源对象。通常来说对于资源对象的监控可以分为以下4个维度。
状态的监控:通指设备的的状态,如设备的存活状态、网络设备的端口状态、电源、风扇状态等;
性能监控:通指设备内存大小,端口流量包量、CPU利用率等等;
质量监控:通指设备的丢包率、错包率、网络访问的延时等等;
容量监控:通指设备的负载使用率、专线带宽使用率、网络设备的负载使用率、服务器的负载使用率等等。 快来看看常用的运维监控必备知识!
对于服务器的监控同样也是从状态、性能与容量这几个维度入手。虽然SNMP也可以用于服务器监控,但相对于agent主动上报指标与数据会少很多。
服务器的状态监控主要包含服务器是否ping的通、agent上报是否超时与电源运行状态等等。对于性能与容量这两类维度,主要依赖当前OS的数据捕获,一般来说对于服务器监控来说在通用场景下主要关注CPU、内存、流量与包量这四个指标即可,但是别的指标也建议尽量捕获。
单个监控对象的数据丰富了会有如下好处:避免对象的监控盲点不同的监控数据点可以部分对应出该服务器所承载的业务特性指标,例如存储类业务也会关注disk_total_read、svctm_time_max、await_time_max等等系统指标生产的数据足够丰富能够催生出更加丰富的运维数据消费场景。服务器监控相对是很标准的监控模型,针对于物理服务器与虚拟机都有共性指标。这部分主要做到采集的数据丰富与上报的准确性(算法准确)。 运维、监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。国产运维监控服务价格
Argus是观纵科技自主研发的it运维监控系统,旨在对信息中心软硬件实施全天候无死角监控。方案运维监控供应
运维监控从原有的被动式处理故障变为接收预警信息,提前发现潜在风险、提前解决问题,在IT故障波及业务运行之前的告警处置。及时发现业务系统各个单元故障,深度定位系统的故障根源,通过CMDB建立IT资源关联关系并在故障发生时迅速发现潜在可能影响的业务。7*24小时不间断、无遗漏监控,相对于人工巡检而言,发现问题更及时完备。支持对不同硬件厂商/系列/型号、不同软件类型/版本的全类指标监控和故障分析,内置告警处置知识库,降低了运维工作对人的依赖程度。方便IT组织部门对人与硬件资源、虚拟资源之间的维护关系管理,助力IT报障责任划分体系建设,为IT运维人员的工作绩效提供依据。使业务部门感知到的运行故障频次大量降低,提升对信息保障部门的信任度。方案运维监控供应
上海观纵科技有限公司主营品牌有webfunny,walkingfunny,argus,发展规模团队不断壮大,该公司服务型的公司。观纵科技是一家有限责任公司企业,一直“以人为本,服务于社会”的经营理念;“诚守信誉,持续发展”的质量方针。公司始终坚持客户需求优先的原则,致力于提供高质量的webfunny前端监控,webfunny前端埋点,全链路应用性能监控,Argus-IT运维监控。观纵科技以创造***产品及服务的理念,打造高指标的服务,引导行业的发展。