洞察移动政务小程序助力政府数字化转型,保障数据安全和效率提升
866
2022-10-02
运维工作中的事件、故障排查处理思路
一、运维工作中的事件
---- 多数的系统日志和内核日志/var/log/secure ---- 安全相关日志,如sshd,login,pam/var/log/dmesg ---- 内核日志/var/log/boot.log ---- 启动屏显/var/log/cron ---- 计划任务日志/var/log/btmp ---- last 日志/var/log/sa/ ---- sar 历史性能能日志应用层日志
红帽操作系统特有的
#安装sos软件包yum install sos#运行sosreport --batch#全面的系统信息tar包位置 rhel6:/tmp/sosreport-* rhel7:/var/tmp/sosreport-*
3、提出假设和推断
基于对系统的深刻理解,对信息的综合分析,结合症状提出合理的、具体的假设分解排除
分层模型,自下而上模快化发散思维对比
4、验证假设
一次验证只考虑一种故障因素的组合记录验证结果,可能产生新的线索反复验证所有可能的因素组合
二)故障解决
故障归档:
故障现象故障环境根本原因解决办法等
改进方法:避免再发生
三)故障排查需要的能力
对系统和架构的深入理解善用工具严密的逻辑思维对信息的筛选发散思维运气
四)寻求帮助
1、以RedHat操作系统为例
安装man包yum install man-pages# man man# man -k <关键字># man文档类型 1 Executable programs or shell commands 可执行工具的使用文档 2 System calls (functions provided by the kernel) 系统调用接口文档 3 Library calls (functions within program libraries) libc接口文档 4 Special files (usually found in /dev) 特殊文件说明文档 5 File formats and conventions, e.g. /etc/passwd 配置文件格式说明 6 Games 7 Miscellaneous (including macro packages and conventions), e.g. man(7), groff(7) 8 System administration commands (usually only for root) 9
五)举例一:硬件故障排查
1、硬件故障现象举例
磁盘掉盘或者大量IO error网卡灯不亮,或网卡丢包严重影响到应用层面硬件日志报警
2、识别硬件
读取bios信息dmidecode 识别CPUlscpu/proc/cpuinfo 识别内存dmidecode -t memoryfree/proc/meminfo 识别pci设备lspci 识别scsi设备lsscsi 识别block设备lsblk
3、驱动程序
列出所有加载模块lsmod 查看模块信息modinfo 模块加载/卸载modprobe 模块日志dmesg
4、排查手段
排查硬件日志,硬件状态,检查bios信息RAS(reliablity(可靠性)、availability(可用性)、serviceability(安全性))特性
需要硬件厂商支持,硬件和驱动rasdaemon(rhel7/8)
日志输出到/var/log/messages
检查/var/log/messages和dmesg检查驱动
硬件厂商提供的驱动操作系统kernel中提供的驱动
5、常见硬件故障的日志形态
HBA卡链路故障
磁盘IO故障
MCE故障
六)举例二:启动故障排查
1、启动故障举例(清楚系统启动的细节(顺序))
找不到启动盘在grub菜单过后 kernel panic文件系统挂载失败服务启动阶段长时间卡住
2、启动流程
BIOS POST开机自检BIOS扫描启动盘(直通、阵列卡、网卡、光纤卡、CD)感知到MBR( 主引导记录(MBR,Master Boot Record)),以及bootable分区stage 1(MBR) > stage 1.5(boot文件系统驱动) > stage 2 (grub boot loader启动读取grub.conf)载入vmlinuz和initramfs载入硬件驱动,初始化磁盘,lvm和根文件系统sysV/systemd启动管理器开始运行,挂载文件系统,初始化网络,继续进行服务启动
3、排查手段
单用户模式
适合排查初始引导过后的sytemd启动阶段故障
救援模式
适合排查引导盘存储故障
rd.break模式
适合排查初始化引导阶段故障
云环境,将主机的系统盘挂载到其他云主机上,修改文件内容
4、常见的启动故障的日志形态
根盘LVM故障
boot image故障
fstab故障
七)举例三:文件系统故障
1、文件系统故障
文件系统满文件系统只读文件系统空间未释放
lsof | grep -i deleted若是误删的情况,可以通过cp /proc/$pid/fd/删除内容到指定目录下
文件系统脏
2、关于空间未释放问题
文件的open与closedf vs du释放空间的小技巧
echo > /path/to/filetrue > /path/to/file
误删文件后恢复的小技巧
文件仍被open状态,文件会保存到/proc/$pid/fd
3、常见文件系统故障的日志形态
xfs元数据故障
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~