想要3个月就能成为成熟运维?那就跟着这套路线图走。刚开始的这3天是新手村,先把命令刻进骨子里。第一天拿个便签贴显示器上,只记三板斧:用ls -lht看文件、用ps aux|grep揪进程、用tail -f追日志,只要看着这个表,出啥问题30秒准能揪出核心信息。 第二天去梳理目录结构,把系统核心区域比作厨房、录像和工具箱。/etc是系统厨房,改个配置立刻见效;/var/log是监控录像,去里面找变化;/opt就是工具箱,放着验证工具。实战一下:在/etc/sysconfig里改一行,秒看/var/log/messages变化,再用/opt工具验证效果,让新人亲眼看到闭环。 第三天就开始搞破坏演习了。故意弄个chmod 000把文件变砖,让新人用find去排查再修复。亲手搞定故障的那种爽感,比背书强多了。 过了这三周就是成长期。每天交班前都得逼着新人讲故事,用“问题-现象-解决”的三段式来复述当天的事。比如“网站502了是因为nginx进程没了,systemctl重启就好了”。这种复述不是走形式,是要把经验串起来变成标准化流程。 再往后就是进阶期了,得搭起自己的监控网。先从Zabbix入手,掌握看CPU负载、内存可用量和磁盘IO的三招。现场跑个dd命令往/tmp写个大文件,让新人亲眼看到三秒内负载飙升、iowait满格。 接着再学点自动化知识。用Ansible写个playbook把20台服务器的SSH端口从22改成3022。新人自己敲一下ansible-playbook命令,看到“一键改全网”的效果,比听十遍道理直观多了。 最后记得定好规矩。前两周千万别碰iptables这种东西;删文件之前一定要二次确认;改配置前先备份一份。这些规矩是为了防止出错雪球越滚越大。