你需要知道的 16 个 Linux 服务器监控命令
fmms 13年前
<p>如果你想知道你的服务器正在做干什么,你就需要了解一些基本的命令,一旦你精通了这些命令,那你就是一个 专业的 Linux 系统管理员。</p> <p>有些 Linux 发行版会提供 GUI 程序来进行系统的监控,例如 SUSE Linux 就有一个非常棒而且专业的工具 YaST,KDE 的 KDE System Guard 同样很出色。当然,要使用这些工具,你必须在服务器跟前进行操作,而且这些 GUI 的程序占用了很多系统资源,所以说,尽管 GUI 用来做基本的服务器健康状态监测挺好,但如果你想知道真正发生什么,请关掉 GUI 开始命令行之旅吧。</p> <p>你应该只在需要的时候去启动 GUI ,不用的时候关掉它。如果要让服务器保持最佳性能,你应该将 Linux 服务器的运行级别 runlevel 设置为 3 ,就是控制台模式,当你需要图形化桌面的时候使用 startx 命令来启动它。</p> <p>如果你的服务器启动后就直接进入图形界面,你需要修改配置 /etc/inittab 找到 initdefault 一样,将 id:5:initdefault 修改为 id:3:initdefault。</p> <p>如果你没找到 /etc/inittab 文件,那就创建一个新的,文件内容增加 id:3 这么一行。这样下次服务器启动的时候就不会进入图形界面。如果你不想等到服务器重启的时候才生效,你可以执行 init 3 这个命令。</p> <p>一旦你的服务器是在控制台模式下运行,你就可以开始我们接下来的内容。</p> <h3>iostat</h3> <p><a href="/misc/goto?guid=4958332937805145337" rel="nofollow" target="_blank">iostat</a> 命令用来显示存储子系统的详细信息,通常用它来监控磁盘 I/O 的情况。要特别注意 iostat 统计结果中的 %iowait 值,太大了表明你的系统存储子系统性能低下。</p> <h3>meminfo 和 free</h3> <p><a href="/misc/goto?guid=4958332938633820111" rel="nofollow" target="_blank">Meminfo</a> 可让你获取内存的详细信息,你可以使用 cat 和 grep 命令来显示 meminfo 信息:</p> <pre class="brush:shell; toolbar: true; auto-links: false;">cat /proc/meminfo</pre> <p></p> <p>另外你可以使用 free 命令来显示动态的内存使用信息,free 只是给你大概的内存信息,而 meminfo 提供的信息更加详细。例如在 oschina 上的 free 命令执行结果:</p> <p><img style="width:486px;height:68px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/5f4277a7c0db13036ec2945f3362299b.jpg" /></p> <h3>mpstat</h3> <p><a href="/misc/goto?guid=4958332939434076401" rel="nofollow" target="_blank">mpstat</a> mpstat是MultiProcessor Statistics的缩写,是实时系统监控工具。其报告与CPU的一些统计信息,这些信息存放在/proc/stat文件中。在多CPUs系统里,其不但能查看所有CPU的平均状况信息,而且能够查看特定CPU的信息。</p> <p>再来看看 oschina 上的 mpstat 命令执行结果:</p> <p><img style="width:576px;height:62px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/e48d70f5be66d3dac59339f8b28278ec.jpg" /></p> <p>关于 mpstat 执行结果中的参数意思请参考<a href="/misc/goto?guid=4958332940446288292" rel="nofollow" target="_blank">此贴</a>。</p> <h3>netstat</h3> <p><a href="/misc/goto?guid=4958332941268596393" rel="nofollow" target="_blank">Netstat</a> 和 ps 命令类似,是 Linux 管理员基本上每天都会用的工具,它显示了大量跟网络相关的信息,例如 socket 的使用、路由、接口、协议、网络等等,下面是一些常用的参数:</p> <pre class="brush:shell; toolbar: true; auto-links: false;">-a Show all socket information -r Show routing information -i Show network interface statistics -s Show network protocol statistics</pre> <p></p> <h3>nmon</h3> <p><a href="/misc/goto?guid=4958332942061929606" rel="nofollow" target="_blank">Nmon</a>, 是 Nigel's Monitor 的缩写,是一个使用很普遍的开源工具,用以监控 Linux 系统的性能。Nmon 监控多个子系统的性能数据,例如处理器的使用率、内存使用率、队列、磁盘I/O统计、网络I/O统计、内存页处理和进程信息。Nmon 也提供了一个图形化的工具:</p> <p><img style="width:564px;height:361px;" title="sjvn_LinuxServerMonitoring_nmon.png" alt="你需要知道的 16 个 Linux 服务器监控命令" align="middle" src="https://simg.open-open.com/show/e13c6d0d1705fb758ec6d7dbb9df02f8.png" /></p> <p>要运行 nmon,你可以在命令行中启动它,然后选择要监控的子系统,这些子系统都对应有一个快捷键,例如输入 c 可查看 CPU 信息,m用于查看内存,d用来查看磁盘信息等,你也可以使用 -f 命令将 nmon 的执行结果保存到一个 CSV 文件中,便于日后分析。</p> <p>在每日的监控工作中,我发现 nmon 是我最常用的工具。</p> <h3>pmap</h3> <p><a href="/misc/goto?guid=4958332939434076401" rel="nofollow" target="_blank">pmap</a> 命令用来报告每个进程占用内存的详细情况,可用来看是否有进程超支了,该命令需要进程 id 作为参数。</p> <h3>ps 和 pstree</h3> <p><a href="/misc/goto?guid=4958332943606078645" rel="nofollow" target="_blank">ps</a> 和 <a href="/misc/goto?guid=4958332944421757891" rel="nofollow" target="_blank">pstree</a> 命令是 Linux 系统管理员最好的朋友,都可以用来列表正在运行的所有进程。ps 告诉你每个进程占用的内存和 CPU 处理时间,而 pstree 显示的信息没那么详细,但它以树形结构显示进程之间的依赖关系,包括子进程信息。一旦发现某个进程有问题,你可以使用 <a href="/misc/goto?guid=4958332945219978647" rel="nofollow" target="_blank">kill</a> 来杀掉它。</p> <h3>sar</h3> <p><a href="/misc/goto?guid=4958332946020357631" rel="nofollow" target="_blank">sar</a> 程序是系统监控工具里的瑞士军刀。该程序包含三个工具:sar 用来显示数据,sa1 和 sa2 用来收集数据并保存。sar 可用来显示 CPU 使用率、内存页数据、网络 I/O 和传输统计、进程创建活动和磁盘设备的活动详情。sar 和 nmon 最大的不同就是 sar 跟适合用作长期的监控,而 nmon 可以让你快速的了解系统当前状态。</p> <h3>strace</h3> <p><a href="/misc/goto?guid=4958332946818016842" rel="nofollow" target="_blank">strace</a> 经常被认为是程序员调试的工具,但不止如此。它可以记录进程进行系统调用的详情,因此它也是一个非常好的诊断工具,例如你可以使用它来找出某个程序正在打开某个配置文件。</p> <p>Strace 也有一个缺陷,但它在跟踪某个进程时会让该进程的性能变得非常差,因此请谨慎使用。</p> <h3>tcpdump</h3> <p><a href="/misc/goto?guid=4958332947617042682" rel="nofollow" target="_blank">Tcpdump</a> 是一个简单、可靠的网络监控工具,用来做基本的协议分析,看看那些进程在使用网络以及如何使用网络。当然,如果你要获取跟详细的信息,你应该使用 <a href="/misc/goto?guid=4958332948641020519" rel="nofollow" target="_blank">Wireshark</a> (下面我们会介绍).</p> <h3>top</h3> <p><a href="/misc/goto?guid=4958332949507786591" rel="nofollow" target="_blank">top</a> 命令显示当前的活动进程,默认它是按消耗 CPU 的厉害程度进行排序,每5秒钟刷新一次列表,你也可以选择不同的排序方式,例如 m 是按内存占用方式进行排序的快捷键。</p> <h3>uptime</h3> <p><a href="/misc/goto?guid=4958332950318795437" rel="nofollow" target="_blank">uptime</a> 命令告诉你这台服务器从开机启动到现在已经运行了多长时间了。同时也包含了从启动到现在服务器的平均负载情况,看看 oschina 的数据:</p> <p><img alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/d3200e9446e7ea94d2c608b174703631.jpg" width="566" height="33" /></p> <p>我已经忘了上次是为什么重启机器了,好像是换了个机柜。</p> <h3>vmstat</h3> <p>你可以使用 <a href="/misc/goto?guid=4958332951120837960" rel="nofollow" target="_blank">vmstat</a> 来监控虚拟内存,一般 Linux 上的开发者喜欢使用虚拟内存来获得最佳的存储性能。该命令报告关于内核线程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息。由 vmstat 命令生成的报告可以用于平衡系统负载活动。系统范围内的这些统计信息(所有的处理器中)都计算出以百分比表示的平均值,或者计算其总和。</p> <p>在 oschina 上执行 vmstat 的结果:</p> <p><img style="width:552px;height:55px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/5b3e3140c1a6fdfad7e53c9639c43868.jpg" /></p> <h3>Wireshark</h3> <p><a href="/misc/goto?guid=4958189631820924473" rel="nofollow" target="_blank">Wireshark</a>, 前身是 Ethereal ,是一个网络协议检测程序,让您经由程序抓取运行的网站的相关资讯,包括每一封包流向及其内容、资讯可依操作系统语系看出,方便查看、监控TCP session动态等等.</p> <p><img style="width:552px;height:432px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/f6727f96b3c41d8e08e2e23f14dab907.png" /></p> <p></p> <p>这里罗列的是大多数最有价值的 Linux 监控程序,当然,你可能还会使用其他的工具,不妨跟大家分享下。</p> <p>英文原文 <a href="/misc/goto?guid=4958332952665422209" rel="nofollow" target="_blank">hp.com</a> OSCHINA 原创翻译<a href="/misc/goto?guid=4958332952665422209" rel="nofollow" target="_blank"><br /> </a></p>