你需要知道的 16 个 Linux 服务器监控命令

fmms 13年前
     <p>如果你想知道你的服务器正在做干什么，你就需要了解一些基本的命令，一旦你精通了这些命令，那你就是一个 专业的 Linux 系统管理员。</p>    <p>有些 Linux 发行版会提供 GUI 程序来进行系统的监控，例如 SUSE Linux 就有一个非常棒而且专业的工具 YaST，KDE 的 KDE System Guard 同样很出色。当然，要使用这些工具，你必须在服务器跟前进行操作，而且这些 GUI 的程序占用了很多系统资源，所以说，尽管 GUI 用来做基本的服务器健康状态监测挺好，但如果你想知道真正发生什么，请关掉 GUI 开始命令行之旅吧。</p>    <p>你应该只在需要的时候去启动 GUI ，不用的时候关掉它。如果要让服务器保持最佳性能，你应该将 Linux 服务器的运行级别 runlevel 设置为 3 ，就是控制台模式，当你需要图形化桌面的时候使用 startx 命令来启动它。</p>    <p>如果你的服务器启动后就直接进入图形界面，你需要修改配置 /etc/inittab 找到 initdefault 一样，将 id:5:initdefault 修改为 id:3:initdefault。</p>    <p>如果你没找到 /etc/inittab 文件，那就创建一个新的，文件内容增加 id:3 这么一行。这样下次服务器启动的时候就不会进入图形界面。如果你不想等到服务器重启的时候才生效，你可以执行 init 3 这个命令。</p>    <p>一旦你的服务器是在控制台模式下运行，你就可以开始我们接下来的内容。</p>    <h3>iostat</h3>    <p><a href="/misc/goto?guid=4958332937805145337" rel="nofollow" target="_blank">iostat</a> 命令用来显示存储子系统的详细信息，通常用它来监控磁盘 I/O 的情况。要特别注意 iostat 统计结果中的 %iowait 值，太大了表明你的系统存储子系统性能低下。</p>    <h3>meminfo 和 free</h3>    <p><a href="/misc/goto?guid=4958332938633820111" rel="nofollow" target="_blank">Meminfo</a> 可让你获取内存的详细信息，你可以使用 cat 和 grep 命令来显示 meminfo 信息：</p>    <pre class="brush:shell; toolbar: true; auto-links: false;">cat /proc/meminfo</pre>    <p></p>    <p>另外你可以使用 free 命令来显示动态的内存使用信息，free 只是给你大概的内存信息，而 meminfo 提供的信息更加详细。例如在 oschina 上的 free 命令执行结果：</p>    <p><img style="width:486px;height:68px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/5f4277a7c0db13036ec2945f3362299b.jpg" /></p>    <h3>mpstat</h3>    <p><a href="/misc/goto?guid=4958332939434076401" rel="nofollow" target="_blank">mpstat</a> mpstat是MultiProcessor Statistics的缩写，是实时系统监控工具。其报告与CPU的一些统计信息，这些信息存放在/proc/stat文件中。在多CPUs系统里，其不但能查看所有CPU的平均状况信息，而且能够查看特定CPU的信息。</p>    <p>再来看看 oschina 上的 mpstat 命令执行结果：</p>    <p><img style="width:576px;height:62px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/e48d70f5be66d3dac59339f8b28278ec.jpg" /></p>    <p>关于 mpstat 执行结果中的参数意思请参考<a href="/misc/goto?guid=4958332940446288292" rel="nofollow" target="_blank">此贴</a>。</p>    <h3>netstat</h3>    <p><a href="/misc/goto?guid=4958332941268596393" rel="nofollow" target="_blank">Netstat</a> 和 ps 命令类似，是 Linux 管理员基本上每天都会用的工具，它显示了大量跟网络相关的信息，例如 socket 的使用、路由、接口、协议、网络等等，下面是一些常用的参数：</p>    <pre class="brush:shell; toolbar: true; auto-links: false;">-a Show all socket information  -r Show routing information  -i Show network interface statistics  -s Show network protocol statistics</pre>    <p></p>    <h3>nmon</h3>    <p><a href="/misc/goto?guid=4958332942061929606" rel="nofollow" target="_blank">Nmon</a>, 是 Nigel's Monitor 的缩写，是一个使用很普遍的开源工具，用以监控 Linux 系统的性能。Nmon 监控多个子系统的性能数据，例如处理器的使用率、内存使用率、队列、磁盘I/O统计、网络I/O统计、内存页处理和进程信息。Nmon 也提供了一个图形化的工具：</p>    <p><img style="width:564px;height:361px;" title="sjvn_LinuxServerMonitoring_nmon.png" alt="你需要知道的 16 个 Linux 服务器监控命令" align="middle" src="https://simg.open-open.com/show/e13c6d0d1705fb758ec6d7dbb9df02f8.png" /></p>    <p>要运行 nmon，你可以在命令行中启动它，然后选择要监控的子系统，这些子系统都对应有一个快捷键，例如输入 c 可查看 CPU 信息，m用于查看内存，d用来查看磁盘信息等，你也可以使用 -f 命令将 nmon 的执行结果保存到一个 CSV 文件中，便于日后分析。</p>    <p>在每日的监控工作中，我发现 nmon 是我最常用的工具。</p>    <h3>pmap</h3>    <p><a href="/misc/goto?guid=4958332939434076401" rel="nofollow" target="_blank">pmap</a> 命令用来报告每个进程占用内存的详细情况，可用来看是否有进程超支了，该命令需要进程 id 作为参数。</p>    <h3>ps 和 pstree</h3>    <p><a href="/misc/goto?guid=4958332943606078645" rel="nofollow" target="_blank">ps</a> 和 <a href="/misc/goto?guid=4958332944421757891" rel="nofollow" target="_blank">pstree</a> 命令是 Linux 系统管理员最好的朋友，都可以用来列表正在运行的所有进程。ps 告诉你每个进程占用的内存和 CPU 处理时间，而 pstree 显示的信息没那么详细，但它以树形结构显示进程之间的依赖关系，包括子进程信息。一旦发现某个进程有问题，你可以使用 <a href="/misc/goto?guid=4958332945219978647" rel="nofollow" target="_blank">kill</a> 来杀掉它。</p>    <h3>sar</h3>    <p><a href="/misc/goto?guid=4958332946020357631" rel="nofollow" target="_blank">sar</a> 程序是系统监控工具里的瑞士军刀。该程序包含三个工具：sar 用来显示数据，sa1 和 sa2 用来收集数据并保存。sar 可用来显示 CPU 使用率、内存页数据、网络 I/O 和传输统计、进程创建活动和磁盘设备的活动详情。sar 和 nmon 最大的不同就是 sar 跟适合用作长期的监控，而 nmon 可以让你快速的了解系统当前状态。</p>    <h3>strace</h3>    <p><a href="/misc/goto?guid=4958332946818016842" rel="nofollow" target="_blank">strace</a> 经常被认为是程序员调试的工具，但不止如此。它可以记录进程进行系统调用的详情，因此它也是一个非常好的诊断工具，例如你可以使用它来找出某个程序正在打开某个配置文件。</p>    <p>Strace 也有一个缺陷，但它在跟踪某个进程时会让该进程的性能变得非常差，因此请谨慎使用。</p>    <h3>tcpdump</h3>    <p><a href="/misc/goto?guid=4958332947617042682" rel="nofollow" target="_blank">Tcpdump</a> 是一个简单、可靠的网络监控工具，用来做基本的协议分析，看看那些进程在使用网络以及如何使用网络。当然，如果你要获取跟详细的信息，你应该使用 <a href="/misc/goto?guid=4958332948641020519" rel="nofollow" target="_blank">Wireshark</a> (下面我们会介绍).</p>    <h3>top</h3>    <p><a href="/misc/goto?guid=4958332949507786591" rel="nofollow" target="_blank">top</a> 命令显示当前的活动进程，默认它是按消耗 CPU 的厉害程度进行排序，每5秒钟刷新一次列表，你也可以选择不同的排序方式，例如 m 是按内存占用方式进行排序的快捷键。</p>    <h3>uptime</h3>    <p><a href="/misc/goto?guid=4958332950318795437" rel="nofollow" target="_blank">uptime</a> 命令告诉你这台服务器从开机启动到现在已经运行了多长时间了。同时也包含了从启动到现在服务器的平均负载情况，看看 oschina 的数据：</p>    <p><img alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/d3200e9446e7ea94d2c608b174703631.jpg" width="566" height="33" /></p>    <p>我已经忘了上次是为什么重启机器了，好像是换了个机柜。</p>    <h3>vmstat</h3>    <p>你可以使用 <a href="/misc/goto?guid=4958332951120837960" rel="nofollow" target="_blank">vmstat</a> 来监控虚拟内存，一般 Linux 上的开发者喜欢使用虚拟内存来获得最佳的存储性能。该命令报告关于内核线程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息。由 vmstat 命令生成的报告可以用于平衡系统负载活动。系统范围内的这些统计信息（所有的处理器中）都计算出以百分比表示的平均值，或者计算其总和。</p>    <p>在 oschina 上执行 vmstat 的结果：</p>    <p><img style="width:552px;height:55px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/5b3e3140c1a6fdfad7e53c9639c43868.jpg" /></p>    <h3>Wireshark</h3>    <p><a href="/misc/goto?guid=4958189631820924473" rel="nofollow" target="_blank">Wireshark</a>, 前身是 Ethereal ，是一个网络协议检测程序，让您经由程序抓取运行的网站的相关资讯，包括每一封包流向及其内容、资讯可依操作系统语系看出,方便查看、监控TCP session动态等等.</p>    <p><img style="width:552px;height:432px;" alt="你需要知道的 16 个 Linux 服务器监控命令" src="https://simg.open-open.com/show/f6727f96b3c41d8e08e2e23f14dab907.png" /></p>    <p></p>    <p>这里罗列的是大多数最有价值的 Linux 监控程序，当然，你可能还会使用其他的工具，不妨跟大家分享下。</p>    <p>英文原文 <a href="/misc/goto?guid=4958332952665422209" rel="nofollow" target="_blank">hp.com</a> OSCHINA 原创翻译<a href="/misc/goto?guid=4958332952665422209" rel="nofollow" target="_blank"><br /> </a></p>