]> bbs.cooldavid.org Git - net-next-2.6.git/blob - Documentation/filesystems/proc.txt
ae7f8bb1b7bc16d173ab20fc80e53c1e63f583c2
[net-next-2.6.git] / Documentation / filesystems / proc.txt
1 ------------------------------------------------------------------------------
2                        T H E  /proc   F I L E S Y S T E M
3 ------------------------------------------------------------------------------
4 /proc/sys         Terrehon Bowden <terrehon@pacbell.net>        October 7 1999
5                   Bodo Bauer <bb@ricochet.net>
6
7 2.4.x update      Jorge Nerin <comandante@zaralinux.com>      November 14 2000
8 move /proc/sys    Shen Feng <shen@cn.fujitsu.com>                 April 1 2009
9 ------------------------------------------------------------------------------
10 Version 1.3                                              Kernel version 2.2.12
11                                               Kernel version 2.4.0-test11-pre4
12 ------------------------------------------------------------------------------
13 fixes/update part 1.1  Stefani Seibold <stefani@seibold.net>       June 9 2009
14
15 Table of Contents
16 -----------------
17
18   0     Preface
19   0.1   Introduction/Credits
20   0.2   Legal Stuff
21
22   1     Collecting System Information
23   1.1   Process-Specific Subdirectories
24   1.2   Kernel data
25   1.3   IDE devices in /proc/ide
26   1.4   Networking info in /proc/net
27   1.5   SCSI info
28   1.6   Parallel port info in /proc/parport
29   1.7   TTY info in /proc/tty
30   1.8   Miscellaneous kernel statistics in /proc/stat
31   1.9 Ext4 file system parameters
32
33   2     Modifying System Parameters
34
35   3     Per-Process Parameters
36   3.1   /proc/<pid>/oom_adj - Adjust the oom-killer score
37   3.2   /proc/<pid>/oom_score - Display current oom-killer score
38   3.3   /proc/<pid>/io - Display the IO accounting fields
39   3.4   /proc/<pid>/coredump_filter - Core dump filtering settings
40   3.5   /proc/<pid>/mountinfo - Information about mounts
41
42
43 ------------------------------------------------------------------------------
44 Preface
45 ------------------------------------------------------------------------------
46
47 0.1 Introduction/Credits
48 ------------------------
49
50 This documentation is  part of a soon (or  so we hope) to be  released book on
51 the SuSE  Linux distribution. As  there is  no complete documentation  for the
52 /proc file system and we've used  many freely available sources to write these
53 chapters, it  seems only fair  to give the work  back to the  Linux community.
54 This work is  based on the 2.2.*  kernel version and the  upcoming 2.4.*. I'm
55 afraid it's still far from complete, but we  hope it will be useful. As far as
56 we know, it is the first 'all-in-one' document about the /proc file system. It
57 is focused  on the Intel  x86 hardware,  so if you  are looking for  PPC, ARM,
58 SPARC, AXP, etc., features, you probably  won't find what you are looking for.
59 It also only covers IPv4 networking, not IPv6 nor other protocols - sorry. But
60 additions and patches  are welcome and will  be added to this  document if you
61 mail them to Bodo.
62
63 We'd like  to  thank Alan Cox, Rik van Riel, and Alexey Kuznetsov and a lot of
64 other people for help compiling this documentation. We'd also like to extend a
65 special thank  you to Andi Kleen for documentation, which we relied on heavily
66 to create  this  document,  as well as the additional information he provided.
67 Thanks to  everybody  else  who contributed source or docs to the Linux kernel
68 and helped create a great piece of software... :)
69
70 If you  have  any comments, corrections or additions, please don't hesitate to
71 contact Bodo  Bauer  at  bb@ricochet.net.  We'll  be happy to add them to this
72 document.
73
74 The   latest   version    of   this   document   is    available   online   at
75 http://skaro.nightcrawler.com/~bb/Docs/Proc as HTML version.
76
77 If  the above  direction does  not works  for you,  ypu could  try the  kernel
78 mailing  list  at  linux-kernel@vger.kernel.org  and/or try  to  reach  me  at
79 comandante@zaralinux.com.
80
81 0.2 Legal Stuff
82 ---------------
83
84 We don't  guarantee  the  correctness  of this document, and if you come to us
85 complaining about  how  you  screwed  up  your  system  because  of  incorrect
86 documentation, we won't feel responsible...
87
88 ------------------------------------------------------------------------------
89 CHAPTER 1: COLLECTING SYSTEM INFORMATION
90 ------------------------------------------------------------------------------
91
92 ------------------------------------------------------------------------------
93 In This Chapter
94 ------------------------------------------------------------------------------
95 * Investigating  the  properties  of  the  pseudo  file  system  /proc and its
96   ability to provide information on the running Linux system
97 * Examining /proc's structure
98 * Uncovering  various  information  about the kernel and the processes running
99   on the system
100 ------------------------------------------------------------------------------
101
102
103 The proc  file  system acts as an interface to internal data structures in the
104 kernel. It  can  be  used to obtain information about the system and to change
105 certain kernel parameters at runtime (sysctl).
106
107 First, we'll  take  a  look  at the read-only parts of /proc. In Chapter 2, we
108 show you how you can use /proc/sys to change settings.
109
110 1.1 Process-Specific Subdirectories
111 -----------------------------------
112
113 The directory  /proc  contains  (among other things) one subdirectory for each
114 process running on the system, which is named after the process ID (PID).
115
116 The link  self  points  to  the  process reading the file system. Each process
117 subdirectory has the entries listed in Table 1-1.
118
119
120 Table 1-1: Process specific entries in /proc
121 ..............................................................................
122  File           Content
123  clear_refs     Clears page referenced bits shown in smaps output
124  cmdline        Command line arguments
125  cpu            Current and last cpu in which it was executed   (2.4)(smp)
126  cwd            Link to the current working directory
127  environ        Values of environment variables
128  exe            Link to the executable of this process
129  fd             Directory, which contains all file descriptors
130  maps           Memory maps to executables and library files    (2.4)
131  mem            Memory held by this process
132  root           Link to the root directory of this process
133  stat           Process status
134  statm          Process memory status information
135  status         Process status in human readable form
136  wchan          If CONFIG_KALLSYMS is set, a pre-decoded wchan
137  stack          Report full stack trace, enable via CONFIG_STACKTRACE
138  smaps          a extension based on maps, showing the memory consumption of
139                 each mapping
140 ..............................................................................
141
142 For example, to get the status information of a process, all you have to do is
143 read the file /proc/PID/status:
144
145   >cat /proc/self/status
146   Name:   cat
147   State:  R (running)
148   Tgid:   5452
149   Pid:    5452
150   PPid:   743
151   TracerPid:      0                                             (2.4)
152   Uid:    501     501     501     501
153   Gid:    100     100     100     100
154   FDSize: 256
155   Groups: 100 14 16
156   VmPeak:     5004 kB
157   VmSize:     5004 kB
158   VmLck:         0 kB
159   VmHWM:       476 kB
160   VmRSS:       476 kB
161   VmData:      156 kB
162   VmStk:        88 kB
163   VmExe:        68 kB
164   VmLib:      1412 kB
165   VmPTE:        20 kb
166   Threads:        1
167   SigQ:   0/28578
168   SigPnd: 0000000000000000
169   ShdPnd: 0000000000000000
170   SigBlk: 0000000000000000
171   SigIgn: 0000000000000000
172   SigCgt: 0000000000000000
173   CapInh: 00000000fffffeff
174   CapPrm: 0000000000000000
175   CapEff: 0000000000000000
176   CapBnd: ffffffffffffffff
177   voluntary_ctxt_switches:        0
178   nonvoluntary_ctxt_switches:     1
179
180 This shows you nearly the same information you would get if you viewed it with
181 the ps  command.  In  fact,  ps  uses  the  proc  file  system  to  obtain its
182 information.  But you get a more detailed  view of the  process by reading the
183 file /proc/PID/status. It fields are described in table 1-2.
184
185 The  statm  file  contains  more  detailed  information about the process
186 memory usage. Its seven fields are explained in Table 1-3.  The stat file
187 contains details information about the process itself.  Its fields are
188 explained in Table 1-4.
189
190 Table 1-2: Contents of the statm files (as of 2.6.30-rc7)
191 ..............................................................................
192  Field                       Content
193  Name                        filename of the executable
194  State                       state (R is running, S is sleeping, D is sleeping
195                              in an uninterruptible wait, Z is zombie,
196                              T is traced or stopped)
197  Tgid                        thread group ID
198  Pid                         process id
199  PPid                        process id of the parent process
200  TracerPid                   PID of process tracing this process (0 if not)
201  Uid                         Real, effective, saved set, and  file system UIDs
202  Gid                         Real, effective, saved set, and  file system GIDs
203  FDSize                      number of file descriptor slots currently allocated
204  Groups                      supplementary group list
205  VmPeak                      peak virtual memory size
206  VmSize                      total program size
207  VmLck                       locked memory size
208  VmHWM                       peak resident set size ("high water mark")
209  VmRSS                       size of memory portions
210  VmData                      size of data, stack, and text segments
211  VmStk                       size of data, stack, and text segments
212  VmExe                       size of text segment
213  VmLib                       size of shared library code
214  VmPTE                       size of page table entries
215  Threads                     number of threads
216  SigQ                        number of signals queued/max. number for queue
217  SigPnd                      bitmap of pending signals for the thread
218  ShdPnd                      bitmap of shared pending signals for the process
219  SigBlk                      bitmap of blocked signals
220  SigIgn                      bitmap of ignored signals
221  SigCgt                      bitmap of catched signals
222  CapInh                      bitmap of inheritable capabilities
223  CapPrm                      bitmap of permitted capabilities
224  CapEff                      bitmap of effective capabilities
225  CapBnd                      bitmap of capabilities bounding set
226  Cpus_allowed                mask of CPUs on which this process may run
227  Cpus_allowed_list           Same as previous, but in "list format"
228  Mems_allowed                mask of memory nodes allowed to this process
229  Mems_allowed_list           Same as previous, but in "list format"
230  voluntary_ctxt_switches     number of voluntary context switches
231  nonvoluntary_ctxt_switches  number of non voluntary context switches
232 ..............................................................................
233
234 Table 1-3: Contents of the statm files (as of 2.6.8-rc3)
235 ..............................................................................
236  Field    Content
237  size     total program size (pages)            (same as VmSize in status)
238  resident size of memory portions (pages)       (same as VmRSS in status)
239  shared   number of pages that are shared       (i.e. backed by a file)
240  trs      number of pages that are 'code'       (not including libs; broken,
241                                                         includes data segment)
242  lrs      number of pages of library            (always 0 on 2.6)
243  drs      number of pages of data/stack         (including libs; broken,
244                                                         includes library text)
245  dt       number of dirty pages                 (always 0 on 2.6)
246 ..............................................................................
247
248
249 Table 1-4: Contents of the stat files (as of 2.6.30-rc7)
250 ..............................................................................
251  Field          Content
252   pid           process id
253   tcomm         filename of the executable
254   state         state (R is running, S is sleeping, D is sleeping in an
255                 uninterruptible wait, Z is zombie, T is traced or stopped)
256   ppid          process id of the parent process
257   pgrp          pgrp of the process
258   sid           session id
259   tty_nr        tty the process uses
260   tty_pgrp      pgrp of the tty
261   flags         task flags
262   min_flt       number of minor faults
263   cmin_flt      number of minor faults with child's
264   maj_flt       number of major faults
265   cmaj_flt      number of major faults with child's
266   utime         user mode jiffies
267   stime         kernel mode jiffies
268   cutime        user mode jiffies with child's
269   cstime        kernel mode jiffies with child's
270   priority      priority level
271   nice          nice level
272   num_threads   number of threads
273   it_real_value (obsolete, always 0)
274   start_time    time the process started after system boot
275   vsize         virtual memory size
276   rss           resident set memory size
277   rsslim        current limit in bytes on the rss
278   start_code    address above which program text can run
279   end_code      address below which program text can run
280   start_stack   address of the start of the stack
281   esp           current value of ESP
282   eip           current value of EIP
283   pending       bitmap of pending signals
284   blocked       bitmap of blocked signals
285   sigign        bitmap of ignored signals
286   sigcatch      bitmap of catched signals
287   wchan         address where process went to sleep
288   0             (place holder)
289   0             (place holder)
290   exit_signal   signal to send to parent thread on exit
291   task_cpu      which CPU the task is scheduled on
292   rt_priority   realtime priority
293   policy        scheduling policy (man sched_setscheduler)
294   blkio_ticks   time spent waiting for block IO
295   gtime         guest time of the task in jiffies
296   cgtime        guest time of the task children in jiffies
297 ..............................................................................
298
299 The /proc/PID/map file containing the currently mapped memory regions and
300 their access permissions.
301
302 The format is:
303
304 address           perms offset  dev   inode      pathname
305
306 08048000-08049000 r-xp 00000000 03:00 8312       /opt/test
307 08049000-0804a000 rw-p 00001000 03:00 8312       /opt/test
308 0804a000-0806b000 rw-p 00000000 00:00 0          [heap]
309 a7cb1000-a7cb2000 ---p 00000000 00:00 0
310 a7cb2000-a7eb2000 rw-p 00000000 00:00 0
311 a7eb2000-a7eb3000 ---p 00000000 00:00 0
312 a7eb3000-a7ed5000 rw-p 00000000 00:00 0
313 a7ed5000-a8008000 r-xp 00000000 03:00 4222       /lib/libc.so.6
314 a8008000-a800a000 r--p 00133000 03:00 4222       /lib/libc.so.6
315 a800a000-a800b000 rw-p 00135000 03:00 4222       /lib/libc.so.6
316 a800b000-a800e000 rw-p 00000000 00:00 0
317 a800e000-a8022000 r-xp 00000000 03:00 14462      /lib/libpthread.so.0
318 a8022000-a8023000 r--p 00013000 03:00 14462      /lib/libpthread.so.0
319 a8023000-a8024000 rw-p 00014000 03:00 14462      /lib/libpthread.so.0
320 a8024000-a8027000 rw-p 00000000 00:00 0
321 a8027000-a8043000 r-xp 00000000 03:00 8317       /lib/ld-linux.so.2
322 a8043000-a8044000 r--p 0001b000 03:00 8317       /lib/ld-linux.so.2
323 a8044000-a8045000 rw-p 0001c000 03:00 8317       /lib/ld-linux.so.2
324 aff35000-aff4a000 rw-p 00000000 00:00 0          [stack]
325 ffffe000-fffff000 r-xp 00000000 00:00 0          [vdso]
326
327 where "address" is the address space in the process that it occupies, "perms"
328 is a set of permissions:
329
330  r = read
331  w = write
332  x = execute
333  s = shared
334  p = private (copy on write)
335
336 "offset" is the offset into the mapping, "dev" is the device (major:minor), and
337 "inode" is the inode  on that device.  0 indicates that  no inode is associated
338 with the memory region, as the case would be with BSS (uninitialized data).
339 The "pathname" shows the name associated file for this mapping.  If the mapping
340 is not associated with a file:
341
342  [heap]                   = the heap of the program
343  [stack]                  = the stack of the main process
344  [vdso]                   = the "virtual dynamic shared object",
345                             the kernel system call handler
346
347  or if empty, the mapping is anonymous.
348
349
350 The /proc/PID/smaps is an extension based on maps, showing the memory
351 consumption for each of the process's mappings. For each of mappings there
352 is a series of lines such as the following:
353
354 08048000-080bc000 r-xp 00000000 03:02 13130      /bin/bash
355 Size:               1084 kB
356 Rss:                 892 kB
357 Pss:                 374 kB
358 Shared_Clean:        892 kB
359 Shared_Dirty:          0 kB
360 Private_Clean:         0 kB
361 Private_Dirty:         0 kB
362 Referenced:          892 kB
363 Swap:                  0 kB
364 KernelPageSize:        4 kB
365 MMUPageSize:           4 kB
366
367 The first  of these lines shows  the same information  as is displayed for the
368 mapping in /proc/PID/maps.  The remaining lines show  the size of the mapping,
369 the amount of the mapping that is currently resident in RAM, the "proportional
370 set size” (divide each shared page by the number of processes sharing it), the
371 number of clean and dirty shared pages in the mapping, and the number of clean
372 and dirty private pages in the mapping.  The "Referenced" indicates the amount
373 of memory currently marked as referenced or accessed.
374
375 This file is only present if the CONFIG_MMU kernel configuration option is
376 enabled.
377
378 The /proc/PID/clear_refs is used to reset the PG_Referenced and ACCESSED/YOUNG
379 bits on both physical and virtual pages associated with a process.
380 To clear the bits for all the pages associated with the process
381     > echo 1 > /proc/PID/clear_refs
382
383 To clear the bits for the anonymous pages associated with the process
384     > echo 2 > /proc/PID/clear_refs
385
386 To clear the bits for the file mapped pages associated with the process
387     > echo 3 > /proc/PID/clear_refs
388 Any other value written to /proc/PID/clear_refs will have no effect.
389
390
391 1.2 Kernel data
392 ---------------
393
394 Similar to  the  process entries, the kernel data files give information about
395 the running kernel. The files used to obtain this information are contained in
396 /proc and  are  listed  in Table 1-5. Not all of these will be present in your
397 system. It  depends  on the kernel configuration and the loaded modules, which
398 files are there, and which are missing.
399
400 Table 1-5: Kernel info in /proc
401 ..............................................................................
402  File        Content                                           
403  apm         Advanced power management info                    
404  buddyinfo   Kernel memory allocator information (see text)     (2.5)
405  bus         Directory containing bus specific information     
406  cmdline     Kernel command line                               
407  cpuinfo     Info about the CPU                                
408  devices     Available devices (block and character)           
409  dma         Used DMS channels                                 
410  filesystems Supported filesystems                             
411  driver      Various drivers grouped here, currently rtc (2.4)
412  execdomains Execdomains, related to security                   (2.4)
413  fb          Frame Buffer devices                               (2.4)
414  fs          File system parameters, currently nfs/exports      (2.4)
415  ide         Directory containing info about the IDE subsystem 
416  interrupts  Interrupt usage                                   
417  iomem       Memory map                                         (2.4)
418  ioports     I/O port usage                                    
419  irq         Masks for irq to cpu affinity                      (2.4)(smp?)
420  isapnp      ISA PnP (Plug&Play) Info                           (2.4)
421  kcore       Kernel core image (can be ELF or A.OUT(deprecated in 2.4))   
422  kmsg        Kernel messages                                   
423  ksyms       Kernel symbol table                               
424  loadavg     Load average of last 1, 5 & 15 minutes                
425  locks       Kernel locks                                      
426  meminfo     Memory info                                       
427  misc        Miscellaneous                                     
428  modules     List of loaded modules                            
429  mounts      Mounted filesystems                               
430  net         Networking info (see text)                        
431  partitions  Table of partitions known to the system           
432  pci         Deprecated info of PCI bus (new way -> /proc/bus/pci/,
433              decoupled by lspci                                 (2.4)
434  rtc         Real time clock                                   
435  scsi        SCSI info (see text)                              
436  slabinfo    Slab pool info                                    
437  softirqs    softirq usage
438  stat        Overall statistics                                
439  swaps       Swap space utilization                            
440  sys         See chapter 2                                     
441  sysvipc     Info of SysVIPC Resources (msg, sem, shm)          (2.4)
442  tty         Info of tty drivers
443  uptime      System uptime                                     
444  version     Kernel version                                    
445  video       bttv info of video resources                       (2.4)
446  vmallocinfo Show vmalloced areas
447 ..............................................................................
448
449 You can,  for  example,  check  which interrupts are currently in use and what
450 they are used for by looking in the file /proc/interrupts:
451
452   > cat /proc/interrupts 
453              CPU0        
454     0:    8728810          XT-PIC  timer 
455     1:        895          XT-PIC  keyboard 
456     2:          0          XT-PIC  cascade 
457     3:     531695          XT-PIC  aha152x 
458     4:    2014133          XT-PIC  serial 
459     5:      44401          XT-PIC  pcnet_cs 
460     8:          2          XT-PIC  rtc 
461    11:          8          XT-PIC  i82365 
462    12:     182918          XT-PIC  PS/2 Mouse 
463    13:          1          XT-PIC  fpu 
464    14:    1232265          XT-PIC  ide0 
465    15:          7          XT-PIC  ide1 
466   NMI:          0 
467
468 In 2.4.* a couple of lines where added to this file LOC & ERR (this time is the
469 output of a SMP machine):
470
471   > cat /proc/interrupts 
472
473              CPU0       CPU1       
474     0:    1243498    1214548    IO-APIC-edge  timer
475     1:       8949       8958    IO-APIC-edge  keyboard
476     2:          0          0          XT-PIC  cascade
477     5:      11286      10161    IO-APIC-edge  soundblaster
478     8:          1          0    IO-APIC-edge  rtc
479     9:      27422      27407    IO-APIC-edge  3c503
480    12:     113645     113873    IO-APIC-edge  PS/2 Mouse
481    13:          0          0          XT-PIC  fpu
482    14:      22491      24012    IO-APIC-edge  ide0
483    15:       2183       2415    IO-APIC-edge  ide1
484    17:      30564      30414   IO-APIC-level  eth0
485    18:        177        164   IO-APIC-level  bttv
486   NMI:    2457961    2457959 
487   LOC:    2457882    2457881 
488   ERR:       2155
489
490 NMI is incremented in this case because every timer interrupt generates a NMI
491 (Non Maskable Interrupt) which is used by the NMI Watchdog to detect lockups.
492
493 LOC is the local interrupt counter of the internal APIC of every CPU.
494
495 ERR is incremented in the case of errors in the IO-APIC bus (the bus that
496 connects the CPUs in a SMP system. This means that an error has been detected,
497 the IO-APIC automatically retry the transmission, so it should not be a big
498 problem, but you should read the SMP-FAQ.
499
500 In 2.6.2* /proc/interrupts was expanded again.  This time the goal was for
501 /proc/interrupts to display every IRQ vector in use by the system, not
502 just those considered 'most important'.  The new vectors are:
503
504   THR -- interrupt raised when a machine check threshold counter
505   (typically counting ECC corrected errors of memory or cache) exceeds
506   a configurable threshold.  Only available on some systems.
507
508   TRM -- a thermal event interrupt occurs when a temperature threshold
509   has been exceeded for the CPU.  This interrupt may also be generated
510   when the temperature drops back to normal.
511
512   SPU -- a spurious interrupt is some interrupt that was raised then lowered
513   by some IO device before it could be fully processed by the APIC.  Hence
514   the APIC sees the interrupt but does not know what device it came from.
515   For this case the APIC will generate the interrupt with a IRQ vector
516   of 0xff. This might also be generated by chipset bugs.
517
518   RES, CAL, TLB -- rescheduling, call and TLB flush interrupts are
519   sent from one CPU to another per the needs of the OS.  Typically,
520   their statistics are used by kernel developers and interested users to
521   determine the occurrence of interrupts of the given type.
522
523 The above IRQ vectors are displayed only when relevent.  For example,
524 the threshold vector does not exist on x86_64 platforms.  Others are
525 suppressed when the system is a uniprocessor.  As of this writing, only
526 i386 and x86_64 platforms support the new IRQ vector displays.
527
528 Of some interest is the introduction of the /proc/irq directory to 2.4.
529 It could be used to set IRQ to CPU affinity, this means that you can "hook" an
530 IRQ to only one CPU, or to exclude a CPU of handling IRQs. The contents of the
531 irq subdir is one subdir for each IRQ, and two files; default_smp_affinity and
532 prof_cpu_mask.
533
534 For example 
535   > ls /proc/irq/
536   0  10  12  14  16  18  2  4  6  8  prof_cpu_mask
537   1  11  13  15  17  19  3  5  7  9  default_smp_affinity
538   > ls /proc/irq/0/
539   smp_affinity
540
541 smp_affinity is a bitmask, in which you can specify which CPUs can handle the
542 IRQ, you can set it by doing:
543
544   > echo 1 > /proc/irq/10/smp_affinity
545
546 This means that only the first CPU will handle the IRQ, but you can also echo
547 5 which means that only the first and fourth CPU can handle the IRQ.
548
549 The contents of each smp_affinity file is the same by default:
550
551   > cat /proc/irq/0/smp_affinity
552   ffffffff
553
554 The default_smp_affinity mask applies to all non-active IRQs, which are the
555 IRQs which have not yet been allocated/activated, and hence which lack a
556 /proc/irq/[0-9]* directory.
557
558 prof_cpu_mask specifies which CPUs are to be profiled by the system wide
559 profiler. Default value is ffffffff (all cpus).
560
561 The way IRQs are routed is handled by the IO-APIC, and it's Round Robin
562 between all the CPUs which are allowed to handle it. As usual the kernel has
563 more info than you and does a better job than you, so the defaults are the
564 best choice for almost everyone.
565
566 There are  three  more  important subdirectories in /proc: net, scsi, and sys.
567 The general  rule  is  that  the  contents,  or  even  the  existence of these
568 directories, depend  on your kernel configuration. If SCSI is not enabled, the
569 directory scsi  may  not  exist. The same is true with the net, which is there
570 only when networking support is present in the running kernel.
571
572 The slabinfo  file  gives  information  about  memory usage at the slab level.
573 Linux uses  slab  pools for memory management above page level in version 2.2.
574 Commonly used  objects  have  their  own  slab  pool (such as network buffers,
575 directory cache, and so on).
576
577 ..............................................................................
578
579 > cat /proc/buddyinfo
580
581 Node 0, zone      DMA      0      4      5      4      4      3 ...
582 Node 0, zone   Normal      1      0      0      1    101      8 ...
583 Node 0, zone  HighMem      2      0      0      1      1      0 ...
584
585 Memory fragmentation is a problem under some workloads, and buddyinfo is a 
586 useful tool for helping diagnose these problems.  Buddyinfo will give you a 
587 clue as to how big an area you can safely allocate, or why a previous
588 allocation failed.
589
590 Each column represents the number of pages of a certain order which are 
591 available.  In this case, there are 0 chunks of 2^0*PAGE_SIZE available in 
592 ZONE_DMA, 4 chunks of 2^1*PAGE_SIZE in ZONE_DMA, 101 chunks of 2^4*PAGE_SIZE 
593 available in ZONE_NORMAL, etc... 
594
595 ..............................................................................
596
597 meminfo:
598
599 Provides information about distribution and utilization of memory.  This
600 varies by architecture and compile options.  The following is from a
601 16GB PIII, which has highmem enabled.  You may not have all of these fields.
602
603 > cat /proc/meminfo
604
605
606 MemTotal:     16344972 kB
607 MemFree:      13634064 kB
608 Buffers:          3656 kB
609 Cached:        1195708 kB
610 SwapCached:          0 kB
611 Active:         891636 kB
612 Inactive:      1077224 kB
613 HighTotal:    15597528 kB
614 HighFree:     13629632 kB
615 LowTotal:       747444 kB
616 LowFree:          4432 kB
617 SwapTotal:           0 kB
618 SwapFree:            0 kB
619 Dirty:             968 kB
620 Writeback:           0 kB
621 AnonPages:      861800 kB
622 Mapped:         280372 kB
623 Slab:           284364 kB
624 SReclaimable:   159856 kB
625 SUnreclaim:     124508 kB
626 PageTables:      24448 kB
627 NFS_Unstable:        0 kB
628 Bounce:              0 kB
629 WritebackTmp:        0 kB
630 CommitLimit:   7669796 kB
631 Committed_AS:   100056 kB
632 VmallocTotal:   112216 kB
633 VmallocUsed:       428 kB
634 VmallocChunk:   111088 kB
635
636     MemTotal: Total usable ram (i.e. physical ram minus a few reserved
637               bits and the kernel binary code)
638      MemFree: The sum of LowFree+HighFree
639      Buffers: Relatively temporary storage for raw disk blocks
640               shouldn't get tremendously large (20MB or so)
641       Cached: in-memory cache for files read from the disk (the
642               pagecache).  Doesn't include SwapCached
643   SwapCached: Memory that once was swapped out, is swapped back in but
644               still also is in the swapfile (if memory is needed it
645               doesn't need to be swapped out AGAIN because it is already
646               in the swapfile. This saves I/O)
647       Active: Memory that has been used more recently and usually not
648               reclaimed unless absolutely necessary.
649     Inactive: Memory which has been less recently used.  It is more
650               eligible to be reclaimed for other purposes
651    HighTotal:
652     HighFree: Highmem is all memory above ~860MB of physical memory
653               Highmem areas are for use by userspace programs, or
654               for the pagecache.  The kernel must use tricks to access
655               this memory, making it slower to access than lowmem.
656     LowTotal:
657      LowFree: Lowmem is memory which can be used for everything that
658               highmem can be used for, but it is also available for the
659               kernel's use for its own data structures.  Among many
660               other things, it is where everything from the Slab is
661               allocated.  Bad things happen when you're out of lowmem.
662    SwapTotal: total amount of swap space available
663     SwapFree: Memory which has been evicted from RAM, and is temporarily
664               on the disk
665        Dirty: Memory which is waiting to get written back to the disk
666    Writeback: Memory which is actively being written back to the disk
667    AnonPages: Non-file backed pages mapped into userspace page tables
668       Mapped: files which have been mmaped, such as libraries
669         Slab: in-kernel data structures cache
670 SReclaimable: Part of Slab, that might be reclaimed, such as caches
671   SUnreclaim: Part of Slab, that cannot be reclaimed on memory pressure
672   PageTables: amount of memory dedicated to the lowest level of page
673               tables.
674 NFS_Unstable: NFS pages sent to the server, but not yet committed to stable
675               storage
676       Bounce: Memory used for block device "bounce buffers"
677 WritebackTmp: Memory used by FUSE for temporary writeback buffers
678  CommitLimit: Based on the overcommit ratio ('vm.overcommit_ratio'),
679               this is the total amount of  memory currently available to
680               be allocated on the system. This limit is only adhered to
681               if strict overcommit accounting is enabled (mode 2 in
682               'vm.overcommit_memory').
683               The CommitLimit is calculated with the following formula:
684               CommitLimit = ('vm.overcommit_ratio' * Physical RAM) + Swap
685               For example, on a system with 1G of physical RAM and 7G
686               of swap with a `vm.overcommit_ratio` of 30 it would
687               yield a CommitLimit of 7.3G.
688               For more details, see the memory overcommit documentation
689               in vm/overcommit-accounting.
690 Committed_AS: The amount of memory presently allocated on the system.
691               The committed memory is a sum of all of the memory which
692               has been allocated by processes, even if it has not been
693               "used" by them as of yet. A process which malloc()'s 1G
694               of memory, but only touches 300M of it will only show up
695               as using 300M of memory even if it has the address space
696               allocated for the entire 1G. This 1G is memory which has
697               been "committed" to by the VM and can be used at any time
698               by the allocating application. With strict overcommit
699               enabled on the system (mode 2 in 'vm.overcommit_memory'),
700               allocations which would exceed the CommitLimit (detailed
701               above) will not be permitted. This is useful if one needs
702               to guarantee that processes will not fail due to lack of
703               memory once that memory has been successfully allocated.
704 VmallocTotal: total size of vmalloc memory area
705  VmallocUsed: amount of vmalloc area which is used
706 VmallocChunk: largest contiguous block of vmalloc area which is free
707
708 ..............................................................................
709
710 vmallocinfo:
711
712 Provides information about vmalloced/vmaped areas. One line per area,
713 containing the virtual address range of the area, size in bytes,
714 caller information of the creator, and optional information depending
715 on the kind of area :
716
717  pages=nr    number of pages
718  phys=addr   if a physical address was specified
719  ioremap     I/O mapping (ioremap() and friends)
720  vmalloc     vmalloc() area
721  vmap        vmap()ed pages
722  user        VM_USERMAP area
723  vpages      buffer for pages pointers was vmalloced (huge area)
724  N<node>=nr  (Only on NUMA kernels)
725              Number of pages allocated on memory node <node>
726
727 > cat /proc/vmallocinfo
728 0xffffc20000000000-0xffffc20000201000 2101248 alloc_large_system_hash+0x204 ...
729   /0x2c0 pages=512 vmalloc N0=128 N1=128 N2=128 N3=128
730 0xffffc20000201000-0xffffc20000302000 1052672 alloc_large_system_hash+0x204 ...
731   /0x2c0 pages=256 vmalloc N0=64 N1=64 N2=64 N3=64
732 0xffffc20000302000-0xffffc20000304000    8192 acpi_tb_verify_table+0x21/0x4f...
733   phys=7fee8000 ioremap
734 0xffffc20000304000-0xffffc20000307000   12288 acpi_tb_verify_table+0x21/0x4f...
735   phys=7fee7000 ioremap
736 0xffffc2000031d000-0xffffc2000031f000    8192 init_vdso_vars+0x112/0x210
737 0xffffc2000031f000-0xffffc2000032b000   49152 cramfs_uncompress_init+0x2e ...
738   /0x80 pages=11 vmalloc N0=3 N1=3 N2=2 N3=3
739 0xffffc2000033a000-0xffffc2000033d000   12288 sys_swapon+0x640/0xac0      ...
740   pages=2 vmalloc N1=2
741 0xffffc20000347000-0xffffc2000034c000   20480 xt_alloc_table_info+0xfe ...
742   /0x130 [x_tables] pages=4 vmalloc N0=4
743 0xffffffffa0000000-0xffffffffa000f000   61440 sys_init_module+0xc27/0x1d00 ...
744    pages=14 vmalloc N2=14
745 0xffffffffa000f000-0xffffffffa0014000   20480 sys_init_module+0xc27/0x1d00 ...
746    pages=4 vmalloc N1=4
747 0xffffffffa0014000-0xffffffffa0017000   12288 sys_init_module+0xc27/0x1d00 ...
748    pages=2 vmalloc N1=2
749 0xffffffffa0017000-0xffffffffa0022000   45056 sys_init_module+0xc27/0x1d00 ...
750    pages=10 vmalloc N0=10
751
752 ..............................................................................
753
754 softirqs:
755
756 Provides counts of softirq handlers serviced since boot time, for each cpu.
757
758 > cat /proc/softirqs
759                 CPU0       CPU1       CPU2       CPU3
760       HI:          0          0          0          0
761    TIMER:      27166      27120      27097      27034
762   NET_TX:          0          0          0         17
763   NET_RX:         42          0          0         39
764    BLOCK:          0          0        107       1121
765  TASKLET:          0          0          0        290
766    SCHED:      27035      26983      26971      26746
767  HRTIMER:          0          0          0          0
768      RCU:       1678       1769       2178       2250
769
770
771 1.3 IDE devices in /proc/ide
772 ----------------------------
773
774 The subdirectory /proc/ide contains information about all IDE devices of which
775 the kernel  is  aware.  There is one subdirectory for each IDE controller, the
776 file drivers  and a link for each IDE device, pointing to the device directory
777 in the controller specific subtree.
778
779 The file  drivers  contains general information about the drivers used for the
780 IDE devices:
781
782   > cat /proc/ide/drivers
783   ide-cdrom version 4.53
784   ide-disk version 1.08
785
786 More detailed  information  can  be  found  in  the  controller  specific
787 subdirectories. These  are  named  ide0,  ide1  and  so  on.  Each  of  these
788 directories contains the files shown in table 1-6.
789
790
791 Table 1-6: IDE controller info in  /proc/ide/ide?
792 ..............................................................................
793  File    Content                                 
794  channel IDE channel (0 or 1)                    
795  config  Configuration (only for PCI/IDE bridge) 
796  mate    Mate name                               
797  model   Type/Chipset of IDE controller          
798 ..............................................................................
799
800 Each device  connected  to  a  controller  has  a separate subdirectory in the
801 controllers directory.  The  files  listed in table 1-7 are contained in these
802 directories.
803
804
805 Table 1-7: IDE device information
806 ..............................................................................
807  File             Content                                    
808  cache            The cache                                  
809  capacity         Capacity of the medium (in 512Byte blocks) 
810  driver           driver and version                         
811  geometry         physical and logical geometry              
812  identify         device identify block                      
813  media            media type                                 
814  model            device identifier                          
815  settings         device setup                               
816  smart_thresholds IDE disk management thresholds             
817  smart_values     IDE disk management values                 
818 ..............................................................................
819
820 The most  interesting  file is settings. This file contains a nice overview of
821 the drive parameters:
822
823   # cat /proc/ide/ide0/hda/settings 
824   name                    value           min             max             mode 
825   ----                    -----           ---             ---             ---- 
826   bios_cyl                526             0               65535           rw 
827   bios_head               255             0               255             rw 
828   bios_sect               63              0               63              rw 
829   breada_readahead        4               0               127             rw 
830   bswap                   0               0               1               r 
831   file_readahead          72              0               2097151         rw 
832   io_32bit                0               0               3               rw 
833   keepsettings            0               0               1               rw 
834   max_kb_per_request      122             1               127             rw 
835   multcount               0               0               8               rw 
836   nice1                   1               0               1               rw 
837   nowerr                  0               0               1               rw 
838   pio_mode                write-only      0               255             w 
839   slow                    0               0               1               rw 
840   unmaskirq               0               0               1               rw 
841   using_dma               0               0               1               rw 
842
843
844 1.4 Networking info in /proc/net
845 --------------------------------
846
847 The subdirectory  /proc/net  follows  the  usual  pattern. Table 1-8 shows the
848 additional values  you  get  for  IP  version 6 if you configure the kernel to
849 support this. Table 1-9 lists the files and their meaning.
850
851
852 Table 1-8: IPv6 info in /proc/net
853 ..............................................................................
854  File       Content                                               
855  udp6       UDP sockets (IPv6)                                    
856  tcp6       TCP sockets (IPv6)                                    
857  raw6       Raw device statistics (IPv6)                          
858  igmp6      IP multicast addresses, which this host joined (IPv6) 
859  if_inet6   List of IPv6 interface addresses                      
860  ipv6_route Kernel routing table for IPv6                         
861  rt6_stats  Global IPv6 routing tables statistics                 
862  sockstat6  Socket statistics (IPv6)                              
863  snmp6      Snmp data (IPv6)                                      
864 ..............................................................................
865
866
867 Table 1-9: Network info in /proc/net
868 ..............................................................................
869  File          Content                                                         
870  arp           Kernel  ARP table                                               
871  dev           network devices with statistics                                 
872  dev_mcast     the Layer2 multicast groups a device is listening too
873                (interface index, label, number of references, number of bound
874                addresses). 
875  dev_stat      network device status                                           
876  ip_fwchains   Firewall chain linkage                                          
877  ip_fwnames    Firewall chain names                                            
878  ip_masq       Directory containing the masquerading tables                    
879  ip_masquerade Major masquerading table                                        
880  netstat       Network statistics                                              
881  raw           raw device statistics                                           
882  route         Kernel routing table                                            
883  rpc           Directory containing rpc info                                   
884  rt_cache      Routing cache                                                   
885  snmp          SNMP data                                                       
886  sockstat      Socket statistics                                               
887  tcp           TCP  sockets                                                    
888  tr_rif        Token ring RIF routing table                                    
889  udp           UDP sockets                                                     
890  unix          UNIX domain sockets                                             
891  wireless      Wireless interface data (Wavelan etc)                           
892  igmp          IP multicast addresses, which this host joined                  
893  psched        Global packet scheduler parameters.                             
894  netlink       List of PF_NETLINK sockets                                      
895  ip_mr_vifs    List of multicast virtual interfaces                            
896  ip_mr_cache   List of multicast routing cache                                 
897 ..............................................................................
898
899 You can  use  this  information  to see which network devices are available in
900 your system and how much traffic was routed over those devices:
901
902   > cat /proc/net/dev 
903   Inter-|Receive                                                   |[... 
904    face |bytes    packets errs drop fifo frame compressed multicast|[... 
905       lo:  908188   5596     0    0    0     0          0         0 [...         
906     ppp0:15475140  20721   410    0    0   410          0         0 [...  
907     eth0:  614530   7085     0    0    0     0          0         1 [... 
908    
909   ...] Transmit 
910   ...] bytes    packets errs drop fifo colls carrier compressed 
911   ...]  908188     5596    0    0    0     0       0          0 
912   ...] 1375103    17405    0    0    0     0       0          0 
913   ...] 1703981     5535    0    0    0     3       0          0 
914
915 In addition, each Channel Bond interface has it's own directory.  For
916 example, the bond0 device will have a directory called /proc/net/bond0/.
917 It will contain information that is specific to that bond, such as the
918 current slaves of the bond, the link status of the slaves, and how
919 many times the slaves link has failed.
920
921 1.5 SCSI info
922 -------------
923
924 If you  have  a  SCSI  host adapter in your system, you'll find a subdirectory
925 named after  the driver for this adapter in /proc/scsi. You'll also see a list
926 of all recognized SCSI devices in /proc/scsi:
927
928   >cat /proc/scsi/scsi 
929   Attached devices: 
930   Host: scsi0 Channel: 00 Id: 00 Lun: 00 
931     Vendor: IBM      Model: DGHS09U          Rev: 03E0 
932     Type:   Direct-Access                    ANSI SCSI revision: 03 
933   Host: scsi0 Channel: 00 Id: 06 Lun: 00 
934     Vendor: PIONEER  Model: CD-ROM DR-U06S   Rev: 1.04 
935     Type:   CD-ROM                           ANSI SCSI revision: 02 
936
937
938 The directory  named  after  the driver has one file for each adapter found in
939 the system.  These  files  contain information about the controller, including
940 the used  IRQ  and  the  IO  address range. The amount of information shown is
941 dependent on  the adapter you use. The example shows the output for an Adaptec
942 AHA-2940 SCSI adapter:
943
944   > cat /proc/scsi/aic7xxx/0 
945    
946   Adaptec AIC7xxx driver version: 5.1.19/3.2.4 
947   Compile Options: 
948     TCQ Enabled By Default : Disabled 
949     AIC7XXX_PROC_STATS     : Disabled 
950     AIC7XXX_RESET_DELAY    : 5 
951   Adapter Configuration: 
952              SCSI Adapter: Adaptec AHA-294X Ultra SCSI host adapter 
953                              Ultra Wide Controller 
954       PCI MMAPed I/O Base: 0xeb001000 
955    Adapter SEEPROM Config: SEEPROM found and used. 
956         Adaptec SCSI BIOS: Enabled 
957                       IRQ: 10 
958                      SCBs: Active 0, Max Active 2, 
959                            Allocated 15, HW 16, Page 255 
960                Interrupts: 160328 
961         BIOS Control Word: 0x18b6 
962      Adapter Control Word: 0x005b 
963      Extended Translation: Enabled 
964   Disconnect Enable Flags: 0xffff 
965        Ultra Enable Flags: 0x0001 
966    Tag Queue Enable Flags: 0x0000 
967   Ordered Queue Tag Flags: 0x0000 
968   Default Tag Queue Depth: 8 
969       Tagged Queue By Device array for aic7xxx host instance 0: 
970         {255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255} 
971       Actual queue depth per device for aic7xxx host instance 0: 
972         {1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1} 
973   Statistics: 
974   (scsi0:0:0:0) 
975     Device using Wide/Sync transfers at 40.0 MByte/sec, offset 8 
976     Transinfo settings: current(12/8/1/0), goal(12/8/1/0), user(12/15/1/0) 
977     Total transfers 160151 (74577 reads and 85574 writes) 
978   (scsi0:0:6:0) 
979     Device using Narrow/Sync transfers at 5.0 MByte/sec, offset 15 
980     Transinfo settings: current(50/15/0/0), goal(50/15/0/0), user(50/15/0/0) 
981     Total transfers 0 (0 reads and 0 writes) 
982
983
984 1.6 Parallel port info in /proc/parport
985 ---------------------------------------
986
987 The directory  /proc/parport  contains information about the parallel ports of
988 your system.  It  has  one  subdirectory  for  each port, named after the port
989 number (0,1,2,...).
990
991 These directories contain the four files shown in Table 1-10.
992
993
994 Table 1-10: Files in /proc/parport
995 ..............................................................................
996  File      Content                                                             
997  autoprobe Any IEEE-1284 device ID information that has been acquired.         
998  devices   list of the device drivers using that port. A + will appear by the
999            name of the device currently using the port (it might not appear
1000            against any). 
1001  hardware  Parallel port's base address, IRQ line and DMA channel.             
1002  irq       IRQ that parport is using for that port. This is in a separate
1003            file to allow you to alter it by writing a new value in (IRQ
1004            number or none). 
1005 ..............................................................................
1006
1007 1.7 TTY info in /proc/tty
1008 -------------------------
1009
1010 Information about  the  available  and actually used tty's can be found in the
1011 directory /proc/tty.You'll  find  entries  for drivers and line disciplines in
1012 this directory, as shown in Table 1-11.
1013
1014
1015 Table 1-11: Files in /proc/tty
1016 ..............................................................................
1017  File          Content                                        
1018  drivers       list of drivers and their usage                
1019  ldiscs        registered line disciplines                    
1020  driver/serial usage statistic and status of single tty lines 
1021 ..............................................................................
1022
1023 To see  which  tty's  are  currently in use, you can simply look into the file
1024 /proc/tty/drivers:
1025
1026   > cat /proc/tty/drivers 
1027   pty_slave            /dev/pts      136   0-255 pty:slave 
1028   pty_master           /dev/ptm      128   0-255 pty:master 
1029   pty_slave            /dev/ttyp       3   0-255 pty:slave 
1030   pty_master           /dev/pty        2   0-255 pty:master 
1031   serial               /dev/cua        5   64-67 serial:callout 
1032   serial               /dev/ttyS       4   64-67 serial 
1033   /dev/tty0            /dev/tty0       4       0 system:vtmaster 
1034   /dev/ptmx            /dev/ptmx       5       2 system 
1035   /dev/console         /dev/console    5       1 system:console 
1036   /dev/tty             /dev/tty        5       0 system:/dev/tty 
1037   unknown              /dev/tty        4    1-63 console 
1038
1039
1040 1.8 Miscellaneous kernel statistics in /proc/stat
1041 -------------------------------------------------
1042
1043 Various pieces   of  information about  kernel activity  are  available in the
1044 /proc/stat file.  All  of  the numbers reported  in  this file are  aggregates
1045 since the system first booted.  For a quick look, simply cat the file:
1046
1047   > cat /proc/stat
1048   cpu  2255 34 2290 22625563 6290 127 456 0 0
1049   cpu0 1132 34 1441 11311718 3675 127 438 0 0
1050   cpu1 1123 0 849 11313845 2614 0 18 0 0
1051   intr 114930548 113199788 3 0 5 263 0 4 [... lots more numbers ...]
1052   ctxt 1990473
1053   btime 1062191376
1054   processes 2915
1055   procs_running 1
1056   procs_blocked 0
1057   softirq 183433 0 21755 12 39 1137 231 21459 2263
1058
1059 The very first  "cpu" line aggregates the  numbers in all  of the other "cpuN"
1060 lines.  These numbers identify the amount of time the CPU has spent performing
1061 different kinds of work.  Time units are in USER_HZ (typically hundredths of a
1062 second).  The meanings of the columns are as follows, from left to right:
1063
1064 - user: normal processes executing in user mode
1065 - nice: niced processes executing in user mode
1066 - system: processes executing in kernel mode
1067 - idle: twiddling thumbs
1068 - iowait: waiting for I/O to complete
1069 - irq: servicing interrupts
1070 - softirq: servicing softirqs
1071 - steal: involuntary wait
1072 - guest: running a guest
1073
1074 The "intr" line gives counts of interrupts  serviced since boot time, for each
1075 of the  possible system interrupts.   The first  column  is the  total of  all
1076 interrupts serviced; each  subsequent column is the  total for that particular
1077 interrupt.
1078
1079 The "ctxt" line gives the total number of context switches across all CPUs.
1080
1081 The "btime" line gives  the time at which the  system booted, in seconds since
1082 the Unix epoch.
1083
1084 The "processes" line gives the number  of processes and threads created, which
1085 includes (but  is not limited  to) those  created by  calls to the  fork() and
1086 clone() system calls.
1087
1088 The  "procs_running" line gives the  number of processes  currently running on
1089 CPUs.
1090
1091 The   "procs_blocked" line gives  the  number of  processes currently blocked,
1092 waiting for I/O to complete.
1093
1094 The "softirq" line gives counts of softirqs serviced since boot time, for each
1095 of the possible system softirqs. The first column is the total of all
1096 softirqs serviced; each subsequent column is the total for that particular
1097 softirq.
1098
1099
1100 1.9 Ext4 file system parameters
1101 ------------------------------
1102
1103 Information about mounted ext4 file systems can be found in
1104 /proc/fs/ext4.  Each mounted filesystem will have a directory in
1105 /proc/fs/ext4 based on its device name (i.e., /proc/fs/ext4/hdc or
1106 /proc/fs/ext4/dm-0).   The files in each per-device directory are shown
1107 in Table 1-12, below.
1108
1109 Table 1-12: Files in /proc/fs/ext4/<devname>
1110 ..............................................................................
1111  File            Content                                        
1112  mb_groups       details of multiblock allocator buddy cache of free blocks
1113  mb_history      multiblock allocation history
1114 ..............................................................................
1115
1116
1117 ------------------------------------------------------------------------------
1118 Summary
1119 ------------------------------------------------------------------------------
1120 The /proc file system serves information about the running system. It not only
1121 allows access to process data but also allows you to request the kernel status
1122 by reading files in the hierarchy.
1123
1124 The directory  structure  of /proc reflects the types of information and makes
1125 it easy, if not obvious, where to look for specific data.
1126 ------------------------------------------------------------------------------
1127
1128 ------------------------------------------------------------------------------
1129 CHAPTER 2: MODIFYING SYSTEM PARAMETERS
1130 ------------------------------------------------------------------------------
1131
1132 ------------------------------------------------------------------------------
1133 In This Chapter
1134 ------------------------------------------------------------------------------
1135 * Modifying kernel parameters by writing into files found in /proc/sys
1136 * Exploring the files which modify certain parameters
1137 * Review of the /proc/sys file tree
1138 ------------------------------------------------------------------------------
1139
1140
1141 A very  interesting part of /proc is the directory /proc/sys. This is not only
1142 a source  of  information,  it also allows you to change parameters within the
1143 kernel. Be  very  careful  when attempting this. You can optimize your system,
1144 but you  can  also  cause  it  to  crash.  Never  alter kernel parameters on a
1145 production system.  Set  up  a  development machine and test to make sure that
1146 everything works  the  way  you want it to. You may have no alternative but to
1147 reboot the machine once an error has been made.
1148
1149 To change  a  value,  simply  echo  the new value into the file. An example is
1150 given below  in the section on the file system data. You need to be root to do
1151 this. You  can  create  your  own  boot script to perform this every time your
1152 system boots.
1153
1154 The files  in /proc/sys can be used to fine tune and monitor miscellaneous and
1155 general things  in  the operation of the Linux kernel. Since some of the files
1156 can inadvertently  disrupt  your  system,  it  is  advisable  to  read  both
1157 documentation and  source  before actually making adjustments. In any case, be
1158 very careful  when  writing  to  any  of these files. The entries in /proc may
1159 change slightly between the 2.1.* and the 2.2 kernel, so if there is any doubt
1160 review the kernel documentation in the directory /usr/src/linux/Documentation.
1161 This chapter  is  heavily  based  on the documentation included in the pre 2.2
1162 kernels, and became part of it in version 2.2.1 of the Linux kernel.
1163
1164 Please see: Documentation/sysctls/ directory for descriptions of these
1165 entries.
1166
1167 ------------------------------------------------------------------------------
1168 Summary
1169 ------------------------------------------------------------------------------
1170 Certain aspects  of  kernel  behavior  can be modified at runtime, without the
1171 need to  recompile  the kernel, or even to reboot the system. The files in the
1172 /proc/sys tree  can  not only be read, but also modified. You can use the echo
1173 command to write value into these files, thereby changing the default settings
1174 of the kernel.
1175 ------------------------------------------------------------------------------
1176
1177 ------------------------------------------------------------------------------
1178 CHAPTER 3: PER-PROCESS PARAMETERS
1179 ------------------------------------------------------------------------------
1180
1181 3.1 /proc/<pid>/oom_adj - Adjust the oom-killer score
1182 ------------------------------------------------------
1183
1184 This file can be used to adjust the score used to select which processes
1185 should be killed in an  out-of-memory  situation.  Giving it a high score will
1186 increase the likelihood of this process being killed by the oom-killer.  Valid
1187 values are in the range -16 to +15, plus the special value -17, which disables
1188 oom-killing altogether for this process.
1189
1190 The process to be killed in an out-of-memory situation is selected among all others
1191 based on its badness score. This value equals the original memory size of the process
1192 and is then updated according to its CPU time (utime + stime) and the
1193 run time (uptime - start time). The longer it runs the smaller is the score.
1194 Badness score is divided by the square root of the CPU time and then by
1195 the double square root of the run time.
1196
1197 Swapped out tasks are killed first. Half of each child's memory size is added to
1198 the parent's score if they do not share the same memory. Thus forking servers
1199 are the prime candidates to be killed. Having only one 'hungry' child will make
1200 parent less preferable than the child.
1201
1202 /proc/<pid>/oom_score shows process' current badness score.
1203
1204 The following heuristics are then applied:
1205  * if the task was reniced, its score doubles
1206  * superuser or direct hardware access tasks (CAP_SYS_ADMIN, CAP_SYS_RESOURCE
1207         or CAP_SYS_RAWIO) have their score divided by 4
1208  * if oom condition happened in one cpuset and checked task does not belong
1209         to it, its score is divided by 8
1210  * the resulting score is multiplied by two to the power of oom_adj, i.e.
1211         points <<= oom_adj when it is positive and
1212         points >>= -(oom_adj) otherwise
1213
1214 The task with the highest badness score is then selected and its children
1215 are killed, process itself will be killed in an OOM situation when it does
1216 not have children or some of them disabled oom like described above.
1217
1218 3.2 /proc/<pid>/oom_score - Display current oom-killer score
1219 -------------------------------------------------------------
1220
1221 This file can be used to check the current score used by the oom-killer is for
1222 any given <pid>. Use it together with /proc/<pid>/oom_adj to tune which
1223 process should be killed in an out-of-memory situation.
1224
1225
1226 3.3  /proc/<pid>/io - Display the IO accounting fields
1227 -------------------------------------------------------
1228
1229 This file contains IO statistics for each running process
1230
1231 Example
1232 -------
1233
1234 test:/tmp # dd if=/dev/zero of=/tmp/test.dat &
1235 [1] 3828
1236
1237 test:/tmp # cat /proc/3828/io
1238 rchar: 323934931
1239 wchar: 323929600
1240 syscr: 632687
1241 syscw: 632675
1242 read_bytes: 0
1243 write_bytes: 323932160
1244 cancelled_write_bytes: 0
1245
1246
1247 Description
1248 -----------
1249
1250 rchar
1251 -----
1252
1253 I/O counter: chars read
1254 The number of bytes which this task has caused to be read from storage. This
1255 is simply the sum of bytes which this process passed to read() and pread().
1256 It includes things like tty IO and it is unaffected by whether or not actual
1257 physical disk IO was required (the read might have been satisfied from
1258 pagecache)
1259
1260
1261 wchar
1262 -----
1263
1264 I/O counter: chars written
1265 The number of bytes which this task has caused, or shall cause to be written
1266 to disk. Similar caveats apply here as with rchar.
1267
1268
1269 syscr
1270 -----
1271
1272 I/O counter: read syscalls
1273 Attempt to count the number of read I/O operations, i.e. syscalls like read()
1274 and pread().
1275
1276
1277 syscw
1278 -----
1279
1280 I/O counter: write syscalls
1281 Attempt to count the number of write I/O operations, i.e. syscalls like
1282 write() and pwrite().
1283
1284
1285 read_bytes
1286 ----------
1287
1288 I/O counter: bytes read
1289 Attempt to count the number of bytes which this process really did cause to
1290 be fetched from the storage layer. Done at the submit_bio() level, so it is
1291 accurate for block-backed filesystems. <please add status regarding NFS and
1292 CIFS at a later time>
1293
1294
1295 write_bytes
1296 -----------
1297
1298 I/O counter: bytes written
1299 Attempt to count the number of bytes which this process caused to be sent to
1300 the storage layer. This is done at page-dirtying time.
1301
1302
1303 cancelled_write_bytes
1304 ---------------------
1305
1306 The big inaccuracy here is truncate. If a process writes 1MB to a file and
1307 then deletes the file, it will in fact perform no writeout. But it will have
1308 been accounted as having caused 1MB of write.
1309 In other words: The number of bytes which this process caused to not happen,
1310 by truncating pagecache. A task can cause "negative" IO too. If this task
1311 truncates some dirty pagecache, some IO which another task has been accounted
1312 for (in it's write_bytes) will not be happening. We _could_ just subtract that
1313 from the truncating task's write_bytes, but there is information loss in doing
1314 that.
1315
1316
1317 Note
1318 ----
1319
1320 At its current implementation state, this is a bit racy on 32-bit machines: if
1321 process A reads process B's /proc/pid/io while process B is updating one of
1322 those 64-bit counters, process A could see an intermediate result.
1323
1324
1325 More information about this can be found within the taskstats documentation in
1326 Documentation/accounting.
1327
1328 3.4 /proc/<pid>/coredump_filter - Core dump filtering settings
1329 ---------------------------------------------------------------
1330 When a process is dumped, all anonymous memory is written to a core file as
1331 long as the size of the core file isn't limited. But sometimes we don't want
1332 to dump some memory segments, for example, huge shared memory. Conversely,
1333 sometimes we want to save file-backed memory segments into a core file, not
1334 only the individual files.
1335
1336 /proc/<pid>/coredump_filter allows you to customize which memory segments
1337 will be dumped when the <pid> process is dumped. coredump_filter is a bitmask
1338 of memory types. If a bit of the bitmask is set, memory segments of the
1339 corresponding memory type are dumped, otherwise they are not dumped.
1340
1341 The following 7 memory types are supported:
1342   - (bit 0) anonymous private memory
1343   - (bit 1) anonymous shared memory
1344   - (bit 2) file-backed private memory
1345   - (bit 3) file-backed shared memory
1346   - (bit 4) ELF header pages in file-backed private memory areas (it is
1347             effective only if the bit 2 is cleared)
1348   - (bit 5) hugetlb private memory
1349   - (bit 6) hugetlb shared memory
1350
1351   Note that MMIO pages such as frame buffer are never dumped and vDSO pages
1352   are always dumped regardless of the bitmask status.
1353
1354   Note bit 0-4 doesn't effect any hugetlb memory. hugetlb memory are only
1355   effected by bit 5-6.
1356
1357 Default value of coredump_filter is 0x23; this means all anonymous memory
1358 segments and hugetlb private memory are dumped.
1359
1360 If you don't want to dump all shared memory segments attached to pid 1234,
1361 write 0x21 to the process's proc file.
1362
1363   $ echo 0x21 > /proc/1234/coredump_filter
1364
1365 When a new process is created, the process inherits the bitmask status from its
1366 parent. It is useful to set up coredump_filter before the program runs.
1367 For example:
1368
1369   $ echo 0x7 > /proc/self/coredump_filter
1370   $ ./some_program
1371
1372 3.5     /proc/<pid>/mountinfo - Information about mounts
1373 --------------------------------------------------------
1374
1375 This file contains lines of the form:
1376
1377 36 35 98:0 /mnt1 /mnt2 rw,noatime master:1 - ext3 /dev/root rw,errors=continue
1378 (1)(2)(3)   (4)   (5)      (6)      (7)   (8) (9)   (10)         (11)
1379
1380 (1) mount ID:  unique identifier of the mount (may be reused after umount)
1381 (2) parent ID:  ID of parent (or of self for the top of the mount tree)
1382 (3) major:minor:  value of st_dev for files on filesystem
1383 (4) root:  root of the mount within the filesystem
1384 (5) mount point:  mount point relative to the process's root
1385 (6) mount options:  per mount options
1386 (7) optional fields:  zero or more fields of the form "tag[:value]"
1387 (8) separator:  marks the end of the optional fields
1388 (9) filesystem type:  name of filesystem of the form "type[.subtype]"
1389 (10) mount source:  filesystem specific information or "none"
1390 (11) super options:  per super block options
1391
1392 Parsers should ignore all unrecognised optional fields.  Currently the
1393 possible optional fields are:
1394
1395 shared:X  mount is shared in peer group X
1396 master:X  mount is slave to peer group X
1397 propagate_from:X  mount is slave and receives propagation from peer group X (*)
1398 unbindable  mount is unbindable
1399
1400 (*) X is the closest dominant peer group under the process's root.  If
1401 X is the immediate master of the mount, or if there's no dominant peer
1402 group under the same root, then only the "master:X" field is present
1403 and not the "propagate_from:X" field.
1404
1405 For more information on mount propagation see:
1406
1407   Documentation/filesystems/sharedsubtree.txt
1408