AIX系统日志

1、系统错误日志

存放路径:/var/adm/ras/errlog

说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一, errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man,

2、用户的登录日志

存放路径:/var/adm/wtmp    /var/adm/sulog

说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last命令访问。sulog记录的是用户用su命令转变为另一用户的信息。who、last等这些命令可以查看wtmp和sulog的内容
如:Last –f wtmp
我们想查看最近10次登录的用户和他们的地址,可以用如下命令:
  last -10

3、集群管理软件hacmp的日志

存放路径:/tmp/hacmp.out

说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。

   可以使用tail进行跟踪,tail –f /tmp/hacmp.out

4、系统启动错误日志

存放路径:/var/adm/ras/bootlog

说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。

5、FTP用户操作日志

存放路径:自定义(建议/tmp/ftplog.out)

说明:很多服务器都会用到FTP功能,大量的用户通过FTP登陆到服务器上给系统的安全性带来了很大的问题,AIX给我们提供了一套很不错的可以记录用户FTP操作情况的日志。

具体设置步骤如下:

在/etc/inetd.conf文件中编辑 FTP 一行,在FTPD后加“-d”

重启服务: refresh –s inetd

touch /tmp/ftplog.out

在/etc/syslog.conf文件中加上两行:

daemon:debug      /tmp/ftplog.out

daemon:info        /tmp/ftplog.out

重启服务: refresh –s syslogd


  以上只是我在工作中主要用到的一些日志,只是AIX给我们提供了很多其他重要的日志文件中的一部分,大家可以在工作中慢慢体会。

AIX errpt 命令使用

备查


修改当前的日志文件
/usr/lib/errdemon -i /var/adm/ras/myerrlog
修改当前日志文件大小
/usr/lib/errdemon -s 28866

修改当前日志缓冲区大小
/usr/lib/errdemon -B 20480
修改2个重复错误之间的间隔时间
/usr/lib/errdemon -t 50

ps -ef | grep errdemon

/usr/lib/errdemon

/usr/lib/errstop
ps -ef | grep errdemon

errpt | more

详细
errpt -a | pg

以ASCII 方式显示


errpt -g -j 74533D1A | more

检查过去24小时内发生的错误日志
date

errpt -a -s 0128092102

errclear 命令清除日志记录
删除所有日志
errclear 0

删除10天前的软件记录
errclear -d -S 10

======================

errpt命令

用more或者其他文本的查看命令来打开errlog文件我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令。
使用errpt命令查看日志,可能根据使用的参数来确定输出什么样的日志,甚至排序的方式,这是使用纯文本的日志不能做到的,或者说不能轻易做到的。
下面我们来看errpt命令的使用。
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
9DBCFDEE   0109034400 T O errdemon       ERROR LOGGING TURNED ON
192AC071   0109034300 T O errdemon       ERROR LOGGING TURNED OFF
C092AFE4   0109033500 I O ctcasd         ctcasd Daemon Started
A6DF45AA   0109033500 I O RMCdaemon      The daemon is started.
9DBCFDEE   0109033400 T O errdemon       ERROR LOGGING TURNED ON
192AC071   0106130900 T O errdemon       ERROR LOGGING TURNED OFF
369D049B   0106082400 I O SYSPFS         UNABLE TO ALLOCATE SPACE IN FILE SYSTE
这里的输出分为六列依次为:
1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
分为6个:
PEND        设备或功能组件可能丢失 简写P
PERF        性能严重下降        P
PERM        硬件设备或软件模块损坏,确诊了的 P
TEMP        临时性错误,经过重试后已经恢复正常        T
INFO        一般消息,不是错误                I
UNKN        不能确定错误的严重性        U
4.种类CLASS c:指出错误源
H        硬件或介质故障
S        软件故障
O        人为错误
U        不能确定
5.        资源名RESOURCE_NAME
最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。
 
errpt -a 报告可能包含下列信息:
 
LABEL    事件的预定义名称
IDENTIFIER   事件的数字标识符
Date/Time   事件的日期和时间
Sequence Number  事件的唯一编号
Machine ID   系统处理器部件的标识号
Node ID    系统的缩写名(助记名)
Class    错误的一般原因。可能的错误类型有:
 H   硬件
 S   软件
 O   指示性信息
 U   未确定的
Type    发生的错误的严重性。可能有如下错误类型:
 PEND   一个设备或部件将很快丧失其可用性
 PERF   设备或部件的性能已降级至可接受的水平以下
 PERM   不可能恢复的状况。此类错误通常是最严重的错误,并可能意味着硬件设备或软件模块损坏。
   除 PERM 之外的错误类型通常不代表一个故障,但可通过诊断程序进行分析。
 TEMP   多次不成功的尝试之后,被恢复的状况。此错误类型也用来记录指示性的信息条目,如 DASD 设备的数据传输统计。
 UNKN   不能确定错误的严重性
 INFO   指示性的错误日志条目,和不是错误的结果
Resource Name   发现错误的资源名称。对于软件错误,这是一个软件部件、或一个可执行程序的名称。对于硬件错误,这是一个设备、
   或系统部件的名称。这不表示部件故障、或需要替换。相反,可用来确定用来分析错误的适当诊断模块。
Resource Class   发现故障的资源通用类。(如,disk 设备类)
Resource Type   发现故障的资源类型
Location Code   设备的路径。可能有多达四个字段,分别涉及 drawer(抽屉)、slot(插槽)、connector(连接器)、port(端口)。
VPD    关键产品数据(Vital product data)。该字段的内容是多种多样的。设备的错误日志条目比较典型地,
   返回关于设备厂商、序列号、工程变动级别、只读存储器级别等方面的信息。
Description   错误的摘要
Probable Cause   列出一些可能导致错误的原因
User Causes   列出一些用户误操作导致故障的可能原因。
   不正确地插入的磁盘和外部设备(如 modems 和 prints)不能被开启,就是用户导致错误的例子。
Actions    描述校正用户导致的错误的推荐操作
Install Causes   列出由于不正确的安装或配置过程而导致故障的可能性原因。
   此类错误的例子包含:硬件和软件不匹配、电缆或线缆连接不正确而松动、不正确地配置系统。
Actions    描述校正安装导致错误的推荐操作
Failure Causes   列出硬件、或软件可能的缺陷/故障(defect)
Actions    描述校正故障的推荐操作。对于硬件错误,会运行诊断程序。
Detailed Data   对于每一个错误日志条目都是唯一的故障数据,如设备 sense 数据。
 
比如:
# errpt -aj 4B219AEA|more
---------------------------------------------------------------------------
LABEL:          LVM_GS_CHILDGONE
IDENTIFIER:     4B219AEA
Date/Time:       Wed Dec  5 18:12:31 BEIST 2007
Sequence Number: 1917
Machine Id:      00028057D600
Node Id:         localhost
Class:           U
Type:            PERM
Resource Name:   LIBLVM          
Resource Class:  NONE
Resource Type:   NONE
Location:        
VPD:            
Description
Concurrent LVM daemon forced Volume Group offline
 
Probable Causes
Unrecoverable event detected by Concurrent LVM daemon
Failure Causes
Lost communication with remote nodes
Lost quorum
        Recommended Actions
        Ensure Cluster daemons are running
        CHECK ERROR LOG FOR ADDITIONAL RELATED ENTRIES
        Attempt to bring the Concurrent Volume Group back online
        IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
Volume Group ID
0001 CCCD 0000 D600 0000 0114 16BE 3BDC 
MAJOR/MINOR DEVICE NUMBER
0000 0000 
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
Duplicates
Number of duplicates
           1
Time of first duplicate
Wed Dec  5 08:48:00 BEIST 2007
Time of last duplicate
Wed Dec  5 08:48:17 BEIST 2007

转载自:http://blog.sina.com.cn/s/blog_5ded2e5b0100ix7f.html

猜你喜欢

转载自www.cnblogs.com/andy6/p/9284213.html
AIX