[转帖]strace分析sqlplus登录慢问题

strace,分析,sqlplus,登录,问题 · 浏览次数 : 0

小编点评

## 解决方案方法 1. **保留最近三个月三个月的数据**,并将文件删除。 2. **定期将文件挪到别的目录**,避免adump下文件过多。 3. **使用strace参数**跟踪指定系统调用,并记录结果。 4. **设置输出格式**以显示时间信息,方便分析。 5. **使用-v参数**输出详细的系统调用结果,方便分析。 6. **使用-s参数指定字符串最大长度**,避免输出过多信息。 ## 具体操作 * reserve -3 -6 -9 -13 2023-04-25 05:00:00 2023-04-25 10:00:00 2023-04-25 15:00:00 * rm -rf 2023-04-25-16-00-00 * strace -v -o file -p 5350 * -e trace=file -o file -p 5350 * -e signal=set -v -- -- -e read=3,5 * -e strace=signal -v -- -- -e signal=set -v -- -e read=3,5 * -u 5350 * -v * -s 32 * -u username "sqlplus login -v -e trace=file -o file -p 5350 -s 32" * -v 32 * -u username "sqlplus login -v -e trace=file -o file -p 5350 -s 32 -v"

正文

一、 问题分析

有时会遇到sqlplus / as sysdba登录非常慢的问题,由于还没登录,通过数据库等待事件一般看不出来啥,需要用到strace这个分析利器。strace有很多参数,后面会列出,但分析时最常用的是以下几个

  1. strace -T -t -f -o strace_slow.log sqlplus / as sysdba
  2. #-f 跟踪由fork调用所产生的子进程.
  3. #-t 在输出中的每一行前加上时间信息.
  4. #-T 显示每一调用所耗的时间.

如果不加-f,不看子进程信息,结果类似

  1. open("/etc/hostid", O_RDONLY) = -1 ENOENT (No such file or directory) <0.000020>
  2. open("/etc/hostid", O_RDONLY) = -1 ENOENT (No such file or directory) <0.000018>
  3. uname({sys="Linux", node="xxxxx", ...}) = 0 <0.000017>
  4. stat("/etc/resolv.conf", {st_mode=S_IFREG|0644, st_size=0, ...}) = 0 <0.000018>
  5. open("/etc/resolv.conf", O_RDONLY) = 9 <0.000019>
  6. fstat(9, {st_mode=S_IFREG|0644, st_size=0, ...}) = 0 <0.000016>
  7. mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2b880d500000 <0.000019>
  8. read(9, "", 4096) = 0 <0.000017>
  9. close(9) = 0 <0.000017>
  10. munmap(0x2b880d500000, 4096) = 0 <0.000019>
  11. uname({sys="Linux", node="xxxxx", ...}) = 0 <0.000015>
  12. write(10, "\4N\0\0\6\0\0\0\0\0\3s\3\0\0\0\0\0\0\0\0\0\0\0\0!\0\0\0"..., 1102) = 1102 <0.000018>
  13. read(11, "\4j\0\0\6\0\0\0\0\0\10\30\0\23\0\0\0\23AUTH_VERSION_S"..., 8208) = 1130 <1.257143> <---- 耗时最多
  14. open("/u01/app/oracle/product/11.2.0/dbhome_1/rdbms/mesg/oraus.msb", O_RDONLY) = 9 <0.000049>

可以从最右边每个调用的执行时间找到耗时最多的部分,但明显这还是看不出来为什么慢。

如果加上-f,就可以看到子进程信息,结果类似

  1. [pid 5350] sendto(6, "\2\0\0\0\f\0\0\0\6\0\0\0group\0\0\0", 20, MSG_NOSIGNAL, NULL, 0) = 20
  2. [pid 5350] poll([{fd=6, events=POLLIN|POLLERR|POLLHUP, revents=POLLIN|POLLERR|POLLHUP}], 1, 5000) = 1
  3. [pid 5350] recvmsg(6, {msg_name(0)=NULL, msg_iov(1)=[{"group\0", 6}], msg_controllen=24, {cmsg_len=20, cmsg_level=SOL_SOCKET, cmsg_type=SCM_RIGHTS, {7}}, msg_flags=0}, 0) = 6
  4. [pid 5350] fstat(7, {st_mode=S_IFREG|0600, st_size=217016, ...}) = 0
  5. [pid 5350] pread(7, "\1\0\0\0h\0\0\0D\254\0\0\1\0\0\0\250\305XP\0\0\0\0\323"..., 104, 0) = 104
  6. [pid 5350] mmap(NULL, 217016, PROT_READ, MAP_SHARED, 7, 0) = 0x2b646ca23000[pid 5350] close(7) = 0
  7. [pid 5350] close(6) = 0
  8. [pid 5350] getgid() = 501
  9. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_1.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  10. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_2.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  11. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_3.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  12. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_4.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  13. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_5.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  14. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_6.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  15. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_7.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = -1 EEXIST (File exists)
  16. ...
  17. [pid 5350] open("/u01/app/oracle/admin/bigb/adump/xxxxx_ora_5350_186.aud", O_RDWR|O_CREAT|O_EXCL, 0660) = 6
  18. [pid 5350] write(6, "Audit file ", 11) = 11
  19. [pid 5350] write(6, "/u01/app/oracle/admin/bigb/adump"..., 55) = 55
  20. [pid 5350] write(6, "\n", 1) = 1
  21. ...
  22. [pid 5350] write(6, "Thu Mar 12 11:37:08 2015 +01:00\n", 32) = 32
  23. [pid 5350] write(6, "LENGTH : \'160\'", 14) = 14
  24. [pid 5350] write(6, "\n", 1) = 1
  25. [pid 5350] write(6, "ACTION :[7] \'CONNECT\'\nDATABASE U"..., 159) = 159
  26. [pid 5350] write(6, "\n", 1) = 1
  27. [pid 5350] write(12, "\0\225\0\0\6\0\0\0\0\0\10\0\0\4\1\0\0\0\0\0\1\0\0\0\0\0"..., 149 <unfinished ...>
  28. [pid 5344] <... read resumed> "\0\225\0\0\6\0\0\0\0\0\10\0\0\4\1\0\0\0\0\0\1\0\0\0\0\0"..., 8208) = 149

可以看到,sqlplus用户进程的PID为5344(最后一行)。它从读取系统调用开始,并fork出影子进程 pid 5350。由于是使用sysdba权限登录,5350进程在登录到数据库之前必须在审核日志中进行记录。因此它在audit_trail目录中基于PID 5350扫描已有文件,找到可用的最大序号,使用最大序号创建新审计文件然后写入。很明显基于PID 5350的审计文件越多,这个操作越耗时。

二、 解决方法

找到了慢的原因,解决方法很容易想到。如果安全并不要求要这些日志,可以保留比如最近一个月三个月的数据,多余的删除。如果需要,可以定期将文件挪到别的目录,避免adump下文件过多。关于如何快速删除大量小文件,参考:linux删除大量文件的6种方法_Hehuyi_In的博客-CSDN博客_linux删除大量文件

三、 strace参数含义

  1. -c 统计每一系统调用的所执行的时间,次数和出错的次数等.
  2. -d 输出strace关于标准错误的调试信息.
  3. -f 跟踪由fork调用所产生的子进程.
  4. -ff 如果提供-o filename,则所有进程的跟踪结果输出到相应的filename.pid中,pid是各进程的进程号.
  5. -F 尝试跟踪vfork调用.在-f时,vfork不被跟踪.
  6. -h 输出简要的帮助信息.
  7. -i 输出系统调用的入口指针.
  8. -q 禁止输出关于脱离的消息.
  9. -r 打印出相对时间关于,,每一个系统调用.
  10. -t 在输出中的每一行前加上时间信息.
  11. -tt 在输出中的每一行前加上时间信息,微秒级.
  12. -ttt 微秒级输出,以秒了表示时间.
  13. -T 显示每一调用所耗的时间.
  14. -v 输出所有的系统调用.一些调用关于环境变量,状态,输入输出等调用由于使用频繁,默认不输出.
  15. -V 输出strace的版本信息.
  16. -x 以十六进制形式输出非标准字符串
  17. -xx 所有字符串以十六进制形式输出.
  18. -a column
  19. 设置返回值的输出位置.默认 为40.
  20. -e expr
  21. 指定一个表达式,用来控制如何跟踪.格式如下:
  22. [qualifier=][!]value1[,value2]...
  23. qualifier只能是 trace,abbrev,verbose,raw,signal,read,write其中之一.value是用来限定的符号或数字.默认的 qualifier是 trace.感叹号是否定符号.例如:
  24. -eopen等价于 -e trace=open,表示只跟踪open调用.而-etrace!=open表示跟踪除了open以外的其他调用.有两个特殊的符号 all 和 none.
  25. 注意有些shell使用!来执行历史记录里的命令,所以要使用\\.
  26. -e trace=set
  27. 只跟踪指定的系统 调用.例如:-e trace=open,close,rean,write表示只跟踪这四个系统调用.默认的为set=all.
  28. -e trace=file
  29. 只跟踪有关文件操作的系统调用.
  30. -e trace=process
  31. 只跟踪有关进程控制的系统调用.
  32. -e trace=network
  33. 跟踪与网络有关的所有系统调用.
  34. -e strace=signal
  35. 跟踪所有与系统信号有关的 系统调用
  36. -e trace=ipc
  37. 跟踪所有与进程通讯有关的系统调用
  38. -e abbrev=set
  39. 设定 strace输出的系统调用的结果集.-v 等与 abbrev=none.默认为abbrev=all.
  40. -e raw=set
  41. 将指 定的系统调用的参数以十六进制显示.
  42. -e signal=set
  43. 指定跟踪的系统信号.默认为all.如 signal=!SIGIO(或者signal=!io),表示不跟踪SIGIO信号.
  44. -e read=set
  45. 输出从指定文件中读出 的数据.例如:
  46. -e read=3,5
  47. -e write=set
  48. 输出写入到指定文件中的数据.
  49. -o filename
  50. 将strace的输出写入文件filename
  51. -p pid
  52. 跟踪指定的进程pid.
  53. -s strsize
  54. 指定输出的字符串的最大长度.默认为32.文件名一直全部输出.
  55. -u username
  56. 以username 的UID和GID执行被跟踪的命令

关于strace的其他使用案例,参考

Slow SQL*Plus Login | Oracle Database Blog: Experiments & Learnings

Linux strace命令 - ggjucheng - 博客园

https://blogs.oracle.com/database4cn/sqlplus

strace解决sqlplus登陆缓慢的问题一例_crc89714的博客-CSDN博客

实战例子:用strace分析数据库连接问题_记忆碎片的技术博客_51CTO博客

strace 解决 mysql 连接数据库总是定位/tmp/mysql.sock的问题_小鱼的技术博客_51CTO博客

文章知识点与官方知识档案匹配,可进一步学习相关知识
CS入门技能树Linux入门初识Linux32621 人正在系统学习中

与[转帖]strace分析sqlplus登录慢问题相似的内容:

[转帖]strace分析sqlplus登录慢问题

一、 问题分析 有时会遇到sqlplus / as sysdba登录非常慢的问题,由于还没登录,通过数据库等待事件一般看不出来啥,需要用到strace这个分析利器。strace有很多参数,后面会列出,但分析时最常用的是以下几个 strace -T -t -f -o strace_slow.log s

[转帖]strace 命令详解

目录 1、strace是什么? 2、strace能做什么? 3、strace怎么用? 4、strace问题定位案例 4.1、定位进程异常退出 4.2、定位共享内存异常 4.3、 性能分析 5、总结 1、strace是什么? 按照strace官网的描述, strace是一个可用于诊断、调试和教学的Li

[转帖]Linux下strace调试系统应用参数总结(附实例操作讲解)

文章目录 一、简介二、常用参数详解三、实例详解3.1 跟踪具体进程3.2 监控具体程序执行过程 四、其他相关知识链接 一、简介 strace命令是一个集诊断、调试、统计与一体的Linux 用户空间跟踪器,我们可以使用strace对应用的系统调用、信号传递和进程状态变更的监控结果来对应用进行分析,以达

[转帖]Linux下strace调试系统应用参数总结(附实例操作讲解)

文章目录 一、简介二、常用参数详解三、实例详解3.1 跟踪具体进程3.2 监控具体程序执行过程 四、其他相关知识链接 一、简介 strace命令是一个集诊断、调试、统计与一体的Linux 用户空间跟踪器,我们可以使用strace对应用的系统调用、信号传递和进程状态变更的监控结果来对应用进行分析,以达

【转帖】linux 内核分析工具 Dtrace、SystemTap、火焰图、crash等

<< System语言详解 >> 关于 SystemTap 的书。 我们在分析各种系统异常和故障的时候,通常会用到 pstack(jstack) /pldd/ lsof/ tcpdump/ gdb(jdb)/ netstat/vmstat/ mpstat/truss(strace)/iostat/s

[转帖]Strace + pstack发现耗时点

https://www.jianshu.com/p/10ea6fff562c 如何使用strace+pstack利器分析程序性能 本文摘抄自如何使用strace+pstack利器分析程序性能 程序说明 一个简单的socket程序,由server/client组成。server端监听某端口,等待cli

[转帖][译] strace 是如何工作的(2016)

http://arthurchiao.art/blog/how-does-strace-work-zh/ 译者序 本文翻译自 2016 年的一篇英文博客 How Does strace Work 。如果能看懂英文,我建议你阅读原文,或者和本文对照看。 阅读本文之前,强烈建议先阅读这篇之前的文章: (

[转帖] Strace的介绍与使用

https://www.cnblogs.com/skandbug/p/16264609.html Strace简介 strace命令是一个集诊断、调试、统计于一体的工具,常用来跟踪进程执行时的系统调用和所接收的信号,我们可以用它来监控用户空间进程和内核的交互。如对应用程序的系统调用、信号传递与进程状

[转帖]Linux命令之strace命令

一、命令简介 strace是一个有用的诊断、指导和调试工具。系统管理员、诊断专家和故障解决人员将发现,对于解决源代码不易获得的程序的问题,这是非常宝贵的,因为它们不需要重新编译以跟踪它们。学生、黑客和过分好奇的人会发现,通过跟踪甚至是普通程序,可以了解到大量关于系统及其系统调用的信息。程序员会发现,

[转帖]线上环境 Linux 系统调用追踪

线上环境 Linux 系统调用追踪 PingCAP 提到如何动态追踪进程中的系统调用,相信大家第一时间都能想到 strace,它的基本用法非常简单,非常适合用来解决 “为什么这个软件无法在这台机器上运行?” 这类问题。但如果需要分析线上服务 (特别是延迟敏感型)的某些系统调用的延迟时,strace