简介
本文档介绍如何排除意外重新加载的故障,以及收集Catalyst 9000交换机上事件后事件的具体信息。
要求
本文档没有任何特定的要求。
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
发生意外重新加载或静默重新加载事件可能有多种原因。要排除故障并查找根本原因,必须了解事件的日期/时间,并立即从设备收集所有可能的信息。这可以保证所有日志收集准确而完整(随着时间的推移,设备不会覆盖)。
常见的重新加载原因
ReloadReason |
说明 |
建议 |
开机 |
电源或入口电路已手动关闭并打开。 |
如果电源事件是意外事件,请确认物理电源、电池备份、UPS等的运行状况。 |
由于不兼容而导致堆栈合并 |
堆叠的备用交换机丢失与主用交换机的通信,并触发合并以重新选择新的主用交换机。 |
检查堆叠数据电缆,确保它们正确就位。更换堆叠电缆。 |
Reload Command |
在交换reload 机的CLI上执行命令,以指示手动重新加载软件。 |
已发出reload命令(如果这不是预期的,您可以确认何时通过iosrp分析程序跟踪执行此操作) |
LocalSoft或CPU灾难性错误 |
软件或CPU中遇到错误情况,设备已被强制重置。 |
收集数据并打开TAC案例。 |
电源故障或未知 |
设备或入口电路的电源肯定突然发生故障,暂时停止向交换机供电。 |
检查电源是否正常,LED颜色和入口输入电路。 |
冗余强制切换 |
命令已 redundancy force-switchover 执行,导致Standby(备用)承担Active(活动)角色,而之前的Active(活动)角色执行软件重置。 |
无. |
映像安装 |
由于安装了新的Cisco IOS® XE映像,设备已重新加载。 |
无. |
收集相关数据
- 事件的确切日期/时间。
- 在意外重新加载事件之前发生了什么情况?可能发生了配置更改,请登录到设备,或者设备未受到触摸。
- 在事件发生之前是否有任何错误的系统日志消息?如果有外部系统日志服务器,请检查是否有相关的错误日志。
- 从设备
show tech-support
(C)收集命令。
- 有助于了解事前情况(电源故障等)的任何其他见解或观察结果
警告:在事件发生后立即收集信息非常重要。如果日志收集发生在重新加载事件发生几天或几周之后,并不能保证提供正确的根本原因。
设备启动并稳定后,收集此附加信息以帮助确定重新加载事件的原因。
上次重新加载原因
检查系统记录的最后一个重新加载原因是什么。
Switch#show version | include uptime|returned|reload|Version
Cisco IOS XE Software, Version 16.12.08
Cisco IOS Software [Gibraltar], Catalyst L3 Switch Software (CAT9K_IOSXE), Version 16.12.8, RELEASE SOFTWARE (fc1)
licensed under the GNU General Public License ("GPL") Version 2.0. The
software code licensed under GPL Version 2.0 is free software that comes
GPL code under the terms of GPL Version 2.0. For more details, see the
BOOTLDR: System Bootstrap, Version 17.10.1r, RELEASE SOFTWARE (P)
Switch uptime is 3 hours, 14 minutes
System returned to ROM by Reload Command
Last reload reason: Reload Command
Next reload AIR license Level: AIR DNA Advantage
Switch Ports Model SW Version SW Image Mode
Configuration register is 0x102 (will be 0x2102 at next reload)
设备会存储有关最近重新加载事件的历史数据。此信息对于检查重新加载是否重复以及交换机记录的原因非常重要。用于查看此数据的命令是 show logging onboard switch
uptime detail.
Switch#show logging onboard switch active uptime detail
--------------------------------------------------------------------------------
UPTIME SUMMARY INFORMATION
--------------------------------------------------------------------------------
First customer power on : 04/28/2022 01:24:40
Total uptime : 0 years 41 weeks 2 days 9 hours 55 minutes
Total downtime : 0 years 22 weeks 4 days 7 hours 3 minutes
Number of resets : 326
Number of slot changes : 2
Current reset reason : Reload Command
Current reset timestamp : 07/19/2023 15:23:33
Current slot : 1
Chassis type : 215
Current uptime : 0 years 0 weeks 0 days 3 hours 0 minutes
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
UPTIME CONTINUOUS INFORMATION
--------------------------------------------------------------------------------
Time Stamp | Reset | Uptime
MM/DD/YYYY HH:MM:SS | Reason | years weeks days hours minutes
--------------------------------------------------------------------------------
07/13/2023 17:57:49 Image Install 0 0 0 0 0
07/13/2023 18:48:58 Reload Command 0 0 0 0 40
07/14/2023 00:55:30 Reload Command 0 0 0 6 0
07/14/2023 11:15:44 Reload Command 0 0 0 10 0
07/14/2023 20:02:26 Reload Command 0 0 0 8 0
07/17/2023 11:32:29 Reload Command 0 0 2 15 0
07/17/2023 21:00:59 Reload Command 0 0 0 9 0
07/18/2023 08:36:20 Reload Command 0 0 0 11 0
07/18/2023 11:00:28 Reload Command 0 0 0 2 0
07/19/2023 07:02:14 Reload Command 0 0 0 19 0 07/19/2023 15:23:33 Reload Command 0 0 0 8 0
--------------------------------------------------------------------------------
技术支持命令
此命令可收集系统的一般信息及其当前状态。前面介绍的命令包含在此支持包中。TAC在提交报告时请求此输出文件。
有不同的收集方法:
- 已记录的终端会话:使用终端程序并将会话记录到文本文件中。然后,从CLI运行命令
show tech-support
并等待收集完成。向TAC案例提供文本文件。
- 已重定向到文件:从CLI运行命
show tech-support | redirect flash: ShowTech.txt
令。此操作会在设备的闪存上创建一个文本文件,其中包含tech-support命令的结果。然后,需要使用网络中可用的任何传输协议从设备中提取文件。(TFTP、FTP、SCP等)。
Switch#show tech-support | redirect flash:ShowTech.txt
Switch#dir flash: | include .txt
499721 -rw- 16090 Jul 19 2023 15:24:02 +00:00 rdope_out.txt
499728 -rw- 1328023 Jul 19 2023 19:12:57 +00:00 ShowTech.txt
Switch#copy flash:ShowTech.txt tftp:
Address or name of remote host []? 192.168.1.1
Destination filename [ShowTech.txt]?
!!!
为TAC收集的命令
交换机存储系统日志记录信息,可用于深入分析发生意外重新加载事件之前和之后的情况。如果发生崩溃,交换机还会将崩溃数据存储到一个加密文件中,TAC专家可以分析该文件。
Tracelogs
tracelog是Cisco IOS® XE中每个进程的内部日志。tracelogs目录默认创建,其内容会定期覆盖。可以在Catalyst设备的 bootflash
或 flash
中找到此文件夹。
生成Tracelogs
Switch#request platform software trace archive
Creating archive file [flash:Switch_1_RP_0_trace_archive-20230719-192115.tar.gz]
Done with creation of the archive file: [flash:Switch_1_RP_0_trace_archive-20230719-192115.tar.gz]
Switch#dir flash: | include .gz
499729 -rw- 29573907 Jul 19 2023 19:21:22 +00:00 Switch_1_RP_0_trace_archive-20230719-192115.tar.gz
系统报告
系统报告是一个压缩文件,当发生意外重新加载时,它会收集软件执行中可用的大部分信息。系统报告包含tracelogs、crashinfo和core文件。当Cisco IOS® XE交换机上由于崩溃或软件错误而发生意外重新加载时,将自动创建此文件。可在目录中找到该文件crashinfo
。此文件已加密,并且需要TAC支持进行解码和分析。
Switch#dir crashinfo: | include .gz
Directory of crashinfo:/
19 -rwx 655080 Aug 7 2013 16:31:31 +00:00 system-report_1_20130807-163050-UTC.gz
注意:这些以.gz扩展名结尾的文件需要使用网络中的任何可用传输协议从设备中解压缩。(TFTP、FTP、SCP等)。
故障排除
开机
说明
已手动关闭并打开电源。这也可能意味着权力的长期中断。在这种情况下,不会生成崩溃或核心文件。
补救
1.检查电源是否手动关闭。如果不是,则继续进行验证。
2.检验电源的电源线,电源线不能松动或轻易断开。
3.检查共用同一入口电路的其他设备是否也发生故障。如果只有交换机出现中断,请继续进行验证。
4.检查交换机供电的入口电路是否有长时间停电导致交换机断电。
5.如果之前的所有条件都已验证且现场电源未发现问题,请打开TAC案例。
由于不兼容而导致堆栈合并
说明
堆叠的备用交换机丢失与主用交换机的通信,并触发堆叠中所有交换机之间的合并,以重新选择新的主用交换机。保持连接消息通过堆栈数据电缆持续发送和接收,当这些消息未按时发送/接收时,交换机将声明失去通信并发生堆栈合并。
补救
1.检查堆叠数据电缆是否完好无损,是否松散地插入堆叠数据插槽。
2.验证堆叠数据电缆是否正确固定,以及螺钉是否过紧。
3.如果交换机具有堆叠模块,请检查螺钉是否太紧,并且是否松散地插入堆叠槽位。
4.如果由于堆叠合并而重新加载的现象继续发生,则继续更换堆叠数据电缆和堆叠数据模块(如果交换机具有堆叠模块)。
5.如果在更换数据电缆后,堆栈合并继续,请打开TAC案例。
Reload Command
说明
在交换reload
机的CLI上执行命令,以指示手动重新加载软件。
补救
由于使用指定命令,没有补救操作可用,因为预期会重新加载。
LocalSoft或CPU灾难性错误
说明
软件或CPU中遇到错误情况,设备已被强制重置。这是软件生成的重新加载,可与Cisco Bug ID CSCvr77861相关。由于此错误情况,不会生成任何核心文件或崩溃。
补救
1.验证Bug详细信息并将交换机升级到最新固定版本。
2.如果问题再次发生,请在问题之前和之后收集tracelogs和任何其他日志记录数据。
3.创建TAC案例。
电源故障或未知
说明
设备或入口电路的电源肯定突然发生故障,暂时停止向交换机供电。这也可能是因为连接到交换机的UPS(如果有)电源中断时间非常短。在这种情况下,不会生成崩溃或核心文件。
补救
1.检验电源LED,它们必须为绿色。如果没有LED亮起或显示红色,请用工作正常的电源更换电源。
2.检验电源的电源线,电源线不能松动或轻易断开。
3.如果交换机连接到UPS,请验证它未出现可能切断交换机电源的断电。
4.检查共用同一入口电路的其他设备是否也发生故障。如果只有交换机出现中断,请继续进行验证。
5.检查交换机供电的入口电路是否有小抖动或电压/电流电平变化。
6.如果之前的所有条件都已验证且现场电源变化未发现问题,请打开TAC案例。
冗余强制切换
说明
命令已 redundancy force-switchover
执行,导致Standby(备用)承担Active(活动)角色,而之前的Active(活动)角色执行软件重置。
补救
由于预期会使用指定的命令,无法执行补救操作,因为会重新加载活动交换机。
映像安装
说明
由于安装了新的Cisco IOS® XE映像,设备已重新加载。
补救
由于重新加载堆栈是由于安装过程所致,因此没有可用的补救操作,这是预期的。
核心文件存在或崩溃
说明
交换机崩溃并生成崩溃或核心文件。检查闪存中是否存在以下文件之一:或crashinfo:目录
可以在交换机上运行此命令,以搜索所有目录中的核心文件、系统报告和低内存阈值文件:
- 如果在输出中看不到任何文件,并且只看到目录,则不会由于这些原因而发生崩溃。
- 如果看到文件,但是它们与所关注或关注事件的Date和Time不匹配
cats-c9300#dir /recur all-filesystems | inc Directory of|crashinfo_|core.gz|fullcore|system-report|kernel.rp|threshold_lowmem_info
Directory of system:/*
Directory of system:/
Directory of system:/memory/
Directory of system:/
Directory of tmpsys:/*
Directory of crashinfo:/*
Directory of crashinfo:/tracelogs/
Directory of crashinfo:/
Directory of crashinfo:/license_evlog/
Directory of crashinfo:/ <-Inside crashinfo:/ directory
12 -rw- 483563 Jun 27 2023 17:15:52 +00:00 cats-c9300_crashinfo_1_RP_00_00_20230627-171547-UTC
13 -rw- 139205443 Jun 27 2023 17:16:49 +00:00 cats-c9300_1_RP_0-system-report_1_20230627-171626-UTC.tar.gz <-System Report (May also contain a core.gz file)
16 -rw- 223501 Jul 30 2023 13:49:41 +00:00 cats-c9300_crashinfo_1_RP_00_00_20230730-134940-UTC
28 -rw- 420518 Aug 29 2023 15:56:18 +00:00 cats-c9300_crashinfo_1_RP_00_00_20230829-155613-UTC
21 -rw- 53900932 Aug 29 2023 15:56:53 +00:00 cats-c9300_1_RP_0-system-report_1_20230829-155647-UTC.tar.gz <-System Report (May also contain a core.gz file)
Directory of flash:/*
Directory of flash:/
Directory of flash:/pcap/
Directory of flash:/
Directory of flash:/.images/
Directory of flash:/.images/17.09.02.0.3040.1667428055/
Directory of flash:/
Directory of flash:/cflow/
Directory of flash:/cflow/ctc_pids/
Directory of flash:/.product_analytics/
Directory of flash:/.product_analytics/
Directory of flash:/.product_analytics/policies/
Directory of flash:/.product_analytics/
Directory of flash:/.product_analytics/databases/
Directory of flash:/
Directory of flash:/.installer/
Directory of flash:/.installer/issu_crash/
Directory of flash:/.installer/
Directory of flash:/
Directory of flash:/core/
Directory of flash:/core/modules/
Directory of flash:/core/ <-Inside flash:/core/
262146 -rw- 41575076 Jul 30 2023 13:50:06 +00:00 cats-c9300_1_RP_0_x86_64_crb_linux_iosd_ngwc-universalk9-ms_27272_20230730-134942-UTC.core.gz <-Core File
262147 -rw- 44973003 Aug 28 2023 12:49:07 +00:00 cats-c9300_1_RP_0_x86_64_crb_linux_iosd_ngwc-universalk9-ms_18507_20230828-124841-UTC.core.gz <-Core File
262148 -rw- 44997000 Aug 29 2023 11:22:30 +00:00 cats-c9300_1_RP_0_x86_64_crb_linux_iosd_ngwc-universalk9-ms_1466_20230829-112204-UTC.core.gz <-Core File
376833 -rw- 13189075 Sep 7 2023 18:42:13 +00:00 cats-c9300_1_RP_0_fed_2564_20230907-184202-UTC.core.gz <-Core File
Directory of flash:/.prst_sync/
Directory of flash:/.rollback_timer/
Directory of flash:/
Directory of flash:/dc_profile_dir/
Directory of flash:/
Directory of flash:/pnp-info/
Directory of flash:/
Directory of flash:/ss_disc/
Directory of flash:/tech_support/
Directory of flash:/sys_report/
Directory of flash:/
Directory of flash:/Tbot/
Directory of flash:/.dbpersist/
Directory of flash:/.dbpersist/history/
Directory of flash:/.dbpersist/
Directory of flash:/.dbpersist/DMI_STATE_DB/
Directory of flash:/.dbpersist/
Directory of flash:/onep/
Directory of flash:/onep/apps-cli/
Directory of flash:/
Directory of flash:/guest-share/
Directory of flash:/
Directory of flash:/fp_cc_crash/
Directory of flash:/.rommon_sync/
Directory of flash:/
Directory of flash:/EDScisco/
Directory of flash:/
Directory of flash:/SHARED-IOX/
Directory of flash:/
Directory of flash:/confd_debugged_dumps/
Directory of flash:/
Directory of flash:/.PATCH-backup/
Directory of flash:/ <-Inside flash:/ directory
114756 -rw- 474448 Mar 30 2023 19:50:53 +00:00 threshold_lowmem_info_20230330-195051-UTC <-May indicate memory leak
Directory of webui:/*
Directory of webui:/
Directory of nvram:/*
Directory of nvram:/
补救
需要提交TAC案例以确定RCA:
- 此文件需要由架构团队分析。
- 打开服务请求时,请选择Product > Unexpected Reboot > Software Failure,以便向正确的团队提交支持请求
思科漏洞 ID
有一些缺陷可能导致在Catalyst 9000系列交换机上发生意外的重新加载。
注意:只有注册的思科用户才能访问内部Bug信息。
相关信息