当前位置:首页 > 技术分析 > 正文内容

VMware ESXi 紫屏/蓝屏背后故事和解决方案

ruisui881个月前 (03-18)技术分析11

一、前言

随着VMware的广泛使用,近期遇到很多客户使用VMware Esxi时出现蓝屏和紫屏现象,紫屏代码(Purple Screen of Diagnostics/Purple Screen of Death )简称:PSOD。本章我们主要分析下如何分析紫屏代码。仅供参考。

官方KB:
https://kb.vmware.com/s/article/1020181

https://kb.vmware.com/s/article/1014767

二、紫屏解释

当 Esxi 宕机时,内核确定其不安全,就会出现 PSOD,紫屏会保存内存状态,我们称为内存转储或核心转储。我们可以通过ESXi Server的Dell iDRAC / HP ILO / Cisco CIMC时,我们可以看到此PSOD屏幕状态。

此时屏幕上会显示崩溃时的内存状态,并显示对崩溃原因进行故障排除的详细信息、ESXi 版本详细信息、异常类型、寄存器转储、回溯、服务器正常运行时间、错误消息以及有关核心转储的信息。

三、故障分析

1、硬件故障

在大多数情况下,原因是RAM或CPU。通常会显示“MCE(机器检查异常)”或“NMI(不可屏蔽的中断)”错误。

“MCE” – 表示 CPU 内用于检测和报告硬件问题的机制。紫色屏幕上显示的代码中有一些用于确定问题根本原因的重要详细信息。

“NMI” – 表示处理器不能忽略的硬件中断。由于 NMI 是有关硬件故障的非常重要的消息,因此从 ESXi 5.0 及更高版本开始的默认响应是触发 PSOD。早期版本只是记录错误并继续。与MCE相同,由NMI引起的紫色屏幕。

有关 NMI 代码,请参阅知识库
https://kb.vmware.com/s/article/1014767

2. 软件错误

带有软件错误的新版本会导致 PSOD,并且通常问题在下一个构建版本中得到修复。

示例:资源不足:内存、堆、缓冲区。配置参数不正确或不受支持的

3. 硬件兼容性问题

虚拟机可能使用了不兼容的虚拟硬件版本或驱动程序,驱动程序中尝试访问某些不正确索引或不存在的方法的 bug。

https://kb.vmware.com/s/article/2146526

对虚拟环境的影响是,当 ESXi 服务器上发生 PSOD 时,主机崩溃并终止其上运行的所有服务,并且主机上运行的所有虚拟机将不会正常关闭,如果主机是 HA 的一部分,则所有虚拟机都将迁移到另一台主机并重新引导。

四、案例剖析

我们可在服务器带外管理查看紫屏界面,下面进行详细剖析分解。

具有内部版本号详细信息的产品

导致 PSOD 的错误消息详细信息

中央处理器寄存器

物理 CPU 详细信息

ESXi 主机启动正常运行时间

堆栈跟踪

核心转储

分析完上述代码详情,接下来我们可以在esxi上收取日志,如图所示

下载的日志可自行分析,或者找VMware 400售后支持。

五、防护措施

要正确防止 VMware ESXi 紫色诊断屏幕或紫色死机屏幕问题,可以采取以下措施来提高虚拟化环境的稳定性和可靠性:

1、保持 VMware ESXi 更新:

定期更新您的 ESXi 主机,以确保您拥有最新的安全性和性能修复。VMware 发布了定期的补丁和更新,以修复已知的问题。

2、定期备份虚拟机:

创建定期的虚拟机备份,以防止数据丢失。这可以帮助您在出现问题时快速恢复虚拟机的状态。

3、监控硬件健康:

使用硬件监控工具来跟踪宿主机的健康状况,包括温度、风扇速度、电源供应等。这有助于及早发现潜在的硬件故障。

4、合理分配资源:

确保虚拟机的资源分配合理。避免在同一宿主机上分配过多的虚拟机,以避免资源争用。

5、使用兼容的虚拟硬件:

当创建虚拟机时,选择与 ESXi 版本兼容的虚拟硬件版本。确保虚拟机操作系统支持所选的虚拟硬件版本。

6、启用虚拟机监控:

VMware 提供了虚拟机监控功能,可以帮助您监视虚拟机的性能和状态。启用监控可以帮助您及早发现问题。

7、定期维护虚拟机:

定期对虚拟机进行操作系统和应用程序的更新、维护和安全性检查,以确保其稳定性和安全性。

8、合理规划存储和网络:

确保存储和网络基础设施能够满足虚拟机的需求。避免存储性能瓶颈和网络拥塞。

9、监控和日志分析:

设置监控和日志分析工具,以及时检测和诊断问题。VMware 提供了一些工具和解决方案,如vRealize Operations Manager和vCenter Log Insight。

10、虚拟机迁移和负载平衡:

使用 VMware vMotion 等技术来实现虚拟机的迁移和负载平衡,以确保资源均衡分配,并减少单一宿主机故障的影响。

11、合理规划容灾和备份策略:

考虑设置容灾和备份策略,以应对宿主机或存储故障等严重问题。

综合以上可适当减少兼容性问题。

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/2857.html

分享给朋友:

“VMware ESXi 紫屏/蓝屏背后故事和解决方案” 的相关文章

学会使用Vue JSX,一车老干妈都是你的

作者:子君转发链接:https://mp.weixin.qq.com/s/eAOivpHeowLShfwPfW8-BA?君自前端来,应知前端事。需求时时变,bug改不完。?连续几篇文章,每篇都有女神,被老铁给吐槽了,今天不提了女神了,反正女神都是别人的(扎心了)。这两天小编看了腾讯与老干妈的事情,晚...

代码管理-9-gitlab的使用和设置

gitlab使用1、外观设置完成后保存,返回登录页面查看关于注册,有些公司是不允许打开的,,有些人数非常多的公司就需要打开注册的功能,让人员自己注册,我们来给他特定的权限就可以,毕竟人非常多的时候还由我们来给她们注册就非常不现实了,工作量会很大2、自动注册3、组&用户&项目创建组设置组名称、描述等创...

Windows 下 Git 拉 Gitlab 代码

读者提问:『阿常你好,Windows 下 Git 拉 Gitlab 代码的操作步骤可以分享一下吗?』阿常回答:好的,总共分为五个步骤。一、Windows 下安装 Git官网下载链接:https://git-scm.com/download/winStandalone Installer(安装版)注意...

el-table内容\n换行解决办法

问题请求到的数据带有换行符 '\n'但页面展示时不换行statusRemark: "\"1、按期完成计划且准确率100%,得100分;\n2、各项目每延误1天,扣1分;每失误1次或者员工投诉1次,扣3分,失误层面达到公司级影响较大的,该项绩效分数为0\"\n&...

vue v-html动态生成的html怎么加样式/事件

1、动态生成的html,样式不生效//html 布局 <view v-html="html"> {{html}} </view> //动态生成的元素 <view class="btngo" @tap="handleLink...

Vue实现动态路由

通常我们在vue项目中都是前端配置好路由的,但在一些项目中我们可能会遇到权限控制,这样我们就涉及到动态路由的设置了。动态路由设置一般有两种:(1)、简单的角色路由设置: 比如只涉及到管理员和普通用户的权限。通常直接在前端进行简单的角色权限设置(2)、复杂的路由权限设置: 比如OA系统、多种角色的权限...