1. 服务器/VPS/主机用户Telegram电报群: https://t.me/openos
    黑群晖 Synology Telegram电报群: https://t.me/nasfan
    Dismiss Notice

黑群极其古怪的问题,自带VM虚拟机安装win系统频繁蓝屏死机

Discussion in '群晖 Synology DSM' started by 凌丰888, Sep 25, 2024.

  1. 凌丰888

    凌丰888 New Member

    以前用着白群的,因为需要跑PCDN,又需要资源的高度整合,所以不得不选择黑群平台,最开始买的是成品DIY机,13100的CPU,铭瑄终结者D4主板,32G内存、2308直通卡,接驳8位笼子,主板4个SATA插满,俩1T笔记本硬盘做RAID做system分区,俩S3710 SSD做RAID0做QB下载临时盘,主板三个M2插口插满,两块致钛7100的4T,一块金邦的P4P 4T,最开始使用13100的时候,电源使用的是全汉的250W,预装的系统版本无法确定了,系统很稳定,运行一两个月都没问题,后面因为接触PCDN,不得不升级CPU,升级为13600T,内存升级到96G,电源更换为台达400W,也一直运行稳定,随着PCDN部署的虚拟机增多,CPU几乎都是满载的,不得不继续升级,CPU更换为14900T,可能是频繁变更设备的原因,更换上14900T之后,系统引导崩溃了,不得不重装,这段时间,一直不停更换使用不同的RR的版本,均存在同样的问题
    1、随机性的网络断流,网卡灯是闪烁的,物理机却没有死机,按键盘灯是有反应的,拔掉网线,等一会重新插上,又恢复正常,但是这样处理,坚持不了一个小时,基本都会在十几分钟左右再次断流,除非重启NAS,能坚持久点,1-3天时间不等,怀疑是板载的8125板载2.5G网卡问题,先后更换了独立的8125BG网卡、intel 82599万兆光卡,intel 的I226-V网卡,均无法解决此问题。
    2、用群晖内置的虚拟机套件VMM,安装Linux平台的网心云,运行稳定,没问题,但是安装windows平台,不管是安装win10、win11、windows server。必死无疑,绝大多数情况无法顺利完成整个安装过程,运气好的时候能安装完成,但是基本无法稳定运行半个小时左右,所有的蓝屏故障代码都是:终止代码:KMODE_EXCEPTION_NOT_HANDLED
    怀疑是内存问题,用拷机软件拷机测试稳定性也毫无问题,内存测试用Memtest测试、用群晖Synology Assistant内的内存测试长时间测试,也均无问题,为了稳妥,先后更换了两套内存,单独插一条、增加到两条,都分别测试过,故障依旧
    继续怀疑是否是CPU问题,又更换13900T,故障依旧
    然后继续更换电源,电源更换为益衡的600W,故障依旧
    所有东西都换遍了,主板也刷新了不同版本的BIOS,故障依旧
    最后以为只有主板没更换了,今天更换了一块ASUS的Z790的主板,一运行VMM里的win虚拟机,一样是蓝屏
    不知道有哪位高手遇到过一模一样的情况,或者能否复现下这个故障,恳请指点!又或者能反馈给RR开发者的大佬
     
  2. lc215657004

    lc215657004 New Member

    我也是,求解决方法,只能用WIN7,而且很多功能都有BUG
    我是N305,装的物理黑裙,SA6400
     
  3. 凌丰888

    凌丰888 New Member

    我的连安装win7也一样蓝屏死机,虚拟机设置什么都尝试了,改变引导方式、用不同的磁盘格式、取消CPU兼容模式等等,都一样
    网卡随机吊死断流的问题我大概率找到原因了,以前用的铭瑄的B760M终结者D4主板,前天换了块ASUS的Z790M,到目前网卡没吊死断流过一次了,我查询intel官网,B760芯片组,支持14条PCIE通道,790支持28条,而我主板是全插满了的,三个M2就占用了12条PCIE,加上直通卡的,大概率是PCIE通道数不够,调度出的问题,但是自带虚拟机无法跑win系统这个目前还无解
     
  4. 1011406836

    1011406836 Member

    是不是虚拟机超用总线数量造成了,这玩意都是给服务器配置的,没有上限,虚拟了之后超过硬件上限,无法调度,造成崩了
     
  5. 凌丰888

    凌丰888 New Member

    不是,CPU可用/总VCPU数都还有二三十,这点肯定最先就排除了的
     
  6. frbehome

    frbehome New Member

    明确告诉你引导问题,只能降级23.11.8才可以,我这边N100测试可以,你可以试试
     
  7. frbehome

    frbehome New Member

    最新的不管哪个win必定蓝屏,坚持不了10分钟
     
  8. 凌丰888

    凌丰888 New Member

    感谢!有时间试试,看看是不是引导的问题
     
  9. OMGJL

    OMGJL New Member

    强烈怀疑是硬件稳定性的问题,试试跑 Linpack Xtreme (10GB内存参数) 或者 yCruncher 所有测试,我认为会挂的很快。
    其次可以试试屏蔽BIOS里IOMMU,VT-d相关,也许有效
     
  10. 凌丰888

    凌丰888 New Member

    已解决,就是引导的问题,RR引导的24.10.3版本明确修复了intel 11代之后的CPU VMM不断蓝屏死机的问题