[サーバー] アウトオブバンド管理 | iDRAC インターフェイス | R750 グラフィックス カード ファンのノイズ | GPU テスト プログラム

iDRAC

参考:http://dbase.cc/2017/05/23/tools/Dell%20iDRAC%E6%9C%8D%E5%8A%A1%E5%99%A8%E8%BF%9C%E7%A8%8B%E6%8E%A7%E5%88%B6%E5%9B%BE%E8%A7%A3/

iDRAC は、Integrated Dell Remote Access Controller (統合型デル リモート コントロール カード) とも呼ばれ、デル サーバーの独自の機能です。iDRACは、サーバーに接続されたコンピュータ
に相当し、サーバーの1対1のリモート管理と監視を実現し、サーバーのマザーボード上の管理チップBMCと通信することで、サーバーのハードウェアステータス情報を監視および管理します。iDRAC には独自のシステムと IP アドレスがあり、サーバー上の OS とは関係ありません。管理者がリモート アクセスと管理を実行するための強力なツールです。デルのサーバーには iDRAC コントロール カードが統合されているため、高価な KVM 機器を廃棄できます。

サーバーの帯域外管理と iDRAC インターフェイス

つまり、iDRAC として識別されるインターフェイス
ここに画像の説明を挿入します

これを使用する場合は、ネットワーク ケーブルを介してラップトップをこのインターフェイスに直接接続し、
ラップトップのイーサネット接続のプロパティを手動 IP (192.168.0.100 など) に設定し、
192.168.0.120 (デフォルトのアウトオブバンド IP) に ping を送信します。理論的には
機能するはずです。

サーバーの iDRAC アドレスを表示する

http://dbase.cc/2017/05/23/tools/Dell%20iDRAC%E6%9C%8D%E5%8A%A1%E5%99%A8%E8%BF%9C%E7 を参照してください。 %A8 %8B%E6%8E%A7%E5%88%B6%E5%9B%BE%E8%A7%A3/

R750 を例に挙げると、
起動プロセス中に F2 を押し続けて、次のように入力します:
ここに画像の説明を挿入します
ここで、iDRAC の IPV4 アドレスが 192.168.0.120 であることがわかります。

iDRAC アドレスの設定: 公式チュートリアル

https://www.dell.com/support/kbdoc/zh-cn/000181641/14g%e6%9c%8d%e5%8a%a1%e5%99%a8idrac%e8%bf%9c%e7%a8% 8b%e6%8e%a7%e5%88%b6%e5%8d%a1%e7%9a%84%e4%bd%bf%e7%94%a8%e6%96%b9%e6%b3%95?ラング=zh

iDRAC アドレスを設定する

R750 を例に挙げると、
起動プロセス中に F2 を押し続けてここに入力します:
ここに画像の説明を挿入します
その後は心配しないでください。
ここに画像の説明を挿入します

「iDRAC 設定」、「ネットワーク」の順に入力します。
ここに画像の説明を挿入します

その後、iDRAC の IP アドレスを設定できます。
ここに画像の説明を挿入します
ここでは、サーバーの iDRAC IP を 192.168.0.120 に設定します。

その後、ラップトップを使用して、ネットワーク ケーブル経由でサーバーの iDRAC インターフェイスに接続します。
ラップトップのイーサネット アドレスを 192.168.0.100 などに手動で設定します。
その後、ping 192.168.0.120 -tラップトップに ping を送信し、ブラウザ
経由で一般的なノートパソコンのサーバーハードウェアの各種管理を行うためのソフトウェアです。

iDRAC の出荷時設定を復元する

マシンを再起動し、F2 を押して BIOS に入り、iDRAC 設定を選択して
ここに画像の説明を挿入します
iDRAC をリセットします(実際の状況に応じて選択します)。

  1. iDRAC を工場出荷時のデフォルトにリセットするには、「iDRAC 設定をデフォルト
    にリセット」を選択します。設定は不揮発性ストレージから復元されます。ただし、iDRAC ネットワーク設定とユーザー アカウントは保持します
  2. iDRAC を工場出荷時のデフォルトにリセットするには、「iDRAC 設定をすべてデフォルト
    にリセット」を選択します。設定は不揮発性ストレージから復元されます。注: (iDRAC 設定のすべての設定はデフォルト値に復元されます)
  3. iDRAC 構成をデフォルトの工場出荷時設定
    にリセットするには、「iDRAC 構成をデフォルトの工場出荷時設定にリセット」を選択します。iDRAC 構成は不揮発性ストレージ設定から復元されます。注: ユーザー名とパスワードは、システムのフロント パネルのシステム情報ラベルにある出荷時のデフォルト値にリセットされます。
    ここに画像の説明を挿入します
    今回は 2 番目のものを選択しました。

リセット後、iDRAC の IP 構成は DHCP 状態に戻りますが、
その後、静的 IP に再構成する必要があります。
ここに画像の説明を挿入します

R750 コンシューマ グレードの NVIDIA グラフィックス カード ファンから異音が発生する

NVIDIA コンシューマ グレードのグラフィックス カードを Dell R750 ラック サーバーに取り付けた後、グラフィックス カードを使用するとすぐに、グラフィックス カード ファンから異常な音が発生します。つまり、断続的にヒューヒューという音が発生します。
この問題は、iDRAC によるハードウェア構成によって軽減できます。

ノートブックは iDRAC インターフェイスに接続され、ノートブックは静的 IP で構成され、ssh を使用して iDRAC に接続します。

ssh root@192.168.0.120

root はユーザー名、パスワードは BIOS で設定された iDRAC パスワード (192.168.0.120 Web インターフェイスで使用されるパスワード) です

racadm get System.PCIESlotLFM     //查看所有槽位信息
racadm get System.PCIESlotLFM.5      // get对应槽位的信息,8 代表需要设定的具体槽位
racadm set System.PCIESlotLFM.5.LFMMode 2     //对PCIe Slot8 的LFM mode设置成custom, 0 auto(默认),  1 disabled , 2 custom.

これは、System.PCIESlotLFM.5実際にグラフィックス カードが搭載されているスロットに置き換える必要があります。

ここに画像の説明を挿入します

繰り返しますが、次のように変更されていることracadm get System.PCIESlotLFM.5がわかりますLFMModeCustom
ここに画像の説明を挿入します

グラフィックス カードのファンの状態をテストする

(ChatGPT に助けを求めてください) GPU の使用率を改善し、グラフィックス カードを観察するための小さなコードを書きました。

conda activate project
python testfan.py

testfan.py の内容は次のとおりです。

import subprocess
import torch

# 检查GPU是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

def get_gpu_utilization():
    try:
        result = subprocess.check_output(['nvidia-smi', '--query-gpu=utilization.gpu', '--format=csv,noheader'], universal_newlines=True)
        utilization = float(result.split('\n')[0].strip().rstrip('%'))
        return utilization
    except (subprocess.CalledProcessError, OSError):
        return 0.0

def test_gpu_fan():
    # 设置GPU设备
    torch.cuda.set_device(0)

    # 使用一个大型的矩阵进行计算,以增加GPU使用率
    matrix_size = 10000
    matrix = torch.randn(matrix_size, matrix_size).to(device)
    
    while True:
        # 连续计算两个随机矩阵的乘积
        result = torch.mm(matrix, matrix)
        result = torch.mm(result, matrix)
        
        # 同步当前设备,确保所有计算已完成
        torch.cuda.synchronize()
        
        # 输出GPU使用率
        utilization = get_gpu_utilization()
        print("GPU使用率: {:.2f}%".format(utilization))

if __name__ == "__main__":
    print("开始测试GPU风扇...")
    test_gpu_fan()

このとき、GPU の使用率は非常に高くなりますが、このプロセス中にグラフィックス カードからノイズが発生しなければ、問題がないことを意味します。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/qq_39441603/article/details/132890113
おすすめ