iDRAC
参考:http://dbase.cc/2017/05/23/tools/Dell%20iDRAC%E6%9C%8D%E5%8A%A1%E5%99%A8%E8%BF%9C%E7%A8%8B%E6%8E%A7%E5%88%B6%E5%9B%BE%E8%A7%A3/
iDRAC は、Integrated Dell Remote Access Controller (統合型デル リモート コントロール カード) とも呼ばれ、デル サーバーの独自の機能です。iDRACは、サーバーに接続されたコンピュータ
に相当し、サーバーの1対1のリモート管理と監視を実現し、サーバーのマザーボード上の管理チップBMCと通信することで、サーバーのハードウェアステータス情報を監視および管理します。iDRAC には独自のシステムと IP アドレスがあり、サーバー上の OS とは関係ありません。管理者がリモート アクセスと管理を実行するための強力なツールです。デルのサーバーには iDRAC コントロール カードが統合されているため、高価な KVM 機器を廃棄できます。
サーバーの帯域外管理と iDRAC インターフェイス
つまり、iDRAC として識別されるインターフェイス
これを使用する場合は、ネットワーク ケーブルを介してラップトップをこのインターフェイスに直接接続し、
ラップトップのイーサネット接続のプロパティを手動 IP (192.168.0.100 など) に設定し、
192.168.0.120 (デフォルトのアウトオブバンド IP) に ping を送信します。理論的には
機能するはずです。
サーバーの iDRAC アドレスを表示する
http://dbase.cc/2017/05/23/tools/Dell%20iDRAC%E6%9C%8D%E5%8A%A1%E5%99%A8%E8%BF%9C%E7 を参照してください。 %A8 %8B%E6%8E%A7%E5%88%B6%E5%9B%BE%E8%A7%A3/
R750 を例に挙げると、
起動プロセス中に F2 を押し続けて、次のように入力します:
ここで、iDRAC の IPV4 アドレスが 192.168.0.120 であることがわかります。
iDRAC アドレスの設定: 公式チュートリアル
https://www.dell.com/support/kbdoc/zh-cn/000181641/14g%e6%9c%8d%e5%8a%a1%e5%99%a8idrac%e8%bf%9c%e7%a8% 8b%e6%8e%a7%e5%88%b6%e5%8d%a1%e7%9a%84%e4%bd%bf%e7%94%a8%e6%96%b9%e6%b3%95?ラング=zh
iDRAC アドレスを設定する
R750 を例に挙げると、
起動プロセス中に F2 を押し続けてここに入力します:
その後は心配しないでください。
「iDRAC 設定」、「ネットワーク」の順に入力します。
その後、iDRAC の IP アドレスを設定できます。
ここでは、サーバーの iDRAC IP を 192.168.0.120 に設定します。
その後、ラップトップを使用して、ネットワーク ケーブル経由でサーバーの iDRAC インターフェイスに接続します。
ラップトップのイーサネット アドレスを 192.168.0.100 などに手動で設定します。
その後、ping 192.168.0.120 -t
ラップトップに ping を送信し、ブラウザ
経由で一般的なノートパソコンのサーバーハードウェアの各種管理を行うためのソフトウェアです。
iDRAC の出荷時設定を復元する
マシンを再起動し、F2 を押して BIOS に入り、iDRAC 設定を選択して
iDRAC をリセットします(実際の状況に応じて選択します)。
- iDRAC を工場出荷時のデフォルトにリセットするには、「iDRAC 設定をデフォルト
にリセット」を選択します。設定は不揮発性ストレージから復元されます。ただし、iDRAC ネットワーク設定とユーザー アカウントは保持します - iDRAC を工場出荷時のデフォルトにリセットするには、「iDRAC 設定をすべてデフォルト
にリセット」を選択します。設定は不揮発性ストレージから復元されます。注: (iDRAC 設定のすべての設定はデフォルト値に復元されます) - iDRAC 構成をデフォルトの工場出荷時設定
にリセットするには、「iDRAC 構成をデフォルトの工場出荷時設定にリセット」を選択します。iDRAC 構成は不揮発性ストレージ設定から復元されます。注: ユーザー名とパスワードは、システムのフロント パネルのシステム情報ラベルにある出荷時のデフォルト値にリセットされます。
今回は 2 番目のものを選択しました。
リセット後、iDRAC の IP 構成は DHCP 状態に戻りますが、
その後、静的 IP に再構成する必要があります。
R750 コンシューマ グレードの NVIDIA グラフィックス カード ファンから異音が発生する
NVIDIA コンシューマ グレードのグラフィックス カードを Dell R750 ラック サーバーに取り付けた後、グラフィックス カードを使用するとすぐに、グラフィックス カード ファンから異常な音が発生します。つまり、断続的にヒューヒューという音が発生します。
この問題は、iDRAC によるハードウェア構成によって軽減できます。
ノートブックは iDRAC インターフェイスに接続され、ノートブックは静的 IP で構成され、ssh を使用して iDRAC に接続します。
ssh root@192.168.0.120
root はユーザー名、パスワードは BIOS で設定された iDRAC パスワード (192.168.0.120 Web インターフェイスで使用されるパスワード) です
。
racadm get System.PCIESlotLFM //查看所有槽位信息
racadm get System.PCIESlotLFM.5 // get对应槽位的信息,8 代表需要设定的具体槽位
racadm set System.PCIESlotLFM.5.LFMMode 2 //对PCIe Slot8 的LFM mode设置成custom, 0 auto(默认), 1 disabled , 2 custom.
これは、System.PCIESlotLFM.5
実際にグラフィックス カードが搭載されているスロットに置き換える必要があります。
繰り返しますが、次のように変更されていることracadm get System.PCIESlotLFM.5
がわかります。LFMMode
Custom
グラフィックス カードのファンの状態をテストする
(ChatGPT に助けを求めてください) GPU の使用率を改善し、グラフィックス カードを観察するための小さなコードを書きました。
conda activate project
python testfan.py
testfan.py の内容は次のとおりです。
import subprocess
import torch
# 检查GPU是否可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
def get_gpu_utilization():
try:
result = subprocess.check_output(['nvidia-smi', '--query-gpu=utilization.gpu', '--format=csv,noheader'], universal_newlines=True)
utilization = float(result.split('\n')[0].strip().rstrip('%'))
return utilization
except (subprocess.CalledProcessError, OSError):
return 0.0
def test_gpu_fan():
# 设置GPU设备
torch.cuda.set_device(0)
# 使用一个大型的矩阵进行计算,以增加GPU使用率
matrix_size = 10000
matrix = torch.randn(matrix_size, matrix_size).to(device)
while True:
# 连续计算两个随机矩阵的乘积
result = torch.mm(matrix, matrix)
result = torch.mm(result, matrix)
# 同步当前设备,确保所有计算已完成
torch.cuda.synchronize()
# 输出GPU使用率
utilization = get_gpu_utilization()
print("GPU使用率: {:.2f}%".format(utilization))
if __name__ == "__main__":
print("开始测试GPU风扇...")
test_gpu_fan()
このとき、GPU の使用率は非常に高くなりますが、このプロセス中にグラフィックス カードからノイズが発生しなければ、問題がないことを意味します。