A100を導入しました

どうも~A100を購入すると聞いた時の驚きが未だに消えないM1のミンルです~
とうとう、うちの研究室もA100 GPUを導入しました(。・ω・ノノ゙パチパチ 見た目からのこの輝き本当に凄いですね。
せっかくなので、既存のRTX 2080Tiを搭載したサーバーにA100を追加してみました。

 
さてさて、A100と言ったらやはりその性能が気になりますね!早速、CIFAR-100とCNNで走ってみました~
モデルの学習時間(20エポックと100エポック)は左側の図の通りです。やはりCPUより圧倒的に速いですね。
ただ、20エポックの時2080Tiより速いのは予想通りですけど、100エポックの時は逆に遅くなってきましたね。
その理由を調べるため、各ステップごとの実行時間を調べてみました。結果は右側の図の通りです。最初の数十エポックはA100の方が速くて、後ろになるとどんどん遅くなってきましたね。
その理由はですね、なんと!排熱が追いついてないんです。(悲しみ)
RTX2080Tiの方はずっと26度から40度あたりに対して、A100は34度からほんの一瞬で80度突破ですよ。(えぐい)

今回の結論としては:
A100の性能は本当に優秀だけど、良い排熱環境がないとその性能を引き出せませんでした。(涙)