PAAP’21においてMingluが発表

どうも~ M2のMingluです~

12月10日から12日にかけて12th International Symposium on Parallel Architectures, Algorithms and Programming (PAAP’21)が開催されました。
PAAPは学術界や産業界の科学者や技術者が、並列アーキテクチャ、アルゴリズム、プログラミング技術などのあらゆる側面における研究成果や開発活動を発表する国際会議です。
学会の詳細はここからご覧ください。

当研究室ではMingluがtrack05: Big Data Processing and Deep Learningにて研究成果を発表しました。

高橋慧智助教が着任しました

12月1日付けで滝沢研究室に助教として着任しました,高橋慧智 (たかはし けいち) です.本研究室に着任前は,奈良先端科学技術大学院大学 (NAIST) の助教として,高性能計算システムにおけるノード間通信の高速化や,ストレージI/Oの高速化に取り組んで参りました.詳細なプロフィールは,個人ウェブサイトをご覧ください.

研究室の一員として,全力で教育・研究に邁進していきますので,よろしくお願いします!

続・muffinについて

M1の金子です。3月ごろに紹介した研究室のサーバ”muffin”ですが、この数か月で少し面白い構成になったので紹介したいと思います。
3月当時は、muffinはFPGAのstratix10用のサーバとしてスタートしましたが、GPUのNVIDIA A100、そしてVEのSX-Aurora TSUBASA Type 20Bの合計3種類のアクセラレータを搭載した珍しい構成のマシンになりました。近年の異種プロセッサを複数搭載し、複雑化するHPCシステムの情勢を反映したような構成になり、今後の異種プロセッサ混合システムの研究で活躍してくれそうです。

左手前に見えるのがGPU、右手前がVE、左奥に見えるのがFPGAです。スロットは5カ所ありますが、ソーシャルディスタンスを保って配置されています。まだ挿せる場所が2か所あって、さらなるグレードアップもできそう!…な気もしますが、電源容量の問題でそう簡単にはいかず、今後どうなるかはまだわかりません。
続報があればまた記事にします

SC21について

今年の11月14日から19日にかけて、International Conference for High-Performance Computing, Networking, Storage, and Analysis (SC21)が開催されました。

昨年同様、東北大学はブースページを設け、研究内容に関するポスターやビデオなどを展示しました。

ブースの詳細情報はこちらご覧ください。

今年は研究室メンバーの発表はありませんが、研究室の学生は積極的に学会に参加し、研究室セミナーで気になったトピックや発表内容を共有しました。

気になったトピック
A high-performance tensor-based simulator for random quantum circuits [1]
An extension of the Message Passing Interface to enable high-performance implementations of distributed quantum algorithms [2]

A unified programming model for constraint satisfaction problems that can be mapped to both quantum circuit and annealing devices through QUBOs [3]

A scalable performance prediction toolkit for GPUs [4]
In-depth analyses of unified virtual memory system for GPU accelerated computing [5]

今後、このようなトップレベルの学会で、研究室のメンバーが発表できるようになることが期待されています。

参考文献

  1. Liu, Yong, et al. “Closing the” quantum supremacy” gap: achieving real-time simulation of a random quantum circuit using a new Sunway supercomputer.” Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021.
  2. Häner, Thomas, et al. “Distributed Quantum Computing with QMPI.” arXiv preprint arXiv:2105.01109 (2021).
  3. Wilson, Ellis, Frank Mueller, and Scott Pakin. “Mapping Constraint Problems onto Quantum Gate and Annealing Devices.”
  4. Arafa, Yehia, et al. “Hybrid, scalable, trace-driven performance modeling of GPGPUs.” Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021.
  5. Allen, Tyler, and Rong Ge. “In-depth analyses of unified virtual memory system for GPU accelerated computing.” Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021.

入退室システム完成!!

滝沢研修士1年の菅原駿平です。 昨今の情勢を鑑みて、研究室への入退室状況の記録を取るためのシステムを作り、先日稼働を開始しました。 これまではスプレッドシートに各々の入退室時間を記入していましたが、研究室のタッチキーを用いて自動で記入できるようになったため、手間が減って楽になったと思います。 稼働までに様々な不具合や改善点があり思ったより苦戦してしまいましたが、研究室メンバーの協力により現在は無事動作しています。ありがとうございます! 今はまだ研究室メンバーしか使うことができませんが、ご来賓の方も使えるよう改善する予定なので、研究室にお越しの際にはぜひ使ってみてください!

入退室システム

ケルヒャーが家族入り

こんにちは.M2 のしも (古畑) です。とうとう当研究室にも例の黄色い高水圧洗浄機がやってきました。早速、組み立てて使ってみました。なんということでしょう!床を覆っていた埃がなくなって、きれいな床が見えますよ!ピカピカです!これからの掃除がお手軽になりそうですね。今後の活躍にも注目です!

滝沢先生 (共著) が執筆した本が発売されました!

滝沢寛之 (共著) 先生が執筆した本 「ソフトウェア自動チューニング 科学技術計算のためのコード最適化技術」が9月18日に発売されました!ソフトウェア自動チューニングの各ツールの原理や使い方を紹介しています。研究や講義のお供に一冊いかがでしょうか?
https://www.morikita.co.jp/index.php/books/mid/087221

院試終わりました!!

8月末に大学院入試が終わりました。
B4の皆さんお疲れ様でした。
当研究室では、院試勉強期間が3ヶ月も与えられ、先輩達の過去問解答例が充実しております。
B4はこれから卒業研究にむけて頑張ります!!

B4院試お疲れ様会

こんにちは、B4の石井です。

現在、滝沢研究室に所属している学部4年生3名の院試合格が決まりました!
そこで院試お疲れ様会として打ち上げを開いていただきました。
緊急事態宣言中ということでオンライン上ではありましたが、とても盛り上がりました!

大学院に進学してからも頑張っていきたいと思います!

HOT CHIPS 33に参加しました。

滝沢研博士1年のLiuです。HOT CHIPS 33に参加しました。

HOT CHIPSは、高性能マイクロプロセッサと集積回路に関する半導体業界の主要な国際学会の一つです。今年は、有名企業や国立研究所の技術者やチップ設計者が最新の技術や製品を紹介・発表しました。今回の学会は、8月22日から24日までの3日間、オンラインで開催されました。

CPU、データプロセッサ、機械学習プラットフォームなどのセッションがあり、質の高いプレゼンテーションが数多くあり、多くのイノベーションや新技術が紹介されていました。

今年は、トップレベルの企業が新しいCPUを発表しました。この場をかりて、興味を持ったいくつかのトピックスとその感想を紹介します。

1. Intel Alder Lake

Alder Lakeは、Intel Coreプロセッサの最新世代です。コアの設計がこれまでとは全く異なります。PコアとEコアというアーキテクチャの異なる2つのコアを使い、ハイブリッドな性能を実現しています。

図1 PコアとEコア (出所: Intel)

Pコアはシングルおよび軽量スレッドのスケーラブルなアプリケーションで高い性能を発揮し、Eコアはマルチスレッドのアプリケーションで優れたスループットを発揮します。スケジューリングについては、IntelはThread Directorを使用して、適切なワークロードを適切なタイミングで適切なコアに配置します。PコアとEコアのサイクルあたりの命令実行数 (IPC) の違いに基づいて、アプリケーションは4つのクラスに分類されます。エネルギー効率や性能に関する情報は、定期的にEHFIテーブルに書き込まれ、OSのスケジューラが最適なコアの割り当てを選択します。Thread Directのアーキテクチャを以下に示します。

図2 Thread Director (出所: Intel)

2. AMD Zen3

Zen2と比較して、新世代は19%のIPC向上を達成しています。非常に大きい技術進歩です。図は、Zen3の主な変更点を示しています。

図3 Zen3コアとZen2コアを比較 (出所: AMD)

私にとって最も興味深いのは、Zen3のキャッシュ階層です。L3の総サイズは変わりませんが、コアごとの直接アクセスが2倍になり、実効メモリのレイテンシが減少しています。また、L2とL3のミスの少なさにも驚かされます。 また、3D V-cache技術により、L3は192MBと驚異的な容量となっています。

図4 Zen3のキャッシュ階層と3D V-cache技術 (出所: AMD)

3. IBM Telum

新しいIBM Zシステムは、Z15とはかなり異なっており、特にキャッシュ階層が異なっています。各コアには32MBのプライベートL2キャッシュがあり、これはZ15のL2キャッシュの8倍にあたります。しかしTelumでは、物理的なL3およびL4キャッシュは存在せず、IBMはL2を使用して仮想的なL3およびL4キャッシュを生成します。これにより、L3とL4の機能はそのままに、チップ面積とレイテンシーを大幅に削減し、コアあたりのキャッシュサイズをさらに向上させています。このような実装により、1ソケットあたり40%以上の性能向上を実現しています。

図5 IBM Telumのキャッシュ階層 (出所: IBM)

4. Intel Xeon Sapphire Rapids

近年、プロセッサーの設計では、モジュラー・アーキテクチャーが普及しています。これは、ダイサイズが小さければ小さいほど、チップ製造における歩留まりが良くなるためです。Sapphire Rapidsでは、EMIB技術を用いてマルチタイルデザインを実現しています。各タイルに搭載されているアクセラレーション・エンジンは重要な部品のひとつです。データストリーミング、クイックアシスト技術、ダイナミックロードバランサーなどを搭載し、コモンモードタスクのオフロードをサポートしています。

図6 Sapphire Rapids (出所: Intel)

また、今回は共有LLCも増え、2つのモード (フラット、キャッシング) を持つHBMについても言及されています。

まだまだ、全てを紹介しきれないほどの素晴らしい発表がありました。例えば、SamsungのHBM2-PIM、チップレットと3Dパッケージング、などなどですね。今回の学会では、多くの刺激的なアイデアや技術を学ぶことができました。私は、創造性と改善を達成するための努力に感銘を受けました。これらの新しいアーキテクチャやアイデアは、チップ設計分野における人気のあるトレンドを示しており、私自身の研究にも大いに役立つと思います。