The book written by Prof. Takizawa (co-author), will be released soon!

The book “Software Auto-Tuning: Code Optimization Techniques for Scientific and Technical Computing” authored by Prof. Hiroyuki Takizawa (co-author) will be released soon! The book introduces the principles and usage of each tool for software auto-tuning. We recommend this for your research or lectures to improve your work!
https://www.morikita.co.jp/index.php/books/mid/087221

滝沢先生 (共著) が執筆した本が発売されました!

滝沢寛之 (共著) 先生が執筆した本 「ソフトウェア自動チューニング 科学技術計算のためのコード最適化技術」が9月18日に発売されました!ソフトウェア自動チューニングの各ツールの原理や使い方を紹介しています。研究や講義のお供に一冊いかがでしょうか?
https://www.morikita.co.jp/index.php/books/mid/087221

Congratulations to B4 students for passing the entrance exam

The entrance exam for graduate school was conducted at the end of August.
Thank all B4 students for your hard-working.
In our lab, we have been given 3 months to prepare for this entrance exam. There are many examples of past questions from our seniors.
B4 students are now working hard for their graduation research!

院試終わりました!!

8月末に大学院入試が終わりました。
B4の皆さんお疲れ様でした。
当研究室では、院試勉強期間が3ヶ月も与えられ、先輩達の過去問解答例が充実しております。
B4はこれから卒業研究にむけて頑張ります!!

B4院試お疲れ様会

こんにちは、B4の石井です。

現在、滝沢研究室に所属している学部4年生3名の院試合格が決まりました!
そこで院試お疲れ様会として打ち上げを開いていただきました。
緊急事態宣言中ということでオンライン上ではありましたが、とても盛り上がりました!

大学院に進学してからも頑張っていきたいと思います!

We had a celebration for B4 students

Hello, this is Ishii, a 4th-year undergraduate (B4) student.

Recently, three B4 students in our lab successfully passed the entrance exam for graduate school, congratulations!
To celebrate the good news, our lab had a party on September 15th.
Although the party was held virtually due to the COVID-19, we really enjoyed it and had a great time.

After passing the exam, I am still going to do my best and get well-prepared for becoming a graduate student.

A note about attending HOT CHIPS 33 by Liu

HOT CHIPS is one of the semiconductor industry’s leading conferences on high-performance microprocessors and related integrated circuits. This year, the latest technologies and products were introduced and presented by engineers and chip designers from famous corporations and national laboratories. The conference was held virtually from August 22nd to 24th.

It had several sessions including CPUs, data processors, machine learning platforms, and etc. There were many innovations and technical improvements introduced in high-quality presentations.

This year, several top-level corporations brought their new CPUs. Here, I am going to share some topics I am interested in and my impressions.

1. Intel Alder Lake

Alder Lake is the newest generation of Intel Core processors. The core design is totally different from the past. It uses two different cores with different architectures, P-core and E-core, to achieve the performance hybrid.

Fig.1 P Core and E Core (source: Intel)

P-core delivers higher performance on single and lightly threaded scalable applications, while E-core provides better throughput on multi-threaded applications. For the scheduling, Intel uses the Thread Director to put the right workload on the right core at the right time. Based on the IPC differences between P-core and E-core, applications are classified into 4 classes. The information on energy efficiency and performance is periodically written into the EHFI table. Then the OS scheduler selects the best core allocation. The Thread Direct architecture is shown as follows.

Fig.2 Thread Director (source: Intel)

2. AMD Zen3

Compared to Zen2, the new generation achieves 19% IPC improvement, which is awesome. The figure shows major changes in Zen3.

Fig.3 Comparison between Zen3 and Zen2 (source: AMD)

The most interesting part for me is the Zen3 cache hierarchy. Although the total size of the L3 is not changed, the direct accessibility per core becomes twice, which brings the reduction in effective memory latency. The outstanding misses of L2 and L3 are also amazing.  Besides, their 3D V-cache technology makes the L3 192MB, which is a surprising capacity.

Fig.4 Zen3 Cache Hierarchy and 3D V-Cache (source: AMD)

3. IBM Telum

The new IBM Z system is quite different from Z15, especially the cache hierarchy. Each core has a private 32MB L2 cache, which is 8 times larger than the L2 cache in Z15. However, in Telum, there are no physical L3 and L4 caches, instead, IBM uses L2 to generate virtual L3 and L4 caches. This inspiring design greatly saves chip areas and latencies of L3 and L4, while still remains their functions, and further improves cache size per core. With such implementation, the system can achieve over 40% per socket performance growth.

Fig.5 IBM Telum Cache Hierarchy (source: IBM)

4. Intel Xeon Sapphire Rapids

Recently, modular architecture has become popular in processor design. This is because a smaller die size can bring better yield in the chip fabrication. Thus, Sapphire Rapids uses EMIB technology to achieve a multi-tile design. The acceleration engine in each tile is one important part. It includes data streaming, quick assist technology, and dynamic load balancer, and supports common-mode tasks offload.

Fig.6 Sapphire Rapids (source: Intel)

In addition, the shared LLC is also increased this time, and the HBM with 2 modes (flat or caching) are mentioned.

There are still many brilliant presentations that I cannot introduce all. For example, Samsung’s HBM2-PIM, the chiplet and 3D packaging, and etc. From this conference, I have learned a great number of inspiring ideas and technologies. I am impressed by their creations and efforts in achieving improvements. These new architectures and ideas show me popular trends in chip design fields and will help a lot for my own research.

HOT CHIPS 33に参加しました。

滝沢研博士1年のLiuです。HOT CHIPS 33に参加しました。

HOT CHIPSは、高性能マイクロプロセッサと集積回路に関する半導体業界の主要な国際学会の一つです。今年は、有名企業や国立研究所の技術者やチップ設計者が最新の技術や製品を紹介・発表しました。今回の学会は、8月22日から24日までの3日間、オンラインで開催されました。

CPU、データプロセッサ、機械学習プラットフォームなどのセッションがあり、質の高いプレゼンテーションが数多くあり、多くのイノベーションや新技術が紹介されていました。

今年は、トップレベルの企業が新しいCPUを発表しました。この場をかりて、興味を持ったいくつかのトピックスとその感想を紹介します。

1. Intel Alder Lake

Alder Lakeは、Intel Coreプロセッサの最新世代です。コアの設計がこれまでとは全く異なります。PコアとEコアというアーキテクチャの異なる2つのコアを使い、ハイブリッドな性能を実現しています。

図1 PコアとEコア (出所: Intel)

Pコアはシングルおよび軽量スレッドのスケーラブルなアプリケーションで高い性能を発揮し、Eコアはマルチスレッドのアプリケーションで優れたスループットを発揮します。スケジューリングについては、IntelはThread Directorを使用して、適切なワークロードを適切なタイミングで適切なコアに配置します。PコアとEコアのサイクルあたりの命令実行数 (IPC) の違いに基づいて、アプリケーションは4つのクラスに分類されます。エネルギー効率や性能に関する情報は、定期的にEHFIテーブルに書き込まれ、OSのスケジューラが最適なコアの割り当てを選択します。Thread Directのアーキテクチャを以下に示します。

図2 Thread Director (出所: Intel)

2. AMD Zen3

Zen2と比較して、新世代は19%のIPC向上を達成しています。非常に大きい技術進歩です。図は、Zen3の主な変更点を示しています。

図3 Zen3コアとZen2コアを比較 (出所: AMD)

私にとって最も興味深いのは、Zen3のキャッシュ階層です。L3の総サイズは変わりませんが、コアごとの直接アクセスが2倍になり、実効メモリのレイテンシが減少しています。また、L2とL3のミスの少なさにも驚かされます。 また、3D V-cache技術により、L3は192MBと驚異的な容量となっています。

図4 Zen3のキャッシュ階層と3D V-cache技術 (出所: AMD)

3. IBM Telum

新しいIBM Zシステムは、Z15とはかなり異なっており、特にキャッシュ階層が異なっています。各コアには32MBのプライベートL2キャッシュがあり、これはZ15のL2キャッシュの8倍にあたります。しかしTelumでは、物理的なL3およびL4キャッシュは存在せず、IBMはL2を使用して仮想的なL3およびL4キャッシュを生成します。これにより、L3とL4の機能はそのままに、チップ面積とレイテンシーを大幅に削減し、コアあたりのキャッシュサイズをさらに向上させています。このような実装により、1ソケットあたり40%以上の性能向上を実現しています。

図5 IBM Telumのキャッシュ階層 (出所: IBM)

4. Intel Xeon Sapphire Rapids

近年、プロセッサーの設計では、モジュラー・アーキテクチャーが普及しています。これは、ダイサイズが小さければ小さいほど、チップ製造における歩留まりが良くなるためです。Sapphire Rapidsでは、EMIB技術を用いてマルチタイルデザインを実現しています。各タイルに搭載されているアクセラレーション・エンジンは重要な部品のひとつです。データストリーミング、クイックアシスト技術、ダイナミックロードバランサーなどを搭載し、コモンモードタスクのオフロードをサポートしています。

図6 Sapphire Rapids (出所: Intel)

また、今回は共有LLCも増え、2つのモード (フラット、キャッシング) を持つHBMについても言及されています。

まだまだ、全てを紹介しきれないほどの素晴らしい発表がありました。例えば、SamsungのHBM2-PIM、チップレットと3Dパッケージング、などなどですね。今回の学会では、多くの刺激的なアイデアや技術を学ぶことができました。私は、創造性と改善を達成するための努力に感銘を受けました。これらの新しいアーキテクチャやアイデアは、チップ設計分野における人気のあるトレンドを示しており、私自身の研究にも大いに役立つと思います。

B3 study sessions are finished!

Hello there, long time no see. This is mellow.
Just around 1 hour before writing this article, we had the this year’s final, 8th, study session for B3 students.

What are B3 study sessions

As we’ve already explained in the page For Prospective Students, Takizawa lab prepares various educational programs for students who are new to the lab.
This year, we welcomed three B3 and one M1 freshmen to our lab. Thus, we had the study sessions for these four freshmen.

This year’s study session

In total, 8 study sessions were held this year with different and useful themes.

Date Tutor Content
17th June Kaneko Environment Construction
24th June Kaneko Git & GitHub
1st July Matsuse LaTeX
8th July Sugawara C
9th July Sasaki Parallelization
15th July Furuhata Singularity
29th July Satake Python
5th Aug Minglu Machine Learning

Each study sessions were like the following photo.

Hope what students have learned in these sessions can help with their further research activities in our lab.
That’s all here. Enjoy your summer vacation~

今年度のB3講習会が終了しました!

皆さん久しぶりです~ M2のめろちゃんです~
この記事を書いている1時間くらい前に、今年度のB3講習会の最終回が無事に終わりました(パチパチ)

B3講習会とは

配属を希望するみなさんへのページにも説明がありますが、滝沢研ではB3やM1の新しく研究室に配属された、いわゆる研究室新入生のための充実した教育プログラムが用意されています。
今年度はB3の学生3名とM1の学生が1名が滝沢研に配属されました(パチパチ)。合計4名の研究室新入生に講習会・勉強会を行いました。

今年度の講習会

今年度は、合計8回の講習会がありました。

日付 講師 内容
17th June 金子 環境構築
24th June 金子 Git & GitHub
1st July 松瀬 LaTeX
8th July 菅原 C
9th July 佐々木 並列
15th July 古畑 Singularity
29th July 佐竹 Python
5th Aug Minglu 機械学習

それぞれの講習会はこんな感じでした。

講習会で勉強した内容が本番の研究をするときにちゃんと役に立ってくれれば嬉しいですね。
それでは、良い夏休みを~