ハードウェア技術の動向　2015/02/02

ハードウェア技術の動向
第五回
マルレク

Agenda
 Mooreの法則とマルチコアの時代
 マルチコアの時代の終わりと新しい模索
 半導体各社の動向
 FPGAの利用の拡大
 おわりにハードとソフトの境界領域の課題
 参考資料：検索でのFPGAの利用

Mooreの法則とマルチコアの時代
2005年〜2015年
Part I

Part I
Mooreの法則とマルチコアの時代
 Mooreの法則とマルチコア化の進行
 メニコア・チップの3方向への進化
 クラウド・ハードウェアの専用化
 モバイル・ハードウェアのSoC化
 CPU アークテクチャーの変化

Mooreの法則とマルチコア化の進行

チップ上のトランジス
ター数の増大は、や
むことなく進んでいる
ムーアの法則

Mooreの法則で
チップは、こんなにも小さくなった
モバイル用
Cortex A7 MP2
1.3GHz, 2.2mm2
ハイエンド
ウエアラブル用
Cortex A7 MP2
500MHz, 1.1mm2

Mooreの法則で
チップは、こんなにも小さくなった
Cortex A7 UP
500MHz, 0.36mm2
IOT用
Cortex M0
40MHz, 0.05mm2
ハイエンド
Cortex A7 MP2
500MHz, 1.1mm2
モバイル用
Cortex A7 MP2
1.3GHz, 2.2mm2

トランジスター数の増大を
チップのパワーにどう生かすか？
 トランジスター数の増大は、自動的にチップのパ
ワーを増大させる訳ではない。そこには、いくつか
の選択肢がある。
 コアの処理能力を高める
 パイプライン処理の強化
 vector演算等新しい命令の追加
 ....
 キャッシュを拡大する
 コアの数を増やす
 ....

チップのクロックは、
頭打ちの状態

チップのクロックの問題
 チップの性能をあげる、最もストレートな方法は、
クロックの周波数を上げることである。しかし、そ
こには、いくつかの大きな問題がある。
 消費電力の増大/発熱の問題
 高い周波数の為には、高い電圧が必要になるが、
リーク電流も増大し、性能が低下する
 光のスピードでしか情報は伝わらないので、原理
的には、チップの大きさが限界を与える。
 消費電力の増大の問題は、決定的に重要。

“New Microarchitecture Challenges in the Coming Generations of
CMOS Process Technologies” http://bit.ly/1zPzu0s ACM 1999

“Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y

コアの増大は、2005年
あたりから顕著に

メニコア・チップの2方向への進化
メニコア・チップの3方向への進化
Many core GPU Many core CPU
Mobile Hetero System

Ra
nk
Site System Cores Rmax Rpeak
1 National
University
of Defense
Technology
China
Tianhe-2
(MilkyWay-2) -
TH-IVB-FEP
Cluster, Intel Xeon
E5-2692 12C
2.200GHz, TH
Express-2, Intel
Xeon Phi 31S1P
NUDT
3120000 33862.
7
54902.
4
2 DOE/SC/Oa
k Ridge
National
Laboratory
United
States
Titan - Cray XK7 ,
Opteron 6274 16C
2.200GHz, Cray
Gemini
interconnect,
NVIDIA K20x
Cray Inc.
560640 17590.
0
27112.
5
Top 500 2014 November

CPUとGPUのアーキテクチャーの違い
CPUとGPUは、基本的には、異なるデザイン思想に基づいてている。

CPU: 低遅延を意識した設計
 大きなキャッシュ
 メモリーアクセスの長い遅
延をキャッシュで短かな遅
延に変える
 高度な制御
 分岐遅延を軽減する為の
分岐予測・投機的実行
 データ遅延を軽減する為の
データ先読み
 強力な演算機能
 演算の遅延を軽減する
Cache
ALU
Control
ALU
ALU
ALU
DRAM
CPU

GPU: 高スループットを意識した設計
 小さなキャッシュ
 メモリーのスループットを高める
 単純な制御
 分岐予測なし
 データの先読みなし
 エネルギー効率のいい演算
機能
 遅延に打ち勝つために大量
スレッドを必要とする
DRAM
GPU

L2 キャッシュ
PCI Express 3.0 Interface
MemoryController
MemoryController
SMX x 15
SMX x 15, Memory Controller x 6
NVIDIA Kepler
2,880 GPU core

MobileのHetero化・SoC化
CPUとGPUが、一つのチップに
 遅延が問題となる、
シーケンシャルな実行
の部分ではCPUを使う
 シーケンシャルなコー
ドでは、CPUはGPUの
１０倍以上早い
 スループットが重要と
なるパラレルな実行の
部分では、GPUを使う
 パラレルなコードでは、
GPUはCPUの１０倍以
上早い
Mobile Heterogeneous System

Tegra X1
64 bit CPU A57
x 4
32 bit CPU A53
x 4
Maxwell GPU
core x 256

クラウド・ハードウェアの専用化
クラウド登場の最初期には、クラウドを構成するマシ
ンと、クラウドの主要なクライアントであったPCとの違
いは、質的には、大きなものではなかった。その最大
の違いは、クラウドのマシンの巨大な集積の規模、い
わば、量的なものであった。

創成期のクラウド・サーバー

カスタム化されたクラウド・サーバー

サーバー用チップの専用化
 Googleのサーバーが、カスタムボードを使い始めるのは
いつ頃からだったのかは、よくわからない。2003年には、
そういう記述はある。
 明らかなのは、2005年頃から始まる CPUのマルチコア
化とそのコスト・パフォーマンスの向上の恩恵を、もっとも
受けたのは、それを受容した、クラウドのプレーヤである。
 チップの「専用化」は、まず、クラウドのサーバーCPUのマ
ルチコア化として起きた。もちろん、それをドライブしたの
は、クラウドの規模拡大である。サーバー用マルチコアは、
クラウドという新しい顧客と新しい市場を発見したのだ。
 ただし、母胎になったPCのCPUは、Dual Core化は早
かったものの、それ以上のマルチコア化は進んだわけで
はなかった。

Scale-out Architectureの変化
 この間、少し、反省したこと。クラウドのScale out
Architecture を、「コモディティ化したマシンを沢山並べ
る」と、特徴付けてきたが、それはGoogleが登場した時
代には妥当だったのだと思うが、今は、違うのだ。
 現在、クラウドを構成しているのは、サーバー用に専用に
作られたチップでありマシンである。
 ただし、Homogeneousなマシンを多数並べるというクラ
ウドのScale-out Architectureのもう一つの特徴は、引
き継がれている。
 現在、最も「コモディティ化」したマシンは、かつてのScale
outの母体となったPCではなく、また、クラウドのサーバー
マシンでもなく、70億人が持つ携帯・スマートフォンである。
（Microserver!）

モバイルは、人類史上最大の
プラットフォーム

モバイル・ハードウェアのSoC化
“Mobile Processor Design Pitfalls”
SICS 2014 Qualcomm
http://bit.ly/1yFQSTi

モバイルのハードの進化
 2007年にiPhone、2008年にAndroidが登場する。ス
マホには、CPU・メモリーだけでなく、多数のセンサー・通
信用モジュール・マルチメディアモジュール・電源管理モ
ジュールが必要となる。
 サーバーの「専用チップ化」からは、少し遅れるが、サー
バーのマルチコア化を可能とした半導体技術は、モバイ
ルにも投入され、様々な機能は、Heteroなモジュールか
らなるSoC(System on a Chip)として実現されるように
なる。しかも低電力の。
 この進化は、同時期のPCやサーバー側のチップの変化よ
り、ドラスティックなものである。モバイルのハードは、PC
とは異なる進化の道を歩むようになる。

PCとモバイルのプロセッサー
歴史的には、モバイルのプロセ
ッサーは、PCに数年遅れていた。
ただし、現在（2014年）では、処
理能力でもメモリーのアクセス・
スピードでも、PCに並び、コア数
では、それを追い越している。
処理速度
コア数メモリー・アクセス

Qualcomm のフラグシップ・モバイルCPUの
パフォーマンスの変化
指数関数的に、スピードアップしている

Heterogeneous System としての
Mobile SoC
 CPU Complex
 Multimedia
 Display, Camera
 GPU
 UI, Audio, Video, ...
 I/O & Sensors
 SD, Touch Screen, USB, UART, ...
 Modem
 HSPA+, LTE
 WLAN, BT, FM
 GPS
 Power Ctrl
 たくさんのタイプの、
たくさんのプロセッ
サーが存在している。
 こうした機能分離は、
セキュリティーと並列
性を高め、また、機
能ごとの効率的な電
力管理を容易にして
いる。
 その分、ハードウェア
とソフトウェアの開発
は、難しくなる。

 たくさんのタイプの、
たくさんのプロセッ
サーが存在している。
 こうした機能分離は、
セキュリティーと並列
性を高め、また、機
能ごとの効率的な電
力管理を容易にして
いる。
 その分、ハードウェア
とソフトウェアの開発
は、難しくなる。
Heterogeneous
System

Qualcomm Snapdragon 800
 Quad core Krait 400 CPU at up to
2.3GHz per core, 28nm HPm
 Adreno 330 GPU
 USB 3.0対応

Samsung Exynos 5 Octa
(Exynos 5420)
 CPU: ARM Cortex-A15 x4コア + Cortex-
A7 x4コアのbig.LITTLEオクタコア構成
 GPU: Mali-T628 (８コア)
 新モデル：８コアが同時に
動く、「Heterogeneous
Multi-Processing (HMP)
」機能 2013年9月発表

ハードウェア技術の動向　2015/02/02

Tegra K1 Nexus 9
CPU: 64bit x 2
GPU: 72 core

CPU アークテクチャーの変化

CPU アークテクチャーの変化
 21世紀初頭のマルチコアの時代、クラウド側のCPUは、
サーバー専用のマルチコア CPUに進化し、モバイル側の
CPUは、モバイル専用のHeterogeneousなSoCに進化
した。
 クラウドとモバイルの二つのドメインで、それぞれのドメイ
ンに特化・専用化して、ハードの主要な進化は二つの流
れへ分岐した。PC市場の縮小に伴って、PCに使われてい
た技術は、停滞した。
 それぞれのドメインでの競争の中で、20世紀末には多数
存在していたCPUのアーキテクチャーの多くは、淘汰され
姿を消した。クラウド/サーバー側ではIntel、モバイル側
ではARMのアーキテクチャーが突出した勢力となった。

マルチコアの時代の終わりと
新しい模索
2015年〜
Part II

Part II
マルチコアの時代の終わりと新しい模索
 Dark Siliconとマルチコアの時代の終わり
 Mooreの法則に対する楽観論と懐疑論
 Heterogeneous System Architecture
Foundation
 3D積層技術
 Silicon Photonics Technology
 Micro Server
 Heterogeneous Systemの
「進化」としての Project Ara

Dark Siliconと
マルチコアの時代の終わり

“Dark Silicon and the End of Multicore
Scaling”
 「PARSECのベンチマークと ITRSのスケール予想を用い
て、この研究は、現在から2024年の 8 nmの間の平均
のスピードアップは、最良の場合で7.9倍だと予想した。こ
の結果は、年間のパフォーマンスの改善が、16%である
と言い換えられる。」
 「しかしながら ... こうした控えめなスケール予想でも、
（Mooreの法則に基づく）理想的な性能向上の半分は、
消え去ってしまう。8 nmへの道が2018年には達成され
るとすると、高度に並列化されたコードを用いて、ベンチ
マーク用に最適化を施した最良の場合で、平均3.7倍の
スピードアップ。1年あたりでは14%という結果になる。実
際には、もっと低くなるのは確実だろう。」
ISCA 2011 http://bit.ly/15D4HY7
Mooreの法則では、年あたり40%の改善が必要

Dark Silicon?
 「ダークシリコンとは、消費電力の制約から、シリコンチッ
プ上で電力を供給してオンにできないエリアのことを示す。
実質的にCPUと同時にオンにできないエリアであり、何も
しなければ使うことができないムダなエリアとなってしま
う。」
 「理由は、チップ上の回路の電力消費が、プロセスの微細
化ほどスケールダウンしないためだ。微細化とともにCPU
コアが小さくなって行っても、電力はそれに見合うほど小さ
くならない。そのために、チップに載せることができるCPU
コア数が、段々と減って行く。」
後藤弘茂 http://bit.ly/1BO5YZt

”Compute Power with Energy Efficiency”
AFDS 2012 http://bit.ly/1GFr8w3 by ARM

Dark Silicon黙示録への対応
四人の騎士
 THE SHRINKING HORSEMAN
 半導体の面積は高価なもの。チップのデザイナーは、
シリコンのデザインの中で、Dark Siliconを持つ代わ
りに、ただただ、小さなチップを作ればいい。
 THE DIM HORSEMAN
 電力の予算を超える、homogeneousなコアでチップ
を埋めよう。ただし、その一部のコアにはロックをかけ
る（空間的ディミング）か、あるいは、バースト時にだけ
（時間的ディミング）、すべてのコアを利用する。

Dark Silicon黙示録への対応
四人の騎士
 THE SPECIALIZED HORSEMAN
 我々は、すべてのDark Siliconの領域を専用コアとし
て利用する。それぞれは、必要なタスク用に（10-100
倍エネルギー効率がいいように）チューンされている。
そして、必要な時にだけオンにされる。
 THE DEUS EX MACHINA HORSEMAN
 可能な “CMOSを超える” デバイスを目指す方向。
（まだ、そんなものはないと思うが）

Shrink Dim Specialized Beyond
CMOS

Mooreの法則に対する
楽観論と懐疑論

Mooreの法則についての楽観論
”Multi Core Trends in High Performance
Computing” SICS 2014 http://bit.ly/1GFaoVQ
Mooreの法則は続いている！

Mooreの法則についての楽観論
”Multi Core Trends in High Performance
Computing” SICS 2014 http://bit.ly/1GFaoVQ

Mooreの法則についての懐疑論
”Compute Power with Energy Efficiency” AFDS 2012
http://bit.ly/1GFr8w3 by ARM
Mooreの法則は、死んではいない
Mooreの法則のあるバージョン
は、この10年の間は、正しいだ
ろう。
しかし、その効果は、ますます小
さなものになり、ますます重要では
なくなる。
過去には、製造技術とMooreの法則が、消費電力とパフォーマンスと面積の
改善を、我々に無償で提供してくれていた。
ただ、これ以上は期待できない。

http://bit.ly/1GFr8w3
http://bit.ly/1GFr8w3 ARMの見解

それでは、我々に何ができるか？
我々は、もっと多くのトランジスタを持つことができる。
我々は、それら全てに同時に電力を供給できない。
我々は、それらの余分なトランジスタを新しいやり方で
使う必要がある。
• マルチ・コア
• メニー・コア
• ドメイン専用のプロセッサー
それらは全てHeterogeneousな処理の方向を
向いている。積極的な電力管理のもとで。
計算は、最も効率的な場所で行われるべきせある。

Mooreの法則についての悲観論
”Transitioning from the Era of Multicore to the Era of
Specialization” SICS 2014 http://bit.ly/1BOIEuC
Mooreの法則は、終わりつつある
経済が、ますます大きな力で、半導体の
エコシステムをドライブしている。
最先端の製造工場を持つベンダーの数は、
縮小している。
性能を上げるためのコストは、増大する
だろう。
ハードウェアの専用化は、重要な課題に
なるだろう。
ノードのトランジスターあたりのコスト

マルチコアの時代から専用化の時代への移行
SICS 2014 http://bit.ly/1BOIEuC

Heterogeneous System
Architecture Foundation
AMD, ARM, Qualcomm, Samsung 他
のベンダーは、ポストMulticore時代を見据えて、
Heterogeneous System Architecture
Foundationを設立する。
ただ、HSA Foundationに、Intel, NVIDIAは参加
していない。

HSA Foundation
http://www.hsafoundation.com/

HSA (Heterogeneous System
Architecture) Foundation
 2012年 6月設立
 AMD, ARM Holdings, Qualcomm,
Samsung, Imagination Technologies,
MediaTek, Texas Instruments 他
 HSA Platform System Architecture
Specification http://bit.ly/1Jx4nXf
 HSA Programmer Reference Manual
Specification http://bit.ly/1t9EOJH
 HSA Runtime Specification
http://bit.ly/1yb14OV

Heterogeneous
System Architecture: Goals
 CPU/GPU のプログラム可能性の障壁を取り除く
 CPU/GPU の通信の遅延を削減する
 既存のプログラミングモデルを可能とすることで、
より広い範囲のアプリケーションに対してプログラ
ミングプラットフォームの門戸を開く
 CPU/GPUを超えた処理要素の追加を含んだ基
礎を作り出す

Heterogeneous
System Architecture: Features
 共有ページテーブルのサポート
 ページの切り替え
 ユーザー・レベルのコマンドのキューイング
 ハードウェア・スケジューリング
 コヒーレントなメモリー領域

これまでのメモリーシステム
・すべてのGPUのメモリーがCPUからアク
セスできるわけではない
・GPUのLocal Frame Bufferは、作業用
に十分な大きさを持っていない
・デマンドpagingの機能がないので、GPU
との通信を高速に行うためには、page out
しないpinnedメモリー領域を確保する必要
がある
HSA IOMMUv2
・CPUとDMAでのcopyを減らせる
・GPUは、システムのメモリー空間に直接
アクセスできる
HSAのメモリー空間

これまで、CPUとGPUのメモリー空間は
分離していた

GPUの処理は、GPUのメモリー空間で
行われていた

HSAでは、GPUからシステムのメモリー空間
に直接アクセスできる

GPUの処理は、システムのメモリー空間の
ポインターを返すことができる

CPUとGPUは、お互いのコマンドを、キューイング
できる
CPU
GPU
CPU GPU

NVIDIAのNVLINKも、同じようにCPUとGPUが
システムメモリーを共有することを目指している

Intel Custom Foundry の積層技術

NVIDIAのPASCALも3Dメモリーを使う

“Time to Rethink DDR4” http://bit.ly/1tfN8aD
DDR4は、Stacked ＤＲＡＭ対応

“Time to Rethink DDR4” http://bit.ly/1tfN8aD

現時点でのProject Araのコネクターは、バネ付きの接触型
のものだが .....

製品版では、非接触型のものに変わる

Silicon Photonics Technology
IDF 2014

データセンターは、新しいデバイスのために拡大している

ラック内の接続が、現在の10~40G
から、25G~100Gになる
銅線では、
3mまでで、25G
2mまでで、３２G
が限界

データセンターは、世界につながっている

Gilderの予想
ネットワークがコンピ
ュータの内部バスと
同じぐらい早くなれ
ば、マシンは、特定
の目的を持ったデバ
イスのあつまりへと
ネットワーク上で
分解するだろう。

新しいデータセンターを可能に
するためには、何が必要か？
統合されたスケーラブルなSilicon photonics
経済的で革新的なケーブルとコネクター
高品質で、サーバーに優しいパケージング
コスト効率のよいサーバー・アーキテクチャーと
ネットワークとリソースプールで利点があること
データセンターを前進させるために鍵となる要素

この取り組みは、「もっとも
コモディティ化したマシン」
のScale-outの試みだと
思うと面白い。

Heterogeneous Systemの
「進化」としての Project Ara

レシーバー
ディスプレー
カメラ
WiFi
USB
アンテナ
3Gラジオ
AP+GPS
バッテリー
スピーカー
Project Ara プロトタイプ

アプリケーション
プロセッサー
モジュール
ディスプレー
モジュール
カメラ
モジュール
WiFi
モジュール
ストレージ
モジュール
バッテリー
モジュール
通信
モジュール
医療用
モジュール
Uni-Pro Switch

予告 Project Ara 勉強会
主催：マルレク＋日本Androidの会＋BLEガジェット勉強会
開催日時：2015年2月26日 18:30〜
開催場所：東海大学高輪校舎
申し込みページ：準備中です。
セッション概要 (予定)：
 Project Araが目指すハードウェア・エコシステム
 MDKとUniProネットワーク
 開発ツールMetamorphosys
 3Dプリンターの動向
 その他

半導体各社の動向
 Intel
 NVIDIA
 IBM
 AMD
 Oracle
Part III

Intel
Intel Xeon E5-2600 v3 22nm 18 core

Intel IDF 2014 Key Note
2020年には、500億のデバイス

Intelのウェアラブル MICA

世界のデータセンター、1日に1兆トランザクション

Health Care Data 2020年 Exa-scale

ガン研究での遺伝子治療

2020年には、1日でガン治療薬を処方できる

すべてのプラットフォームに対応

Intel Xeon E5-2600 v3
“How to Build Next-Generation Data
Center Infrastructure”
http://intel.ly/1urN2ba

New Compute-Optimized EC2
Instances http://amzn.to/1yGqaKm
 The new C4 instances are based on the Intel
Xeon E5-2666 v3 (code name Haswell)
processor. This custom processor, designed
specifically for EC2, runs at a base speed of 2.9
GHz, and can achieve clock speeds as high as
3.5 GHz with Turbo boost.

Intel Xeon E5-2600 v3
 製造プロセス： 22nm
 コア数： 18、12、8
 LLCキャッシュ/core ： 2.5MB
 LLCキャッシュ: 45MB/30MB/20MB
 最大メモリー： 1.5TB
 メモリー： DDR4-2133
 PCI Express： PCI Express Gen3

サーバーのパフォーマンスの向上
 3倍以上のパフォーマンスの向上
 Intel® Advanced Vector Extensions 2 (Intel
AVX2)では、1.9倍以上の向上
 バーチャル・マシンの数は、1.7倍に増大
 DDR4で、メモリーの帯域は 1.4倍に
 PCIe 3.0のサポートで、2倍以上の帯域拡大
 コア数・キャッシュは、1.5倍に

仮想化のパフォーマンス向上
 仮想化のパフォーマンス、50%向上
 システムのオーバーヘッドが少ないVMは exit さ
せて、VMの数を削減する
 Advanced Programmable Interrupt
Controller Virtualization (APICv)
 Intel Virtual Machine Control Structure
(VMCS) Shadowing
 Cache Monitoring
 Intel Virtualization Technology (Intel VT)

Unified Networkingと
Virtualized networking
 Intel Integrated I/O
 Intel Data Direct I/O (Intel DDIO)
 Intel Virtualization Technology for Connectivity
(Intel VT-c)
 Intel Ethernet Flow Director
 Intel QuickAssist Technology
 Intel Data Plane Development Kit (Intel DPDK)

Scale-outするストレージでの
効率的なデータ管理
 Intel Rapid Storage Technology Enterprise 3.x
(Intel RSTe)
 Intel Cache Acceleration Software (Intel CAS)
 Intel Intelligent Storage Acceleration Library
(Intel ISA-L), Intel QuickData Technology, and
RAID-5 Acceleration Engine

サイバー上の脅威に対する防御策
 Intel Platform Protection
 Intel Platform Protection Technology (with Trusted
 Execution Technology [TXT])
 Intel Platform Protection Technology (with BIOS
Guard)
 Intel Platform Protection Technology (with OS Guard)
 Intel Platform Protection Technology (with XD Bit)
 Intel Data Protection Technology
 Intel Data Protection Technology (with Advanced
Encryption Standard New Instructions [Intel AES-NI])
 Intel Data Protection Technology (with Secure Key)

電力管理
 24%以上の電力削減（前世代のIntel Xeon プロセッ
サー・ベースのサーバーに対して）
 200%(3倍)のエネルギー効率（4年前の典型的なサー
バーに対して）

NVIDIA
Tegra K1 64bit CPU x 2 + GPU 192 core
32bit CPU x 4 + GPU 192 core
Tegra X1 64bit CPU x 2 + 32bit CPU x 2
+ GPU 256 core

Machine Learning への利用
メニーコアのGPUを何に使う
か？グラフックだけではない。
Machine Learningでの利用
は、最も新しく、最も重要な分
野になるだろう。

Bengio 2014 http://bit.ly/1zhaPyS
ニューロンの数
ニューロンあたりのシナプスの数
コンピュータのAIのニューロン
の数は、ミツバチと同じくらい。

この論文: http://stanford.io/162lrZ4

64bit CPU x 4 + 32bit CPU x 4
GPU core x 256

GPUを使った画像認識技術を生かして
自動運転カーへの搭載を目指す。

GPUは、ディープ・ラーニング革命の3つの
ブレークスルーの一つ

FAIR open sources deep-
learning modules for Torch
 Many research projects on machine learning
and AI at FAIR use Torch, an open source
development environment for numerics,
machine learning, and computer vision, with a
particular emphasis on deep learning and
convolutional nets. Torch is widely used at a
number of academic labs as well as at
Google/DeepMind, Twitter, NVIDIA, AMD, Intel,
and many other companies.
2015年1月 http://bit.ly/1DWKgn2

FAIR open sources deep-
learning modules for Torch
 Today, we're open sourcing optimized deep-
learning modules for Torch. These modules are
significantly faster than the default ones in
Torch and have accelerated our research
projects by allowing us to train larger neural
nets in less time.
 This release includes GPU-optimized
modules for large convolutional nets
(ConvNets), as well as networks with sparse
activations that are commonly used in Natural
Language Processing applications.

IBM
Power 8 22nm 12 core
http://bit.ly/1yGXPUy

IBM, Nvidia team to build even
faster supercomputers
 The Department of Energy has awarded a $325
million contract to IBM to create two
supercomputers that will be at least three
times more powerful than any existing systems
in deployment today. IBM's partners in this
endeavor will be Nvidia and Mellanox.
http://bit.ly/1uIeP7o

IBM, Nvidia team to build even
faster supercomputers
 The current leader is Tianhe-2 (Milky Way 2), a
Chinese supercomputer with a theoretical max
of 55 petaflops built with Xeon E5 processors
and Xeon Phi co-processors. It may or may not
be surpassed when the new Top500
supercomputer list comes out this week. Either
way, a 165 petaFLOP supercomputer is a tall
order.
 The DoE supercomputer will use a mix of IBM
Power 8 RISC CPUs, Nvidia's Tesla GPUs and
NVlink GPU interconnects, and Mellanox's
100Gbit/sec. InfiniBand interconnects. The
system is expected to be installed in 2017.

AMD
SEATLE 28nm ARM A57 64bit x 8
KAVERI 28nm CPU x 4 + GPU x 8
Carrizo

“SEATTLE”
WHAT IS IT AND WHY?
 “Seattle” は、AMDの最初のARMベースの64bitプロ
セッサーである。
‒ 8 ARM CortexTM-A57 cores
‒ 2 DDR3/4 DRAM channels
‒ 10G Ethernet, PCI-Express, SATA
‒ GlobalFoundries 28nm process
 ARMアーキテクチャーの32bitから64bitへの移行は、
x86の32bitから64bitへの移行と同じように、産業界に
おける重要な変化である。
 AMDは、64bitのx86の世界で果たしてきたように、
64bitのARMの世界で、主導的な役割を果たそうとしてい
る。

KAVERI、GPUからシステムのメモリー空間
に直接アクセスできる

国産CPU
富士通 SPARC64 Xlfx 20nm 32 +2 core
NEC SX-ACE

FPGAの利用の拡大
Part IV

Part IV
FPGAの利用の拡大
 専用ハード・FPGA利用の事例
 JS MorganでのFPGAの利用
 MemcachedをFPGAで高速化
 NoSQL Data EngineをFPGAで高速化
 MS Bing検索でのFPGAの利用
 専用ハードを必要とする現状認識
 Reconfigurable Fabric

専用ハード・FPGA利用の事例

JP MorganでのFPGAの利用
“Technology in banking – a problem
in scale and complexity”
http://stanford.io/1EtFz4l
Stanford 2011

kazunori_279さん http://bit.ly/1ETFQLo に詳しい紹介がある

MemcachedをFPGAで高速化
“Thin Servers with Smart Pipes: Designing
SoC Accelerators for Memcached”
http://bit.ly/1BBNBEI ISCA 2013

 We discover that, regardless of CPU
microarchitecture, memcached execution is
remarkably inefficient, saturating neither
network links nor available memory bandwidth.
Instead, we find performance is typically
limited by the per-packet processing overheads
in the NIC and OS kernel— long code paths
limit CPU performance due to poor branch
predictability and instruction fetch bottlenecks.

 Hence, we argue for an alternate architecture—
Thin Servers with Smart Pipes (TSSP)—for
cost-effective high-performance memcached
deployment. TSSP couples an embedded-class
low- power core to a memcached accelerator
that can process GET requests entirely in
hardware, offloading both network handling
and data look up. We demonstrate the
potential benefits of our TSSP architecture
through an FPGA prototyping platform, and
show the potential for a 6X-16X power-
performance improvement over conventional
server baselines.

NoSQL Data Engineを
FPGAで高速化
“Data Engine for NoSQL - IBM Power
Systems™ Edition White Paper”
http://bit.ly/1ETbecT
IBM Impact 2014

Redis + Power8 CAPI + FPGA +
Flash Memory
 Power8のCAPI(Coherent Accelerator Processer
Interface)は、大きなオバーヘッドなしに、FGPAチップを、
プロセッサと同一のメモリー空間に配置できる。このアプラ
イアンスは、DRAMより安価なFlashメモリーをFPGAから
アクセスして、20Tの大容量のKey-Value Cacheを実
現した。
 IBMは、すでにFGPAベンダーのAlteraとの協業を始め
ている。“Altera and IBM Unveil FPGA-accelerated
POWER Systems with Coherent Shared
Memory” http://bit.ly/1wHfZzK

Key-Value Cache
Redis
CAPI
40T

SICS 2014 http://bit.ly/1BOIEuC

MS Bing検索でのFPGAの利用
二つの問題意識
 MSの取り組みは、二つの問題意識に基づいている。それ
は、講演・論文のタイトルにはっきりと現れている。
 一つは、”Transitioning from the Era of Multicore
to the Era of Specialization” 「マルチコアの時代か
ら、専用ハードの時代への移行」である。
 もう一つは、“A Reconfigurable Fabric for
Accelerating Large-Scale Datacenter Services”
「大規模データセンターサービスを高速化するための再構
成可能なネットワーク・ファブリック」

専用ハードを必要とする
現状認識

新しい時代が我々の前にある
アナログ専用機
フォン・ノイマンの発明
統合
クロックの速度アップ
マルチコア
ハードウェアの専用化
2000BC~1940
1940~1975
1975~1990
1990~2005
2005~2015
2015~?
Mooreの法則
の時代

Mooreの法則は、終わりつつある
経済が、ますます大きな力で、半導体の
エコシステムをドライブしている。
最先端の製造工場を持つベンダーの数は、
縮小している。
性能を上げるためのコストは、増大する
だろう。
ハードウェアの専用化は、重要な課題に
なるだろう。
ノードのトランジスターあたりのコスト

ハードウェア専用化への挑戦
汎用性効率性
クラウド：専用化への主要な二つの挑戦
可能な限り、Homogeneousなサーバーのインフラが望ましい
ASICSが安定するまで5年はかかる。しかし、ソフトは毎月のように変わる。
クライアント：
半導体の「面積」は、貴重である。その利用は、汎用的でかつ効率的なもの
でなければならない。
アクセラレータが、そこで死んでしまうような、CPUとASICの間の「危険な谷間」

データセンターの環境
ソフトウェアのサービスは、毎月のように変わる
マシンは、3年たつと、役割に応じて新しく購入される
マシンは、そのライフサイクルで、半分は再配置される
ハードウェアのメインテナンスは、ほとんど行われない
Homogeneityが、非常に望ましい
矛盾：専用化しつつ均一なハード

A Reconfigurable Fabric
専用化しつつ均一なハードという矛盾した要
求を、どのように解決したか。

デザインの要求
あまり費用をかけない
現在のサーバーの30
%以下のコストで
FPGAファブリックの
専用ハードウェア
サーバーは
Homogeneous
電力をたくさん食わ
ないこと
10%以下の電力を
PCIeから。25W max
何も壊さないこと
既存のサーバーで動く
ネットワークの修正なし
エラー率も同じままで

2012年のデザイン1：柔軟で再構成可能なファブリック

2012年のデザイン2：柔軟で再構成可能なファブリック

ハードウェアとソフトウェアが、二つの計算「平面」を持つ
プログラム可能なSWファブリック
プログラム可能なHWファブリック
ハードウェアの「平面」は、第二のネットワークに
助けられて、専用のサービスを高速化できる

8コア Xeon 2.1GHz CPU x 2
64 GB DRAM
4 HDD, 2SSD
10 Gb Ethernet
ケーブルは無し
Open Compute Project仕様

Shell は、すべてのIOと
管理タスクをハンドルする
Roleは、アプリケーション・
ロジックのみ
FIFOでShellにアクセス
Roleは、部分的に再構成
可能な領域である
shell
Role

遅延は、29%削減し、スピードは２倍

ハードウェアの専用化は、効率もパフォーマンスも与え
てくれる。課題は、どうしたらそれを汎用的にできるか？
FPGA Fabricは、サービスを高速化させるフレキシブル
で柔軟なリソースを提供する。
一つのサービスの結果：1/2の数のRankingサーバー
で、遅延なく、かつ多くのモデルを搭載できた。
スケーラビリティ、耐障害性は証明された。将来のアプリ
にとって、大きな可能性を持っている。
結論

ハードとソフトの境界領域の課題
おわりに

クラウド/データセンターの
構成をめぐって SDIとContainer
 小論では、MS Bingの検索エンジンの再構築の構想を紹
介したが、クラウド/データセンターの構成をハードのレベ
ルで論ずる議論は、まだ、多くはない。
 クラウドを、Reconfigurable Fabricにする試みは、むし
ろ、Software Defined Infrastructure /
Network Function Virtualization / Software
defined Network という文脈で語られることが多い。
IntelもOpen Stackも、こうした取り組みに熱心である。
 また、これらとは少し階層は異なるが、Docker,
Container, kubernetes に対する関心も、柔軟なクラ
ウド・リソースの利用を目指したものである。
3月末のマルレクで、クラウドを取り上げる予定

クラウド/データセンターの
構成をめぐってサーバーの機能
 デバイス側が、Project Araのように物理的なモジュー
ルの入れ替えでシステムを柔軟に再構成することができ
るのに対して、クラウド側には、Homegeneousなマシン
のScale-outという制約上、「仮想的」に対応せざるを得
ないのは、ある程度やむを得ないのかもしれない。
 ただ、どのような機能を持つマシンが好ましいのかという
問題は、引き続き残り続けている。現状では、電力消費の
問題、仮想化・セキュリティへの対応等が差別化要因とし
て働いている。今後は、HSAやCAPIのような、システム
のHeterogeneous性を意識した機能拡張がサーバー・
マシンに必要になるかがカギになって行くだろう。その意
味では、アメリカの次期スパコンの選定も気になるところ
である。

Heteroなシステムのプログラミング
 CPUとGPUのHeteroなシステムのプログラミングの手法
としては、OpenCLが、現在でも、もっとも有力な選択肢
である。HSAアークテクチャーのハードウェアの元では、
使いやすさも性能も、大きくアップすることが期待できる。
ただ、OpenCLは、必ずしも習得が容易ではない。
 こうした問題に対して注目すべき動きに、AMDとOracle
が共同で進めている、Java9への採用が期待されている、
OpenCLのJavaバージョン、Project Sumatraがある。
 Hetero環境が、一足先に一般化したスマートデバイスの
世界では、Javaは広く利用されている。ただ、肝心の
AndroidでSumatraを使おうという動きが、起きていない
のは残念である。

Heteroなサーバーのターゲット
 Heteroなサーバーへの期待が高まるとすれば、検索・広
告と並んで、機械学習・Deep Learning系の処理への
期待が、一つの可能性になろう。ただ、後者に関しては、
その成熟には、まだ、少し時間が必要な気もする。（MSの
Catapultでは、FPGAにMLの機能を組み込んでいる）
 いずれにせよ、現在のクラウドのアーキテクチャーの骨組
みを規定しているのは、エンタープライズ起源のWebアプ
リの3-tierモデルである。その「頭脳」は、データベースに
すぎない。”IoT”も「ビッグデータ」も、その量的拡大の射
程内にある。
 進化の質的飛躍が、クラウドというメイン・ストリームで起
きるとは限らない。少なくとも、この10年のハードウェアの
進化を牽引してきたのは、モバイルのハードだったと思う。

ハードウェア開発と開発ツール
 FPGAの開発には、VerilogやVHDL等のHDL
(Hardware Description Language)を使うことになる。
おそらく、OpenCLと同じように、書ける人は限られている。
ただ、今後、必要なスキルになるのかもしれない。
 Arduinoの普及によって、ディジタル・システムの記述に
SystemCを利用するユーザーが広がりを見せている。
FPGAの開発はできなくとも、チップを使ったハードウェア・
システムを自作する人は確実に増えている。
 筆者が注目しているのは、Project Araのモジュール開
発のツールとして無償で提供されるMetamorphosys
である。SystemCをベースにしている。オープンソースの
ツールに支援されたモジュール開発者の増大が、ハード
ウェア開発の新しい可能性を開くことに期待している。

 検索でのFPGAの利用
 FPGAの動向
参考資料

FPGAの動向
 Xilinx
 Altera

ハードウェア技術の動向　2015/02/02

Recommended

More Related Content

What's hot (20)

Viewers also liked (11)

Similar to ハードウェア技術の動向　2015/02/02 (20)

More from maruyama097 (20)