換算表 | ||
---|---|---|
接頭辞 | FLOPS | |
ヨタ(Y) | 1024 | |
ゼタ(Z) | 1021 | |
エクサ(E) | 1018 | |
ペタ(P) | 1015 | |
テラ(T) | 1012 | |
ギガ(G) | 109 | |
メガ(M) | 106 |
FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータの性能指標の一つ。
FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。
ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる(実測値)。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。
パーソナルコンピュータ(以下PCと表記)向けのCPUやGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピュータ(以下スパコンと表記)では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。
2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]。2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。
2024年3月現在、世界最高速のスパコンはFrontierで1.102EFLOPS[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した[3]。
名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Pentium | 1コア | 300MHz | 300 MFLOPS | 理論値 | 1 FLOPS/Clock × 300MHz | |
Pentium II | 1コア | 450MHz | 450 MFLOPS | 理論値 | 1 FLOPS/Clock × 450MHz | |
Pentium III | 1コア | 1.4GHz | 2.1 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.4GHz | |
Pentium M | 1コア | 2.26GHz | 3.39 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.26GHz | [4] |
Pentium 4 | 1コア | 3.8GHz | 7.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.8GHz | [4] |
Pentium D | 2コア | 3.6GHz | 14.4 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.6GHz × 2コア | [4] |
Intel Atom (Bonnell) |
2コア | 1.8GHz | 5.4 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.8GHz × 2コア | |
Core Solo | 1コア | 1.83GHz | 2.75 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.83GHz | [5] |
Core Duo | 2コア | 2.33GHz | 6.99 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.33GHz × 2コア | [5] |
Core 2 Duo | 2コア | 3.33GHz | 26.64 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 2コア | [5] |
Core 2 Extreme | 4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [5] |
Core i7 (Nehalem) |
4コア | 3.33GHz | 53.28 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 4コア | [5] |
Core i7 (Westmere) |
6コア | 3.46GHz | 83.04 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.46GHz × 6コア | [5] |
Core i7 (Sandy Bridge) |
6コア | 3.3GHz | 158.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.3GHz × 6コア | [5][6] |
Core i7 (Haswell) |
8コア | 3.0 GHz (ベース) 3.5 GHz (ターボ) |
384 GFLOPS (ベース) 448 GFLOPS (ターボ) |
理論値 | 16 FLOPS/Clock × 3.0 GHz × 8コア | |
Core i7 (Broadwell) |
10コア | 3.0 GHz (ベース) 3.5 GHz (ターボ) |
480 GFLOPS (ベース) 560 GFLOPS (ターボ) |
理論値 | 16 FLOPS/Clock × 3.0 GHz × 10コア | |
Core i9(Rocket Lake) | 8コア | 5.2 GHz (ターボ) | 665 GFLOPS (ターボ) | 理論値 | 16 FLOPS/Clock × 5.2 GHz × 8コア | [7] |
Core i9(Alder Lake) | P8/E8 | 5.2/4.0 GHz (ターボ) | 1.18 TFLOPS (ターボ) | 理論値 | 16 FLOPS/Clock × 5.2 GHz × 8コア
+ 16 FLOPS/Clock × 4.0 GHz × 8コア |
[8] |
Core 2 Duoより1クロックで SSE で加算と乗算が計算できる[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMAは融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック[10]。単精度だと、これらの演算回数は2倍[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[12]ため、合計すると倍精度で3FLOPS/クロックとなる。
名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Xeon (Nehalem) |
8コア | 2.26 GHz | 72.32 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.26 GHz × 8コア | |
Xeon (Westmere) |
10コア | 2.4 GHz | 96 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.4 GHz × 10コア | |
Xeon (Sandy Bridge) |
8コア | 3.1 GHz | 198.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.1 GHz × 8コア | |
Xeon (Ivy Bridge) |
15コア | 2.8 GHz | 336 GFLOPS | 理論値 | 8 FLOPS/Clock × 2.8 GHz × 15コア | |
Xeon (Haswell) |
18コア | 2.3 GHz | 662.4 GFLOPS | 理論値 | 16 FLOPS/Clock × 2.3 GHz × 18コア | |
Xeon (Broadwell) |
24コア | 2.2 GHz(ベース) 3.4 GHz(ターボ) |
0.845 TFLOPS(ベース) 1.306 TFLOPS(ターボ) |
理論値 | 16 FLOPS/Clock × 3.4 GHz × 24コア | |
Xeon Phi (Knights Corner) |
61コア | 1.238 GHz(ベース) 1.33 GHz(ターボ) |
1.208 TFLOPS(ベース) 1.298 TFLOPS(ターボ) |
理論値 | 16 FLOPS/Clock × 1.33 GHz × 61コア | |
Xeon Phi (Knights Landing) |
72コア | 1.5 GHz(ベース) 1.7 GHz(ターボ) |
3.456 TFLOPS(ベース) 3.917 TFLOPS(ターボ) |
理論値 | 32 FLOPS/Clock × 1.7 GHz × 72コア |
名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Phenom II (X4 980 Black Edition) |
4コア | 3.7GHz | 59.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.7GHz × 4コア | |
Phenom II (X6 1100T Black Edition) |
6コア | 3.3GHz | 79.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.3GHz × 6コア | |
AMD Fusion E Series (Bobcat) |
2コア | 1.65GHz | 6.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 1.65GHz × 2コア | |
AMD Opteron (Magny-Cours) |
12コア | 2.5GHz | 120 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.5GHz × 12コア | [6] |
AMD FX (Bulldozer) |
8コア/4モジュール | 3.9GHz | 124.8 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.9GHz × 4モジュール | |
AMD Opteron (Interlagos) |
16コア/8モジュール | 3.1GHz | 198.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.1GHz × 8モジュール | |
Ryzen 9 (Vermeer) |
16コア | 4.9GHz(ブースト) | 1.254 TFLOPS | 理論値 | 16 FLOPS/Clock × 4.9GHz × 16コア | |
EPYC (Milan) |
64コア | 3.5GHz(ブースト) | 2.509 TFLOPS(ベース) 3.584 TFLOPS(ブースト) |
理論値 | 16 FLOPS/Clock × 3.5GHz × 64コア |
Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
ARM11 | 1コア | 700MHz | 単精度:700 MFLOPS | 理論値 | 単精度:1 FLOPS/Clock × 700MHz | |
ARM Cortex-A8 | 1コア | 1GHz | 単精度:4 GFLOPS | 理論値 | 単精度:4 FLOPS/Clock × 1GHz | |
ARM Cortex-A9 | 4コア | 1.5GHz | 単精度:24 GFLOPS 倍精度:9 GFLOPS |
理論値 | 単精度:4 FLOPS/Clock × 1.5GHz × 4コア 倍精度:1.5 FLOPS/Clock × 1.5GHz × 4コア |
|
ARM Cortex-A15 | 4コア | 2.0GHz | 単精度:64 GFLOPS 倍精度:16 GFLOPS |
理論値 | 単精度:8 FLOPS/Clock × 2.0GHz × 4コア 倍精度:2 FLOPS/Clock × 2.0GHz × 4コア |
|
ARM Cortex-A57 | 4コア | 2.8GHz | 単精度:89.6 GFLOPS 倍精度:44.8 GFLOPS |
理論値 | 単精度:8 FLOPS/Clock × 2.8GHz × 4コア 倍精度:4 FLOPS/Clock × 2.8GHz × 4コア |
ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。
倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。
※いずれも単精度(FP32)
名称 | FLOPS | 理論値/実測値 | システム概要 | 参照 |
---|---|---|---|---|
ENIAC | 300FLOPS | 1946年完成 | ||
CRAY-1 | 160MFLOPS | 倍精度, 理論ピーク性能値 | 1976年初号機納入 | |
ディープ・ブルー | 11.38GFLOPS | 1989年開発開始、1997年チェス世界チャンピオンと対戦し、勝利 | ||
地球シミュレータ (第1世代) |
35.86TFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2002 1位 | |
TSUBAME 1.2 | 87.01TFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2009 41位 | |
T2Kオープンスパコン | 101.74TFLOPS | 倍精度, LINPACK実測値 | ||
地球シミュレータ (第2世代) |
122.4TFLOPS | TOP500 Jun 2009 16位 | ||
GPUクラスタ (長崎大学、濱田剛ら) |
158TFLOPS | [25] | ||
Blue Gene/L | 478.2TFLOPS | TOP500 Nov 2007 1位 | ||
IBM Roadrunner | 1.105PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2008 1位 | |
TSUBAME 2.0 | 1.192PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2011 4位 Xeon + NVIDIA Tesla |
|
天河一号A | 2.566PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2010 1位 理論値 4.701 PFLOPS。実行効率 54.6% |
|
TSUBAME 2.5 | 2.843PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2013 11位 , Green500 6位 理論値 5.609 PFLOPS。実行効率 50.7% |
|
京 | 10.510PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2011 1位
実行効率 93.2%[26] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128) |
[27][28] |
IBM Sequoia | 17.172PFLOPS | 倍精度, LINPACK実測値 | TOP500 Nov 2012 1位 理論値 20.133 PFLOPS。実行効率 85.3% |
|
天河二号 | 61.445PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2013 1位 理論値 100.679 PFLOPS。実行効率 61.0% |
|
神威太湖之光 | 93.01PFLOPS | TOP500 Jun 2016 1位 理論値 125.436 PFLOPS。実行効率 74.1% |
||
Summit | 143.5PFLOPS | TOP500 Jun 2018 1位 理論値 200.795 PFLOPS。実行効率 71.4% |
||
富岳 | 442.01PFLOPS | 倍精度, LINPACK実測値 | TOP500 Jun 2020 1位
理論値 520PFLOPS。実行効率 82.3% |
|
Frontier | 1102.00PFLOPS (1.102EFLOPS) |
倍精度, LINPACK実測値 | TOP500 Jun 2022 1位
理論値1685.65PLOPS。実行効率 65.4% |
名称 | FLOPS | 日付 | 参加台数 | Active率 | 参照 |
---|---|---|---|---|---|
BOINC | 2.958PFLOPS | 2009年12月6日 | [29] | ||
8.563PFLOPS | 2013年12月26日 | 986,613台 | 8.51% | ||
161.081PFLOPS | 2015年2月3日 | 376,688台 | 3.54% | ||
160.76PFLOPS | 2017年3月14日 | 739,507台 | 4.79% | ||
SETI@home (BOINCに含む) |
658.210TFLOPS | 2013年12月26日 | |||
731.599TFLOPS | 2009年12月6日 | ||||
UD Agent | 65TFLOPS | 2001年10月01日 | 約96万台 | ||
Folding@home | 4.273PFLOPS | 2008年11月22日 | Active 353,966 CPU (参加約355万台) |
||
5.427PFLOPS | 2012年3月23日 | ||||
2.4EFLOPS | 2020年4月14日 | [3] |
単精度の積和算を 2 FLOPS/Clock で行える。
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
GTX 480 | 480 | 1401 MHz | 単精度:1.345 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 1401 MHz × 480コア | |
GTX 580 | 512 | 1544 MHz | 単精度:1.581 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 1544 MHz × 512コア | |
GTX 590 (2GPU合計) |
1024 | 1214 MHz | 単精度:2.488 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 1214 MHz × 1024コア | |
GTX 680 | 1536 | 1006 MHz | 単精度:3.090 TFLOPS 倍精度:129 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1006 MHz × 1536コア 倍精度:1/12 FLOPS/Clock × 1006 MHz × 1536コア |
|
GTX 690 (2GPU合計) |
3072 | 915 MHz | 単精度:5.621 TFLOPS 倍精度:234 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 915 MHz × 3072コア 倍精度:1/12 FLOPS/Clock × 915 MHz × 3072コア |
|
GTX 780 Ti Special Black Edition |
2880 | 1000 MHz | 単精度:5.76 TFLOPS 倍精度:240 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1000 MHz × 2880コア 倍精度:1/12 FLOPS/Clock × 1000 MHz × 2880コア |
|
GTX TITAN X | 3072 | 1000 MHz | 単精度:6.144 TFLOPS 倍精度:192 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1000 MHz × 3072コア 倍精度:1/16 FLOPS/Clock × 1000MHz × 3072コア |
[32] |
GTX TITAN Z (2GPU合計) |
5760 | 705 MHz | 単精度:8.12 TFLOPS 倍精度:2.71 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 705 MHz × 5760コア 倍精度:2/3 FLOPS/Clock × 705 MHz × 5760コア |
[33] |
GTX 980 | 2048 | 1126 MHz | 単精度:4.612 TFLOPS 倍精度:144 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1126 MHz × 2048コア 倍精度:1/16 FLOPS/Clock × 1126 MHz × 2048コア |
[34] |
GTX 1080 | 2560 | 1733 MHz | 単精度:8.872 TFLOPS 倍精度:277 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1733 MHz × 2560コア 倍精度:1/16 FLOPS/Clock × 1733 MHz × 2560コア |
[35] |
RTX 2080 | 2944 | 1710 MHz | 単精度:10.07 TFLOPS 倍精度:314 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1710 MHz × 2944コア 倍精度:1/16 FLOPS/Clock × 1710 MHz × 2944コア |
[36] |
RTX 3080 | 8704 | 1710 MHz | 単精度:29.77 TFLOPS
倍精度:465 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1710 MHz × 8704コア
倍精度:1/32 FLOPS/Clock × 1710 MHz × 8704コア |
[37] |
RTX 4080
16GB |
9728 | 2504 MHz | 単精度:48.74 TFLOPS
倍精度:761 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 2504 MHz × 9728コア
倍精度:1/32 FLOPS/Clock × 2505 MHz × 9728コア |
[38] |
RTX 4090 | 16384 | 2520 MHz | 単精度:82.58 TFLOPS
倍精度:1.290 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 2520 MHz × 16384コア
倍精度:1/32 FLOPS/Clock × 2520 MHz × 16384コア |
[38] |
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
HD 3650 | 120 | 725MHz | 単精度:174 GFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 725MHz × 120コア | |
HD 3870 | 320 | 825MHz | 単精度:496 GFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 825MHz × 320コア | |
HD 4670 | 320 | 750MHz | 単精度:480 GFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 750MHz × 320コア | |
HD 4870 | 800 | 750MHz | 単精度:1.2 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 750MHz × 800コア | |
HD 5870 | 1600 | 850MHz | 単精度:2.72 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 850MHz × 1600コア | |
HD 5970 (2GPU合計) |
3200 | 725MHz | 単精度:4.64 TFLOPS | 理論値 | 単精度:2 FLOPS/Clock × 725MHz × 3200コア | [39] |
HD 6970 | 1536 | 880MHz | 単精度:2.703 TFLOPS 倍精度:0.676 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 880MHz × 1536コア 倍精度:0.5 FLOPS/Clock × 880MHz × 1536コア |
[40] |
HD 6990 (2GPU合計) |
3072 | 830 MHz | 単精度:5.1 TFLOPS 倍精度:1.275 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 830 MHz × 3072コア 倍精度:0.5 FLOPS/Clock × 830MHz × 3072コア |
|
HD 7970 GHz Edition |
2048 | 1.05 GHz | 単精度:4.301 TFLOPS 倍精度:1.075 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.05 GHz × 2048コア 倍精度:0.5 FLOPS/Clock × 1.05 GHz × 2048コア |
[41][40] |
HD 7990 (2GPU合計) |
4096 | 1.0 GHz | 単精度:8.192 TFLOPS 倍精度:2.048 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.0 GHz × 4096コア 倍精度:0.5 FLOPS/Clock × 1.0 GHz × 4096コア |
[41] |
R9 290X | 2816 | 1.0 GHz | 単精度:5.632 TFLOPS 倍精度:1.408 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.0 GHz × 2816コア 倍精度:0.5 FLOPS/Clock × 1.0 GHz × 2816コア |
|
R9 295X2 (2GPU合計) |
5632 | 1.018 GHz | 単精度:11.467 TFLOPS 倍精度:2.867 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.018 GHz × 5632コア 倍精度:0.5 FLOPS/Clock × 1.018 GHz × 5632コア |
ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[42] であったり、倍精度の計算が出来なかったりする。
名称 | EU数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Intel GMA X4500 | 10 | 800MHz | 単精度:32 GFLOPS | 理論値 | 単精度:4 FLOPS/Clock × 10EU × 800MHz | [43] |
Intel HD Graphics (Clarkdale) | 12 | 900MHz | 単精度:43.2 GFLOPS | 理論値 | 単精度:4 FLOPS/Clock × 12EU × 900MHz | [43] |
Intel HD Graphics 3000 | 12 | 1.35GHz (Max) | 単精度:129.6 GFLOPS | 理論値 | 単精度:8 FLOPS/Clock × 12EU × 1.35GHz | [43] |
Intel HD Graphics 4000 | 16 | 1.35GHz (Max) | 単精度:345.6 GFLOPS | 理論値 | 単精度:16 FLOPS/Clock × 16EU × 1.35GHz | [44] |
Intel HD Graphics (Haswell) | 10 | 1.2GHz (Max) | 単精度:192 GFLOPS | 理論値 | 単精度:16 FLOPS/Clock × 10EU × 1.2GHz | [44] |
Intel Iris Pro Graphics 5200 | 40 | 1.3GHz (Max) | 単精度:832 GFLOPS 倍精度:208 GFLOPS |
理論値 | 単精度:16 FLOPS/Clock × 40EU × 1.3GHz 倍精度:4 FLOPS/Clock × 40EU × 1.3GHz |
[45] |
Iris Pro Graphics 6200 | 48 | 1.15GHz (Max) | 単精度:883 GFLOPS 倍精度:220.8 GFLOPS |
理論値 | 単精度:16 FLOPS/Clock × 48EU × 1.15GHz 倍精度:4 FLOPS/Clock × 48EU × 1.15GHz |
[46] |
Intel HD Graphics 530 (Skylake) |
24 | 1.15GHz (Max) | 単精度:441.6 GFLOPS 倍精度:110.4 GFLOPS |
理論値 | 単精度:16 FLOPS/Clock × 24EU × 1.15GHz 倍精度:4 FLOPS/Clock × 24EU × 1.15GHz |
[47] |
HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。
名称 | ALU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Adreno 200 | 8 | 245MHz | 3.92 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 8ALU | |
Adreno 203 Adreno 205 |
16 | 245MHz | 7.84 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 16ALU | |
Adreno 220 | 32 | 266MHz | 17.0 GFLOPS | 理論値 | 2 FLOPS/ALU × 266MHz × 32ALU | |
Adreno 225 | 32 | 400MHz | 25.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 400MHz × 32ALU | |
Adreno 320 (Snapdragon S4 Pro) |
64 | 400MHz | 57 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 400MHz × 64ALU | [48] |
Adreno 320 (Snapdragon 600) |
96 | 400MHz | 86.4 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 400MHz × 96ALU | [48] |
Adreno 330 (Snapdragon 800) |
128 | 450MHz | 129.6 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 450MHz × 128ALU | [48] |
Adreno 430 (Snapdragon 810) |
288 | 500MHz | 324 GFLOPS | 理論値 | 2.25 FLOPS/ALU × 500MHz × 288ALU |
チップセット | GPU コア / クラスタ | GPU MHz | FLOPS
(単精度) |
デバイス | GPU モデルと理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Apple A4 | PowerVR SGX535 @ 200 MHz (2vec4)
4 x 2 х 0.200 = 1.6 GFLOPS |
[49] | ||||
PowerVR SGX535 @ 250 MHz (2vec4)
4 x 2 х 0.250 = 2 GFLOPS |
||||||
Apple A5 | PowerVR SGX543MP2 (dual-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS |
[50] | ||||
PowerVR SGX543MP2 (dual-core) @ 200 MHz
2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS |
[50] | |||||
Apple A5X | PowerVR SGX543MP4 (quad-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS |
[50] | ||||
Apple A6 | PowerVR SGX543MP3 (tri-core) @ 250 MHz
2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS |
[50] | ||||
Apple A6X | PowerVR SGX554MP4 (quad-core) @ 280 MHz
2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS |
[51] | ||||
Apple A7 | PowerVR G6430 (quad-clusters) @ 450 MHz
64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS |
[52] | ||||
PowerVR G6430 (quad-clusters) @ 533 MHz
64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS |
[52] | |||||
Apple A8 | PowerVR G6450 (quad-clusters) @ 450 MHz
64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS |
[53] | ||||
Apple A8X | PowerVR GXA6850 @ 450 MHz
64 USC x 8 Clusters x 0.450 = 230.4 GFLOPS |
[54][55] | ||||
Apple A9 | 6 Clusters | 650MHz | 249.6GFLOPS | iPhone 6s/6s Plus | PowerVR Series 7XT GT7600 | |
Apple A9X | 12 Clusters | 650MHz | 499.2 GFLOPS | iPad Pro | ||
Apple A10 Fusion | 6 Clusters | 900 MHz | 364.8 GFLOPS | iPhone 7/7 Plus, iPad (第6世代), iPad (第7世代) | PowerVR Series 7XT GT7600 Plus | |
Apple A10X Fusion | 12 Clusters | 1000 MHz | 768 GFLOPS | 12.9インチiPad Pro (第2世代), | ||
Apple A11 | 3 Clusters | 1066 MHz | 409.3 GFLOPS | iPhone 8/8 Plus, iPhone X | ||
Apple A12 Bionic | 4 Clusters | 1125 MHz | 576 GFLOPS | iPhone XR, | ||
Apple A12X Bionic | 7 Clusters | 1340 MHz | 1200 GFLOPS | iPad Pro | ||
Apple A12Z Bionic | 8 Clusters | 1372 GFLOPS | iPad Pro, Developer Transition Kit | |||
Apple A13 Bionic | 4 Clusters | 1350 MHz | 691 GFLOPS | iPhone 11シリーズ, iPhone SE (第2世代), iPad (第9世代) | ||
Apple A14 Bionic | 4 Clusters | 975 MHz | 998 GFLOPS | iPhone 12シリーズ,
iPad Air (第4世代), iPad (第10世代) |
||
Apple A15 | 4 Clusters
5 Clusters |
1.2 GHz | 1.4 TFLOPS
1.5 TFLOPS |
iPhone 13シリーズ, iPhone 14/14 Plus, iPhone SE (第3世代),iPad mini (第6世代), Apple TV 4K (第3世代) | ||
Apple A16 | 5 Clusters | 1.2 GHz | 2.0 TFLOPS | iPhone 14 Pro/14 Pro Max, | ||
Apple M1 | 7 Clusters
8 Clusters |
1.28 GHz | 2.6 TFLOPS | MacBook Air, Mac mini, iMac, iPad Pro | ||
Apple M1 Pro | 14 Clusters
16 Clusters |
1.3 GHz | 4.5 TFLOPS
5.3 TFLOPS |
MacBook Pro | ||
Apple M1 Max | 24 Clusters
32 Clusters |
7.8 TFLOPS
10.6 TFLOPS |
MacBook Pro, Mac Studio | |||
Apple M1
Ultra |
48 Clusters
64 Clusters |
15.6 TFLOPS
21.2 TFLOPS |
Mac Studio | |||
Apple M2 | 8 Clusters
10 Clusters |
1.4 GHz | 3.6 TFLOPS | MacBook Air, Mac mini, iPad Pro | ||
Apple M2 Pro | 16 Clusters
19 Clusters |
6.8 TFLOPS | Mac mini, MacBook Pro | |||
Apple M2 Max | 30 Clusters
38 Clusters |
13.6 TFLOPS | MacBook Pro, Mac Studio | |||
Apple M2 Ultra | 60 Clusters
72 Clusters |
27.2 TFLOPS | Mac Studio, Mac Pro |
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
PowerVR SGX 540 | 4 | 384MHz | 6.1 GFLOPS | 理論値 | 4 FLOPS/コア × 384MHz × 4コア |
名称 | ALU数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Tegra 2 | 8 | 333MHz | 5.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 333MHz × 8ALU | |
Tegra 3 | 12 | 500MHz | 12.48 GFLOPS | 理論値 | 2 FLOPS/ALU × 520MHz × 12ALU | [56][57] |
Tegra 4i | 60 | 660MHz | 79.2 GFLOPS | 理論値 | 2 FLOPS/ALU × 660MHz × 60ALU | [58] |
Tegra 4 | 72 | 672MHz | 96.768 GFLOPS | 理論値 | 2 FLOPS/ALU × 672MHz × 72ALU | [57] |
Tegra K1 | 192 | 950MHz | 365 GFLOPS | 理論値 | 2 FLOPS/ALU × 950MHz × 192ALU | |
Tegra X1 | 256 | 1.0 GHz | 512 GFLOPS | 理論値 | 2 FLOPS/ALU × 1.0GHz × 256ALU | [59] |
名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
Exynos 3 | 1 | 200MHz | 3.2 GFLOPS | 理論値 | 16 FLOPS × 200MHz | |
Exynos 4 Dual (45nm) | 4 | 266MHz | 9.6 GFLOPS | 理論値 | 9 FLOPS/コア × 266MHz × 4コア | |
Exynos 4 Dual (32nm) | 4 | 400MHz | 14.4 GFLOPS | 理論値 | 9 FLOPS/コア × 400MHz × 4コア | |
Exynos 4 Quad | 4 | 440MHz | 15.84 GFLOPS | 理論値 | 9 FLOPS/コア × 440MHz × 4コア | |
Exynos 5 Dual | 4 | 533MHz | 72.5 GFLOPS | 理論値 | Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS | [60] |
Exynos 5410 Octa | 3 | 533MHz | 51.2 GFLOPS | 理論値 | PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS | |
Exynos 5420 Octa | 6 | 533MHz | 102.4 GFLOPS | 理論値 | Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS | [61] |
名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
---|---|---|---|---|---|---|
NVIDIA Tesla C870 | 128 | 1.35 GHz | 単精度:345.6 GFLOPS 倍精度:不可 |
理論値 | 単精度:2 FLOPS/Clock × 1.35 GHz × 128コア | |
NVIDIA Tesla C1060 | 240 | 1.3 GHz | 単精度:622 GFLOPS 倍精度:78 GFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.3 GHz × 240コア 倍精度:1/4 FLOPS/Clock × 1.3 GHz × 240コア |
|
NVIDIA Tesla C2070 | 448 | 1.15 GHz | 単精度:1.03 TFLOPS 倍精度:0.515 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1.15 GHz × 448コア 倍精度:1 FLOPS/Clock × 1.15 GHz × 448コア |
|
NVIDIA Tesla K10 (2GPU合計) |
3072 | 745 MHz | 単精度:4.58 TFLOPS 倍精度:0.19 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 745 MHz × 3072コア 倍精度:1/12 FLOPS/Clock × 745 MHz × 3072コア |
[62] |
NVIDIA Tesla K20 | 2496 | 706 MHz | 単精度:3.52 TFLOPS 倍精度:1.17 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 706 MHz × 2496コア 倍精度:2/3 FLOPS/Clock × 706 MHz × 2496コア |
[62] |
NVIDIA Tesla K40 | 2880 | 745 MHz | 単精度:4.29 TFLOPS 倍精度:1.43 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 745 MHz × 2880コア 倍精度:2/3 FLOPS/Clock × 745 MHz × 2880コア |
[62] |
NVIDIA Tesla K80 (2GPU合計) |
4992 | 562 MHz | 単精度:5.61 TFLOPS 倍精度:1.87 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 562 MHz × 4992コア 倍精度:2/3 FLOPS/Clock × 562 MHz × 4992コア |
|
NVIDIA Tesla P100 16GB | 3584 | 1329MHz | 単精度:9.526 TFLOPS 倍精度:4.763 TFLOPS |
理論値 | 単精度:2 FLOPS/Clock × 1329 MHz × 3584コア 倍精度:1 FLOPS/Clock × 1329 MHz × 3584コア |
|
AMD FirePro S9150 | 2816 | 単精度:5.07 TFLOPS 倍精度:2.53 TFLOPS |
理論値 | [63] | ||
AMD FirePro S9170 | 2816 | 単精度:5.24 TFLOPS 倍精度:2.62 TFLOPS |
理論値 | [64] |
名称 | クロック | FLOPS (単精度、積和算) |
理論値/実測値 | 理論値の計算式 |
---|---|---|---|---|
Stratix IV | 445 MHz | 理論値 245 GFLOPS 実測値 171 GFLOPS |
理論値 | 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[65][66]。それに対して、GPUは1クロックで行える。 |
Stratix V | 388 MHz | 1.568 TFLOPS | 理論値 | 2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS[67]。単精度の乗算には 27x27 の multiplier が単精度浮動小数点数あたり 64 個必要。 |
Stratix 10 | 1 GHz | 10 TFLOPS | 理論値 | 2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS[68]。 |
名称 | クロック | FLOPS (単精度) |
理論値/実測値 | 理論値の計算式 |
---|---|---|---|---|
Virtex-5 SX240T | 162.52 GFLOPS | 理論値 | [69][70] | |
Virtex-6 SX475T | 450 GFLOPS | 理論値 | [69] | |
Virtex-7 | 833 GFLOPS | 理論値 | [71] | |
Virtex UltraScale | 1.739 TFLOPS | 理論値 | [71] |