Существуют разногласия насчёт того, допустимо ли использовать слово FLOP от англ.FLoating point OPeration в единственном числе (и такие варианты как flop или флоп). Некоторые считают, что FLOP (флоп) и FLOPS (флопс или флоп/с) — синонимы, другие же полагают, что FLOP — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы), а FLOPS — мера производительности, способность выполнять определённое количество операций с плавающей запятой за секунду.
Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день являются тесты производительности LINPACK, в частности HPL, используемый при составлении рейтинга суперкомпьютеровTOP500[источник не указан 557 дней].
Одним из важнейших достоинств измерения производительности во флопсах является то, что данная единица до некоторых пределов может быть истолкована как абсолютная величина и вычислена теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результатов работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.
Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, флопс подвержен влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.
Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом различаться; более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.
Так, 24 июня2006 года общественности был представлен суперкомпьютерMDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 петафлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.
Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность видеопроцессора игровой приставки PlayStation 3 составляет 192 гигафлопса[3], а видеоускорителя приставки Xbox 360 и вовсе 240 гигафлопсов[3], что сравнимо с суперкомпьютерами двадцатилетней давности. Столь высокие показатели объясняются тем, что указана производительность над числами 32-разрядного формата[4][5], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[6][7]. Кроме того, данные приставки и видеопроцессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[8] и тяжело сравнить с другими системами.
Для подсчёта максимального количества флопсов для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей запятой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в ЭВМ CDC 6600 в 1964 году. Массовое производство компьютеров с суперскалярной архитектурой началось с выпуском процессора Pentium в 1993 году. Процессор конца 2000-х годов, Intel Core 2, также является суперскалярным и содержит 2 устройства вычислений над 64-разрядными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4 операций за 1 такт в каждом ядре[9][10][11]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3,5 ГГц, теоретический предел производительности составляет 4×4×3,5=56 гигафлопсов, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3 ГГц — 2×4×3=24 гигафлопса, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK.
AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц:
2200 МГц × 4 ядра × 4⋅10−3 = 35,2 гигафлопса
Для четырёхъядерного процессора Core 2 Quad Q6600:
2400 МГц × 4 ядра × 4⋅10−3 = 38,4 гигафлопса.
Более новые процессоры могут исполнять до 8 (например, Sandy и Ivy Bridge, 2011—2012 гг, AVX) или до 16 (Haswell и Broadwell, 2013—2014 гг, AVX2 и FMA3) операций над 64-битными числами с плавающей запятой в такт (на каждом ядре)[11]. В последующих процессорах ожидается исполнение 32 операций в такт (Intel Xeon Skylake, Xeon *v5, 2015 г, AVX512)[12]
Несмотря на большое число существенных недостатков, флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.
В различных алгоритмах, кроме возможности выполнять большое количество математических действий в ядре процессора, может потребоваться пересылка больших объёмов данных через подсистему памяти, и их производительность будет сильно ограничена из-за этого, например, как в уровнях 1 и 2 библиотек BLAS[11]. Однако, алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени, и они обычно достигают типичной производительности до 80-95 % от теоретического максимума.
Из-за высокого разброса результатов теста LINPACK приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.
В период с 2030 по 2035 год ведущими компаниями мира планируется создать суперкомпьютер мощностью 1 зеттафлопс. Планируемая потребляемая мощность от 80 до 120 мегаватт, энергоэффективность: 10 терафлопсов/ватт, пропускная способность ввода-вывода: 10-100 петабайт/сек, объем памяти: 1,0 зеттабайт.
В марте 2024 года на мероприятии компании NVIDIA GTC 2024 было представлено новое семейство ускорителей Blackwell и дата центры на их базе. На их основе уже в 2024 году возможно создание суперкомпьютера с 64000 ускорителей Blackwell(2 кластера по 32000 ускорителей 625 Экзафлопс каждый) общей мощностью 1,25 зеттафлопс в задачах обучения искусственного интеллекта при энергопотреблении 40 мегаватт.
В марте 2024 года компанией Cerebras Systems был представлен гигантский процессор WSE-3 c 900 тысячами ядер и содержит 4 трлн транзисторов, кластер может масштабироваться до 2048 ускорителей с энергопотреблением 48 мегаватт и производительностью до 256 экзафлопс с точностью FP16 и 1 зеттафлопс с точностью FP4(точность актуальна для задач искусственного интеллекта и машинного обучения)
В 2025 году словацкая компания Tachyum планирует запустить суперкомпьютер на базе универсальных процессоров Prodigy. После запуска он обеспечит производительность 8 зеттафлопсов в задачах обучения искусственного интеллекта для больших языковых моделей (в стандартных задачах расчётная производительность — более 50 эксафлопсов).
В период с 2027 по 2030 год правительство Японии планирует создать преемника флагманского суперкомпьютера Fugaku - Fugaku Next. За реализацию проекта будут отвечать сотрудники Института физико-химических исследований (RIKEN) вместе с компанией Fujitsu. По предварительным оценкам, производительность системы при работе с искусственным интеллектом составит 50 экзафлопс. В отдельных задачах система будет способна выдавать до 1 зеттафлопса мощности. Пропускная способность системы будет достигать нескольких сотен терабайт в секунду. На первый этап проекта выделено финансирование в размере 29 миллиона долларов. Общее финансирование может превысить 761 миллион долларов.
Oracle и NVIDIA анонсировали самый крупный на сегодняшний день облачный ИИ-кластер, состоящий из 131 072 ускорителей NVIDIA B200 (Blackwell). По словам компаний, это первая в мире система производительностью 2,4 зеттафлопс (FP8). Кластер заработает в I половине 2025 года.
Во 2 половине 2025 года планируется запуск суперкомпьютера Илона Маска, состоящего из нескольких кластеров общим энергопотреблением до 500 мегаватт. Суперкомпьютер на первых порах будет включать в себя тысячи собственных ускорителей Tesla Dojo D1 и 100 тыс. ускорителей Nvidia H100, далее будут добавлены 300 тыс. GPU Nvidia B200. Производительность составит порядка 7 зеттафлопс. Суперкомпьютер будет использоваться для улучшения технологии полностью автономного вождения и для развития AI-чат-бота GrokAI.
В период с 2035 по 2041 года планируется создание суперкомпьютера мощностью 1 Иоттафлопс. При создании будут использованы новые архитектуры, техпроцессы(в том числе техпроцессы ангстремного уровня), интерконнекты, технологии увеличения плотности размещения чипов, также возможно использование биотехнологий, квантовых вычислений, оптических и лазерных технологий, технологий проектирования с помощью искусственного интеллекта, природоподобные технологии. Энергопотребление моделей на классических технологиях составит сотни Мегаватт и потребует для питания ядерной энергии. Японские ученые заявили, что к 2034 году планируют уменьшить энергопотребление чипов в 130 раз по отношению к современным, за счёт применения оптических технологий.
При достижении плановых характеристик к 2035 году возможно создание суперкомпьютера мощностью 1 иоттафлопс с точностью вычислений FP4(для задач искусственного интеллекта и машинного обучения) и 6 зеттафлопс со стандартной точностью при энергопотреблении 250-300 мегаватт.
Уровень производительности 1 роннафлопс судя по прогнозам будет достигнут в период с 2040-х годов по 2063 год. При создании возможно будут использоваться техпроцессы ангстремного уровня, оптико-лазерные технологии, биотехнологии, технологий проектирования с помощью искусственного интеллекта, природоподобные технологии, квантовые вычисления, чипы на пластине (в том числе планируемых к внедрению - 450 мм)
Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре. В следующем ниже списке указаны названия микроархитектур, а не семейства процессоров.
Bitcoin — имеет значительное количество специализированных вычислительных ресурсов, но решает исключительно целочисленные задачи (вычисление хеш-суммы SHA256). Практически все вычислители реализованы в виде специальных заказных микросхем (ASIC), которые технически не способны производить вычисления над числами с плавающей запятой. Следовательно, оценивать сеть Bitcoin с помощью флопсов в настоящее время некорректно.[64][65][66] Ранее, до 2011 года в сети использовались только ЦПУ и ГПУ, которые могут обрабатывать как целочисленные, так и плавающие данные, и оценка во флопсах получалась из метрики hash/s с помощью эмпирического коэффициента в 12,7 тысячи.[67][68] Например, на апрель 2011 мощность сети оценивалась таким методом примерно в 8 петафлопсов.[69]
Folding@home — более 2,6 эксафлопса на 23 апреля 2020 года, что делает его самым мощным и крупнейшим проектом распределённых вычислений в мире.
BOINC — более 41,5 петафлопса на март 2020 года[70]
Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода-вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность простейших обычных карманных калькуляторов составляет порядка 10 флопсов и более.
Если не брать исключительные случаи (см. феноменальный счётчик), то обычный человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой, таким образом говоря о производительности человека как вычислительного аппарата, приходится использовать такие единицы, как миллифлопсы и даже микрофлопсы.
↑Новый поворотАрхивная копия от 11 сентября 2013 на Wayback MachineБерд Киви, «Мир ПК», № 07, 2012: «Если нынешняя скорость прогресса суперкомпьютеров будет сохраняться, то следующий рубеж производительности в 1 экзафлопс, или квинтиллион (10^18) операций в секунду, ожидается достичь к 2019 г. … полагают, что компьютер производительностью один зеттафлопс (10^21 , или секстиллион операций) можно будет построить примерно к 2030 г. Более того, заранее припасены термины и для следующих вычислительных рубежей — йоттафлопс (10^24) и „ксерафлопс“ (10^27).»
↑Архивированная копия (неопр.). Дата обращения: 17 августа 2009. Архивировано 5 июля 2009 года.these are single precision GPU peak numbers
↑Архивированная копия (неопр.). Дата обращения: 17 августа 2009. Архивировано 15 октября 2009 года.HPL is a software package that solves a dense linear system in double precision (64 bits)
↑ 123Jack Dongarra.Adaptive Linear Solvers and Eigensolvers(англ.). Argonne Training Program on Extreme-scale Computing. Argonne National Laboratory (13 августа 2014). Дата обращения: 13 апреля 2015. Архивировано из оригинала 24 апреля 2016 года.
↑Новый суперкомпьютер в МГУ вошел в Top500Архивная копия от 17 ноября 2016 на Wayback Machine // Мир ЦОД, Открытые системы, 19.11.2014: «В новом суперкомпьютере МГУ всего пять вычислительных стоек с 1280 узлами на базе 14-ядерных процессоров Intel Xeon E5-2697 v3 и ускорителей NVIDIA Tesla K40 с общей емкостью оперативной памяти более 80 Тбайт. … Каждая стойка суперкомпьютера потребляет около 130 кВт»
↑Указанное количество инструкций за такт способны исполнять только старшие представители этих архитектур, продающиеся под маркетинговыми наименованиями Xeon Platinum и Xeon Gold начиная с серии 6ххх, которые имеют по два 512 разрядных FMAC блока в каждом ядре для выполнения AVX-512 инструкций. У всех младших моделей: Xeon Bronze, Xeon Silver и Xeon Gold 5ххх один из FMAC блоков отключен и поэтому максимальный темп исполнения инструкций с плавающей точкой снижен в 2 раза.
↑Блок обработки операций с плавающей запятой (FPU) является общим на модуль — пару ядер процессора. При одновременном исполнении плавающих операций на обоих ядрах он разделяется между ними.
↑Данная микроархитектура относится к классу VLIW и имеет 6 параллельных каналов исполнения инструкций, 4 из которых оснащены 64 разрядными блоками вычислений с плавающей точкой типа FMAC.
↑[3]Архивная копия от 30 августа 2017 на Wayback Machine // Gizmodo, 5/13/13: «Because Bitcoin miners actually do a simpler kind of math (integer operations), you have to do a little (messy) conversion to get to FLOPS. .. new ASIC miners—machines .. do nothing but mine Bitcoins—can’t even do other kinds of operations, they’re left out of the total entirely.»
↑[4]Архивная копия от 3 декабря 2013 на Wayback Machine // SlashGear, May 13, 2013: «Bitcoin mining technically doesn’t operate using FLOPS, but rather integer calculations, so the figures are converted to FLOPS for a conversion that most people can understand more. Since the conversion process is a bit weird, it’s led to some experts calling foul on the mining figures.»
↑[5]Архивная копия от 27 ноября 2013 на Wayback Machine // ExtremeTech: «As Bitcoin mining doesn’t rely on floating-point operations, these estimates are based on opportunity costs. Now that we have hardware with application-specific integrated circuits (ASIC) designed from the ground up to do nothing but mine Bitcoins, these estimates become even more fuzzy.»
↑[6]Архивная копия от 3 декабря 2013 на Wayback Machine // CoinDesk [неавторитетный источник]: «Two, the estimates used to convert hashes to flops (resulting in about 12,700 flops per hash) date to 2011, before ASIC devices became the norm for bitcoin mining. ASICs don’t handle flops at all, so the current comparison is very rough.»
↑[7]Архивная копия от 3 декабря 2013 на Wayback Machine // VR-Zone: «A conversion rate of 1 hash = 12.7K FLOPS is used to determine the general speed of the network contribution. The estimate was created in 2011, before the creation of ASIC hardware solely designed for bitcoin mining. ASIC doesn’t use floating point operations at all,… Thus, the estimate doesn’t have any real-world meaning for such hardware.»
↑Bitcoin Watch, архивная копия от 2011-04-08: «Network Hashrate TFLOP/s 8007»