~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ C53D1652719FDA8E7A54FD0761885ED4__1718834760 ✰
Заголовок документа оригинал.:
✰ Benchmark (computing) - Wikipedia ✰
Заголовок документа перевод.:
✰ Тест (вычисления) — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Benchmark_(computing) ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/c5/d4/c53d1652719fda8e7a54fd0761885ed4.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/c5/d4/c53d1652719fda8e7a54fd0761885ed4__translat.html ✰
Дата и время сохранения документа:
✰ 21.06.2024 01:28:53 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 20 June 2024, at 01:06 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Тест (вычисления) — Википедия Jump to content

Тест (вычисления)

Из Википедии, бесплатной энциклопедии
Графическая демонстрация, работающая в качестве эталонного OGRE. движка

В вычислительной технике эталон это запуск компьютерной программы , набора программ или других операций с целью оценки относительной производительности объекта, обычно путем выполнения ряда стандартных тестов и испытаний. [1]

Термин «бенчмаркинг» также часто используется для целей тщательно разработанных программ сравнительного анализа.

Бенчмаркинг обычно связан с оценкой характеристик производительности компьютерного оборудования , например, при операциях с плавающей запятой производительности процессора , но бывают обстоятельства, когда этот метод применим и к программному обеспечению . Например, тесты программного обеспечения проводятся на основе компиляторов или систем управления базами данных (СУБД).

Тесты производительности предоставляют метод сравнения производительности различных подсистем на разных архитектурах чипов/систем . Бенчмаркинг как часть непрерывной интеграции называется непрерывным бенчмаркингом. [2]

Цель [ править ]

По мере развития компьютерной архитектуры становилось все труднее сравнивать производительность различных компьютерных систем, просто глядя на их характеристики. Поэтому были разработаны тесты, позволяющие сравнивать разные архитектуры. Например, процессоры Pentium 4 обычно работали на более высокой тактовой частоте, чем процессоры Athlon XP или PowerPC , что не обязательно приводило к большей вычислительной мощности; процессор с более низкой тактовой частотой может работать так же хорошо или даже лучше, чем процессор, работающий на более высокой частоте. См. BogoMips и миф о мегагерцах .

Тесты предназначены для имитации определенного типа рабочей нагрузки на компонент или систему. Синтетические тесты делают это с помощью специально созданных программ, которые накладывают нагрузку на компонент. Тесты приложений запускают в системе реальные программы. Хотя тесты приложений обычно дают гораздо лучшую оценку реальной производительности конкретной системы, синтетические тесты полезны для тестирования отдельных компонентов, таких как жесткий диск или сетевое устройство.

Тесты производительности особенно важны при проектировании ЦП , поскольку они дают архитекторам процессоров возможность измерять и принимать компромиссные решения при принятии микроархитектурных решений. Например, если тест извлекает ключевые алгоритмы приложения, он будет содержать аспекты, чувствительные к производительности этого приложения. Запуск этого гораздо меньшего фрагмента на симуляторе с точностью до цикла может дать подсказку о том, как повысить производительность.

До 2000 года архитекторы компьютеров и микропроцессоров использовали для этого SPEC , хотя тесты SPEC для Unix были довольно длинными и, следовательно, громоздкими для использования в неизмененном виде.

Известно, что производители компьютеров настраивают свои системы так, чтобы они обеспечивали нереально высокую производительность в тестах производительности, которые не воспроизводятся в реальном использовании. Например, в 1980-х годах некоторые компиляторы могли обнаружить конкретную математическую операцию, используемую в хорошо известном тесте с плавающей запятой, и заменить эту операцию более быстрой математически эквивалентной операцией. Однако такое преобразование редко приносило пользу за пределами эталонных тестов до середины 1990-х годов, когда архитектуры RISC и VLIW подчеркнули важность технологии компилятора с точки зрения производительности. теперь регулярно используют тесты Компании -разработчики компиляторов для улучшения не только собственных результатов тестов, но и реальной производительности приложений.

ЦП, которые имеют множество исполнительных блоков, например суперскалярный ЦП, ЦП VLIW или реконфигурируемый вычислительный ЦП, обычно имеют более низкую тактовую частоту, чем последовательный ЦП с одним или двумя исполнительными блоками, построенный на таких же быстрых транзисторах. Тем не менее, процессоры с большим количеством исполнительных блоков часто выполняют реальные задачи и задачи тестирования за меньшее время, чем предположительно более быстрые процессоры с высокой тактовой частотой.

Учитывая большое количество доступных тестов, производитель обычно может найти хотя бы один тест, который показывает, что его система превосходит другую систему; другие системы могут показать превосходство с помощью другого теста.

Производители обычно сообщают только о тех тестах (или аспектах тестов), которые показывают их продукцию в лучшем свете. Также известно, что они искажают значимость эталонных тестов, опять же, чтобы показать свою продукцию в наилучшем свете. В совокупности эти методы называются стендовым маркетингом.

В идеале тесты должны заменять реальные приложения только в том случае, если приложение недоступно или слишком сложно или дорого переносить его на конкретный процессор или компьютерную систему. Если производительность имеет решающее значение, единственным критерием, который имеет значение, является набор приложений целевой среды.

Функциональность [ править ]

Функции программного обеспечения для сравнительного анализа могут включать запись/ экспорт динамики производительности в файл электронной таблицы , визуализацию, такую ​​как рисование линейных графиков или плиток с цветовой кодировкой , а также приостановку процесса, чтобы иметь возможность возобновить его без необходимости начинать заново. Программное обеспечение может иметь дополнительные функции, специфичные для его целей, например, программное обеспечение для сравнительного анализа дисков может при необходимости запускать измерение скорости диска в заданном диапазоне диска, а не всего диска, измерять чтения при произвольном доступе скорость и задержку , иметь функцию " функция быстрого сканирования, которая измеряет скорость с помощью выборок заданных интервалов и размеров и позволяет указать размер блока данных , то есть количество запрошенных байтов на каждый запрос на чтение. [3]

Проблемы [ править ]

Бенчмаркинг — дело непростое, оно часто включает в себя несколько итеративных раундов, чтобы прийти к предсказуемым и полезным выводам. Интерпретация данных сравнительного анализа также чрезвычайно сложна. Вот неполный список распространенных проблем:

  • Поставщики, как правило, настраивают свои продукты специально для эталонных тестов, соответствующих отраслевым стандартам. Norton SysInfo (SI) особенно легко настроить, поскольку он в основном ориентирован на скорость выполнения нескольких операций. Будьте предельно осторожны при интерпретации таких результатов.
  • Некоторых поставщиков обвиняют в «обмане» при тестировании — действиях, которые дают гораздо более высокие результаты тестов, но ухудшают ситуацию с реальной вероятной рабочей нагрузкой. [4]
  • Многие тесты полностью фокусируются на скорости вычислений , игнорируя другие важные характеристики компьютерной системы, такие как:
    • Качество обслуживания, помимо чистой производительности. Примеры неизмеримых качеств обслуживания включают безопасность, доступность, надежность, целостность выполнения, удобство обслуживания, масштабируемость (особенно способность быстро и без прерывания работы добавлять или перераспределять мощность) и т. д. Часто между этими качествами обслуживания существуют реальные компромиссы. и все они важны для бизнес-вычислений. Спецификации производительности обработки транзакций Совета по производительности частично решают эти проблемы, определяя тесты свойств ACID , правила масштабирования базы данных и требования к уровню обслуживания.
    • В целом, эталонные показатели не измеряют совокупную стоимость владения . Спецификации производительности обработки транзакций частично решают эту проблему, указывая, что в дополнение к исходному показателю производительности необходимо сообщать показатель цена/производительность, используя упрощенную формулу совокупной стоимости владения . Однако затраты обязательно являются лишь частичными, и известно, что поставщики устанавливают цены специально (и только) для эталонного теста, разрабатывая весьма специфичную «специальную эталонную» конфигурацию с искусственно заниженной ценой. Даже небольшое отклонение от эталонного пакета приводит к гораздо более высокой цене в реальном мире.
    • Нагрузка на оборудование (пространство, электропитание и охлаждение). Когда используется больше энергии, портативная система будет иметь более короткий срок службы батареи и будет требовать подзарядки чаще. Сервер, который потребляет больше энергии и/или пространства, может не соответствовать существующим ограничениям ресурсов центра обработки данных, включая ограничения на охлаждение. Есть реальные компромиссы, поскольку большинству полупроводников требуется больше энергии для более быстрого переключения. См. также производительность на ватт .
    • В некоторых встроенных системах, где память требует значительных затрат, более высокая плотность кода может значительно снизить затраты.
  • Тесты поставщиков обычно игнорируют требования к для разработки, тестирования и аварийного восстановления вычислительным мощностям . Продавцы любят сообщать только о том, что может потребоваться для производственных мощностей, только для того, чтобы их первоначальная цена приобретения казалась как можно более низкой.
  • У тестов производительности возникают проблемы с адаптацией к широко распределенным серверам, особенно к серверам с повышенной чувствительностью к топологии сети. Появление грид-вычислений , в частности, усложняет сравнительный анализ, поскольку некоторые рабочие нагрузки «дружественны к сетке», а другие нет.
  • Пользователи могут иметь совершенно разные представления о производительности, чем могут предложить тесты. В частности, пользователи ценят предсказуемость — серверы всегда соответствуют соглашениям об уровне обслуживания или превосходят их . В тестах, как правило, особое внимание уделяется средним показателям (с точки зрения ИТ), а не максимальному времени отклика для наихудшего случая ( с точки зрения вычислений в реальном времени ) или низким стандартным отклонениям (с точки зрения пользователя).
  • Многие серверные архитектуры резко ухудшаются при высоких (около 100%) уровнях использования — «падают со скалы» — и тесты производительности должны (но часто не учитывают) этот фактор. Поставщики, в частности, склонны постоянно публиковать тесты производительности серверов при загрузке около 80 % (нереалистичная ситуация) и не документировать, что происходит с системой в целом, когда спрос превышает этот уровень.
  • Многие тесты сосредоточены на одном приложении или даже на одном уровне приложений, исключая другие приложения. Большинство центров обработки данных в настоящее время широко внедряют виртуализацию по ряду причин, и бенчмаркинг все еще догоняет ту реальность, когда несколько приложений и уровней приложений одновременно работают на консолидированных серверах.
  • Существует мало (если таковые имеются) высококачественных тестов, которые помогают измерить производительность пакетных вычислений, особенно параллельных пакетных вычислений большого объема и онлайн-вычислений. Пакетные вычисления, как правило, в большей степени ориентированы на предсказуемость правильного выполнения долгосрочных задач до наступления крайних сроков, таких как конец месяца или конец финансового года. Многие важные основные бизнес-процессы ориентированы на пакетную обработку и, вероятно, так будут всегда, например выставление счетов.
  • Учреждения, занимающиеся бенчмаркингом, часто игнорируют или не следуют основным научным методам. Это включает, помимо прочего: небольшой размер выборки, отсутствие переменного контроля и ограниченную повторяемость результатов. [5]

Принципы бенчмаркинга [ править ]

Существует семь важнейших характеристик эталонных показателей. [6] Этими ключевыми свойствами являются:

  1. Актуальность: тесты должны измерять относительно важные функции.
  2. Репрезентативность: эталонные показатели производительности должны быть широко приняты промышленностью и научными кругами.
  3. Справедливость: Все системы должны справедливо сравниваться.
  4. Повторяемость: результаты тестов можно проверить.
  5. Экономическая эффективность: эталонные тесты экономичны.
  6. Масштабируемость: эталонные тесты должны работать на системах, обладающих диапазоном ресурсов от низкого до высокого.
  7. Прозрачность: контрольные показатели должны быть простыми для понимания.

Типы тестов [ править ]

  1. Реальная программа
  2. Бенчмарк компонентов/микробенчмарк
    • Основная процедура состоит из относительно небольшого и специфического фрагмента кода.
    • измерить производительность основных компонентов компьютера [7]
    • может использоваться для автоматического определения параметров оборудования компьютера, таких как количество регистров, кэша размер , задержка памяти и т. д.
  3. Ядро
    • содержит ключевые коды
    • обычно абстрагируется от реальной программы
    • популярное ядро: Ливерморский цикл
    • Тест linpack (содержит базовую функцию линейной алгебры, написанную на языке FORTRAN)
    • результаты представлены в Мфлоп/с.
  4. Синтетический эталон
    • Порядок программирования синтетического теста:
      • брать статистику всех типов операций из многих прикладных программ
      • получить долю каждой операции
      • написать программу на основе приведенной выше пропорции
    • Типы синтетических эталонных показателей:
    • Это были первые стандартные компьютерные тесты общего назначения. Они не обязательно получают высокие баллы на современных конвейерных компьютерах.
  5. Тесты ввода-вывода
  6. Тесты базы данных
    • измерять пропускную способность и время отклика систем управления базами данных (СУБД)
  7. Параллельные тесты
    • используется на машинах с несколькими ядрами и/или процессорами или в системах, состоящих из нескольких машин

Общие критерии [ править ]

Отраслевой стандарт (проверенный и поддающийся проверке) [ править ]

Тесты с открытым исходным кодом [ править ]

  • Многопользовательский тест AIM - состоит из списка тестов, которые можно смешивать для создания «сочетания нагрузки», имитирующего определенную функцию компьютера в любой ОС типа UNIX.
  • Bonnie++ – тест файловой системы и жесткого диска
  • BRL-CAD – кроссплатформенный набор тестов, не зависящий от архитектуры, основанный на производительности многопоточной трассировки лучей; базовый уровень по сравнению с VAX-11/780; и используется с 1984 года для оценки относительной производительности ЦП, различий компиляторов, уровней оптимизации, согласованности, различий в архитектуре и различий в операционных системах.
  • Коллективные знания — настраиваемая кросс-платформенная среда для краудсорсингового сравнительного анализа и оптимизации пользовательских рабочих нагрузок (например, глубокого обучения ) на оборудовании, предоставленном волонтерами.
  • Coremark – тест для встраиваемых вычислений
  • DEISA Benchmark Suite – тест для научных приложений HPC
  • Dhrystone - производительность целочисленных арифметических операций, часто выражаемая в DMIPS (миллионы инструкций Dhrystone в секунду).
  • DiskSpd инструмент командной строки для сравнительного анализа хранилища, который генерирует различные запросы к компьютерным файлам , разделам или устройствам хранения.
  • Fhourstones – целочисленный тест
  • ПОДСКАЗКА – предназначена для измерения общей производительности процессора и памяти.
  • Iometer – инструмент измерения и определения характеристик подсистем ввода-вывода для одиночных и кластерных систем.
  • IOzone – тест файловой системы
  • Тесты LINPACK – традиционно используются для измерения FLOPS
  • Ливерморские петли
  • Параллельные тесты NAS
  • NBench - набор синтетических тестов, измеряющий производительность целочисленной арифметики, операций с памятью и арифметики с плавающей запятой.
  • PAL – эталон физических движков реального времени
  • PerfKitBenchmarker — набор тестов для измерения и сравнения облачных предложений.
  • Phoronix Test Suite – пакет кроссплатформенного тестирования с открытым исходным кодом для Linux, OpenSolaris, FreeBSD, OSX и Windows. Он включает в себя ряд других тестов, представленных на этой странице для упрощения выполнения.
  • POV-Ray – 3D render
  • Tak (функция) — простой тест, используемый для проверки производительности рекурсии.
  • Тест TATP – тест обработки транзакций телекоммуникационных приложений
  • TPoX — эталон обработки транзакций XML для баз данных XML.
  • VUP (единица производительности VAX) — также называется VAX MIPS.
  • Whetstone - производительность арифметических операций с плавающей запятой, часто измеряемая в миллионах инструкций Whetstone в секунду (MWIPS).

Тесты Microsoft Windows [ править ]

Другие [ править ]

  • AnTuTu – обычно используется на телефонах и устройствах на базе ARM.
  • Byte Sieve — изначально проверял производительность языка, но также широко использовался в качестве машинного теста.
  • Creative Computing Benchmark – сравнивает язык программирования BASIC на различных платформах. Представлен в 1983 году.
  • Geekbench – кроссплатформенный тест для Windows, Linux, macOS, iOS и Android.
  • iCOMP - сравнительная производительность микропроцессоров Intel, опубликованная Intel.
  • Хорнерстоун
  • Рейтинг производительности — схема моделирования, используемая AMD и Cyrix для отражения относительной производительности, обычно сравниваемой с конкурирующими продуктами.
  • Тесты Rugg/Feldman — одни из первых тестов микрокомпьютеров, выпущенные в 1977 году.
  • SunSpider – тест скорости браузера
  • VMmark — набор тестов виртуализации.

См. также [ править ]

Ссылки [ править ]

  1. ^ Флеминг, Филип Дж.; Уоллес, Джон Дж. (1 марта 1986 г.). «Как не врать со статистикой: как правильно обобщить результаты тестов» . Коммуникации АКМ . 29 (3): 218–221. дои : 10.1145/5666.5673 . ISSN   0001-0782 . S2CID   1047380 .
  2. ^ Грамбоу, Мартин; Леманн, Фабиан; Бермбах, Дэвид (2019). «Непрерывный бенчмаркинг: использование бенчмаркинга системы в конвейерах сборки» . Международная конференция IEEE по облачной инженерии (IC2E) 2019 . стр. 241–246. дои : 10.1109/IC2E.2019.00039 . ISBN  978-1-7281-0218-4 . Проверено 03 декабря 2023 г.
  3. ^ Программное обеспечение: HDDScan, диски GNOME.
  4. ^ Кразит, Том (2003). «Переоценка эталонной тактики NVIDIA» . Новости ИДГ . Архивировано из оригинала 6 июня 2011 г. Проверено 8 августа 2009 г.
  5. ^ Кастор, Кевин (2006). «Методология тестирования и сравнительного анализа оборудования» . Архивировано из оригинала 5 февраля 2008 г. Проверено 24 февраля 2008 г.
  6. ^ Дай, Вэй; Берлеант, Дэниел (12–14 декабря 2019 г.). «Сравнительный анализ современного оборудования и инфраструктур глубокого обучения: обзор качественных показателей» (PDF) . Первая международная конференция IEEE 2019 по когнитивному машинному интеллекту (CogMI) . Лос-Анджелес, Калифорния, США: IEEE. стр. 148–155. arXiv : 1907.03626 . дои : 10.1109/CogMI48466.2019.00029 .
  7. ^ Элиар, Андреас; Лю, Дэйк. «Сравнение сетевых процессоров» (PDF) . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  8. ^ Совет по производительности обработки транзакций (февраль 1998 г.). «История и обзор ТПК» . ТПК . Совет по производительности обработки транзакций . Проверено 2 июля 2018 г.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]


Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: C53D1652719FDA8E7A54FD0761885ED4__1718834760
URL1:https://en.wikipedia.org/wiki/Benchmark_(computing)
Заголовок, (Title) документа по адресу, URL1:
Benchmark (computing) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)