Гиперпараметр (машинное обучение) - Hyperparameter (machine learning)

В машинное обучение, а гиперпараметр это параметр значение которого используется для управления процессом обучения. Напротив, значения других параметров (обычно веса узлов) выводятся посредством обучения.

Гиперпараметры можно классифицировать как гиперпараметры модели, которые не могут быть выведены при установка машины на тренировочный комплект потому что они относятся к выбор модели гиперпараметры задачи или алгоритма, которые в принципе не влияют на производительность модели, но влияют на скорость и качество процесса обучения. Примером гиперпараметра модели является топология и размер нейронной сети. Примеры гиперпараметров алгоритма: скорость обучения и мини-размер партии.[требуется разъяснение ]

Для разных алгоритмов обучения модели требуются разные гиперпараметры, несколько простых алгоритмов (например, обыкновенный метод наименьших квадратов регрессия) не требуется. Учитывая эти гиперпараметры, алгоритм обучения изучает параметры на основе данных. Например, ЛАССО это алгоритм, который добавляет регуляризация гиперпараметр для обыкновенный метод наименьших квадратов регрессия, которая должна быть установлена ​​перед оценкой параметров с помощью алгоритма обучения.

Соображения

Время, необходимое для обучения и тестирования модели, может зависеть от выбора ее гиперпараметров.[1] Гиперпараметр обычно бывает непрерывного или целочисленного типа, что приводит к проблемам оптимизации смешанного типа.[1] Существование одних гиперпараметров зависит от значения других, например размер каждого скрытого слоя в нейронной сети может зависеть от количества слоев.[1]

Сложно обучаемые параметры

Обычно, но не всегда, гиперпараметры не могут быть изучены с помощью хорошо известных методов на основе градиента (таких как градиентный спуск, LBFGS), которые обычно используются для изучения параметров. Эти гиперпараметры - это те параметры, которые описывают представление модели, которые не могут быть изучены обычными методами оптимизации, но тем не менее влияют на функцию потерь. Примером может служить гиперпараметр допуска для ошибок в машинах опорных векторов.

Необучаемые параметры

Иногда гиперпараметры невозможно узнать из обучающих данных, потому что они агрессивно увеличивают емкость модели и могут подтолкнуть функцию потерь к плохому минимуму - переоснащение и сбор шума в данных - в отличие от правильного отображения разнообразия структура в данных. Например, если мы рассматриваем степень полиномиального уравнения, соответствующего модели регрессии, как обучаемый параметр - это просто повысит степень до тех пор, пока модель не будет идеально соответствовать данным, что даст небольшую ошибку обучения - но плохую производительность обобщения.

Возможность настройки

Большинство вариаций производительности можно отнести к нескольким гиперпараметрам.[2][1][3] Настраиваемость алгоритма, гиперпараметра или взаимодействующих гиперпараметров - это мера того, насколько можно повысить производительность, настроив его.[4] Для LSTM, в то время как скорость обучения за которым следует размер сети, его наиболее важные гиперпараметры,[5] пакетирование и импульс не оказывают существенного влияния на его производительность.[6]

Хотя некоторые исследования рекомендуют использовать размеры мини-партий в тысячах, другие исследования показали, что лучшая производительность достигается при размерах мини-партий от 2 до 32.[7]

Надежность

Присущая обучению стохастичность напрямую подразумевает, что эффективность эмпирического гиперпараметра не обязательно является его истинной производительностью.[1] Методы, не устойчивые к простым изменениям гиперпараметров, случайные семена, или даже разные реализации одного и того же алгоритма не могут быть интегрированы в критически важные системы управления без значительного упрощения и робастизации.[8]

Обучение с подкреплением алгоритмы, в частности, требуют измерения их производительности по большому количеству случайных начальных чисел, а также измерения их чувствительности к выбору гиперпараметров.[8] Их оценка с помощью небольшого количества случайных семян не позволяет адекватно оценить производительность из-за большой дисперсии.[8] Некоторые методы обучения с подкреплением, например DDPG (Глубокий детерминированный градиент политики) более чувствителен к выбору гиперпараметров, чем другие.[8]

Оптимизация

Оптимизация гиперпараметров находит кортеж гиперпараметров, который дает оптимальную модель, которая минимизирует предопределенный функция потерь по заданным тестовым данным.[1] Целевая функция принимает набор гиперпараметров и возвращает соответствующие потери.[1]

Воспроизводимость

Помимо настройки гиперпараметров, машинное обучение включает в себя хранение и систематизацию параметров и результатов, а также обеспечение их воспроизводимости.[9] В отсутствие надежной инфраструктуры для этой цели исследовательский код часто быстро развивается и ставит под угрозу такие важные аспекты, как бухгалтерский учет и воспроизводимость.[10] Платформы онлайн-сотрудничества для машинного обучения идут дальше, позволяя ученым автоматически обмениваться, организовывать и обсуждать эксперименты, данные и алгоритмы.[11] Воспроизводимость может быть особенно сложной для глубокое обучение модели.[12]

Существует ряд соответствующих сервисов и программного обеспечения с открытым исходным кодом:

Услуги

ИмяИнтерфейсы
Comet.ml[13]Python[14]
OpenML[15][11][16][17]REST, Python, Java, R[18]
Веса и отклонения[19]Python[20]

Программного обеспечения

ИмяИнтерфейсыМагазин
ОпределенныйОТДЫХ, PythonPostgreSQL
OpenML Docker[15][11][16][17]REST, Python, Java, R[18]MySQL
священный[9][10]Python[21]файл, MongoDB, TinyDB, SQL

Смотрите также

Рекомендации

  1. ^ а б c d е ж грамм «Клезен, Марк и Барт Де Моор.« Поиск гиперпараметров в машинном обучении ». Препринт arXiv arXiv: 1502.02127 (2015)». arXiv:1502.02127. Bibcode:2015arXiv150202127C.
  2. ^ Лейтон-Браун, Кевин; Хус, Хольгер; Хаттер, Фрэнк (27 января 2014 г.). «Эффективный подход к оценке важности гиперпараметров»: 754–762 - с помощью inventory.mlr.press. Цитировать журнал требует | журнал = (помощь)
  3. ^ "Ван Рейн, Ян Н. и Фрэнк Хаттер." Важность гиперпараметров в наборах данных. "Препринт arXiv arXiv: 1710.04725 (2017)". arXiv:1710.04725. Bibcode:2017arXiv171004725V.
  4. ^ «Пробст, Филипп, Бернд Бишл и Анн-Лор Булесте.« Возможность настройки: важность гиперпараметров алгоритмов машинного обучения ». Препринт arXiv arXiv: 1802.09596 (2018)». arXiv:1802.09596. Bibcode:2018arXiv180209596P.
  5. ^ Грефф, К .; Srivastava, R.K .; Koutník, J .; Steunebrink, B.R .; Шмидхубер, Дж. (23 октября 2017 г.). "LSTM: космическая одиссея поиска". Транзакции IEEE в нейронных сетях и обучающих системах. 28 (10): 2222–2232. arXiv:1503.04069. Дои:10.1109 / TNNLS.2016.2582924. PMID  27411231. S2CID  3356463.
  6. ^ "Бреуэл, Томас М." Сравнительный анализ сетей LSTM. "Препринт arXiv arXiv: 1508.02774 (2015)". arXiv:1508.02774. Bibcode:2015arXiv150802774B.
  7. ^ «Пересмотр малого пакетного обучения для глубоких нейронных сетей (2018)». arXiv:1804.07612. Bibcode:2018arXiv180407612M.
  8. ^ а б c d «Мания, Хория, Аурелия Гай и Бенджамин Рехт.« Простой случайный поиск обеспечивает конкурентный подход к обучению с подкреплением ». Препринт arXiv arXiv: 1803.07055 (2018)». arXiv:1803.07055. Bibcode:2018arXiv180307055M.
  9. ^ а б "Грефф, Клаус и Юрген Шмидхубер." Введение в Sacred: инструмент для облегчения воспроизводимых исследований."" (PDF). 2015.
  10. ^ а б "Грефф, Клаус и др." Священная инфраструктура для вычислительных исследований."" (PDF). 2017.
  11. ^ а б c «Ваншорен, Хоакин и др.« OpenML: сетевая наука в машинном обучении ». Препринт arXiv arXiv: 1407.7722 (2014)». arXiv:1407.7722. Bibcode:2014arXiv1407.7722V.
  12. ^ Вилла, Дженнифер; Циммерман, Йоав (25 мая 2018 г.). «Воспроизводимость в машинном обучении: почему это важно и как этого добиться». Блог Determined AI. Получено 31 августа 2020.
  13. ^ "Comet.ml - Управление экспериментами по машинному обучению".
  14. ^ Inc, Comet ML. "комета-мл: суперзарядка машинного обучения" - через PyPI.
  15. ^ а б Van Rijn, Jan N .; Бишл, Бернд; Торго, Луис; Гао, Бо; Умаашанкар, Венкатеш; Фишер, Саймон; Зима, Патрик; Висведель, Бернд; Бертольд, Майкл Р .; Ваншорен, Хоакин (2013). «OpenML: совместная научная платформа». Ван Рейн, Ян Н. и др. «OpenML: платформа для совместной науки». Совместная европейская конференция по машинному обучению и открытию знаний в базах данных. Шпрингер, Берлин, Гейдельберг, 2013 г.. Конспект лекций по информатике. 7908. С. 645–649. Дои:10.1007/978-3-642-40994-3_46. ISBN  978-3-642-38708-1.
  16. ^ а б «Ваншорен, Хоакин, Ян Н. ван Рейн и Бернд Бишл.« Проведение исследований по машинному обучению в Интернете с помощью OpenML ». Труды 4-й Международной конференции по большим данным, потокам и добыче гетерогенных источников: алгоритмы, системы, модели программирования и приложения. Том 41. JMLR. Org, 2015 » (PDF).
  17. ^ а б "Ван Рейн, Дж. Н. Массовое совместное машинное обучение. Дисс. 2016". 2016-12-19.
  18. ^ а б «OpenML». GitHub.
  19. ^ "Веса и отклонения для отслеживания экспериментов и совместной работы".
  20. ^ "Контролируйте свои модели машинного обучения с помощью PyEnv".
  21. ^ Грефф, Клаус (2020-01-03). "священный: облегчает автоматизированное и воспроизводимое экспериментальное исследование" - через PyPI.