Футбольные прогнозы статистической ассоциации - Statistical association football predictions
Статистический прогноз футбола это метод, используемый в ставки на спорт, чтобы предсказать исход футбол совпадения с помощью статистических инструментов. Цель статистического прогнозирования совпадений - превзойти прогнозы букмекеры[нужна цитата ][сомнительный ], которые используют их для определения коэффициентов на исход футбольных матчей.
Наиболее широко используемый статистический подход к прогнозированию: рейтинг. Системы футбольных рейтингов присваивают звание каждой команде на основе результатов их прошлых игр, поэтому самый высокий ранг присваивается самой сильной команде. Исход матча можно предсказать, сравнив ранги соперников. Существует несколько различных футбольных рейтинговых систем, например, широко известны Мировой рейтинг ФИФА или Рейтинг Эло мирового футбола.
Прогнозы футбольных матчей, основанные на рейтинговой системе, имеют три основных недостатка:
- Ранги, присвоенные командам, не различают их атакующие и защитные силы.
- Звания представляют собой средние значения, которые не учитывают изменения навыков футбольных команд.
- Основная цель рейтинговой системы - не предсказывать результаты футбольных матчей, а сортировать команды по их средней силе.
Другой подход к прогнозированию футбола известен как рейтинговые системы. В то время как рейтинг относится только к командному порядку, рейтинговые системы присваивают каждой команде постоянно масштабируемый показатель силы. Более того, рейтинг может быть присвоен не только команде, но и ее атакующим и защитным силам, преимуществу домашнего поля или даже навыкам каждого игрока команды (согласно Стерну [1]).
История
Публикации о статистических моделях для прогнозов футбола начали появляться с 90-х годов, но первая модель была предложена намного раньше Морони,[2] опубликовавший свой первый статистический анализ результатов футбольного матча в 1956 году. Согласно его анализу, оба распределение Пуассона и отрицательное биномиальное распределение обеспечено адекватное соответствие результатам футбольных игр. Серия передач мяча между игроками во время футбольных матчей была успешно проанализирована Рипом и Бенджамином с использованием отрицательного биномиального распределения. [3] в 1968 г. Они усовершенствовали этот метод в 1971 г., а в 1974 г. Хилл [4] указали, что результаты футбольных игр в некоторой степени предсказуемы, а не просто случайны.
Первую модель, предсказывающую исход футбольных матчей между командами с разным уровнем подготовки, предложил Майкл Махер. [5] в 1982 году. Согласно его модели, голы, которые забивают соперники во время игры, выводятся из распределение Пуассона. Параметры модели определяются разницей между атакующими и защитными навыками с поправкой на коэффициент преимущества домашнего поля. Методы моделирования фактора преимущества домашнего поля были обобщены в статье Корнейи и Каррона. [6] в 1992 году. Зависимость сильных сторон команды от времени была проанализирована Knorr-Held [7] в 1999 г. Он использовал рекурсивная байесовская оценка для оценки футбольных команд: этот метод был более реалистичным по сравнению с прогнозом футбола, основанным на общей средней статистике.
Методы прогнозирования футбола
Все методы прогнозирования можно разделить на категории по типу турнира, временной зависимости и алгоритму регрессии. Методы прогнозирования футбола различаются между Круговой турнир и Нокаут-соревнование. Методы для Нокаут-соревнование резюмируются в статье Диего Куонена.[8]
В таблице ниже представлены методы, относящиеся к Круговой турнир.
# Код Метод прогнозирования Алгоритм регрессии Зависимость от времени Спектакль 1. ПЛИТКА Независимый от времени рейтинг наименьших квадратов Линейная регрессия методом наименьших квадратов Нет Бедные 2. TIPR Независимая от времени регрессия Пуассона Максимальное правдоподобие Нет Середина 3. TISR Не зависит от времени Скеллам Регресс Максимальное правдоподобие Нет Середина 4. ТДПР Зависящая от времени регрессия Пуассона Максимальное правдоподобие Коэффициент демпинга времени Высоко 5. TDMC Цепь Маркова, зависящая от времени Монте-Карло Цепь Маркова модель Высоко
Независимый от времени рейтинг наименьших квадратов
Этот метод предназначен для присвоения каждой команде в турнире постоянно масштабируемого значения рейтинга, чтобы самая сильная команда имела наивысший рейтинг. Метод основан на предположении, что рейтинг, присвоенный командам-соперникам, пропорционален исходу каждого матча.
Предположим, что команды A, B, C и D играют в турнире, и результаты матчей следующие:
Матч # Домашняя команда Счет Гостиная команда Y 1 А 3 - 1 B 2 C 2 - 1 D 3 D 1 - 4 B 4 А 3 - 1 D 5 B 2 - 0 C
Хотя рейтинги , , и команд A, B, C и D соответственно неизвестны, можно предположить, что исход матча № 1 пропорционален разнице между рангами команд A и B: . Таким образом, соответствует разнице в баллах и - наблюдение шума. Такое же предположение можно сделать для всех матчей турнира:
Введя матрицу выбора X, приведенные выше уравнения можно переписать в компактной форме:
Записи в матрице выбора могут быть 1, 0 или -1, где 1 соответствует командам хозяев, а -1 - командам гостей:
Если матрица имеет полный ранг, алгебраическое решение системы может быть найдено через Наименьших квадратов метод:
Если нет, можно использовать Псевдообратная матрица Мура – Пенроуза получить:
Окончательные параметры рейтинга: В этом случае наивысший рейтинг имеет сильнейшая команда. Преимущество этого метода рейтинга по сравнению со стандартными системами рейтинга заключается в том, что числа постоянно масштабируются, определяя точную разницу между сильными сторонами команд.
Независимая от времени регрессия Пуассона
Согласно этой модели (Махер [5]), если и - это голы, забитые в матче, в котором команда i играет против команды j, тогда:
и независимые случайные величины со средними и . Таким образом, совместная вероятность того, что команда хозяев забьет x голов, а команда гостей забьет y голов, является произведением двух независимых вероятностей:
а обобщенная логлинейная модель для и по словам Куонена [8] и Ли [9] определяется как: и , куда относится к атакующим и защитным силам и преимуществу домашнего поля соответственно. и - это поправочные коэффициенты, которые представляют собой среднее количество голов, забитых в течение сезона домашней и гостевой командами.
Предполагая, что C обозначает количество команд, участвующих в сезоне, а N обозначает количество матчей, сыгранных до настоящего момента, сильные стороны команд можно оценить, минимизируя отрицательную функцию логарифмического правдоподобия относительно и :
При условии и известны атакующие и защитные силы команды и преимущество домашней земли которые минимизируют отрицательное логарифмическое правдоподобие, можно оценить с помощью Максимизация ожиданий:
Улучшения для этой модели были предложены Марк Диксон (статистик) и Стюарт Коулз.[10] Они изобрели коэффициент корреляции для низких баллов 0-0, 1-0, 0-1 и 1-1, где независимая модель Пуассона не работает. Димитрис Карлис и Иоаннис Нцуфрас [11] построил модель распределения Скеллама, не зависящую от времени. В отличие от модели Пуассона, которая соответствует распределению оценок, модель Скеллама учитывает разницу между счетами дома и на выезде.
Зависящая от времени цепь Маркова Монте-Карло
С одной стороны, статистические модели требуют большого количества наблюдений для точной оценки своих параметров. А когда в течение сезона доступно недостаточно наблюдений (как это обычно бывает), имеет смысл работать со средней статистикой. С другой стороны, хорошо известно, что навыки команды меняются в течение сезона, в результате чего параметры модели зависят от времени. Марк Диксон (статистик) и Коулз [10] попытался решить эту проблему, присвоив больший вес последним результатам матча. Рю и Сальвесен [12] представила новый метод оценки, зависящий от времени, с использованием модели цепей Маркова.
Они предложили модифицировать обобщенную линейную модель выше для и :
при условии соответствует разнице сил между командами i и j. Параметр затем представляет психологические эффекты, вызванные недооценкой силы противоборствующих команд.
Согласно модели, сила атаки команды A можно описать стандартными уравнениями броуновского движения, , На время :
куда и относятся к потере скорости памяти и к предыдущей дисперсии атаки соответственно.
Эта модель основана на предположении, что:
Предположим, что в турнире участвуют три команды A, B и C и матчи проводятся в следующем порядке: : А-В; : A-C; : B-C, совместная плотность вероятности может быть выражена как:
Поскольку аналитическая оценка параметров в этом случае затруднена, Метод Монте-Карло применяется для оценки параметров модели.
Использование для других видов спорта
Модели, используемые для ассоциация футбола может использоваться для других видов спорта с таким же подсчетом голов (очков), т.е. хоккей на льду, водное поло, хоккей на траве, флорбол и др. Марек, Жупал и Шедива (2014)[13] опираясь на исследования Maher (1982),[5] Диксон и Коулз (1997),[10] и другие, которые использовали модели для ассоциация футбола. Они представили четыре модели для хоккей на льду:
- Модель двойного распределения Пуассона (такая же, как у Maher (1982))[5]),
- Модель двумерного распределения Пуассона, использующая обобщение двумерного распределение Пуассона что допускает отрицательные корреляция между случайные переменные (этот дистрибутив был представлен в Famoye (2010)[14]).
- Диагональные надутые версии двух предыдущих моделей (вдохновленные Диксоном и Коулзом (1997)[10]), где вероятности ничьей 0: 0, 1: 1, 2: 2, 3: 3, 4: 4 и 5: 5 моделируются с дополнительными параметрами.
Более старая информация (результаты) не учитывается в процессе оценки во всех четырех моделях. Модели демонстрируются на высшей хоккейной лиге Чехии - Чешская Экстралига между сезонами 1999/2000 и 2011/2012 гг. Результаты успешно используются на фиктивных делать ставки против букмекеров.
Рекомендации
- ^ Стерн Хэл. (1995) Кто номер 1 в студенческом футболе? ... И как мы можем это решить? Шанс, лето, 7-14.
- ^ Морони М. Дж. (1956) Факты с цифр. 3-е издание, Пингвин, Лондон.
- ^ Рип К. Бенджамин Б. (1968) Мастерство и шанс в ассоциативном футболе. Журнал Королевского статистического общества, серия A, 131, 581-585.
- ^ Hill I.D. (1974), Ассоциация футбола и статистический вывод. Прикладная статистика, 23, 203-208.
- ^ а б c d Махер М.Дж. (1982), Результаты футбольной ассоциации Modeling Association. Statistica Neerlandica, 36, 109–118.
- ^ Caurneya K.S. и Каррон А.В. (1992) Преимущество дома в спортивных соревнованиях: обзор литературы. Журнал спорта и физиологии физических упражнений, 14, 13-27.
- ^ Кнорр-Хельд, Леонард (1997) Динамический рейтинг спортивных команд. (ПЕРЕСМОТРЕНО в 1999 г.). Центр совместных исследований 386, Документ для обсуждения 98
- ^ а б Диего Куонен (1996) Статистические модели для футбольных турниров на выбывание
- ^ Ли А. Дж. (1997) Результаты моделирования в Премьер-лиге: действительно ли Манчестер Юнайтед лучший. Шанс, 10, 15-19
- ^ а б c d Марк Дж. Диксон и Коулз С.Г. (1997) Футбольные результаты Ассоциации моделирования и неэффективность на рынке ставок на футбол, Прикладная статистика, Том 46, Выпуск 2, 265-280
- ^ Димитрис Карлис и Иоаннис Нцуфрас (2007) Байесовское моделирование результатов футбола: использование распределения Скеллама для определения разницы мячей
- ^ Rue H. и Salvesen Ø. (1999) Прогнозирование и ретроспективный анализ футбольных матчей в лиге. Технический отчет. Норвежский университет науки и технологий, Тронхейм.
- ^ Марек, Патрис; Шедива, Бланка; Жупал, Томаш (2014). «Моделирование и прогнозирование результатов хоккейных матчей». Журнал количественного анализа в спорте. 10: 357–365. Дои:10.1515 / jqas-2013-0129. ISSN 1559-0410 - через Research Gate.
- ^ Фамойе, Ф (2010). «Новое двумерное обобщенное распределение Пуассона». Statistica Neerlandica. 64: 112–124.