Перейти к содержимому

Fantasy Premier League. Мастерство или удача?

Меня этот вопрос волнует давно. Чтобы разобраться, я предпринял серьёзное исследование, по ходу которого пришлось преодолеть ряд технических трудностей. Краткий ответ звучит так: хороший результат в одном сезоне может быть получен благодаря удаче. Закономерно из сезона в сезон занимать высокие места могут лишь мастера. Давайте начнем с представления четырех выдающихся игроков Fantasy Premier League:

Рис. 1. Четыре потрясающих достижения: Paul Marshman наряду с тремя другими игроками 5 раз финишировал в ТОР-1k, Fábio Borges с большим отрывом от преследователей имеет самое низкое среднее значения ранга за последние пять сезонов, Richard Clarke единственный, кто во всех 16 сезонах финишировал в ТОР-50k, Mark Sutherns больше всех – 10 раз – финишировал в ТОР-5k

Скачать заметку в формате Word или pdf, примеры в формате Excel

Завязка

Я увлекаюсь Fantasy Premier League, статистикой и Excel. Объединение этих интересов и позволило получить результаты, представленные в заметке.

Уже много лет я строю модели на основе больших данных FPL (см. Лучшая команда Fantasy Premier League сезона 2017/18). Программирование не является моим коньком, и для скрапинга данных с сайта FPL я заказал программу у профессионалов. Но со временем условия изменились. Сначала сайт стал запрашивать подтверждение для входа, а затем потребовалось работать под VPN. В этих условиях скрапинг был затруднен.

Я не унывал, и начал гуглить. И удача! Нахожу описание и библиотеку pyton для скрапинга сайта FPL. Прошу моего друга Вадима Миняйло помочь с pyton. После первых пробных попыток Вадим сообщает, что оказывается FPL предоставляет доступ к данным по API. Гуглю более прицельно, и нахожу перечень точек доступа. Настраиваю запросы с помощью Power Query в Excel, и получаю массив данных – около 100М строк. Загружаю данные в модель Power Pivot и… комп не справляется. Покупаю новый в максимально доступной конфигурации – с процессором Intel Core i9-12900K, 3.20 GHz и оперативной памятью 32GB.

Методика

В рамках подготовки к сезону 2022/23 я прочитал несколько книг, и у Пола Роджерса нашел ссылку на настоящее научное исследование опубликованное в рецензируемом электронном журнале Джозеф Д. О’Брайен, Джеймс П. Глисон, Дэвид Дж.П. О’Салливан. Идентификация мастерства в Fantasy Premier League. Исследование весьма интересное, но у меня к нему есть одно замечание. Авторы изучали ТОР-1М игроков по итогам сезона 2018/19. Проблема в том, что часть игроков из этой выборки попали на верхние строчки благодаря везению, а не подтвержденному мастерству. На мой взгляд интереснее выделить элитных игроков на основании многолетних результатов, и именно эту группу сравнивать с «поляной».

В цикле заметок я планирую представить вам интересные выводы о том, что отличает элитных игроков, а начну с выделения элиты.

Я скачал и проанализировал данные о истории выступлений 9,6М менеджеров, зарегистрировавшихся на сезон 2022/23 к 1 сентября 2022 г.

Статистика участий

Точные данных о числе участников за прошлые годы я не нашел, но в качестве оценки выбрал наихудший рейтинг в соответствующем сезоне среди менеджеров, зарегистрировавшихся на сезон 2022/23.

Рис. 2. За 16 сезонов количество аккаунтов увеличилось в 7 раз

Современную базу данных FPL ведет с сезона 2006/07. За более ранние периоды доступны лишь разрозненные данные.

Более трети аккаунтов – 3 464 000 – впервые зарегистрировались на сезон 2022/23. Но также есть и 52 тысячи менеджеров, которые приняли участие во всех 16 сезонах.

Рис. 3. Распределение аккаунтов по количеству участий в предыдущих сезонах, х1000

Естественно, что опытные игроки регистрируются раньше))

Рис. 4. Среднее число сезонов по группам аккаунтов; 1 по оси ординат соответствует аккаунтам с номерами от 1 до 1 000 000, 2 – аккаунты с номерами от 1 000 001 до 2 000 000 и т.д.

Элита

Чтобы определить, кого отнести к элите, мне предстояло ответить на ряд вопросов. Учитывать ли все выступления или только несколько последних? Отбирать элиту по абсолютным или относительным рейтингам? Ориентироваться на средние показатели или на число вхождений в ТОП? И наконец, сколько игроков отбирать? 100, 1000, 10 000?

Надо сказать, что элитные игроки представлены на ряде сайтов. Например, livefpl.net, fplstatistics, fplreview, myfplanalysis.co.in и premierfantasytools.com. Я не думаю, что тот или иной список лучше или хуже. Важен общий принцип – высокие результаты на протяжении нескольких сезонов.

Чтобы не было перекоса в сторону игроков с большим числом участий, я решил считать результаты только за пять последних сезонов. Дабы отсечь случайные успехи, я не учитывал игроков с небольшим числом участий. За последние пять сезонов число аккаунтов увеличилось в полтора раза с 5,9М до 9,1М. С одной стороны, относительный рейтинг более справедлив. Ведь попасть в ТОП-10k при 5,9М участников легче, чем при 9,1М. С другой стороны, абсолютные рейтинги видны на сайте, и именно они фигурируют в обсуждениях. Что такое ТОП-10k понятно всем, а что такое ТОП-0,1%?.. На мой взгляд центральная мера (среднее) лучше отражает стабильность результатов, чем число попаданий в ТОП. И наконец медиана более робастна,[1] чем среднее арифметическое, подверженное влиянию даже одного относительно неудачного сезона. Я включил в элиту 10 000 игроков:

  1. 9318 лучших по медианному значению рейтинга, принявших участие во всех пяти сезонах 2017/2018 – 2021/22; медианное значение не более 55 000.
  2. 537 лучших, принявших участие в четырех из пяти сезонов; медианное значение не более 40 000.
  3. 145 лучших, принявших участие в трех из пяти сезонов; медианное значение не более 13 300.

Я решил на этом этапе отобрать в элиту 10k. А на последний важный вопрос, сколько игроков включать в элиту, ответить в рамках последующих исследований.

Чтобы оценить уровень игроков, посмотрите на показатели лучших и «худших» по категориям:

Рис. 5. Показатели игроков: 1) 1-й в категории «5 сезонов», 2) 1-й в категории «4 сезона», 3) 1-й в категории «3 сезона», 4) 9318-й в категории «5 сезонов», 5) 537-й в категории «4 сезона», 6) 145-й в категории «3 сезона»

Полный список элитных аккаунтов можно найти в приложенном Excel-файле. Также для дальнейшего исследования выделил три группы. Большая группа включает меньшие.

Рис. 6. Средняя медиана в сезонах 2017/2018 – 2021/22 и количество аккаунтов по элитным группам

Группа сравнения

Поскольку из тура в тур изучать все аккаунты (сейчас их более 10М) не представляется возможным, я выделил группу сравнения, и назвал ее поляной. Эту группу я сформировал на основе стратифицированной выборки:

Рис. 7. Правила формирования поляны

Такой выбор связан с том, что аккаунты с меньшими номерами формируются более опытными и вовлеченными менеджерами, поэтому стратифицированная выборка больше соответствует моей цели – сравнить игру элитного игрока и среднего. Среди аккаунтов с большими номерами выше процент фейковых и случайных игроков.

Поскольку выбор поляны был случайным, в ней присутствует и некоторое число элитных игроков. Полный список аккаунтов, включенных в поляну, можно найти в приложенном Excel-файле.

В целом параметры выборок по всем участиям (а не только в сезонах 2017/2018 – 2021/22) выглядят следующим образом:

Рис. 8. Параметры выборок

Цикл включает следующие заметки:

Извлечение больших данных Fantasy Premier League с помощью API и Excel Power Query
Fantasy Premier League. Выбор команды перед первым туром
Fantasy Premier League. Трансферы
Fantasy Premier League. Игра фишками
Fantasy Premier League. Выбор капитана
Fantasy Premier League. Автозамены
Fantasy Premier League. Предсказатель
Fantasy Premier League. Динамика состава

[1] Робастность — свойство статистического метода, характеризующее устойчивость к помехам.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *