Рейтинги команд или игроков используются в случае, когда необходимо предсказать возможный результат их встречи в будущем. Существуют и другие ситуации, когда необходимо вычислять рейтинги команд, но этот случай представляет для играющей на ставках публики единственный интерес. Рейтинги команд в последнем случае называют также рейтингами "силы” команд или Power Ratings. Часто можно также увидеть термины Team Rankings и Team Standings. Последние чаще всего относится не к определению "силы” команд, а к определению их положения в таблице в зависимости от других нежели "сила” команд параметров, которые конечно могут иметь (и обычно имеют) связь с реальной силой команд. Часто составители Rankings или Standings явно указывают, что их индексы не могут применяться для предсказания результата игры или, по крайней мере, его количественных характеристик.
В случае рейтингов силы команд они могут применяться для предсказания:
1. Общего результата игры: какая команда выиграет – какая проиграет
2. С какой разницей в счете выиграет команда победитель и проиграет соперник.
3. С каким конкретным счетом выиграет команда победитель и проиграет соперник.
Очевидно, что ответ на первый вопрос необходим (но не достаточен) при ставках на чистую победу. Ответ на второй вопрос - при ставках на победу с форой и ответ на третий вопрос – при ставках на точный счет или, более часто, на тотул. Поскольку, в этом третьем случае, дополнительным (и более надежным) прогнозом будет общий счет игры – тотул, точнее не сам общий счет, а то выше или ниже он относительно заявленной букмекерской конторой линии.
Рейтингом команды может быть как одно число, так и несколько. Это происходит по двум причинам. Во-первых, команды могут играть в разное время в различных условиях и, возможно, по-разному реагировать на эти условия своими результатами. Например, играть дома или на выезде, играть на стадионах с разным покрытием и т. д. Соответственно этому команде может быть приписано несколько рейтингов – для каждого из этих условий. Например, часто указываются раздельно рейтинги для игры команды на выезде и дома. Это связано c преимуществом, которое имеет команда, играя дома. Об этом настолько хорошо известно всем, кто хоть когда-либо смотрел спортивные соревнования (не говоря уж о тех, кто делал ставки на них), что было бы неуместным даже краткое пояснение. Если бы не тот факт, что иногда команды играют сильнее именно на выезде, как бы играя назло болельщикам команды-хозяев, то есть, концентрируясь именно во враждебном окружении. Это часто можно видеть, строя рейтинги силы команд или даже просто просчитывая соответствующую статистику. Иногда, чисто формально, считают, что вместо двух рейтингов на выезде и дома, команда имеет один рейтинг силы, который просто должен корректироваться его индивидуальным преимуществом игры дома (home advantage).
Иногда вместо приписывания каждой команде отдельных рейтингов для игр дома и на выезде (или соответственно индивидуальных преимуществ поля) вводят одно для всех преимущество поля. Это вроде бы нелогично. Действительно, разные команды могут быть чувствительны к этому условию по-разному. С другой стороны при наличии компьютера и соответствующей программы нет особой разницы в трудности вычисления дополнительных, индивидуальных рейтингов или корректировочных величин. Однако, предсказания каких-либо величин, на основе знания других, им сопутствующих величин, которые часто делаются с помощью метода, так называемой, регрессии, обладают одним неприятным свойством. Чем больше Вы привлекаете параметров для объяснения того или иного явления, тем лучше Вы объясняете прошлое этого явления, но … тем хуже Вы предсказываете его будущее. То есть, часто введя в оборот большее, чем до этого количество факторов для объяснения явления, Вы получаете на предсказаниях заметно худший результат, чем при меньшем количестве "объясняющих” факторов. Чтобы не углубляться раньше времени в эту проблему, скажу лишь, что здесь можно дать следующее упрощенное объяснение. Дополнительно привлекаемые к объяснению параметры имеют обычно меньшее для объяснения явления значение. В самом деле, вначале мы привлекаем для объяснения наиболее заметно влияющие факторы, затем дополнительные факторы, как попытку более "тонкой” настройки. Но дополнительные факторы имеют не меньшее значение в смысле влияния своей неопределенности на конечный результат. То есть с одной стороны мы "улучшаем” объяснение, но не намного, с другой стороны вносим достаточно большие неопределенность и неустойчивость. Результат обычно не устраивает тех, кто пытается так делать. При увеличении количества переменных в регрессионной модели зачастую падает вычислительная устойчивость алгоритмов. Но самое главное и сама модель становится очень неустойчивой. Это означает, что маленький разброс-отклонение в исходных данных (результатах игр и их счетах), приводит к неоправданно большому разбросу в результирующих рейтингах и, соответственно, прогнозах. Разброс же в результатах игр, особенно небольшой разброс относительно прогнозного значения, явление настолько естественное и распространенное, что и сказать об этом больше нечего. Но мы и так уже отошли от основной линии, поэтому вернемся к нашим баранам.
Вторым случаем, когда рейтинг будет выражаться не одним числом, будет случай, когда мы по отдельности оцениваем части команды, которые отвечают за зарабатывание очков – нападение, и за уменьшения числа очков, заработанных соперником - защиту. То есть существуют рейтинги нападения и рейтинги защиты. Таким образом, как видно, рейтинги могут быть дифференцированы по многим "осям координат”. Теоретически на каждую возможную комбинацию условий, команда может иметь по одному рейтингу для нападения и защиты. Такая конструкция называется математиками "декартово произведение”. В этом случае количество возможных рейтингов одной команды растет очень значительно даже при небольшом увеличении числа "осей”. Ясно что для лиги типа NFL, где за сезон играется не больше 300 игр, а количество команд около 30 такое изобилие рейтингов ни к чему хорошему не приведет. Но даже и для более интенсивного сезона NBA это то же не самый лучший метод.
Кроме преимущества поля, в теории рейтингов команд вычисляется и используется еще одна "корректировочная” величина. Это "сила расписания” (Schedule Strength). Она вычисляется как функция от силы команд (и значит обычно от рейтингов силы, вычисленных за предыдущие даты, как наиболее доступных ее оценок), с которыми команда сыграла до сих пор или, как вариант, с командами, которыми ей предстоит сразиться. Основными идеями, которые тут используются, будут представления о том, что команда может "устать” после игры с сильными соперниками, "истощиться”. Или наоборот – быть "свеженькой”, после игры со слабыми соперниками. Она может "мобилизоваться”, если предстоит "трудный” и важный период, а может "плюнуть”, раcслабиться и сохранить силы для более важной, чем непосредственно предстоящая, встречи. Часть из этих представлений относительно легко формально учесть в основной модели. Вопрос - насколько это эффективно, решается не так легко, как вопрос самого учета. Другую часть формализовать не так просто, так они относятся больше к мотивационным факторам, которые вообще трудно учитывать регулярным способом, то есть как часть формализованной модели. Их приходится относить на стадию дополнительного, неформального анализа, для которого результаты рейтинговой модели могут выступать только в качестве отправной точки. В отличие от преимущества поля сила расписания никогда не используется в виде дополнительных рейтингов команд, то есть, как их способность играть при различных силах расписаний. Понятно почему. Количество таких рейтингов многократно возрастает – свой для каждого значения силы расписания. Даже если брать достаточно мало дискретных значений.
Набор факторов, от которых может зависеть результат игры практически нельзя расширять дальше. Почему, спросите Вы и будете правы. Ведь кроме результатов прошлых игр существует еще специфическая для данного вида спорта статистика прошлых игр, которая отражает множество различных нюансов обороны и защиты, которые могут иметь важнейшее значение для анализа игры и прогноза на следующую игру. Какое необычайное раздолье для игроков-математиков и любителей строгого математического подхода. Тут пора рассмотреть две различных модели построения рейтингов. Первую, которую я в дальнейшем и буду описывать более подробно, заключается в следующем. Объяснять суть я буду на примере, когда существует один единственный рейтинг силы для каждой команды. И в той и другой модели рейтинги силы команд соперников используются для вычисления результата игры. В рассматриваемом случае одного рейтинга на одну команду этим результатом может быть прогноз не счета игры, а лишь разницы в очках, набранными обеими командами (spread). Каким же образом, используя рейтинги команд, находится в этом случае прогнозируемая разница в счете? Правильно, Вы угадали – это просто разность их рейтингов. Ну а нельзя ли строить рейтинги таким образом, чтобы прогноз определялся не такой простой формулой? Вдруг это даст какие-нибудь дополнительные преимущества, сможет повысить точность прогноза? Увы, как и с введением дополнительных объясняющих факторов, использование непростой, то есть нелинейной, функции для вычисления прогноза разницы в счете не сулит, по большому счету, ничего хорошего. Теряется же при этом многое. Пойдем дальше. Для нахождения самих рейтингов используется простая, в общем-то, гипотеза: для того, чтобы предсказывать будущее, рейтинги должны каким-то образом объяснять прошлое. Вопрос о том, что включать в множество прошлых игр подлежащее "объяснению”, решается по разному. Основные рекомендации следующие. Не включать предсезонные игры, когда тренеры команд могут проводить свои "эксперименты” с целью "тонкой настройки” команд для игры в регулярных играх чемпионата. Так же не рекомендуется смешивать регулярные игры с плей-офф и кубковыми играми. Совершенно бесполезно использование результатов прошлых сезонов для определения рейтингов команд в текущем сезоне, даже для использования в предсезонных играх. Часть рекомендаций относится к исключению из числа "объясняемых” игр тех, которые не могут быть объяснены в рамках простой модели рейтингов (странные, случайные проигрыши или слабая игра отличных команд в отсутствие ключевых игроков), а потому могут исказить даже те, не такие уж блестящие результаты, которые из нее все же можно извлечь. Существует также идея о том, что не все множество выбранных игр может быть одинаково "важно” для получения текущих рейтингов команд. Например, недавние игры являются более важными, чем прошедшие значительно ранее, так как команда может "измениться”. Для этого устанавливают соответствующие веса "важности” всем играм, включаемым в процесс вычисления рейтингов. Кстати все другие приведенные выше условия на множество "объясняемых” игр могут быть чисто формально описаны с помощью нулевых весов важности. Работа с весами важности практически всегда простроена так, что игры с нулевым весом автоматически выпадут из уравнений модели рейтингов.
Каким же образом должны рейтинги объяснять результаты прошлых игр в той части, в которой они это могут сделать. Было бы странным, если бы кто-то сказал что-нибудь кроме как "наилучшим”, не правда ли? Как легко видеть в жизни "наилучшее” объяснение прошлых результатов не дает уверенности в применимости аналогичного объяснения для будущего. Но поскольку, это единственно разумное, что мы можем предложить, то попытаемся это сделать. "Наилучший” способ в нашем случае это тот, который дает наименьшее отклонения от реального результата – это тоже единственное разумный способ, который мы можем предложить. Что же считать здесь отклонением от результата? Тоже нетривиальный вопрос. Нетривиальный в том смысле, что существует несколько разумных вариантов и выбрать из них лучший не просто. Например, одним из естественных отклонений, с обычной точки зрения, может считаться количество неправильно объясненных (по общему результату) игр. Такие рейтинги часто называют рейтингами "Just Win Baby”, то есть это рейтинги, где единственное значение при вычислении рейтингов имеет то, проиграла команда или выиграла, неважно с каким счетом. Такие рейтинги не могут предсказывать ни "точный” счет, ни даже разницу в счете. По ним также невозможно дать оценки вероятности команды выиграть или проиграть матч. Понятно, что такие рейтинги почти не применяются на практике, или применяются, но исключительно для простого ранжирования команд по силе.
На практике более часто применяется другой способ, основанный на применении другого отклонения. Этот метод называется, как вы можете догадаться, методом наименьших квадратов. То есть в качестве отклонения берется сумма по всем "объясняемым” играм квадрата отклонения реального результата от предсказанного с помощью рейтинга. В этом случае задача сводится к решению системы линейных уравнений и решается в доли секунды стандартными и широко известными методами. Еще раз повторю, что рейтинги, получаемые таким способом, дают "наилучшее” объяснение результатов прошлых игр, а именно, разницы в счете (но не самих счетов). Наилучшее в том, смысле, что если вы возьмете разницу между Вашим прогнозом и реальной разницей, возведете ее в квадрат и просуммируете по всем играм, и получите так сказать, агрегированное отклонение, то оно будет минимальным. Понятно, почему квадрат, а не куб или просто первая степень разности. В случае, просто разности или ее куба, целевая функция не отражает обычный смысл слова отклонение и не имеет, соответственно, минимума. Квадрат же разности, наряду с абсолютным значением разности, полностью ему соответствует. Но квадрат разности, по своим оптимизационным характеристикам очень удобная функция и используется гораздо чаще, чем все другие возможные варианты.
Но, тем не менее, существует и еще один вариант отклонения, который может применяться при расчете рейтингов – это сумма абсолютных отклонений реальных результатов от предсказанных по каждой игре. По своим "предсказательным” свойствам он вряд ли отличается от метода наименьших квадратов, но решать его стандартными средствами явно труднее, так как задача получается негладкой и значит нелинейной (хотя и без ограничений). По этому далее будем рассматривать различные варианты определения рейтингов по методу наименьших квадратов.
Рассмотрим некоторые из свойств получаемых решений. Первое что бросается в глаза это то, что рейтинги, получаемые с помощью такого метода, не являются целочисленными. Не будет целочисленной и разница в счете, получаемая как прогноз результата, в отличие от самой реальной разницы в счете, которая всегда является целым числом. Что же это, может быть прокол? Насколько он серьезен? Могу отметить лишь только, что абсолютное большинство, используемых рейтингов являются нецелочисленными и дают нецелочисленный прогноз. Однако рейтинги выпускаемые такой уважаемой статистической конторой как StatFox.com являются полностью целочисленными. Нецелочисленность приводит, при ее интерпретации, к следующим интересным вопросам. Ясно, что поскольку нецелочисленную разницу в рейтингах приходится сводить к наименьшему целому, чтобы получить реальный прогноз, то куда девать не целую часть этой разности? Просто проигнорировать или как-то трансформировать в дополнительную вероятность получения данного прогноза. Полностью целочисленные рейтинги силы команд от StatFox не дают ответа на вопрос кто выиграет, в случае близких рейтингов, которые у них трансформируются в одинаковые. Может быть так в правду честнее. По-видимому, StatFox использует при нахождении рейтингов изначально целочисленную постановку задачи (которую намного труднее решить). Или только делает целочисленным уже полученным результат.