Для тех, кто в прошлом году следил за избирательной кампанией Трампа и прогнозами аналитиков. Подробный отчет Нейта Кона, статистического аналитика NYT, о результатах исследования почему результаты выборов оказались большим сюрпризом. Там много интересного — как и во всех дискуссиях на Upshot, 538 и RCP, на которые я давал ссылки по ходу кампании.
Очень коротко — во-первых, опросы по отдельным штатам использовали, как показали итоги выборов, неправильные (никакие) веса для групп с разным уровнем образования. Эта причина обсуждалась Нейтом Сильвером и «по горячим следам». Национальные опросы их использовали и поэтому оказались точными, правильно предсказав перевес Клинтон. Но победитель определяется в голосовании по штатам, так что точность национальных прогнозов не скорректировала ошибку при использовании опросов на уровне штатов. А на уровне штатов веса для групп с разным уровнем образования не использовались, потому что уровень образования избирателей на уровне штатов никогда не играл никакой значимой роли. А в 2016 году сыграл — и это стандартный пример «систематической ошибки», которую нельзя обнаружить, увеличивая, например, размер выборки. Во-вторых, явка оценивалась неправильно — по более тонким причинам. (Если бы уровень образования был правильно учтен, то прогнозы были бы гораздо точнее.) Я в январе давал ссылку на большой обзор Шона Тренда, в котором показаны рекордно низкие показатели Клинтон за пределами больших и средних городов.
Кон использует бейсбольный пример, чтобы проиллюстрировать статистическое содержание прогноза. Я во всех, кажется, своих записях, говоря о минимальных шансах Трампа, использовал примеры «Зенит» — «Томь» или ЦСКА — «Крылья Советов». Минимальные — не значит, что такое периодически не случается.