- Андрей Гулин провёл хорошее графовое исследование по отлову МММ-голосов
- Дэн Расковалов построил интересные главные компоненты
- Лёня Волков написал огромный обзор "Как мы зачехляли МММ"
Я подошёл к проблеме с другого конца. В прошлом посте я уже нарисовал график, который позволяет поверить, что "вбросы" были. Естественный механизм для понимания какого же масштаба были вбросы - теория вероятности.
Сначала, построим математическую модель.В обычной ситуации избиратель голосует за i-го кандидата с вероятностью pi.
В ситуации, когда есть голосование по спискам, вероятность получения кандидатом голоса трансформируется в a * pi + (1-a) * qi (qi здесь близко к 1 для кандидатов из списка, и близко к 0 для остальных)
То есть, мы имеем дело с обычной смесью распределений. И известный EM-алгоритм позволяет разделить эту смесь на части.
Алгоритм достаточно несложно реализуется. На выходе имеем ~17900 МММ-голосов (в среднем 40.6 голосов на человека) и ~63800 нормальных голосов (в среднем 26.55 голоса на человека). Удивительным образом алгоритм восстанавливает список МММ. А также даёт очищенные вероятности голосов за разных кандидатов.
Сравнение же полученных результатов с официальными итогами выборов хочется оставить на лёгкой развлечение читателю :)
Upd: не могу не поделиться новыми гистограммами распределения голосов после очистки МММ-ов. Система координат всё та же - процент голосов отданных за i-го в упорядоченном списке кандидата. Сверху чистые голоса, снизу МММ-голоса.