Спробував застосувати дані про вибори “у зворотньому напрямку” – визначити тип виборчої дільниці за результатом голосування. Як відомо, Центральна виборча комісія України поділяє виборчі дільниці лише на звичайні/спеціальні, постійні/тимчасові та малі/середні/великі. Але більшість проблем криється у “практичних” типах дільниць – в яких закладах вони розташовані. Загальновідомі розбіжності голосування в медичних установах та установах виконання покарань із загальноукраїнськими “звичайними” дільницями. Тому мені стало цікаво – а чи можна визначити тип дільниці, якщо маєш на руках лише результати голосування (кількість голосів за конкретні партії).
Для дослідження я взяв вибірку всіх дільниць парламентських виборів 2014 року – 29674. В якості набору вхідних параметрів взяв результати голосування за шість “прохідних” партій (НАРОДНИЙ ФРОНТ, БЛОК ПЕТРА ПОРОШЕНКА, Об’єднання САМОПОМІЧ, Опозиційний блок, Радикальна Партія Олега Ляшка та ВО Батьківщина) і додав ще “майжепрохідні” ВО Свобода та Компартію. В якості методики аналізу обрав дерева прийняття рішень. Для всього циклу використано програмне середовище R. Побудова дерева рішень здійснювалась за допомогою пакету rpart, графічне відображення – за допомогою пакету rpart.plot. Цікаво те, що “пенітенціарні” виборчі дільниці алгоритмом не ідентифікуються (хоча до тренування я залучав всі “мої” типи дільниць: звичайні, медичні, військові та пенітенціарні). “Військові” виборчі дільниці не влавлюються просто через недостатність даних – їх всього 5 штук. Готове дерево прийняття рішень зображено на графіку.
За результатами роботи алгоритму виділяється одне найголовніше правило: “кількість голосів за Радикальну Партію менша за 5,5 дозволяє віднести дільницю до медичної”. Якщо застосувати це правило до нашої повної вибірки, тоді крізь фільтр пройдуть 3 військові дільниці із 5 (60%), 1137 звичайних дільниць із 28515 (3,99%), 631 медична із 994 (63,48%) та 37 пенітенціарних із 160 (23,12%). Ускладнення фільтру за допомогою інших правил нашого дерева суттєво знижує точність класифікації: крізь фільтр проходять 2 військові дільниці (40%), 132 звичайні (0,46%), 386 медичних (38,83%) та 10 пенітенціарних (6,25%).
Отже, на “зворотню типізацію” дільниць суттєво впливають результати голосування за Радикальну Партію Олега Ляшка. Можливо, саме завдяки специфіці голосування за радикалів і відбувається відокремлення медичних виборчих дільниць у просторі головних компонент. Таке відокремлення я вперше встановив при аналізі результатів голосування в Кривому Розі. Тепер можна повернутись до цієї проблеми із новими знаннями.