Дерево прийняття рішень для типізації виборчих дільниць

Спробував застосувати дані про вибори “у зворотньому напрямку” – визначити тип виборчої дільниці за результатом голосування. Як відомо, Центральна виборча комісія України поділяє виборчі дільниці лише на звичайні/спеціальні, постійні/тимчасові та малі/середні/великі. Але більшість проблем криється у “практичних” типах дільниць – в яких закладах вони розташовані. Загальновідомі розбіжності голосування в медичних установах та установах виконання покарань із загальноукраїнськими “звичайними” дільницями. Тому мені стало цікаво – а чи можна визначити тип дільниці, якщо маєш на руках лише результати голосування (кількість голосів за конкретні партії).

Для дослідження я взяв вибірку всіх дільниць парламентських виборів 2014 року – 29674. В якості набору вхідних параметрів взяв результати голосування за шість “прохідних” партій (НАРОДНИЙ ФРОНТ, БЛОК ПЕТРА ПОРОШЕНКА, Об’єднання САМОПОМІЧ, Опозиційний блок, Радикальна Партія Олега Ляшка та ВО Батьківщина) і додав ще “майжепрохідні” ВО Свобода та Компартію. В якості методики аналізу обрав дерева прийняття рішень. Для всього циклу використано програмне середовище R. Побудова дерева рішень здійснювалась за допомогою пакету rpart, графічне відображення – за допомогою пакету rpart.plot. Цікаво те, що “пенітенціарні” виборчі дільниці алгоритмом не ідентифікуються (хоча до тренування я залучав всі “мої” типи дільниць: звичайні, медичні, військові та пенітенціарні). “Військові” виборчі дільниці не влавлюються просто через недостатність даних – їх всього 5 штук. Готове дерево прийняття рішень зображено на графіку.

Дерево прийняття рішень для розділення типів дільниць за результатами голосування

Дерево прийняття рішень для розділення типів дільниць за результатами голосування

За результатами роботи алгоритму виділяється одне найголовніше правило: “кількість голосів за Радикальну Партію менша за 5,5 дозволяє віднести дільницю до медичної”. Якщо застосувати це правило до нашої повної вибірки, тоді крізь фільтр пройдуть 3 військові дільниці із 5 (60%), 1137 звичайних дільниць із 28515 (3,99%), 631 медична із 994 (63,48%) та 37 пенітенціарних із 160 (23,12%). Ускладнення фільтру за допомогою інших правил нашого дерева суттєво знижує точність класифікації: крізь фільтр проходять 2 військові дільниці (40%), 132 звичайні (0,46%), 386 медичних (38,83%) та 10 пенітенціарних (6,25%).

Отже, на “зворотню типізацію” дільниць суттєво впливають результати голосування за Радикальну Партію Олега Ляшка. Можливо, саме завдяки специфіці голосування за радикалів і відбувається відокремлення медичних виборчих дільниць у просторі головних компонент. Таке відокремлення я вперше встановив при аналізі результатів голосування в Кривому Розі. Тепер можна повернутись до цієї проблеми із новими знаннями.

Leave a Comment