Компонентний аналіз даних голосування в Кривому Розі, частина 1

Одним зі способів дослідження багатовимірних масивів даних є аналіз головних компонент (Principal Component Analysis). Він дозволяє швидко і наглядно виявити внутрішню структуру багатовимірних даних. Я спробував долучити цей метод до аналізу результатів парламентських виборів. Якщо в структурі даних виділяються які-небудь закономірності, то це означає, що і в реальному світі присутні впливи. І ці впливи власне і обумовлюють структуру отриманих даних. Для електоральних процесів можна перелічити багато категорій факторів впливу: від метеорологічних процесів (“був дощ, і я не пішов на вибори”) до соціологічних законів. Але найбільш важливим є розкриття факторів, які так чи інакше пов’язані із примусовим викривленням волевиявлення громадян: підкуп, адміністративний ресурс. Якщо в наших даних випливають якісь підозрілі закономірності – значить у реальному житті також були підозрілі дії.

Для аналізу я взяв результати голосування за партійними списками на всіх 278 виборчих дільницях Кривого Рогу (277 постійних та 1 тимчасова). До аналізу залучено показники голосування за всі політичні сили, а також показник “загальна кількість виборців на дільниці”. Я навмисно взяв цей показник замість “кількості голосів ЗА”. Мені цікаво – чи впливає розмір дільниці на структуру даних? Чи спостерігаються кореляції між розміром дільниці та підтримкою конкретних політичних сил? Перед обчисленням головних компонент дані були нормалізовані: стандартне відхилення всіх показників приведено до 1, середнє арифметичне – до 0.

Як і всі інші роботи – це дослідження виконано за допомогою програмного середовища R.

Щоб обрати кількість головних компонент, за якими робити інтерпретацію результатів, я використав графік кам’янистого осипу.

Графік кам’янистого осипу

Графік кам’янистого осипу

На графіку видно, що найбільший вплив на структуру даних чинять перша та друга головні компоненти. Але для заглиблення аналізу я взяв перші чотири компоненти. В принципі – четверту взято лише для пари до третьої. Дисперсія, яку додає ця компонента, фактично не відрізняється від наступних компонент. Також слід зазначити, що і власні значення з першої до десятої компоненти більше одиниці. Згідно з критерієм Кайзера-Харріса – ми повинні взяти до розрахунків всі ці компоненти. Але в такому разі нам буде складно інтерпретувати отримані результати.

Тепер спробуємо побудувати діаграми простору головних компонент. Для наочності я об’єднав їх і додав для красоти графік 4-5 компонент. Спочатку подивимось діаграми із зазначеними виборчими округами, а потім – із типами виборчих дільниць.

Графіки в координатах перших п’яти головних компонент із зазначеними виборчими округами

Графіки в координатах перших п’яти головних компонент із зазначеними виборчими округами

Графіки в координатах перших п’яти головних компонент із зазначеними типами виборчих дільниць

Графіки в координатах перших п’яти головних компонент із зазначеними типами виборчих дільниць

 На графіках, із зазначеними номерами виборчих округів, спостерігається добре перемішування виборчих дільниць. Тобто жоден округ не виділяється за результатами голосування. А на графіках із зазначеними типами виборчих дільниць спостерігається чітке розділення на звичайні дільниці, медичні, та пенітенціарні. Причому – розділення дільнць за типами простежується не тільки для перших двох компонент, але і для інших. Цікавість також викликають дільниці, які потрапили не до своєї хмари.

Отже, можна стверджувати, що в Кривому Розі волевиявлення на різних типах дільниць відбувалось за різними “шаблонами”. Причину цього іще треба з’ясувати, але така чітка нерівномірність саме в результатах голосування чітко вказує на різницю в електоральних процесах. Цю різницю можна пояснити розмірами виборчих дільниць. Для більш глибокого дослідження в наступних статтях я буду оперувати лише кількістю голосів за політичні сили.

Leave a Comment

%d bloggers like this: