Проверка истинности геологических данных

В настоящее время выполнение каких-либо геологических исследований: оценка качества сырья, составление технико-экономических кондиций на минеральное сырьё, разработка методик исследования и схем обогащения – требует обработки больших объёмов геологической информации. На данный момент предприятиями накоплены огромные массивы информации, касающейся изучения месторождений. Но не всегда данные в этих массивах достоверны. Довольно частой практикой (особенно во время эксплуатации месторождений) являются разнообразные махинации с геологической информацией, в частности – с результатами опробования полезных ископаемых.

В этой статье мы на основе реальных данных одного из железорудных объектов Криворожского железорудного бассейна попробуем применить методику проверки геологической информации на достоверность. Сначала мы выясним общие закономерности взаимоотношения компонентов. Потом – произведём собственно проверку на отсутствие приписок и махинаций в числовой информации. Для всего цикла работ воспользуемся возможностями программной среды R.

Итак… В наличии есть база данных, содержащая в себе результаты опробования. Общее количество проб составляет более 15-ти тысяч. В данных опробования нас интересует два компонента: железо общее и железо, связанное с магнетитом. Это базовые показатели, по которым оценивается качество сырья в железорудных формациях, несущих в качестве основного рудного компонента магнетит. В базе присутствуют и результаты исследований на другие компоненты: оксид алюминия, оксид кремния, гидрооксид железа… Но нам они пока неинтересны. Вначале составим таблицу основных описательных статистических показателей. Поскольку в базе данных содержится большое количество нулевых записей, я им всем присвоил значение “NA” – “пустое значение”. Все последующие расчёты приведены для значений содержания компонентов “больше нуля”.

Статистический показатель Железо общее Железо, связанное с магнетитом
Размер выборки  11207 12177
Количество уникальных значений  1427 2814
Процент уникальных значений  12,73 23,11
Минимальное значение  4,16  0,05
Максимальное значение  61,00  53,40
Среднее арифметическое  35,00 20,09
Среднее квадратическое отклонение  5,96 12,73
Медиана  36,40 23,40
1-й квартиль  32,23  7,28
3-й квартиль  39,00  31,20
Межквартильный размах  6,77  23,92
Асимметрия  -1,21  -0,32
Эксцесс  2,00  -1,33
Информационная энтропия, бит/значение  13,43 13,19

Судя по показателям из таблицы – содержания обеих компонентов характеризуются существенными отклонениями от нормального распределения. В принципе – это в порядке вещей, учитывая, что на месторождении фиксируются несколько разновидностей минерального сырья. Гистограммы распределений обеих компонентов представлены ниже.

Гистограмма содержаний железа общего

Гистограмма содержаний железа общего

Гистограмма содержаний железа, связанного с магнетитом

Гистограмма содержаний железа, связанного с магнетитом

Теперь для полной картины будет неплохо построить диаграмму рассеяния для этих двух компонентов. Однако, из-за большого количества значений в выборках – мы не сможем различить точки на диаграмме. Все данные сольются в одно монолитное облако. Для построения диаграммы лучше воспользоваться отображением плотности точек. И ещё придётся выбрать только те интервалы опробования, которые несут информацию одновременно о двух компонентах. То есть в которых содержание и железа общего, и железа, связанного с магнетитом, больше нуля. На графике также показаны 500 точек, расположенных в областях с наименьшей плотностью значений.

Диаграмма рассеивания содержаний железа общего и железа, связанного с магнетитом

Диаграмма рассеивания содержаний железа общего и железа, связанного с магнетитом

На диаграмме рассеивания чётко выделяются два кластера. Один характеризуется сильной положительной корреляцией между обеими компонентами. Другой кластер – показывает почти нулевую корреляцию между железом общим и железом, связанным с магнетитом. По опыту изучения подобных месторождений можно сразу сказать: первый кластер представляет собой магнетитовые кварциты, второй кластер – гематитовые (“окисленные”) кварциты. Выявление двух кластеров – побочный эффект от нашей основной работы, а именно – от выявления махинаций в числовых данных.

Для установления истинности данных мы применим закон Бенфорда. Поскольку сырьё опробовалось не сплошными интервалами, и содержания обеих компонентов имеют природные границы (максимальные содержания в чистых минеральных фракциях) – закон Бенфорда для первой значащей цифры здесь не сработает. Поэтому воспользуемся законом для второй значащей цифры. Для генерации “теоретической выборки”, распределённой по закону Бенфорда я использовал функцию rbenf пакета VGAM. Согласно описания закона Бенфорда, находящемуся здесь, цифры десятичной системы счисления на разных позициях в числе встречаются с вероятностью, описанной в таблице.

Цифра Позиция в числе
первая вторая третья четвёртая пятая и более
0  11,97%  10,18%  10,02% 10,00%
1  30,10%  11,39%  10,14%  10,01%  10,00%
2  17,61%  10,88%  10,10%  10,01%  10,00%
3  12,49%  10,43%  10,06%  10,01%  10,00%
4  9,69%  10,03%  10,02%  10,00%  10,00%
5  7,82%  9,67%  9,98%  10,00% 10,00%
6  6,69%  9,34%  9,94%  9,99%  10,00%
7  5,80%  9,04%  9,90%  9,99%  10,00%
8  5,12%  8,76%  9,86%  9,99%  10,00%
9  4,58%  8,50%  9,83%  9,98% 10,00%
Сумма  100%  100%  100%  100% 100%

Теперь нам осталось вычислить фактическую встречаемость цифр в результатах анализов на оба компонента. Как я уже упоминал выше – мы воспользуемся второй значащей цифрой. Это значит, что нам нужно взять содержания железа в диапазоне 10-100. Далее мы построим графики теоретической и фактической встречаемости вторых значащих цифр для обеих компонентов. И, в конце-концов, проверим совпадение законов распределения для фактических и теоретических выборок с помощью критерия Пирсона хи-квадрат.

Соответствие данных из результатов опробования на железо общее теоретическому распределению по закону Бенфорда

Соответствие данных из результатов опробования на железо общее теоретическому распределению по закону Бенфорда

Соответствие данных из результатов опробования на железо, связанное с магнетитом теоретическому распределению по закону Бенфорда

Соответствие данных из результатов опробования на железо, связанное с магнетитом теоретическому распределению по закону Бенфорда

Как видно из графиков – данные содержания железа, связанного с магнетитом, незначительно отличается от теоретического распределения вторых значащих цифр. А вот для железа общего наблюдается существенное отличие: не хватает цифр низких значений (1,2,3,4,5), но сильно завышенное количество цифр высоких значений (6,7,8,9). Это может свидетельствовать о намеренном изменении данных в результатах опробования. Следует уточнить, что проверка на соответствие закону Бенфорда не может прояснить – в какую сторону изменялись цифры. Возможно как завышение процентов (например: с 32,55 до 37,55), так и занижение (например: с 32,55 до 29,55).

Чтобы доказать несоответствие закону Бенфорда я применил критерий Пирсона хи-квадрат. Проверка заключалась в сравнении фактических вероятностей встречаемости вторых значащих цифр с теоретическими вероятностями. Результаты проверки представлены в таблице.

Параметр критерия хи-квадрат Железо общее Железо, связанное с магнетитом
хи-квадрат 1033,016 29,6794
количество степеней свободы 9 9
достигнутый уровень значимости (ро-значение) стремится к нулю (<2,2E-16) 0,0004973

Проведённая проверка показывает несоответствие закону Бенфорда не только данных по железу общему, но и данных по железу, связанного с магнетитом. Весьма низкий уровень значимости (0,0004973) для железа, связанного с магнетитом, не позволяет нам принять нулевую гипотезу.

Результатом проверки является вывод о намеренном искажении данных в числовой информации по результатам опробования. Для железа, связанного с магнетитом, подтасовки в значениях содержаний незначительны. Но для железа общего фиксируется значительное искажение данных, связанное с “ручными” исправлениями в конечных результатах анализов.

Leave a Comment

%d bloggers like this: