Метод Бенфорда в оценке достоверности данных

Метод Бенфорда в оценке достоверности данных

Друзья мои! Вы несомненно знаете больше меня о последних мировых новостях и потому разобщены и тревожны. Но сегодня, у вас будет повод отвлечься. В этот день мы все объединены единым горем утраты. Утрачена флешка, на которой я хранил для вас статью о диссипативной динамике живого напочвенного покрова. Вместе с ней пропало содержимое подарочной бутылки коньяка, мой рукописный реферат на тему «Сатанизм-как социальное явление» и весь тираж осеннего номера «Лабораторного Журнала», отпечатанный в объеме двух с половиной экземпляров. Воистину, в этот день можно посыпать голову пеплом, ибо об этот реферат я в свое время исписал четыре ручки и мне он чертовски дорог, как память о студенческих годах.

Дабы загладить боль утраты, я предлагаю вам статью из пропавшего «Лабораторного Журнала» (а где вы ее теперь прочитаете?), описывающую сущность, принципы применимости и алгоритм метода Бенфорда на примере анализа данных о площадях ООПТ России и площадях, охваченных лесными пожарами в 2009-2013 годах. Сам же я отправляюсь в келью, где буду страдать вплоть до открытия магазина.

Итак, речь пойдет об одном из статистических методах фрактального анализа — оценке бенфорд-последовательности данных. Метод довольно грубый, но в то же время чрезвычайно простой и красивый. С его помощью вы сможете проверить истинность данных, подчиненных экспоненциальному распределению.

Свое название бенфорд-последовательность получила в честь Фрэнка Бенфорда Альберта-младшего — американского инженера-электрика, физика и оптика, жившего в штатах в первой половине XX века. Однако, сам «Закон Бенфорда», он же «закон первой цифры» впервые описан за три года до его рождения американским астрономом, математиком и экономистом Саймоном Ньюкомбом. Работая в 1881 году с логарифмическими таблицами в книгах, он обнаружил, что сильнее всего истрепаны страницы на которых содержаться логарифмы чисел, начинающиеся с единицы. На первый взгляд, вероятность оказаться на первом месте в числе одинакова для всех цифр и составляет 1/9. Однако, чем выше по значению было число, состоящее из первой цифры логарифма, тем в большей сохранности находились страницы. Все это наводило на подозрение о неравномерной встречаемости первых цифр в числах.

Спустя пол-века за эту проблему взялся Фрэнк Бенфорд. Он рассчитал вероятности встречаемости цифр на первом месте в числе для различных данных. Бенфорд использовал площади бассейна 335 рек, удельную теплоемкость материалов, население городов, молекулярную массу химических соединений, номера домов и другие данные. Во всех случаях наблюдалась единая закономерность — чисел, начинающихся на единицу было примерно в шесть раз больше, чем чисел, начинающихся на девятку.  Собранная статистика позволила вывести формулу распределения вероятности появления первой цифры в числе:

P(d) = logb(d+1)-logb(d) = logb(1+1/d)

где:
b — основание системы счисления, в нашем случае b = 10;
d — первая цифра в числе;

На основе этой формулы была построена бенфорд-последовательность — последовательность вероятности появления различных цифр на первом месте числа. Рассчитанная по формуле, эта последовательность выглядит следующим образом: 30.1, 17.6, 12.5, 9.7, 7.9, 6.7, 5.8, 5.1, 4.6. Вероятность того, что на первом месте в числе окажется единица составляет 30.1%, двойка — 17,6% и так далее до девятки (4.6%).

Долгое время, эта интересная закономерность не находила никакого применения. Однако после 1997 года на нее обратили внимание и стали все активнее использовать для проверки фальсификации данных, например результатов голосования (в том числе и в России). В 1997 году М. Нигрини и Л. Миттермайер в издании «Аудит: Журнал теории и практики» опубликовали шесть разработанных математических тестов, основанных на законе Бенфорда. Тесты были успешно введены в практику аудиторской компанией «Эрнст и Янг» и позволили выявить несоответствие между реальными и заявленными данными клиентов.

Необходимо учитывать, что метод Бенфорда применим не ко всем данным. Он выдает значительные погрешности при работе с выборками для которых заданы максимальные или минимальные значения, с выборками, охватывающими только один или два порядка величин и с малыми по объему выборками.

При решении вопроса применимости метода Бенфорда обычно рекомендуют исходить из «естественности» данных (если данные получены в ходе естественного течения событий, то к ним применим метод Бенфорда). Этот критерий верен, но довольно сложен для использования. В ходе работ с бенфорд-последовательностями я пришел к выводу, что метод бенфорда работает только с данными, топологическое множество которых самоподобно, а элементы могут принимать произвольные значения.

Для проверки применимости метода необходимо аппроксимировать их показательной функцией (чаще всего используется экспонента) и убедиться, что коэффициент аппроксимации составляет 0,9 и выше. Если при этом отсутствуют правила, детерминантно определяющие значение того или иного числа, то метод бенфорда к вашим данным применим.

Алгоритм применения бенфорд-метода в программах LibreOfficeCalc и MS Excel 

1. Исходные данные

Со страницы сайта oopt.aari.ru, разработанного ФГБУ «ААНИИ» и Лабораторией геоинформационных технологий взят перечень особо охраняемых природных территорий России. Список насчитывает 8013 ООПТ, из которых 4410 войдут в нашу обработку. Это действующие или реорганизованные ООПТ, для которых есть данные по площади.

Данные по площади лесных пожаров взяты с сайта федерального агентства лесного хозяйства. Выборка охватывает данные по всем регионам России с первого квартала 2009 года по второй квартал 2013 года. Всего за этот период было охвачено лесным пожаром 949 территорий различной площади.

2. Проверка на распределение

Нам необходимо убедиться, что данные подчиняются экспоненциальному распределению. Сортируем данные по площади и аппроксимируем их экспонентой.

Lj2-24

На рисунках изображены площади ООПТ (верхний рисунок) и площади пожаров (нижний рисунок), отсортированные по значению. Ось ординат показывает площадь в гектарах.   Чем больше площадь особо охраняемой природной территории, тем меньше таких ООПТ в стране. Равно как и значительные площади подвергаются пожарам гораздо реже небольших участков.  Коэффициент аппроксимации обоих наборов данных экспонентой (синяя линия) составил 0,98.

3. Избавление от нулей

Отличительной особенностью фрактальных множеств, к которым относятся и наши данные является их масштабная инвариантность. Распределение не зависит от единиц в которых выражены величины. Будь наши данные выражены в километрах, миллиметрах или ангстремах, мы всегда будем наблюдать одинаковые закономерности.  Масштабная инвариантность позволяет нам избавиться от значений менее единицы простым умножением на 100 (в каждом конкретном случае может быть различный порядок, в зависимости от наименьшего числа в выборке. В нашем случае таким числом было 0,01). Сделать это необходимо, поскольку формула Бенфорда использует логарифмы, а потому не работает с нулевыми числами.

4. Отделение первой цифры и расчет

Методом LEFT() в LibreOfficeCalc или ЛЕВСИМВ() в Excel отделяем первую цифру из каждого числа. Получившийся столбец с первыми цифрами чисел сортируем и подсчитываем количество единиц, двоек, троек и т.д. до девяток. Вероятность встречи каждой цифры рассчитываем как отношение количества чисел, начинающихся с данной цифры к общему количеству чисел. Например, если в выборке по пожарам было 273 числа, начинающихся на единицу, а общий объем выборки 949, то вероятность того, что первой цифрой в числе будет единица составит 100%*273/949=28,8%.   В итоге у вас получится аналог вот таких таблиц (верхняя таблица — данные по площади ООПТ, нижняя таблица — данные по площади пожаров):

Lj2-25

По ним же, для большей наглядности можно построить соответствующие графики сравнения фактической и расчетной бенфорд-последовательности (вверху для площади ООПТ, внизу для площади лесных пожаров):

Lj2-252

Стобцы на графиках соответствуют фактической бенфорд-последовательности, красная линия соответствует теоретической последовательности, рассчитанной по формуле Бенфорда.

Приведенные графики свидетельствуют, что данные по площадям ООПТ России и данные по площади пожаров за 2009-2013 г. достоверны. Наибольшие ошибки приходятся на крайние значения, что связано со сложностью определения массовых (ошибки по единице) и крупных (ошибки по девятке) объектов в натуре, а также с меньшим объемом статистических данных (ошибки по девятке).

В случае, если бы анализируемые нами выборки были сфальцифицированы рандомным методом, то есть, вместо реальных значений были указаны случайные числа, фактическая и расчетная бенфорд-последовательности различались бы радикально.

P.S. Да, я знаю, что качество приведенных картинок отвратительно. Но поверьте, вы встретились с ними в странный момент их жизни.

МУПССВПД

Иногда люди читая мои очерки, принимают меня за депрессивного меланхолика. У меня, мол, что ни текст, то про говно и обязательно с матом

— И как ему только не стыдно! Это же аморально! Это от того что он закомплексованный и недовольный своей жизнью…

Что это блядь за хуйня-то, вообще? Что за генитальный пиздежь на ветвях висельного дерева? Я не меланхолик. Просто описываю то что вижу. Могу я и высоким слогом резать небеса. Наивно полагать, что гречка — каша. Могу духовностью скреплять ваши сердца. Могу твердить про самобытность нашу… И в том же духе. Только нахуя оно надо-то? Литература как нечто эпическое и высокодуховное закончилась Да и не было ее никогда. И вообще, на себя посмотрите.

Сижу в марте на колесах стадиона, мимо проходят школьницы, класс седьмой, обсуждают кто что любит пить:

— Я пиво не люблю, оно горькое

— А мне нормально. Хотя, я тоже лучше безалкогольного выпью

— В безалкогольном тоже промиле есть

— Блядь, вот ты дура! Ты хоть знаешь что такое промиля? Ну, скажи! Промиля — это соленость воды, нам на географии рассказывали. Тупая.

На прошлой неделе играю в футбол. Рядом бегают пацаны двенадцати лет:

— Хули ты так пасуешь, пидарас? Смотри как ебашить надо!

— Ох нихуя себе!

— Понял!? Давай пять! Нет, давай лучше зигу (прикладывает два пальца ко рту, изображая усы Гитлера). — Блядь, да зигу давай!

Второй берет с него пример. Стоят в итоге два орла в позе фюрера, отдающего невероятно уебищное нацистское приветствие.

Это не выдумки. К чести сказать, дети  — самые поганые матершинники. По сравнению с тем, как они общаются между собой, мои посты — просто букварь. Со временем они вырастут и начнут материться как нормальные люди — через слово, а пока играют во взрослых.

Ну какой из меня меланхолик? Я самый позитивный алкаш во всем этом котле ужаса, мерзости, страха и говна! Я Икар, воспаривший над разбросанными осколками, шприцами и гандонами. Позитивный персонаж мотивации персонала. Отличник боевой и политической подготовки. Так ловите же, блядь, мои лучи позитива и добра! Откроем же сеанс исцеления! Ну? У кого тут проблемы?

— Двое детей, кормить нечем…

— Жена ебется с кем попало…

— Нет перспектив в жизни, и смысла нет…

— Она меня не любит…

— Не дают пятый кредит на погашение предыдущих четырех…

Не переживайте! Вся эта хуйня временно! Берите пример с этих чуваков — у них больше нет проблем!

DSCN2940

Что? Кто тут недоволен своей жизнью? Вот вам моя всеисцеляющая пилюля.

Вы можете изойти на говно в душевных муках о несправедливости мира. Вы можете писать трактаты, стихи, матерные очерки. Слушать Яна Сибелиуса. Любить самую прекрасную женщину на свете. Раскинуть руки звездам, стоя на карнизе четвертого этажа. Спать в электричках. Пить все что только можно. Отказаться от дозы героина и потом долго сожалеть об этом. Не сделать за всю свою жизнь не одного поступка, который считали бы геройским или просто достойным. Добить лопатой раненое животное. Ложить под поезда монеты. Онанировать на спор. Предавать и трусить. Смотреть ролики в интернете. Дрожать от страха. Дрожать от холода. Умирать и неожиданно не умереть. Смеяться до боли в животе. Вы можете творить любую хуйню, повторяю, любую! И не ебать себе мозг. Потому что перспектива того, что вас зароют напротив помойки не так уж и далеко. Чувствуя это, разве станешь предаваться меланхолии хоть на секунду больше, чем это необходимо для полноценного ощущения жизни?

Жить у нас часто сложно, неприятно и страшно. Но умирать еще страшнее.

DSCN2953

У меня есть одна заветная бизнесовая идея — построить в Шахтах крематорий. Потому что шахтинские кладбища — это пиздец. Абсолютный и беспросветный пиздец. Территории, которые могли быть парками, заводами, жилыми кварталами отданы под блядскую попиздень. Когда мне придет карачун — требую, что-бы меня кремировали и неебет! Делайте что хотите, но в этот музей хуйни меня не суйте! Кремация — это замечательно. Да зравствует ОРРИК.

Тут, конечно-же, набегут всякие религиозные пидарасы и начнут свои проповеди о том, что сжигать покойников это не по христиански.

А это, блядь, по вашему, по-христиански? Хули вы мозг ебете-то?

DSCN2945

Шахтинцы жили, живут и будут жить в говне. Вся их биография сводится к перчню аббревиатур: МОУСОШ-ГОУВПО-ГУП-ПФР-МУПССВПД.

DSCN2939

Когда-нибудь я свою идею реализую и эта блядская цепочка прервется. Сразу после ПФР люди будут целиком реинкарнироваться в природный круговорот веществ. А то, развели, понимаешь, пафос. Кресты, оградки… А по сути-то закопали на отъебись и забыли. Естественно, все зарастает травой и по весне погружается в традиционные степные пожары.

Давайте будем друг с другом честны. Нам и на живых то насрать, чего уже о покойниках говорить. Так чего выебываться-то? Пусть горят цивилизованно, а не так как сейчас.

DSCN2970

Жизнь слишком прекрасна для того что-бы тратить ее на походы к костям. С таким же успехом можно и волосы после каждой стрижки хоронить.