Политический детектив

Политический детектив

Лучший новогодний подарок для молодых исследователей преподнес Навальный, рассказав о проблеме своих грязных трусов. Оставим в стороне политические игры, гораздо интереснее оценить технологическую часть работы.

Всякое исследование состоит как минимум из двух частей: описания наблюдения и его объяснения. Последнее — всегда искусство, где каждый имеет право на ошибку и даже право на молчание. Вы можете работать по плохой методике, можете давать неверные объяснения, но не имеете права изменять полученные результаты. Это как священная корова — какая бы ни была, трогать ее не смей.

В разных сферах результаты наблюдений выглядят по-разному: у статистиков — это листинги анализа, у геологов — промокшие пикетажки с пятнами крови от давленных комаров. Ни первое, ни второе нельзя нарезать на кусочки и склеивать так, что-бы выглядело красивее. Зато предоставить в качестве доказательства покушения на убийство видеоролик с монтажными склейками через каждые десять секунд — это нормально. Да еще и с картинками-перебивками.

Действительно ли разговор выложен целиком? Да, есть ссылка на полную версию, но там лишь звуковая дорожка, а на видео прекрасно видно, что запись ведется в Audacity, где вырезать любой кусок может даже ребенок.

Я не утверждаю, что из разговора вырезаны куски, а лишь демонстрирую пример того, как нельзя работать с информацией. Запись подобного разговора должна транслироваться в прямой эфир с тридцати камер без всякого монтажа. Это еще не значит, что в таком виде она послужит доказательством, мало ли кто скрывается за обладателем голоса, но тщательность исполнения хотя бы обратит на себя внимание.

Вместо этого предлагают взглянуть на экранизацию голливудского сценария. С героем против системы, легкой эротикой и декорациями из карт, фотографий и паутины красных ниточек. Но ведь даже с такой, чисто художественной точки зрения — это сплошная халтура. Один взгляд на дальний план полностью переворачивает весь сюжет.

Перед нами три карты: большая политическая и две малых, скорее всего топографических. Политическая интереса не представляет, там все-равно ничего не разобрать, зато остальные крайне любопытны. Судя по стилю, они обе из одного источника (конечно, с некоторой вероятностью). На той, что слева внизу угадывается Томск от безымянного острова перед Коммунальным мостом до острова Энеков. Что-ж, это ожидаемо. Но что на другой карте, которая справа вверху? Неужели район гостиницы «Ксандер», где произошло отравление? А может знаменитое село Кафтанчиково, где купался Навальный? А вот хрен. Ближайшее, хоть сколько-нибудь похожее место — в северо-западном пригороде Томска: город Северск.

Откуда такой интерес? Может потому, что первое название этого места — поселок Чекист? А может потому, что там расположен Сибирский химический комбинат — комплекс заводов по переработке и обогащению урана и плутония? Но это значит, там в избытке фторид урана, да и плавиковую кислоту достать не проблема. О фосфоре с азотом можно даже не говорить. А если тайно проникнуть на завод и по незнанию… впрочем, тут я остановлюсь. Пусть сценаристы продолжают, им все-таки деньги за это платят.

Конечно, все сказанное хрень, но оцените какой сюжет! А вместо этого — история про то как трусы измазали. Как зритель, я совершенно недоволен, однако с педагогической точки зрения признаю: все верно. Нет лучшего подарка для молодых исследователей, чем лишний раз напомнить цитату Жванецкого: «Тщательнее надо, ребята. Формулы вам дали, только надо руки помыть тому пацану, который колбу держит. А то потравим друг друга окончательно».

АИС ГМВО

АИС ГМВО

Автоматизированная информационная система государственного мониторинга водных объектов — это сайт на котором вы можете получить данные по расходам рек и уровням воды на гидропостах. Невероятно крутой ресурс, если бы не два «но».

Во-первых, он сделан для людей у которых орган человечности давно обмяк. Канцелярит служит первейшим симптомом такой болезни. Уверен, что никто из пользователей, разработчиков или заказчиков этой системы не использует в разговоре официальное название. Как можно, вернувшись домой, гордо заявить о том, что последние месяцы был занят на работе созданием гээмвэо?

Отвращение на сайте вызывает решительно все. От верстки, до аббревиатур. Ведь можно написать нечто вроде «Кому этот сайт полезен?», но написали иначе: «Заинтересованные ФОИВ». Оказывается, «ФОИВ» — это федеральные органы исполнительной власти, четыре слова, из которых нормальные человек не понимает ни одно. Разработчики явно забыли добавить кнопку перевода на русский язык.

Во-вторых, данные на сайте доступны только с 2008 года. За остальным — добро пожаловать в библиотеку Гидрологического института. Хотя туда без разрешения все-равно не попасть. На днях звучала громкая новость о разработке нейросетевой модели для прогнозирования паводков. Дескать, паводки — это большая проблема. На самом деле, большая проблема в том, что с помощью одной спички можно уничтожить сотню лет гидрографических наблюдений.

Конечно, я сгущаю краски, но принципиально ситуация от этого не меняется. Кого бы я не встречал, он оказывается знающим адекватным специалистом. Но все вместе как система — полное ГМВО.

Закон первой маски

Когда покупаешь водку, просят вначале надеть маску а после показать паспорт. Потом удивляются количеству ковидных скептиков. Ладно, зафиксируем мысль о том, что маски нужны и скопления народа опасны. Но вот перед нами кадры демонстраций из Белоруссии. Где ожидаемая вспышка заболеваний? Пусть Лукашенко — злобный диктатор и все скрыл, но тогда почему до сих пор не лежат по койкам протестующие Хабаровска?

Число заболевших растет, но это не мешает задавать вопросы, первый из которых: насколько органичен такой рост? Где число заболеваний отражает естественную динамику развития болезни, а где результат вызван особенностями тестирования и подсчета?

Так совпало, что мне надоело в очередной раз проверять степенные распределения на соответствие закону Бенфорда. Полтора века назад Саймон Ньюком изучая потертости страниц в сборниках логарифмических таблиц обнаружил любопытный феномен, который спустя шестьдесят лет обобщил Френк Бенфорд: В экспоненциальных распределениях каждое третье число начинается с единицы. Точнее, вероятность встретить единицу 30.1, двойку 17.6, тройку 12.5 и далее согласно разработанной Бенфордом формуле.

Этому закону соответствует огромное количество экспоненциальных (и как обобщенный случай — степенных) распределений. Учитывая закон и все ограничения, с помощью распределения Бенфорда можно проверить данные на естественность, поэтому использовать его приходится часто. Для автоматизации процесса я написал небольшую программу, которая проверяет частоту первых цифр из вашего распределения на соответствие распределению Бенфорда и в качестве демонстрации подключил статистику по заболеваемости ковидом в регионах России. Можете проверять любые ваши данные, хоть результаты голосования, хоть статистику по зарплате, хоть общее проективное покрытие oxalis acetosella, как в моем случае.

Ну а что-же ковид? Оказалось, что в распределениях суммарного количества заболевших наибольшие отклонения от распределения Бенфорда наблюдаются в Москве с областью и соседствующими регионами, Северном Кавказе, Татарии и Башкирии, Туве, Чукотке и Камчатке.

Распределения по количеству выздоровевших наиболее соответствуют закону Бенфорда вдоль границы с Казахстаном, юго-востоку (Приморье и Сахалин) и Северо-Западу (Карелия и Мурманская) России.

Распределения по количеству погибших от коронавируса наиболее близки к распределению Бенфорда в юго-западных, западно-уральских регионах, частично на юге Западной Сибири и в Приморье.

У меня есть предположения о причинах таких географических особенностей, но я бы хотел услышать комментарий специалиста. И это не потому, что я диссидент, а ровно напротив: я сторонник самого жестокого карантина: с применением боевого оружия и превращением всех институтов в шарашки.

Каждый день пандемии ждешь прорыва научной мысли, а вместо этого слышишь рекомендации намотать на лицо тряпку и сидеть по домам.

P.S. Спасибо всем, кто откликнулся на призыв о поиске сырых данных по заболеваемости в регионах.

Геоданные

Коллекция геоданных

Мелкомасштабные векторные данные о России

Шейп-файлы с атрибутивными данными для создания мелкомасштабных карт. Средний размер файла 0.5 мб.

Теневая отмывка рельефа регионов России

Азимут освещения 300 градусов, высота источника света 40 градусов. Файлы распространяются в формате GeoTIFF. Размер одного файла около 50 мегабайт.

Горизонтали регионов России

Интервал между горизонталями 10 м (данные о высоте указаны). Шейп-файлы размером 30-80 мб.

Данные OSM по федеральным округам (Апрель 2021, источник — Geofabrik)

Данные OSM глобального охвата (Апрель 2021, источник — Geofabrik)

Растры World Topo Bathy в формате GeoTIFF

Гидрографические объекты OpenStreetMap с дополнительной обработкой атрибутов (шейп-файл, EPSG 4326, апрель 2021)

формула

Тегирование универсальных морфодинамических свойств объектов

Да ебись оно все конем. Выкладываю настоящий картографо-философский экзерсис в его первоначальном виде, пришедшем в мой воспаленный мозг после восьми часов беспрерывного прослушивания песни «Крановщик шестой бригады Волопасов Михаил».

Сущность проблемы в невозможности указать особенности формы и поведения объекта на карте иначе, чем через создание избыточной базы тегов. Как разнести на карте участки реки с сильным и слабым течением? Как обозначить кавернозное строение терриконов? Как тегировать степень заброшенности промышленного объекта? Для решения каждой подобной задачи можно создать специальный тег, но гораздо элегантнее рассмотреть универсальные свойства, присущие всем без исключения объектам в силу их материального происхождения. Разработанная схема тегирования таких свойств позволит, в своей части, избежать избыточности классификатора свойств объектов.

Имена значениям не давал (за исключением ключа «форма»), ибо это, равно как и наименования самих тегов, есть момент технический, не обладающий большой важностью для сути экзерсиса.

КлючЗначениеОписание
virtuality1Реальные объекты, с четкими границами, например, здания
virtuality2Реально существующие объекты с неоднородными, размытыми границами провести которые точно невозможно, например, болота
virtuality3Объекты, существующие согласно документам, как единое целое, но в реальности имеющие фрагментированную структуру, например некоторые заброшенные дороги
virtuality4Объекты, существующие в исключительно в виде документов, но связанные с реально существующими объектами, например, проходящие по рекам административные границы
virtuality5Объекты, существующие исключительно в виде документов, никак не связанные с объектами местности, например проектируемая дорога
КлючЗначениеОписание
naturalness1Объекты, созданные путем кардинальной модификации окружающей среды и эксплуатируемые человеком, например, работающие предприятия
naturalness2Объекты, созданные путем кардинальной модификации окружающей среды, но в настоящее время не используемые, что приводит к их возвращению в естественную среду, например, заброшенные населенные пункты
naturalness3Объекты, созданные путем значительной модификации окружающей среды, но с сохранением основных природных компонентов, например луга и леса лесохозяйственного значения
naturalness4Объекты естественной среды, подвергшиеся заметному человеческому вмешательству, но не используемые в промышленности или лесном/сельском хозяйстве, например, национальные парки
naturalness5Объекты естественной среды, не претерпевшие заметного влияния человека, например, заповедники
КлючЗначениеОписание
acceleration1Объекты, стремительно замедляющие скорость, например реки при впадении в крупный водоем
acceleration2Объекты, скорость которых постепенно замедляется
acceleration3Неподвижные объекты, либо объекты, передвигающиеся с равномерной скоростью
acceleration4Объекты, скорость которых постепенно увеличивается
acceleration5Стремительно ускоряющиеся объекты, например, водопады
КлючЗначениеОписание
rate1Объекты с неизмеримо малыми скоростями, либо неподвижные объекты, например здания
rate2Объекты, о движении которых можно сделать ввод только после многодневных наблюдений, например, некоторые ледники
rate3Объекты, движение которых заметно только при внимательном рассмотрении или постановке простого опыта, например некоторые реки с очень слабым течением
rate4Объекты движение которых заметно с первого взгляда
rate5Объекты со стремительным движением, скорость которого может служить отличительным признаком объекта
КлючЗначениеОписание
chaotic1Объекты с хаотичной динамикой без прослеживаемых закономерностей изменения, например лесные дороги, которые в любой момент могут оказаться непроезжими из-за поваленных деревьев или работы специальной техники
chaotic2Объекты динамика которых хаотична, но имеет прослеживаемые в ходе долговременных наблюдений пространственные или временные закономерности, например грунтовые дороги с песчаным покрытием в степной зоне
chaotic3Объекты со стабильной и управляемой динамикой, например, водохранилища
chaotic4Объекты с управляемой динамикой, изменения на которых происходят в известные сроки, например, ремонтируемые мосты
chaotic5Стабильные объекты, не претерпевающие заметные изменения, например здания
КлючЗначениеОписание
naming1Объекты без собственного имени, для которых указание имени нарицательного нецелесообразно ввиду их редкости либо по иной причине, например, остатки от упавших ступеней космических ракет
naming2Объекты без собственного имени, для которых целесообразно указать имя нарицательное, например, ряд вкопанных автомобильных покрышек во дворах или на детских площадках
naming3Объекты без собственного имени, для которых однозначно можно выделить имя нарицательное, например, колодцы
naming4Объекты с нарицательным именем, собственное имя которых неоднозначно, или недостоверно, например, если получено со слов местных жителей («река Кундрючка«)
naming5Объекты имеющие собственное имя
КлючЗначениеОписание
decomposition1Однородные, чистые по составу объекты
decomposition2Однородные объекты с несущественными включениями, не влияющими на свойства объекта
decomposition3Объекты с разнородным составом, влияющим на свойства объекта и заметно выраженным главным компонентом
decomposition4Объекты с разнородным составом и наличием доминирующей группы из нескольких элементов
decomposition5Объекты с разнородным составом, среди которого невозможно выделить доминирующую группу элементов
КлючЗначениеОписание
formpointТочка — объекты с пренебрежимо малыми размерами
formcloudОблако — группа объектов с пренебрежимо малыми размерами
formlineЛиния — объект двумя размерами которого можно принебречь
formnapkinСалфетка — объект с одним пренебрежимо малым размером и перфорированной структурой
formplaneПлоскость — объект с одним пренебрежимо малым размером и цельной структурой
formspongeГубка — кавернозный полноразмерный объект
formvolumeОбъем — цельный полноразмерный объект

P.S. Формула на рисунке не в тему — просто файл этот надоел, вот и решил его куда-нибудь пристроить.