Наблюдательное

Сегодня первый раз приехал в город и теперь знаю совершенно точно: карантин объявлен под давлением страшных женщин со стройными ногами.

Потом вернулся домой, по пути заехал на поле и спешу всех успокоить: посевная идет как всегда. Повода для волнения нет. Кроме того, большинство частных предприятий начали работать в подпольном режиме.

Одно только тревожит: либо нас ждет дождливое лето, либо пожары по всей стране. А еще денег не будет, но в этом нового ничего нет.

UPD. 24 октября 2020 г. Ванга из меня так-себе. Лето как лето, осень вообще великолепна. Пожары были, ливни были, но ничего смертельного. А вот про страшных женщин — это правда.

Прогноз погоды

На снимке: Остатки оборудования на метеостанции «Гора Таганай», Челябинская область, 2015 год.

Метеопрогнозы — это религия нового времени. Самый востребованный жанр всех периодичных изданий, обогнал даже гороскопы. Но если разобраться — разница между гороскопом и прогнозом погоды на неделю не так уж и велика. Я имею в виду не проблему детерминированного хаоса — предположим, что все это выдумки физиков. Но что скрывается за тем или иным прогнозом погоды на завтра?

Любая величина в нашем скучном материальном мире обречена тащить за собой хвост из двух вопросов. Первый — как величина получена, второй — что она означает. Для оценки предстоящей погоды применяют прогностические модели, если совсем примитивно — системы осредненных по Рейнольдсу уравнений Навье-Стокса на вращающейся сфере вместе с уравнением переноса водяного пара. Входными данными моделей служат физические параметры составных частей атмосферы (газы, вода, твердые элементы), сценарии долговременного изменения климата, исторические и текущие метеоданные.

Глобальных прогностических моделей всего пятнадцать, из них только восемь разработаны независимо друг от друга. В России это модель ПЛАВ, она позволяет строить прогнозы на срок до пяти суток. Лидеры по величине горизонта прогноза — Соединенные Штаты. Их модели GEOS-5, NAEFS, GFS позволяют прогнозировать метеообстановку на 10-16 суток вперед. На десятидневный срок работают европейская (ECMWF) индийская (NCMRWF) и китайская (CMA) модели. Чуть меньше прогностическая мощность у бразильской (CPTEC — 9 суток) и японской (JMA — 8 суток) моделей. Точность моделей зависит от сезона, конкретных погодных условий, территории и множества других вещей.

Каждая модель представляет собой сетку с определенным разрешением по вертикали и горизонтали. Наиболее важное для наземных потребителей — горизонтальное разрешение у большинства моделей варьирует от 10 до 30 километров. Прогноз составляют для узлов сетки, данные о предстоящей погоде между узлами получают интерполяцией. Если вы находитесь на удалении от узлов, особенно в горной местности — будет над вами дождь или нет — никто не скажет. Сетки не универсальны. Классическое развлечение картографов — выбор проекции, давно стало головной болью и у метеорологов. Старую широтно-долготную сетку еще пол-века назад заменили треугольными и шестиугольными икосаэдральными, проекцией куба на сферу, сеткой Инь-Янь и другими изобретениями стереометрии.

Кроме самой прогностической модели, для точного прогноза необходимы текущие данные метеонаблюдений. Треть века назад страна посыпалась как костяшки домино: промышленность замерла, людям стало не до передвижений, малая авиация перестала запрашивать погоду, метеостанции бросили, либо приспособили под актуальные нужды. До сих пор можно встретить старые метеостанции, переделанные под склады или туристические объекты.

В итоге — большинство прогнозов погоды в России выглядят примерно так: у тельцов ожидается проливной ливень, а водолеям следует ожидать порывистого ветра. И это без всякого Лоренца с его странным аттрактором. Приходится сравнивать между собой результаты немецкой ICON, общеевропейской ECMWF и американской GFS. Но даже в этом случае следует помнить, что у метеорологов, как и у всяких специалистов, своя тусовка и договоренности. В дополнение к прогнозу, не мешает уточнить, что, например, температура воздуха прогнозируется для затененного продуваемого помещения на высоте двух метров. То есть для места, в котором большинство людей появляется крайне редко.

Анри Пуанкаре

Месье Пуанкаре, крутите барабан

Отдавая себе отчет в том, что весь нижеследующий текст может оказаться беспросветной хуетой, либо тривиальным знанием у профессиональных статистиков, я все-же рискну поделиться с вами некоторым математическим экзерсисом.

Со времен Виболда и Ришаля де Форневаля теория вероятностей достигла потрясающих успехов, железно доказав свою эффективность в решении производственных и научных задач. Несмотря на это, меня не покидает мысль о том, что во всех этих расчетах кроется какая-то наебка. Взять хотя-бы игнорирование влияния наблюдателя на эксперимент. Или даже основу основ — само определение вероятности, достаточно невнятное, сведенное к текстовому описанию отношения успешных событий к общему количеству событий наблюдаемых.

Мы настолько привыкли к удобству математики, что часто забываем ее основную суть: всякие вычисления производятся не над самими объектами, а над их математическими моделями. Школьное «одно яблоко плюс одно яблоко равно два яблока» не имеет отношения к реальности: расчеты ведутся над образами этих яблок, этакими идеями яблок платоновского мира. Реальность же такова, что при идентичных операциях сложения одному достается 400 грамм яблок, а другому 100 грамм сморщенных сухофруктов. Не будем вдаваться тут в проблемы нуль-меры и количественных измерений, иначе в рассуждениях мы не сможем дойти до логического финала.

Подобно яблокам, классический пример с подбрасыванием монетки крайне теоретизирован: считая вероятность, мы совершенно не принимаем в расчет ложиться ли монетка головой орла кверху или перевернутой решкой, какой стороной ударяется монетка и бесчетное количество других факторов. Если уж рассматривать проблему вероятности, то явно на каком-то другом примере.

В недавней бытовой переписке решив сослаться на идеи Б.В.Гнеденко я освежил, к своей радости, модель рулетки Анри Пуанкаре, которая служит прекрасным инструментом для изучения сути вероятности. Представим себе круг, поделенный на сектора и стрелку, которая свободно вращается в этом круге. Или же равнозначный круг, который обращается вокруг неподвижной стрелки (элемент 1 на рисунке). Физической реализацией такой модели является известный барабан из «Поля Чудес». Но для простоты мы оставим на нем лишь два сектора (A и B), каждый из которых будет занимать ровно половину круга. Какова вероятность того, что стрелка остановится в одном из секторов?

Диск Пуанкаре и пыль Кантора

Классический подход говорит нам не только о равной вероятности обоих исходов, но и о том, что их сумма равна единице (исходя из формулы 2). Если с первым утверждением можно согласиться, то второе содержит в себе элемент лукавства. Действительно, сумма вероятностей будет равна единице, но лишь в том случае, когда мы используем очень грубый подход в оценке результата.

Поскольку вероятность — это прежде всего свойство события, определимся с перечнем событий, которые возникают в модели Пуанкаре и причинами их вызывающими. Очевидно, что последние связаны исключительно с физическими свойствами модели, а именно шириной стрелки (элемент 3. на рисунке) и зоны перехода от сектора A к сектору B. В идеальном случае, оба этих значения будут равны нулю, но в реальности мы сталкиваемся с тремя видами событий (4.):

  1. Ширина стрелки больше одного из секторов. При каждом обращении стрелка будет указывать одновременно на два сектора. В этом случае классическое понятие вероятности теряет смысл, поскольку вероятность указания стрелки на каждый из секторов равен единице (P=1+1=2);
  2. Ширина стрелки равна одному из секторов. Здесь вероятность имеет смысл, но принципиально не может быть определена, поскольку совпадая ровно с сектором, мы не можем гарантировать того, что условие 1. не нарушится при более детальной оценке. Вообще, такое событие требует отдельного рассмотрения и трепетного подхода к определению числа как такового.
  3. Ширина стрелки меньше одного сектора. В этом случае возможны два варианта:
    3.1. Стрелка шире области перехода между секторами. В этом случае мы не можем говорить о возможности расчета вероятности, поскольку в нашей модели возможно событие, указанное в пункте 1. — стрелка одновременно указывает на два сектора.
    3.2. Стрелка уже области перехода между секторами. И в этом случае мы можем получить указание стрелки на два объекта сразу (если она остановится в переходной зоне между двумя секторами.

Во всех случаях классический подход к определению вероятности (P=m/n) лишен смысла, поскольку имея два возможных события мы не принимаем в расчет ситуацию, когда эти события выполняются одновременно (либо в иной трактовке — не выполняется ни одно из событий). В случае с монеткой — мы полагаем, что вероятность выпадения одной из сторон составляет 0,5, игнорируя возможность того, что монетка встанет на ребро (сломается, укатится, зависнет в воздухе…). Стандартное понимание вероятности подразумевает, что Pa+Pb = 1, в то время как для реальности соответствует запись Pa+Pb+Pab = 1.

Обычно, событие Pab настолько редко, что им можно пренебречь. Но что, если оно более вероятно, чем суммарное наступление событий Pa и Pb? Представим себе, что наш круг разделен на сегменты по принципу пыли Кантора: круг делится пополам на сегменты A и B, затем из каждого сегмента часть меняет значение на противоположное, после этого часть этой части меняет значение и так итеративно до бесконечности? Как рассчитать вероятность события, которое при детальном рассмотрении оказывается множеством разных событий?

Обратимся к нашей формуле P=m/n на примере измерения длины отрезка (элемент 6. на рисунке).

Формула вероятности

Не вдаваясь в топологические подробности (их легко можно посмотреть в работах Мандельброта, Шредера, Федера, Хаусдорфа, Минковского и других авторов) кратко замечу, что всякое геометрическое измерение можно представить как покрытие объекта элементарными (неделимыми) метриками единичной величины. В этом случае размер объекта будет равен количеству таких метрик в степени размерности (точка а0, прямая a1, площадь а2 и т.д.).

В том случае, когда количество метрик конечно, вероятность конгруэнтна размеру: если на десяти отрезках три «ложатся» на объект, то длина отрезка = 3, а вероятность его обнаружения в метрике 3/10. При этом вероятности так же присуща размерность, как и расстоянию. Соответственно, формула P=m/n — есть лишь частный случай для a=1, а в общем виде формула вероятности выглядит как P=(m/n)a. В справедливости этого утверждения легко убедиться на примере расчета вероятности заполнения некоторого поля плоскостью (элемент 7. на рисунке)

Но как быть, если число метрик не ограничено? Как измерить длину отрезка, образованного отсечением прямой, разбитой на канторову пыль? Соответственно, как рассчитать вероятность встречи этой пыли в одной из метрик? Иными словами, поскольку каждая метрика является опытом («есть в нем объект или нет»), то как рассчитать вероятность если число опытов бесконечно? Я не вижу иного способа, кроме асимптотического.

Но более самого расчета длины/вероятности интересно то, что размер метрики является отношением возможного числа опытов (объем пространства измерений) к числу проведенных опытов (формула 9.) Нехитрые математические манипуляции показывают, что вероятность события, равно как и размер объекта в пространстве определяются формулой 10. Причем в ситуации, когда N=n, т.е. проведены все возможные опыты, формула принимает частный вид P=m/n.

Но хватит теории, давайте на практике посмотрим, как работает данная формула. Для этого воспользуемся классическим опытом с монеткой. В нынешний век генераторов псевдослучайных чисел подбрасывание монетки выглядит архаично, но простите меня — я охотнее верю в то, что могу держать руками. Особенно после успешных опытов с рандомными числами. В качестве инструмента исследования взята пятидесятирублевая монета, выпущенная тридцать пять лет назад:

Монета 50 рублей

В таблице приведены результаты бросаний монетки. Единица — орел, ноль — решка. Задача выглядит следующим образом: мы подбросили монетку 25 раз и получили некоторую вероятность выпадения орла. Какова вероятность выпадения орла после пятидесяти бросков?

В классическом случае (P=m/n) вероятность выпадения орла после 25 испытаний составила примерно 0,6. Проследив тренд мы можем предположить, что к пятидесятому броску эта вероятность немного возрастет (до 0,63). При расчете по предложенной формуле, вероятность выпадения орла на двадцать пятом броске составила примерно 0,36 и к пятидесятому увеличится до 0,48

Здесь и далее синяя линия — накопленная вероятность по классической формуле, красная линия — накопленная вероятность по формуле 10.

Согласен, что рассчитывать регрессию в табличном редакторе — последнее дело, но в данном случае нам не столько интересны полученные значения, сколько различие в подходах к оценке вероятности. И все-же явно видно, что ни первый, ни второй тренд не отличаются достоверностью: слишком сильное влияние оказывает первый замер, который в обоих случаях дает вероятность, равную единице. Картина несколько меняется, если это наблюдение исключить:

Теперь вероятность в обоих случаях примерно одинакова (0,82), но обратите внимание на коэффициенты достоверности аппроксимации.

В реальности после пятидесяти бросков монеты изменение вероятности выпадения орла происходило следующим образом:

Принципиальным отличием предложенного метода от классического определения вероятности является то, что при первых наблюдениях формула 10. не выдает значительных величин вероятности. Если в классическом случае у нас может быть лишь два варианта исхода события, то здесь число вариантов не определено и под вероятностью понимается возможность конкретного результата в опыте. Проще говоря, классический метод отвечает на вопрос: какова вероятность, что выпадет орел, а не решка. Предложенный метод отвечает на вопрос: какова вероятность, что выпадет орел, а не наступит любое другое событие. Поэтому нельзя рассматривать низкую вероятность выпадения орла в первых опытах как знак того, что решка может выпасть с высокой вероятностью. С высокой вероятностью может произойти все что угодно. По мере того, как орел выпадает все чаще, вероятность его выпадения растет, приближаясь к значению 0,5.

Рассмотрим более практичный пример, связанный с прогнозом вероятности изменения температуры воздуха в городе Шахты. За прошедшие дни декабря была отмечена следующая температура воздуха: -3, -2, -1.5, -1.29, 0.29, -0.17, -0.25, -1.4 градусов. Средняя температура составила -0.97 градусов. Подсчитаем вероятность того, что в ближайшие дни наступит потепление. Для этого переведем данные о температуре в бинарный вид (0 — холоднее -0.97 градусов, 1 — теплее -0.97 градусов): 0,0,0,0,1,1,1,0.

Классическая формула через неделю обещает нам потепление с высокой вероятностью (0,91). Предложенная формула 10. говорит о том, что потепление через неделю скорее маловероятно (0,32). Конечно же, не стоит относиться к такому прогнозу серьезно (я еще не окончательно сошел с ума). Предложенный пример следует рассматривать исключительно как полушутливое использование данных с показательным распределением. Во всяком случае, пока не будет доказано обратное.

Из всего сказанного ценна не столько формула, которую нужно всячески критиковать и тестировать, сколько важные соображения:

  1. Теория вероятностей это лишь математическая модель и не стоит об этом забывать. Реальность гораздо сложнее и многограннее, чем безальтернативный выбор из двух вариантов (вспоминается аксиома Эскобара).
  2. Классическая теория вероятностей не работает в ситуациях, когда пространство событий нечетко, либо имеет дробную топологическую размерность. Более того, вероятность наступления события зависит от выбранных единиц измерения
  3. Рассматривая два события в привычной трактовке вероятности, не учитывается эмергентная связь между ними.
  4. Вероятность может применяться и применяется для оценки размеров, но лишь в случае измерения Эвклидовых фигур.
  5. Важно не только количество проведенных опытов, но и то, сколько опытов предполагается, либо возможно провести (объем пространства измерений). Если мы получили одинаковый результат в десяти опытах, вероятность такого результата неодинакова для случая, если опытов предполагалась всего десять и случая с тысячами опытов.

В этом месте, я полагаю, разумно прервать наши размышления о природе вероятности и объявить рекламную паузу.

P.S. Ян, спасибо за файл.

Явление Херста

Любопытное явление наблюдается сейчас на большей части территории России. Несмотря на минувшую засуху и жаркое лето, уровень воды в большинстве водоемов повышен по сравнению концом августа прошлых лет. Наблюдал это в ХМАО, Ленинградской, Тверской, Воронежской и Ростовской областях. По слухам, то же самое и в других регионах.

На фото слева береговая кромка Грушевского водохранилища (то самое, что в заставке этого сайта). В прошлом году ширины берега мне вполне хватало что-бы комфортно сидеть и некомфортно лежать. А остров, с которого я ловил рыбу сейчас вообще под водой (фото справа).

Благодарить следует снежную весну и Гарольда Эдвина Хёрста, который на основе метеоролого-гидрологических данных по Нилу разработал метод анализа временных рядов (он же метод Хёрста, он же R/S-анализ, он же расчет персистентности явления, он же оценка корреляционной фрактальной размерности).

На самом деле ответ на банальный вопрос: «Откуда столько воды?» чрезвычайно сложен. Если говорить серьезно, а не «размазывать по тарелке то, что из носа выковыряли», придется затронуть вопросы физики, гидрологии, геологии, ботаники, экономической географии и еще десятка наук. Все потому, что на уровень воды влияет не только количество осадков, но и режимы стока, испарения, потребления и эксплуатации воды. А поскольку всякий рассказ неизменно упрется в теорию детерминированного хаоса, остается лишь смириться с невозможностью количественного долгосрочного прогноза.

Предвещаю раннюю, холодную осень со скорой зимой. Синоптик из меня так себе, но думаю точность прогноза Росгидромета не лучше.