Анри Пуанкаре

Месье Пуанкаре, крутите барабан

Отдавая себе отчет в том, что весь нижеследующий текст может оказаться беспросветной хуетой, либо тривиальным знанием у профессиональных статистиков, я все-же рискну поделиться с вами некоторым математическим экзерсисом.

Со времен Виболда и Ришаля де Форневаля теория вероятностей достигла потрясающих успехов, железно доказав свою эффективность в решении производственных и научных задач. Несмотря на это, меня не покидает мысль о том, что во всех этих расчетах кроется какая-то наебка. Взять хотя-бы игнорирование влияния наблюдателя на эксперимент. Или даже основу основ — само определение вероятности, достаточно невнятное, сведенное к текстовому описанию отношения успешных событий к общему количеству событий наблюдаемых.

Мы настолько привыкли к удобству математики, что часто забываем ее основную суть: всякие вычисления производятся не над самими объектами, а над их математическими моделями. Школьное «одно яблоко плюс одно яблоко равно два яблока» не имеет отношения к реальности: расчеты ведутся над образами этих яблок, этакими идеями яблок платоновского мира. Реальность же такова, что при идентичных операциях сложения одному достается 400 грамм яблок, а другому 100 грамм сморщенных сухофруктов. Не будем вдаваться тут в проблемы нуль-меры и количественных измерений, иначе в рассуждениях мы не сможем дойти до логического финала.

Подобно яблокам, классический пример с подбрасыванием монетки крайне теоретизирован: считая вероятность, мы совершенно не принимаем в расчет ложиться ли монетка головой орла кверху или перевернутой решкой, какой стороной ударяется монетка и бесчетное количество других факторов. Если уж рассматривать проблему вероятности, то явно на каком-то другом примере.

В недавней бытовой переписке решив сослаться на идеи Б.В.Гнеденко я освежил, к своей радости, модель рулетки Анри Пуанкаре, которая служит прекрасным инструментом для изучения сути вероятности. Представим себе круг, поделенный на сектора и стрелку, которая свободно вращается в этом круге. Или же равнозначный круг, который обращается вокруг неподвижной стрелки (элемент 1 на рисунке). Физической реализацией такой модели является известный барабан из «Поля Чудес». Но для простоты мы оставим на нем лишь два сектора (A и B), каждый из которых будет занимать ровно половину круга. Какова вероятность того, что стрелка остановится в одном из секторов?

Диск Пуанкаре и пыль Кантора

Классический подход говорит нам не только о равной вероятности обоих исходов, но и о том, что их сумма равна единице (исходя из формулы 2). Если с первым утверждением можно согласиться, то второе содержит в себе элемент лукавства. Действительно, сумма вероятностей будет равна единице, но лишь в том случае, когда мы используем очень грубый подход в оценке результата.

Поскольку вероятность — это прежде всего свойство события, определимся с перечнем событий, которые возникают в модели Пуанкаре и причинами их вызывающими. Очевидно, что последние связаны исключительно с физическими свойствами модели, а именно шириной стрелки (элемент 3. на рисунке) и зоны перехода от сектора A к сектору B. В идеальном случае, оба этих значения будут равны нулю, но в реальности мы сталкиваемся с тремя видами событий (4.):

  1. Ширина стрелки больше одного из секторов. При каждом обращении стрелка будет указывать одновременно на два сектора. В этом случае классическое понятие вероятности теряет смысл, поскольку вероятность указания стрелки на каждый из секторов равен единице (P=1+1=2);
  2. Ширина стрелки равна одному из секторов. Здесь вероятность имеет смысл, но принципиально не может быть определена, поскольку совпадая ровно с сектором, мы не можем гарантировать того, что условие 1. не нарушится при более детальной оценке. Вообще, такое событие требует отдельного рассмотрения и трепетного подхода к определению числа как такового.
  3. Ширина стрелки меньше одного сектора. В этом случае возможны два варианта:
    3.1. Стрелка шире области перехода между секторами. В этом случае мы не можем говорить о возможности расчета вероятности, поскольку в нашей модели возможно событие, указанное в пункте 1. — стрелка одновременно указывает на два сектора.
    3.2. Стрелка уже области перехода между секторами. И в этом случае мы можем получить указание стрелки на два объекта сразу (если она остановится в переходной зоне между двумя секторами.

Во всех случаях классический подход к определению вероятности (P=m/n) лишен смысла, поскольку имея два возможных события мы не принимаем в расчет ситуацию, когда эти события выполняются одновременно (либо в иной трактовке — не выполняется ни одно из событий). В случае с монеткой — мы полагаем, что вероятность выпадения одной из сторон составляет 0,5, игнорируя возможность того, что монетка встанет на ребро (сломается, укатится, зависнет в воздухе…). Стандартное понимание вероятности подразумевает, что Pa+Pb = 1, в то время как для реальности соответствует запись Pa+Pb+Pab = 1.

Обычно, событие Pab настолько редко, что им можно пренебречь. Но что, если оно более вероятно, чем суммарное наступление событий Pa и Pb? Представим себе, что наш круг разделен на сегменты по принципу пыли Кантора: круг делится пополам на сегменты A и B, затем из каждого сегмента часть меняет значение на противоположное, после этого часть этой части меняет значение и так итеративно до бесконечности? Как рассчитать вероятность события, которое при детальном рассмотрении оказывается множеством разных событий?

Обратимся к нашей формуле P=m/n на примере измерения длины отрезка (элемент 6. на рисунке).

Формула вероятности

Не вдаваясь в топологические подробности (их легко можно посмотреть в работах Мандельброта, Шредера, Федера, Хаусдорфа, Минковского и других авторов) кратко замечу, что всякое геометрическое измерение можно представить как покрытие объекта элементарными (неделимыми) метриками единичной величины. В этом случае размер объекта будет равен количеству таких метрик в степени размерности (точка а0, прямая a1, площадь а2 и т.д.).

В том случае, когда количество метрик конечно, вероятность конгруэнтна размеру: если на десяти отрезках три «ложатся» на объект, то длина отрезка = 3, а вероятность его обнаружения в метрике 3/10. При этом вероятности так же присуща размерность, как и расстоянию. Соответственно, формула P=m/n — есть лишь частный случай для a=1, а в общем виде формула вероятности выглядит как P=(m/n)a. В справедливости этого утверждения легко убедиться на примере расчета вероятности заполнения некоторого поля плоскостью (элемент 7. на рисунке)

Но как быть, если число метрик не ограничено? Как измерить длину отрезка, образованного отсечением прямой, разбитой на канторову пыль? Соответственно, как рассчитать вероятность встречи этой пыли в одной из метрик? Иными словами, поскольку каждая метрика является опытом («есть в нем объект или нет»), то как рассчитать вероятность если число опытов бесконечно? Я не вижу иного способа, кроме асимптотического.

Но более самого расчета длины/вероятности интересно то, что размер метрики является отношением возможного числа опытов (объем пространства измерений) к числу проведенных опытов (формула 9.) Нехитрые математические манипуляции показывают, что вероятность события, равно как и размер объекта в пространстве определяются формулой 10. Причем в ситуации, когда N=n, т.е. проведены все возможные опыты, формула принимает частный вид P=m/n.

Но хватит теории, давайте на практике посмотрим, как работает данная формула. Для этого воспользуемся классическим опытом с монеткой. В нынешний век генераторов псевдослучайных чисел подбрасывание монетки выглядит архаично, но простите меня — я охотнее верю в то, что могу держать руками. Особенно после успешных опытов с рандомными числами. В качестве инструмента исследования взята пятидесятирублевая монета, выпущенная тридцать пять лет назад:

Монета 50 рублей

В таблице приведены результаты бросаний монетки. Единица — орел, ноль — решка. Задача выглядит следующим образом: мы подбросили монетку 25 раз и получили некоторую вероятность выпадения орла. Какова вероятность выпадения орла после пятидесяти бросков?

В классическом случае (P=m/n) вероятность выпадения орла после 25 испытаний составила примерно 0,6. Проследив тренд мы можем предположить, что к пятидесятому броску эта вероятность немного возрастет (до 0,63). При расчете по предложенной формуле, вероятность выпадения орла на двадцать пятом броске составила примерно 0,36 и к пятидесятому увеличится до 0,48

Здесь и далее синяя линия — накопленная вероятность по классической формуле, красная линия — накопленная вероятность по формуле 10.

Согласен, что рассчитывать регрессию в табличном редакторе — последнее дело, но в данном случае нам не столько интересны полученные значения, сколько различие в подходах к оценке вероятности. И все-же явно видно, что ни первый, ни второй тренд не отличаются достоверностью: слишком сильное влияние оказывает первый замер, который в обоих случаях дает вероятность, равную единице. Картина несколько меняется, если это наблюдение исключить:

Теперь вероятность в обоих случаях примерно одинакова (0,82), но обратите внимание на коэффициенты достоверности аппроксимации.

В реальности после пятидесяти бросков монеты изменение вероятности выпадения орла происходило следующим образом:

Принципиальным отличием предложенного метода от классического определения вероятности является то, что при первых наблюдениях формула 10. не выдает значительных величин вероятности. Если в классическом случае у нас может быть лишь два варианта исхода события, то здесь число вариантов не определено и под вероятностью понимается возможность конкретного результата в опыте. Проще говоря, классический метод отвечает на вопрос: какова вероятность, что выпадет орел, а не решка. Предложенный метод отвечает на вопрос: какова вероятность, что выпадет орел, а не наступит любое другое событие. Поэтому нельзя рассматривать низкую вероятность выпадения орла в первых опытах как знак того, что решка может выпасть с высокой вероятностью. С высокой вероятностью может произойти все что угодно. По мере того, как орел выпадает все чаще, вероятность его выпадения растет, приближаясь к значению 0,5.

Рассмотрим более практичный пример, связанный с прогнозом вероятности изменения температуры воздуха в городе Шахты. За прошедшие дни декабря была отмечена следующая температура воздуха: -3, -2, -1.5, -1.29, 0.29, -0.17, -0.25, -1.4 градусов. Средняя температура составила -0.97 градусов. Подсчитаем вероятность того, что в ближайшие дни наступит потепление. Для этого переведем данные о температуре в бинарный вид (0 — холоднее -0.97 градусов, 1 — теплее -0.97 градусов): 0,0,0,0,1,1,1,0.

Классическая формула через неделю обещает нам потепление с высокой вероятностью (0,91). Предложенная формула 10. говорит о том, что потепление через неделю скорее маловероятно (0,32). Конечно же, не стоит относиться к такому прогнозу серьезно (я еще не окончательно сошел с ума). Предложенный пример следует рассматривать исключительно как полушутливое использование данных с показательным распределением. Во всяком случае, пока не будет доказано обратное.

Из всего сказанного ценна не столько формула, которую нужно всячески критиковать и тестировать, сколько важные соображения:

  1. Теория вероятностей это лишь математическая модель и не стоит об этом забывать. Реальность гораздо сложнее и многограннее, чем безальтернативный выбор из двух вариантов (вспоминается аксиома Эскобара).
  2. Классическая теория вероятностей не работает в ситуациях, когда пространство событий нечетко, либо имеет дробную топологическую размерность. Более того, вероятность наступления события зависит от выбранных единиц измерения
  3. Рассматривая два события в привычной трактовке вероятности, не учитывается эмергентная связь между ними.
  4. Вероятность может применяться и применяется для оценки размеров, но лишь в случае измерения Эвклидовых фигур.
  5. Важно не только количество проведенных опытов, но и то, сколько опытов предполагается, либо возможно провести (объем пространства измерений). Если мы получили одинаковый результат в десяти опытах, вероятность такого результата неодинакова для случая, если опытов предполагалась всего десять и случая с тысячами опытов.

В этом месте, я полагаю, разумно прервать наши размышления о природе вероятности и объявить рекламную паузу.

P.S. Ян, спасибо за файл.

Чирская географическая экспедиция в цифрах

Божечки мои, как же прекрасно под мухой возвращаться теплой майской ночью домой. От левого края дороги к правому. Три шага вперед, два назад. Танго, вальс, пасадобль. Но сегодня черный день геноцида, когда спиртное в магазинах не продают, а потому я воспользуюсь случаем и поведаю занятную статистику из Чирской географической экспедиции, полевые работы по которой завершились всего неделю назад. Длинных текстов не ждите — за месяц гребли пальцы на моих руках приобрели настолько сосисочный вид, что нажимают на клавиатуре ноутбука сразу несколько клавиш.

Итак, путешествие, рекламой которого я всех уже заколебал, состоялось и заняло 30 дней, из которых 26 дней проведены исключительно в поле, с редким заходом в населенные пункты для пополнения провизии. Путешествовали в составе двух человек, погибших и раненых нет.

За месяц было пройдено 465 километров, которые с учетом отклонений и погрешностей расчета можно смело округлять до пятисот. Из этого расстояния 168 километров пройдено пешком, 297 километров на двух одноместных байдарках.

График передвижения на байдарках

Пройденно несколько сотен лесных завалов, пережиты три ливня с вымоканием до трусов, три полицейские проверки (не считая те шесть, что случились в Волгограде) и один пожар, уничтоживший урожай яблок в виде айфона и айпэда на сумму равную организации второй подобной экспедиции.

Заложено 32 пробных площади на которых отобраны 156 кернов из преобладающих пород (клен татарский, вяз шершавый, различные виды тополей и ив). Сделано 49 зарисовок речного профиля. Осмотрена лесная полоса Пенза-Каменск. Исписано 93 страницы полевого дневника. Отснято полторы тысячи снимков, все впрочем отвратительного качества: старенький фотоаппарат меня таки подвел. Сделано несколько криворуких фаунистиеских зарисовок. Сформировано несколько гипотетических предположений о причинах усыхания Чира. Зафиксировано около десятка любопытных наблюдений и закономерностей в динамике речных систем. Найдено две утопленных ондатры и одна утонувшая корова. С треками получилось не очень хорошо — в пожаре сгорел один из внешних аккумуляторов, в результате чего на половине пути мы остались без навигатора. Хорошо, хоть в полевом дневнике была карта:

Карта в полевом дневнике

Съедено 23 килограмма греко-рисово-макаронных продуктов, шестнадцать банок тушенки, три банки конины, шесть банок килькосайры и одна банка куриных потрошков, приготовленных в Троицке на улице полковника милиции Курочкина.

Отснято 26 видеозаписей. Впрочем, к большей части из них я имею слабое отношение, поскольку в поездке исполнял роль Кусто, снимая подводный мир с обитающими в нем водорослями, рыбами и ржавым бидоном у хутора Грачев. Встретили полтора десятка сетей, но половина из них в Цимле, ровно в местах нереста, указанных в правилах рыболовства для Азово-Черноморского бассейна.

Но хватит разговоров, лучше наслаждайтесь интерактивной картой на лифлете. Там и маршрут и пробы, и фотографии, вполне смотрибельные при таком масштабе:

Полноэкранную версию можно зазырить тут.

А я буду наслаждаться молоком, лампочкой, табуреткой и другими преимуществами городской жизни. Тем более, что через тридцать дней мне снова придется о них забыть.

Теракт в метро

Событие в питерском метро

Сейчас меня начнут обвинять в том, что я недостаточно скорблю и поступаю как последний гандон, не заходясь в истошном реве по жертвам трагедии в Питере. Но мне похуй. Даже более того скажу, усиленные меры контроля, из-за которых теперь меня шмонают на каждой станции являются для меня трагедией в куда большей степени, чем гибель полтора десятка незнакомых человек. Толпа лицемерных ебанатов, водящих хороводы вокруг цветочного стога на платформе станции не вызывает у меня ни малейшей эмпатии, хотя-бы потому, что в Петербурге ежедневно мрет полторы-две сотни человек и часть этих смертей есть прямое следствие недостаточно развитой инфраструктуры, деньги на которую были потрачены на антитеррористическую хуету и прочую поебень. Хотите скорбеть — ваше право, но не мешайте тем, кому нужно ехать по делам и не переубеждайте тех, кто считает, что самое интересное событие в питерском метро за последний месяц — это появление карт на основе OpenStreetMap:
Карта ОСМ в метро

Что радует, даже копирайт на месте:
Копирайт ОСМ в метро

Государственная машина настолько прогнила и одряхлела, что в ее прорехи начали просачиваться адекватные люди. Адекватные это те, которые могут воспринять предыдущее предложение целиком, а не только его левую или правую часть.