Анри Пуанкаре

Месье Пуанкаре, крутите барабан

Отдавая себе отчет в том, что весь нижеследующий текст может оказаться беспросветной хуетой, либо тривиальным знанием у профессиональных статистиков, я все-же рискну поделиться с вами некоторым математическим экзерсисом.

Со времен Виболда и Ришаля де Форневаля теория вероятностей достигла потрясающих успехов, железно доказав свою эффективность в решении производственных и научных задач. Несмотря на это, меня не покидает мысль о том, что во всех этих расчетах кроется какая-то наебка. Взять хотя-бы игнорирование влияния наблюдателя на эксперимент. Или даже основу основ — само определение вероятности, достаточно невнятное, сведенное к текстовому описанию отношения успешных событий к общему количеству событий наблюдаемых.

Мы настолько привыкли к удобству математики, что часто забываем ее основную суть: всякие вычисления производятся не над самими объектами, а над их математическими моделями. Школьное «одно яблоко плюс одно яблоко равно два яблока» не имеет отношения к реальности: расчеты ведутся над образами этих яблок, этакими идеями яблок платоновского мира. Реальность же такова, что при идентичных операциях сложения одному достается 400 грамм яблок, а другому 100 грамм сморщенных сухофруктов. Не будем вдаваться тут в проблемы нуль-меры и количественных измерений, иначе в рассуждениях мы не сможем дойти до логического финала.

Подобно яблокам, классический пример с подбрасыванием монетки крайне теоретизирован: считая вероятность, мы совершенно не принимаем в расчет ложиться ли монетка головой орла кверху или перевернутой решкой, какой стороной ударяется монетка и бесчетное количество других факторов. Если уж рассматривать проблему вероятности, то явно на каком-то другом примере.

В недавней бытовой переписке решив сослаться на идеи Б.В.Гнеденко я освежил, к своей радости, модель рулетки Анри Пуанкаре, которая служит прекрасным инструментом для изучения сути вероятности. Представим себе круг, поделенный на сектора и стрелку, которая свободно вращается в этом круге. Или же равнозначный круг, который обращается вокруг неподвижной стрелки (элемент 1 на рисунке). Физической реализацией такой модели является известный барабан из «Поля Чудес». Но для простоты мы оставим на нем лишь два сектора (A и B), каждый из которых будет занимать ровно половину круга. Какова вероятность того, что стрелка остановится в одном из секторов?

Диск Пуанкаре и пыль Кантора

Классический подход говорит нам не только о равной вероятности обоих исходов, но и о том, что их сумма равна единице (исходя из формулы 2). Если с первым утверждением можно согласиться, то второе содержит в себе элемент лукавства. Действительно, сумма вероятностей будет равна единице, но лишь в том случае, когда мы используем очень грубый подход в оценке результата.

Поскольку вероятность — это прежде всего свойство события, определимся с перечнем событий, которые возникают в модели Пуанкаре и причинами их вызывающими. Очевидно, что последние связаны исключительно с физическими свойствами модели, а именно шириной стрелки (элемент 3. на рисунке) и зоны перехода от сектора A к сектору B. В идеальном случае, оба этих значения будут равны нулю, но в реальности мы сталкиваемся с тремя видами событий (4.):

  1. Ширина стрелки больше одного из секторов. При каждом обращении стрелка будет указывать одновременно на два сектора. В этом случае классическое понятие вероятности теряет смысл, поскольку вероятность указания стрелки на каждый из секторов равен единице (P=1+1=2);
  2. Ширина стрелки равна одному из секторов. Здесь вероятность имеет смысл, но принципиально не может быть определена, поскольку совпадая ровно с сектором, мы не можем гарантировать того, что условие 1. не нарушится при более детальной оценке. Вообще, такое событие требует отдельного рассмотрения и трепетного подхода к определению числа как такового.
  3. Ширина стрелки меньше одного сектора. В этом случае возможны два варианта:
    3.1. Стрелка шире области перехода между секторами. В этом случае мы не можем говорить о возможности расчета вероятности, поскольку в нашей модели возможно событие, указанное в пункте 1. — стрелка одновременно указывает на два сектора.
    3.2. Стрелка уже области перехода между секторами. И в этом случае мы можем получить указание стрелки на два объекта сразу (если она остановится в переходной зоне между двумя секторами.

Во всех случаях классический подход к определению вероятности (P=m/n) лишен смысла, поскольку имея два возможных события мы не принимаем в расчет ситуацию, когда эти события выполняются одновременно (либо в иной трактовке — не выполняется ни одно из событий). В случае с монеткой — мы полагаем, что вероятность выпадения одной из сторон составляет 0,5, игнорируя возможность того, что монетка встанет на ребро (сломается, укатится, зависнет в воздухе…). Стандартное понимание вероятности подразумевает, что Pa+Pb = 1, в то время как для реальности соответствует запись Pa+Pb+Pab = 1.

Обычно, событие Pab настолько редко, что им можно пренебречь. Но что, если оно более вероятно, чем суммарное наступление событий Pa и Pb? Представим себе, что наш круг разделен на сегменты по принципу пыли Кантора: круг делится пополам на сегменты A и B, затем из каждого сегмента часть меняет значение на противоположное, после этого часть этой части меняет значение и так итеративно до бесконечности? Как рассчитать вероятность события, которое при детальном рассмотрении оказывается множеством разных событий?

Обратимся к нашей формуле P=m/n на примере измерения длины отрезка (элемент 6. на рисунке).

Формула вероятности

Не вдаваясь в топологические подробности (их легко можно посмотреть в работах Мандельброта, Шредера, Федера, Хаусдорфа, Минковского и других авторов) кратко замечу, что всякое геометрическое измерение можно представить как покрытие объекта элементарными (неделимыми) метриками единичной величины. В этом случае размер объекта будет равен количеству таких метрик в степени размерности (точка а0, прямая a1, площадь а2 и т.д.).

В том случае, когда количество метрик конечно, вероятность конгруэнтна размеру: если на десяти отрезках три «ложатся» на объект, то длина отрезка = 3, а вероятность его обнаружения в метрике 3/10. При этом вероятности так же присуща размерность, как и расстоянию. Соответственно, формула P=m/n — есть лишь частный случай для a=1, а в общем виде формула вероятности выглядит как P=(m/n)a. В справедливости этого утверждения легко убедиться на примере расчета вероятности заполнения некоторого поля плоскостью (элемент 7. на рисунке)

Но как быть, если число метрик не ограничено? Как измерить длину отрезка, образованного отсечением прямой, разбитой на канторову пыль? Соответственно, как рассчитать вероятность встречи этой пыли в одной из метрик? Иными словами, поскольку каждая метрика является опытом («есть в нем объект или нет»), то как рассчитать вероятность если число опытов бесконечно? Я не вижу иного способа, кроме асимптотического.

Но более самого расчета длины/вероятности интересно то, что размер метрики является отношением возможного числа опытов (объем пространства измерений) к числу проведенных опытов (формула 9.) Нехитрые математические манипуляции показывают, что вероятность события, равно как и размер объекта в пространстве определяются формулой 10. Причем в ситуации, когда N=n, т.е. проведены все возможные опыты, формула принимает частный вид P=m/n.

Но хватит теории, давайте на практике посмотрим, как работает данная формула. Для этого воспользуемся классическим опытом с монеткой. В нынешний век генераторов псевдослучайных чисел подбрасывание монетки выглядит архаично, но простите меня — я охотнее верю в то, что могу держать руками. Особенно после успешных опытов с рандомными числами. В качестве инструмента исследования взята пятидесятирублевая монета, выпущенная тридцать пять лет назад:

Монета 50 рублей

В таблице приведены результаты бросаний монетки. Единица — орел, ноль — решка. Задача выглядит следующим образом: мы подбросили монетку 25 раз и получили некоторую вероятность выпадения орла. Какова вероятность выпадения орла после пятидесяти бросков?

В классическом случае (P=m/n) вероятность выпадения орла после 25 испытаний составила примерно 0,6. Проследив тренд мы можем предположить, что к пятидесятому броску эта вероятность немного возрастет (до 0,63). При расчете по предложенной формуле, вероятность выпадения орла на двадцать пятом броске составила примерно 0,36 и к пятидесятому увеличится до 0,48

Здесь и далее синяя линия — накопленная вероятность по классической формуле, красная линия — накопленная вероятность по формуле 10.

Согласен, что рассчитывать регрессию в табличном редакторе — последнее дело, но в данном случае нам не столько интересны полученные значения, сколько различие в подходах к оценке вероятности. И все-же явно видно, что ни первый, ни второй тренд не отличаются достоверностью: слишком сильное влияние оказывает первый замер, который в обоих случаях дает вероятность, равную единице. Картина несколько меняется, если это наблюдение исключить:

Теперь вероятность в обоих случаях примерно одинакова (0,82), но обратите внимание на коэффициенты достоверности аппроксимации.

В реальности после пятидесяти бросков монеты изменение вероятности выпадения орла происходило следующим образом:

Принципиальным отличием предложенного метода от классического определения вероятности является то, что при первых наблюдениях формула 10. не выдает значительных величин вероятности. Если в классическом случае у нас может быть лишь два варианта исхода события, то здесь число вариантов не определено и под вероятностью понимается возможность конкретного результата в опыте. Проще говоря, классический метод отвечает на вопрос: какова вероятность, что выпадет орел, а не решка. Предложенный метод отвечает на вопрос: какова вероятность, что выпадет орел, а не наступит любое другое событие. Поэтому нельзя рассматривать низкую вероятность выпадения орла в первых опытах как знак того, что решка может выпасть с высокой вероятностью. С высокой вероятностью может произойти все что угодно. По мере того, как орел выпадает все чаще, вероятность его выпадения растет, приближаясь к значению 0,5.

Рассмотрим более практичный пример, связанный с прогнозом вероятности изменения температуры воздуха в городе Шахты. За прошедшие дни декабря была отмечена следующая температура воздуха: -3, -2, -1.5, -1.29, 0.29, -0.17, -0.25, -1.4 градусов. Средняя температура составила -0.97 градусов. Подсчитаем вероятность того, что в ближайшие дни наступит потепление. Для этого переведем данные о температуре в бинарный вид (0 — холоднее -0.97 градусов, 1 — теплее -0.97 градусов): 0,0,0,0,1,1,1,0.

Классическая формула через неделю обещает нам потепление с высокой вероятностью (0,91). Предложенная формула 10. говорит о том, что потепление через неделю скорее маловероятно (0,32). Конечно же, не стоит относиться к такому прогнозу серьезно (я еще не окончательно сошел с ума). Предложенный пример следует рассматривать исключительно как полушутливое использование данных с показательным распределением. Во всяком случае, пока не будет доказано обратное.

Из всего сказанного ценна не столько формула, которую нужно всячески критиковать и тестировать, сколько важные соображения:

  1. Теория вероятностей это лишь математическая модель и не стоит об этом забывать. Реальность гораздо сложнее и многограннее, чем безальтернативный выбор из двух вариантов (вспоминается аксиома Эскобара).
  2. Классическая теория вероятностей не работает в ситуациях, когда пространство событий нечетко, либо имеет дробную топологическую размерность. Более того, вероятность наступления события зависит от выбранных единиц измерения
  3. Рассматривая два события в привычной трактовке вероятности, не учитывается эмергентная связь между ними.
  4. Вероятность может применяться и применяется для оценки размеров, но лишь в случае измерения Эвклидовых фигур.
  5. Важно не только количество проведенных опытов, но и то, сколько опытов предполагается, либо возможно провести (объем пространства измерений). Если мы получили одинаковый результат в десяти опытах, вероятность такого результата неодинакова для случая, если опытов предполагалась всего десять и случая с тысячами опытов.

В этом месте, я полагаю, разумно прервать наши размышления о природе вероятности и объявить рекламную паузу.

P.S. Ян, спасибо за файл.

Деревья на пробной площади

Проба номер три

Одним из важнейших объектов исследования в отечественном лесоводстве являются постоянные пробные площади — ограниченные территории, на которых раз в несколько лет производится замер высоты, диаметра и других биометрических показателей деревьев. Попутно при этом описывают живой напочвенный покров, закладывают почвенные прикопки и фиксируют прочие наблюдения. В теории, эти данные накапливаются год за годом, а их анализ дает возможность проследить динамику развития растительного сообщества, что необходимо для объективного прогноза и экстраполяции данных.

На практике эти пробные площади нахуй никому не нужны. Как и отечественное лесное хозяйство, которое издревле держалось на подневольных, а когда люди закончились, накрылось пиздой в которую глянуть страшно. Погуляйте по дождливой лесной дороге — сразу поймете, почему единственным возможным видом достойного заработка в лесу являются концентрированные рубки средствами крупных лесопромышленных компаний.

Не думайте, что я вещаю из глубин пессимизма и депрессии. Наоборот, меня такая ситуация радует и любые попытки позитивных изменений я встречаю тревожным скепсисом: про возрождение лесного хозяйства в России обычно вспоминают отправляясь на постройку очередного ГУЛАГа.

Но хотя бы сегодня, давайте забудем про разных пидарасов и окунемся в мир статистики. Тем более, что процесс исследования постоянных пробных площадей, даже при отсутствии в нем всякого смысла, остается очень увлекательным занятием. Примерно как онанизм. Поэтому давайте уединимся и пока никто нас не спалил, посмотрим на данные сплошных перечетов древостоя, проведенные на одной из постоянных пробных площадей в Ханты-Мансийском автономном округе Западной Сибири.

Перечеты проведены разными исследователями в 2002 (З.Я. и В.З. Нагимовы), 2008 (Г.М. Кукуричкин) и 2018 году на ограниченной площади в 0,4 гектара. Все деревья на площади пронумерованы, на каждое дерево нанесена линия на высоте которой измеряется диаметр ствола. Изначально, эта высота должна составлять ровно 1,3 метра, но спустя шестнадцать лет, уровень ее колеблется между 1.0-1.7 м от шейки корня. Предположительно, это можно объяснить динамикой микрорельефа, хотя состояние пробы в целом создает впечатление того, что при закладке создатели были в говно пьяны. Древостой сложен лиственницей, пихтой, кедром, елью и березой, развит подрост и подлесок, живой напочвенный покров представлен лесными кустарничками и видами эвтрофных местообитаний (кислица, аконит, майник и др.). Если не смотреть на породный состав — типичный буреломный кисличник.

Первое, что необходимо сделать перед началом любой работы — привести все данные в машиночитаемый вид. Отдельно замечу: не в электронный, а именно в машиночитаемый, пригодный для автоматической обработки. Все эти бесконечные ворды, пдф-ы и эксели в девяносто девяти случаях из ста представляют собой богомерзкую хуету, которая для анализа пригодна ничуть не лучше, чем запись в полевом дневнике. При этом неизбежна стандартизация данных. В итоге разношерстные тексты сводятся в единую таблицу вот такого вида:

ele;num;d02;h02;l02;d08;d18;h18;l18 abies;1;19;NA;TRUE;20;21;NA;TRUE picea;2;38;NA;TRUE;38;37;NA;FALSE abies;3;12;NA;TRUE;12;13;NA;TRUE

Таблица целиком, пояснения и обозначения заголовков
Заголовки:
ele — (текст) — порода;
num — (текст) — номер в перечете, нанесен на ствол дерева;
d02 — (число) — диаметр в см ствола согласно перечету 2002 года;
h02 — (число) — высота в м ствола согласно перечету 2002 года;
l02- (логическое) — состояние дерева в 2002 году. TRUE — живое, FALSE — мертвое;
d08 — (число) — диаметр в см ствола согласно перечету 2008 года;;
d18 — (число) — диаметр в см ствола согласно перечету 2018 года;;
h18 — (число) — высота в м ствола согласно перечету 2018 года;
l18- (логическое) — состояние дерева в 2018 году. TRUE — живое, FALSE — мертвое;

Породы:
abies — пихта;
betula — береза;
larix — лиственница;
picea — ель;
pinsib — кедр;
none — дерево, по разному определенное в разные перечетах. Порода не установлена;

Прочее:
NA — нет данных

При составлении таблицы:
1. Отсутствующие значения (дерево выпало, еще не выросло, пропущено в ходе перечета или замер для него не проводился) обозначаются как NA;
2. В качестве названия вида используется название данное в перечете 2002 года в случае:
— если оно соответствует названию вида по перечету 2018 года
— если при перечете 2018 года это дерево было представлено сухостоем или валежом (полагая, что ошибка в определении живого дерева менее вероятна);
3. Если название дерева по перечету 2002 года не соответствует названию дерева по перечету 2018 года, дерево считается неназванным (неизвестно, кто именно допустил ошибку);
4. Значения диаметров и высот округлены до целых чисел (процедура необязательная, но позволяет избежать случайных ошибок и упрощает работу);
5. Состояние деревьев принимается бинарным (живое/мертвое). Любое дробное деление при ограниченности выборки приведет лишь излишней работе и недостоверным оценкам;

Таблица данных:
ele;num;d02;h02;l02;d08;d18;h18;l18
abies;1;19;NA;TRUE;20;21;NA;TRUE
picea;2;38;NA;TRUE;38;37;NA;FALSE
abies;3;12;NA;TRUE;12;13;NA;TRUE
picea;4;24;NA;TRUE;24;22;NA;FALSE
picea;5;47;NA;TRUE;46;42;NA;FALSE
pinsib;6;37;NA;TRUE;28;32;NA;TRUE
abies;7;11;NA;TRUE;12;13;NA;TRUE
picea;8;22;NA;TRUE;24;24;NA;FALSE
none;9;14;NA;FALSE;14;13;NA;FALSE
picea;10;31;27;TRUE;32;31;NA;FALSE
picea;11;19;NA;TRUE;18;20;NA;FALSE
picea;12;17;NA;TRUE;16;18;NA;FALSE
picea;13;17;NA;TRUE;16;16;NA;FALSE
betula;14;22;NA;TRUE;22;24;NA;TRUE
abies;15;14;NA;TRUE;14;15;NA;TRUE
abies;16;24;NA;TRUE;24;26;NA;TRUE
abies;17;15;16;TRUE;16;16;NA;TRUE
abies;18;18;NA;TRUE;18;17;NA;FALSE
picea;19;41;NA;TRUE;40;40;NA;FALSE
picea;20;36;NA;TRUE;36;35;NA;FALSE
pinsib;21;22;NA;FALSE;20;25;NA;FALSE
none;22;15;NA;TRUE;16;16;NA;TRUE
picea;23;9;NA;TRUE;8;9;NA;TRUE
none;24;21;NA;FALSE;20;NA;NA;TRUE
larix;25;67;NA;TRUE;68;66;NA;TRUE
picea;26;25;NA;TRUE;24;24;NA;FALSE
picea;27;48;NA;TRUE;48;49;NA;FALSE
picea;28;27;NA;TRUE;26;27;NA;FALSE
picea;29;42;NA;TRUE;42;41;30;FALSE
larix;30;56;NA;TRUE;54;56;NA;FALSE
picea;31;20;NA;TRUE;20;20;NA;FALSE
picea;32;37;NA;TRUE;36;36;NA;FALSE
larix;33;54;NA;TRUE;54;58;39;TRUE
larix;34;28;NA;TRUE;28;28;NA;TRUE
picea;35;49;NA;TRUE;48;44;NA;FALSE
picea;36;38;27;TRUE;38;39;NA;FALSE
picea;37;13;NA;TRUE;12;NA;NA;TRUE
pinsib;38;6;NA;TRUE;6;6;NA;FALSE
abies;39;14;NA;FALSE;14;NA;NA;TRUE
abies;40;15;NA;TRUE;14;NA;NA;TRUE
pinsib;41;40;26;TRUE;40;39;NA;FALSE
abies;42;13;NA;TRUE;14;16;NA;TRUE
picea;43;27;24;TRUE;26;28;NA;TRUE
abies;44;9;NA;TRUE;10;13;NA;TRUE
picea;45;28;NA;TRUE;28;27;NA;FALSE
picea;46;35;NA;TRUE;34;36;NA;FALSE
abies;47;29;NA;TRUE;20;23;23;TRUE
picea;48;44;NA;TRUE;44;44;NA;FALSE
betula;49;18;NA;TRUE;18;22;NA;TRUE
picea;50;12;NA;TRUE;12;12;NA;TRUE
betula;51;28;NA;TRUE;28;31;NA;TRUE
abies;52;16;NA;TRUE;16;20;NA;TRUE
picea;53;14;NA;TRUE;16;18;NA;TRUE
abies;54;17;NA;TRUE;18;20;NA;TRUE
betula;55;30;NA;TRUE;30;30;NA;TRUE
pinsib;56;39;NA;TRUE;40;40;NA;FALSE
betula;57;16;NA;TRUE;16;16;NA;TRUE
abies;58;20;NA;TRUE;20;23;NA;TRUE
abies;59;12;NA;TRUE;12;15;NA;TRUE
betula;60;26;NA;TRUE;24;NA;NA;TRUE
betula;61;30;NA;TRUE;30;29;NA;TRUE
picea;62;16;NA;TRUE;16;18;NA;TRUE
betula;63;26;NA;TRUE;28;24;NA;FALSE
picea;64;8;NA;TRUE;8;11;NA;TRUE
larix;65;70;NA;TRUE;72;70;NA;TRUE
betula;66;17;NA;TRUE;18;19;NA;TRUE
betula;67;13;NA;TRUE;12;13;NA;FALSE
abies;68;21;17;TRUE;22;25;26;TRUE
pinsib;69;12;NA;TRUE;12;13;16;TRUE
pinsib;70;42;24;TRUE;42;44;NA;FALSE
abies;71;10;NA;TRUE;12;13;13;TRUE
abies;72;17;NA;TRUE;18;20;19;TRUE
abies;73;14;NA;TRUE;14;16;19;TRUE
larix;74;42;29;TRUE;42;42;34;TRUE
larix;75;63;NA;TRUE;64;65;NA;TRUE
larix;76;60;NA;TRUE;62;58;37;TRUE
picea;77;29;25;TRUE;28;28;NA;FALSE
picea;78;35;NA;TRUE;38;36;NA;FALSE
abies;79;19;NA;TRUE;18;20;NA;TRUE
abies;80;10;NA;TRUE;10;12;NA;TRUE
picea;81;33;NA;TRUE;34;34;NA;FALSE
abies;82;10;NA;TRUE;10;12;NA;TRUE
abies;83;9;NA;TRUE;10;12;16;TRUE
larix;84;35;29;TRUE;36;37;NA;TRUE
abies;85;18;NA;TRUE;18;NA;NA;TRUE
picea;86;24;NA;FALSE;24;NA;NA;TRUE
abies;87;13;15;TRUE;14;14;12;TRUE
larix;88;42;NA;TRUE;40;41;33;TRUE
larix;89;60;NA;TRUE;62;60;32;TRUE
picea;90;18;NA;TRUE;18;19;NA;FALSE
larix;91;56;NA;TRUE;54;57;NA;TRUE
larix;92;60;NA;TRUE;60;58;35;TRUE
larix;93;22;NA;FALSE;22;19;NA;FALSE
larix;94;68;NA;TRUE;70;66;NA;TRUE
pinsib;95;21;20;TRUE;22;23;NA;TRUE
picea;96;29;NA;TRUE;28;29;NA;FALSE
larix;97;52;NA;TRUE;54;50;NA;TRUE
picea;98;31;NA;FALSE;30;32;NA;FALSE
abies;99;22;NA;TRUE;22;24;NA;TRUE
larix;100;62;NA;TRUE;64;58;NA;TRUE
larix;101;61;NA;TRUE;62;60;NA;TRUE
picea;102;50;NA;TRUE;48;48;NA;FALSE
picea;103;41;NA;TRUE;40;42;NA;FALSE
picea;104;38;NA;TRUE;38;36;NA;FALSE
picea;105;35;NA;TRUE;34;35;NA;FALSE
picea;106;19;NA;TRUE;20;20;NA;FALSE
abies;107;27;NA;TRUE;26;28;27;TRUE
abies;108;23;NA;TRUE;22;20;NA;FALSE
abies;109;15;NA;TRUE;16;17;NA;TRUE
abies;110;27;NA;TRUE;28;28;NA;TRUE
abies;111;14;NA;TRUE;16;17;NA;TRUE
abies;112;21;NA;TRUE;20;22;NA;TRUE
abies;113;25;NA;TRUE;26;28;NA;TRUE
abies;114;25;NA;TRUE;26;26;NA;TRUE
abies;115;24;NA;TRUE;24;26;NA;TRUE
abies;116;21;NA;FALSE;NA;NA;NA;TRUE
abies;117;21;NA;TRUE;20;23;NA;TRUE
abies;118;20;NA;TRUE;20;22;NA;TRUE
abies;119;17;NA;TRUE;18;19;NA;TRUE
picea;120;16;NA;TRUE;16;16;NA;TRUE
pinsib;121;14;NA;TRUE;14;16;NA;TRUE
abies;122;12;NA;TRUE;12;14;NA;TRUE
abies;123;13;NA;FALSE;12;14;NA;FALSE
pinsib;124;43;NA;TRUE;44;46;NA;TRUE
picea;125;26;NA;TRUE;28;28;NA;TRUE
pinsib;126;24;NA;TRUE;26;29;NA;TRUE
larix;127;21;NA;TRUE;22;21;NA;TRUE
abies;128;19;NA;TRUE;20;20;NA;TRUE
picea;129;19;NA;TRUE;20;21;NA;TRUE
picea;130;22;NA;FALSE;22;NA;NA;TRUE
abies;131;13;NA;TRUE;12;14;NA;TRUE
picea;132;20;NA;TRUE;22;24;NA;TRUE
picea;133;22;NA;FALSE;20;NA;NA;TRUE
picea;134;22;23;TRUE;22;25;NA;TRUE
pinsib;135;34;22;TRUE;34;36;NA;TRUE
picea;136;41;27;TRUE;42;42;NA;TRUE
abies;137;12;NA;TRUE;12;14;NA;TRUE
abies;138;11;NA;TRUE;12;12;18;TRUE
larix;139;42;NA;TRUE;44;47;NA;TRUE
picea;140;24;NA;TRUE;24;26;NA;TRUE
abies;141;20;NA;TRUE;20;21;NA;TRUE
larix;142;55;NA;TRUE;54;56;NA;TRUE
pinsib;143;28;NA;TRUE;26;23;NA;TRUE
abies;144;17;13;TRUE;18;19;NA;TRUE
pinsib;145;32;NA;TRUE;22;17;NA;TRUE
picea;146;23;22;TRUE;24;28;NA;TRUE
abies;147;26;21;TRUE;NA;NA;NA;TRUE
abies;148;15;NA;TRUE;16;19;NA;TRUE
abies;149;12;NA;TRUE;12;14;NA;TRUE
abies;150;27;NA;TRUE;26;28;NA;TRUE
abies;151;29;NA;TRUE;28;29;NA;FALSE
abies;152;13;NA;TRUE;14;16;NA;TRUE
betula;153;37;NA;TRUE;36;36;NA;FALSE
abies;154;18;NA;TRUE;18;21;NA;TRUE
abies;155;23;23;TRUE;22;24;NA;TRUE
pinsib;156;16;NA;TRUE;16;18;20;TRUE
pinsib;157;8;NA;TRUE;8;11;NA;TRUE
pinsib;158;34;23;TRUE;36;40;NA;TRUE
abies;159;26;NA;TRUE;26;27;23;TRUE
abies;160;23;NA;TRUE;24;25;27;TRUE
abies;161;16;NA;TRUE;18;20;22;TRUE
abies;162;13;NA;TRUE;14;NA;NA;TRUE
abies;163;20;NA;TRUE;22;24;NA;TRUE
abies;164;16;NA;TRUE;16;19;NA;TRUE
picea;165;36;NA;TRUE;36;36;NA;FALSE
picea;166;28;NA;TRUE;28;28;NA;FALSE
abies;167;21;NA;TRUE;22;24;22;TRUE
larix;168;52;NA;TRUE;54;54;37;TRUE
larix;169;66;NA;TRUE;66;70;NA;TRUE
picea;170;29;NA;TRUE;30;33;25;TRUE
picea;171;33;NA;TRUE;34;35;NA;TRUE
larix;172;27;NA;TRUE;26;29;33;TRUE
larix;173;31;29;TRUE;32;33;32;TRUE
abies;174;18;NA;FALSE;18;NA;NA;TRUE
betula;175;24;NA;TRUE;24;24;NA;FALSE
abies;176;10;NA;TRUE;10;10;NA;TRUE
abies;177;18;NA;TRUE;16;21;NA;TRUE
pinsib;178;48;NA;TRUE;48;48;NA;TRUE
picea;179;15;NA;TRUE;16;17;NA;TRUE
abies;180;12;NA;TRUE;12;15;19;TRUE
abies;181;19;NA;TRUE;18;NA;NA;TRUE
abies;182;11;NA;TRUE;12;14;NA;TRUE
abies;183;12;NA;TRUE;14;15;NA;TRUE
picea;184;52;NA;TRUE;52;54;NA;FALSE
pinsib;185;8;NA;TRUE;8;8;NA;TRUE
abies;186;11;NA;TRUE;12;13;NA;TRUE
abies;187;18;NA;TRUE;18;21;NA;TRUE
betula;188;19;NA;TRUE;20;22;NA;TRUE
abies;189;11;NA;TRUE;10;12;NA;TRUE
abies;190;12;NA;TRUE;12;13;NA;TRUE
abies;191;9;NA;TRUE;8;8;NA;FALSE
abies;192;21;NA;TRUE;22;22;NA;TRUE
pinsib;193;43;NA;TRUE;44;44;28;TRUE
abies;194;8;NA;TRUE;8;10;NA;TRUE
picea;195;23;NA;TRUE;24;24;23;TRUE
abies;196;9;NA;TRUE;8;9;NA;TRUE
abies;197;9;NA;TRUE;10;10;12;TRUE
abies;198;8;NA;TRUE;8;8;NA;TRUE
abies;199;19;NA;TRUE;18;20;NA;TRUE
abies;200;9;NA;TRUE;8;9;NA;TRUE
abies;201;7;NA;TRUE;6;NA;NA;TRUE
pinsib;202;48;NA;TRUE;48;48;NA;FALSE
abies;203;10;NA;TRUE;10;11;NA;TRUE
abies;204;9;NA;TRUE;8;9;NA;TRUE
abies;205;21;NA;TRUE;22;23;24;TRUE
abies;206;7;NA;TRUE;8;8;12;TRUE
abies;207;12;NA;TRUE;14;14;11;FALSE
picea;208;8;NA;FALSE;8;NA;NA;TRUE
abies;209;11;NA;TRUE;10;12;NA;TRUE
abies;210;16;NA;TRUE;16;16;20;TRUE
pinsib;211;32;NA;TRUE;34;36;NA;TRUE
pinsib;212;15;NA;TRUE;14;14;NA;TRUE
abies;213;17;NA;TRUE;18;20;NA;TRUE
pinsib;214;27;23;TRUE;26;29;NA;TRUE
pinsib;215;22;20;TRUE;22;24;28;TRUE
picea;216;45;NA;TRUE;46;44;NA;TRUE
abies;217;10;NA;TRUE;10;12;NA;TRUE
abies;218;21;NA;TRUE;22;23;NA;TRUE
abies;219;9;NA;TRUE;10;10;NA;TRUE
pinsib;220;14;NA;TRUE;14;14;NA;FALSE
abies;221;9;NA;TRUE;10;NA;NA;TRUE
abies;222;15;NA;TRUE;16;NA;NA;TRUE
picea;223;26;NA;FALSE;26;NA;NA;TRUE
abies;224;19;NA;TRUE;20;23;NA;TRUE
larix;225;40;29;TRUE;42;44;NA;TRUE
abies;226;13;NA;TRUE;14;18;NA;TRUE
picea;227;44;30;TRUE;46;46;NA;TRUE
abies;228;17;NA;TRUE;18;18;NA;TRUE
abies;229;14;NA;TRUE;14;14;NA;TRUE
abies;230;22;NA;TRUE;22;NA;NA;TRUE
abies;231;14;NA;TRUE;14;15;18;TRUE
abies;232;20;NA;TRUE;20;20;21;TRUE
abies;233;25;NA;TRUE;26;27;22;TRUE
larix;234;54;NA;TRUE;54;56;34;TRUE
betula;235;21;NA;TRUE;20;21;22;TRUE
pinsib;236;17;NA;TRUE;18;21;NA;TRUE
picea;237;23;NA;TRUE;24;26;NA;TRUE
larix;238;47;NA;TRUE;50;50;NA;TRUE
larix;239;15;NA;TRUE;16;17;NA;TRUE
larix;240;37;NA;TRUE;38;38;NA;TRUE
picea;241;11;NA;TRUE;12;12;NA;TRUE
picea;242;11;NA;TRUE;12;13;NA;TRUE
picea;243;25;NA;TRUE;26;28;NA;TRUE
picea;244;14;NA;TRUE;16;16;NA;TRUE
picea;245;16;NA;TRUE;16;19;NA;TRUE
picea;246;13;NA;TRUE;12;13;NA;TRUE
betula;247;25;NA;TRUE;24;27;NA;TRUE
abies;248;20;NA;TRUE;20;23;NA;TRUE
larix;249;45;29;TRUE;44;45;NA;TRUE
larix;250;42;30;TRUE;42;43;NA;TRUE
abies;251;21;NA;TRUE;20;22;NA;TRUE
pinsib;252;33;NA;TRUE;34;38;NA;TRUE
betula;253;21;NA;TRUE;20;20;NA;FALSE
betula;254;22;NA;TRUE;22;25;NA;TRUE
betula;255;23;NA;TRUE;22;19;NA;FALSE
betula;256;11;NA;TRUE;10;11;NA;TRUE
betula;257;21;NA;TRUE;18;NA;NA;TRUE
pinsib;258;8;NA;FALSE;8;8;NA;FALSE
picea;259;23;NA;TRUE;24;25;NA;TRUE
betula;260;22;NA;TRUE;22;23;NA;TRUE
picea;261;25;NA;TRUE;26;27;NA;TRUE
picea;262;15;NA;TRUE;14;14;NA;FALSE
abies;263;10;NA;TRUE;10;12;NA;TRUE
picea;264;19;NA;TRUE;18;20;NA;TRUE
picea;265;21;NA;TRUE;22;24;NA;TRUE
picea;266;15;NA;TRUE;16;16;NA;TRUE
larix;267;49;NA;TRUE;50;52;NA;TRUE
picea;268;8;NA;TRUE;8;8;NA;TRUE
picea;269;23;NA;TRUE;24;24;NA;TRUE
picea;270;11;NA;TRUE;10;12;NA;TRUE
abies;271;28;NA;TRUE;28;28;NA;FALSE
abies;272;16;NA;TRUE;16;18;NA;TRUE
pinsib;273;52;NA;TRUE;34;54;NA;TRUE
picea;274;39;NA;TRUE;38;40;NA;TRUE
picea;275;30;NA;TRUE;30;30;NA;TRUE
abies;276;11;NA;TRUE;12;12;NA;TRUE
picea;277;27;NA;TRUE;26;28;NA;TRUE
picea;278;NA;NA;TRUE;24;25;NA;TRUE
pinsib;279;23;NA;TRUE;30;32;NA;TRUE
larix;280;29;NA;TRUE;42;43;NA;TRUE
pinsib;281;40;24;TRUE;44;45;NA;TRUE
pinsib;282;43;15;TRUE;14;16;NA;TRUE
pinsib;283;15;NA;TRUE;52;52;NA;FALSE
pinsib;284;50;NA;TRUE;60;57;NA;FALSE
pinsib;285;59;NA;TRUE;34;33;NA;FALSE
abies;286;36;NA;FALSE;16;NA;NA;TRUE
abies;287;16;21;TRUE;20;22;NA;TRUE
abies;288;20;NA;TRUE;12;13;NA;TRUE
picea;289;12;29;TRUE;44;42;NA;TRUE
pinsib;290;42;NA;TRUE;26;29;NA;TRUE
pinsib;291;26;NA;TRUE;18;17;NA;TRUE
abies;292;16;NA;TRUE;10;12;NA;TRUE
pinsib;293;10;NA;TRUE;10;10;NA;TRUE
picea;294;11;NA;TRUE;42;42;NA;TRUE
abies;295;41;NA;TRUE;12;NA;NA;TRUE
abies;296;12;24;TRUE;NA;NA;NA;TRUE
abies;297;23;NA;TRUE;14;16;NA;TRUE
abies;298;13;NA;TRUE;12;15;NA;TRUE
abies;299;12;21;TRUE;24;24;NA;TRUE
pinsib;300;23;NA;TRUE;42;40;NA;TRUE
abies;301;41;NA;TRUE;16;12;NA;TRUE
abies;302;11;NA;TRUE;16;16;NA;TRUE
abies;303;15;NA;TRUE;16;16;NA;TRUE
abies;304;15;NA;FALSE;10;NA;NA;TRUE
abies;305;11;NA;TRUE;18;19;NA;TRUE
abies;306;18;NA;TRUE;18;20;NA;TRUE
abies;307;17;NA;FALSE;8;NA;NA;TRUE
betula;308;NA;NA;TRUE;20;22;NA;TRUE
abies;267А;20;NA;FALSE;NA;16;NA;TRUE
larix;267Б;NA;NA;FALSE;NA;46;NA;TRUE
picea;б/н;NA;NA;TRUE;NA;10;NA;TRUE
none;б/н;NA;NA;TRUE;NA;9;7;TRUE
picea;б/н;NA;NA;TRUE;NA;6;NA;TRUE

В таком виде собранные данные пригодны для обработки хоть вручную, хоть в Экселе, SPSS или любом отличном от брэйнфака языке. Мы воспользуемся R.

Подключение пакетов и загрузка данных

#Устанавливаем необходимые пакеты
install.packages("moments") #Коэффициенты эксцесса и асимметрии
install.packages("nortest") #Тесты на нормальность
#===================================================================
#Подключаем необходимые библиотеки
library(moments)
library(nortest)
#===================================================================
#Загружаем данные
alldata <- read.table(file="alldata", header=TRUE, sep=";")
spec <- split(alldata,alldata$ele)
#===================================================================

Перед тем, как вникать в статистику, посмотрим на размеры выборки. При первом перечете описано 307 деревьев (на самом деле 308, но у елки №278 не указан диаметр, поэтому будем считать ее незафиксированной). При последующих перечетах добавилось еще шесть новых деревьев (включая ель №278). Рассчитаем, как распределяются 313 деревьев по породам с учетом количества усохших и выпавших деревьев:

Пример количественной оценки пихт

abies.all <- spec$abies
length(abies.all$ele) #Всего записей, которые относятся к пихтам (127)
sum(!is.na(abies.all$d02)) #Количество пихт в перечете 2002 года (127)
sum(!is.na(abies.all$d08)) #Количество пихт в перечете 2008 года (123)
sum(!is.na(abies.all$d18)) #Количество пихт в перечете 2018 года (110)
#===================================================================
# Подсчитываем количество пихт в 2002 году
abies.all.live02 <- split(abies.all,abies.all$l02)
length(abies.all.live02$'FALSE'$ele)# Количество измеренных мертвых (FALSE) пихт в 2002 году (8)
length(abies.all.live02$'TRUE'$ele)# Количество измеренных живых (TRUE) пихт в 2002 году (119)
#===================================================================
# Подсчитываем количество пихт в 2018 году
abies.all.live18 <- split(abies.all,abies.all$l18)
length(abies.all.live18$'FALSE'$ele) # Количество измеренных мертвых (FALSE) пихт в 2018 году (7)
sum(!is.na(abies.all.live18$'TRUE'$d18))# Количество измеренных живых (TRUE) пихт в 2018 году (103)
#===================================================================

В перечете 2008 года отсутствует информация о разделении деревьев на живые и усохшие, поэтому данные этого года представлены одним числом — общим количеством учтенных стволов. Данные 2002 и 2018 года представлены операцией вычитания, в которой уменьшаемое — число всех деревьев породы, вычитаемое — число сухих деревьев, разность — число живых деревьев.

Количество учтенных деревьев (размеры выборок)

Порода 2002 год 2008 год 2018 год Сохранность,%
Ель (picea) 82-6=76 83 79-36=43 56.6
Береза (betula) 21-0=21 22 20-6=14 66.7
Кедр (pinsib) 40-2=38 40 40-11=29 76.3
Пихта (abies) 127-8=119 123 110-7=103 86.6
Лиственница (larix) 34-2=32 34 35-2=33 103.1
Неопределенная порода (none) 3-2=1 3 3-1=2 200


За шестнадцать лет в насаждении активно выпадает елка, кедр и береза (тут нельзя забывать об эффекте низкой базы, см. 200% сохранности неопределенных пород). Любой нормальный лесовод на этом бы завершил свои изыскания, но мы продолжим наши статистические фрикции.

Для того, что-бы оценить качество исследуемых данных, сравним между собой их наиболее значимые части — подеревные перечеты. Логично предположить, что при неизменных данных график зависимости значений диаметров текущего перечета от значений диаметров прошлого перечета будет представлять собой идеальную прямую которая проходит под углом сорок пять градусов. В реальности всегда есть отклонения от такой прямой. Даже при неизмеряемой величине радиального прироста, диаметры могут как увеличиваться (за счет неравномерности окружности ствола, ошибок округления при измерении), так и уменьшаться (за счет отслаивания коры, указанных выше или других причин). Однако эти изменения при качественно выполненной работе всегда невелики. При одностороннем замере диаметров встречаются отклонения до пяти сантиметров с единичными отклонениями до 10 см (при измерении стволов неправильной формы).

Я не могу объяснить изменение диаметра стволов на двадцать пять сантиметров за шесть лет иными причинами, кроме разъебайства исследователей. Очевидно, что это грубые ошибки наблюдения, поскольку в перечетах 2008-2018 года таких выбросов не наблюдается (за исключением одного кедра). При финальной обработке данных, такие значения должны быть удалены из выборки, однако, в данный момент делать это некорректно. В ситуации, когда два наблюдения противоречат друг другу (стабильность и разброс измеренных величин) даже в самом примитивном подходе необходимо третье наблюдение. Тем более, что выбросы наблюдаются преимущественно в измерениях кедров и пихт, а для берез, лиственниц и елей нехарактерны.

Тем не менее, следует помнить, что все нижеприведенные рассуждения основаны на анализе исходных странных данных, поэтому всякая интерпретация результата должна быть подвержена великому сомнению.

Прежде чем перейти к описательной статистике, необходимо протестировать данные на нормальность. Без этого мы не имеем права делать сложный анализ. Да что анализ, даже сравнивать между собой средние значения без теста нормальности недопустимо. Существует около двух десятков популярных тестов на нормальность — заебешься тестировать, поэтому мы ограничимся лишь наиболее подходящими тестами по совету А.И. Кобзаря («Прикладная математическая статистика». — М.: Физматлит, 2006. — 816 с.). Для этого оценим, насколько распределения отличаются от гауссовской палатки с помощью коэффициентов ассиметрии и эксцесса:

Пример расчета ассиметрии и эксцесса

skewness(abies.all$d02, na.rm = TRUE) # Ассиметрия распределения диаметров пихт в 2002 году (1.144345)
kurtosis(abies.all$d02, na.rm = TRUE) # Эксцесс распределения диаметров пихт в 2002 году (5.02645)
#===================================================================

В числителе указана ассиметрия, в знаменателе эксцесс. Значения коэффициентов, рассчитанные для всех деревьев породы (живые и сухие) указаны вне скобок. В скобках даны значения коэффициентов только для живых деревьев породы.

Порода 2002 год

асс/экс

2008 год

асс/экс

2018 год

асс/экс

Предпочтительные тесты

на нормальность

Ель (picea) 0.418 (0.398)/2.298 (2.173) 0.311/2.206 0.173 (0.436)/2.237 (2.451) Критерий Шапиро-Уилка, Критерий Дэвида-Хартли-Пирсона, Критерий Андерсона-Дарлинга
Береза (betula) 0.296 (0.296)/3.263 (3.263) 0.240/3.194 0.078 (-0.494)/3.032 (2.958) Критерий Дарбина, Критерий Шапиро-Уилка, Критерий хи-квадрат
Кедр (pinsib) 0.139 (0.083)/1.964 (1.961) 0.245/2.117 0.106 (0.250)/1.869 (1.937) Критерий Филлибена, Критерий Шапиро-Уилка, Критерий Мартинса-Иглевича
Пихта (abies) 1.144 (1.103)/5.026 (4.985) 0.329/2.316 0.190 (0.154)/2.079 (2.019) Критерий Шапиро-Уилка, Критерий Дэвида-Хартли-Пирсона, Критерий Андерсона-Дарлинга
Лиственница (larix) -0.43 (-0.475)/2.189 (2.347) -0.419/2.325 -0.58 (-0.53)/2.610 (2.684) Критерий Шапиро-Уилка, Критерий Дэвида-Хартли-Пирсона, Критерий Андерсона-Дарлинга


В качестве наиболее универсальных критериев нормальности наших данных используем критерии Шапиро-Уилка и Андерсона-Дарлинга. Можно было бы ограничиться лишь Шапиро-Уилка, но этот тест плохо работает на больших выборках. Действующий ГОСТ Р ИСО 5479-2002 не рассматривает применение критерия Шапиро-Уилка для выборок свыше пятидесяти наблюдений, что создает препятствия для оценки нормальности распределения диаметров елок и пихт.

Полученные значения асимметрии и эксцесса сами по себе отражают динамику развития древостоя (преобладание крупных или мелких деревьев, изменение количества средних по диаметру деревьев). Для наглядности, представим ядерную плотность этих распределений на фоне доверительной полосы соответствующего нормального распределения. В верхнем ряду изображений показаны распределения для всех деревьев породы, живых и усохших (три маленькие картинки), в нижнем только для живых деревьев (две большие картинки).

Построение графиков плотности распределения

sm.density(picea.all.live02$'TRUE'$d02, model = "Normal", xlab="Диаметр ствола ели, см", ylab="Плотность распределения")
dev.print(png, filename="RGraph.png", width=7, height=7, pointsize=12, units="in", res=200)
#===================================================================


Самые интересные процессы наблюдаются у пихты. В 2002 году в древостое преобладали деревья диаметром 10-25 см с ассиметричным распределением. Спустя шестнадцать лет ассиметрия уменьшилась в семь раз. В настоящее время элемент леса дифференцируется на две группы: деревья с преобладающим диаметром 10-15 см и деревья диаметром 20-25 см. Предпосылки к бимодальному распределению наблюдались еще в перечете 2002 года (еще раз указываю на странность тех данных), однако лишь в перечете 2018 года бимодальность проявляется явно. Это может быть связано с изреживанием элемента: часть пихт (левый пик распределения) достигла предельных возможностей развития. Эти деревья угнетаются, замедляются в росте и постепенно будут выпадать. Напротив, правая часть распределения представлена наиболее перспективными и жизнеспособными особями. Со временем это должно привести к разделению пихты на два элемента леса: угнетенные деревья 4-го и 5-го класса Крафта и нормально распределенный второй ярус древостоя.

В еловом элементе за время наблюдений выпала большая часть деревьев диаметром 30-40 см и значительная часть тонких деревьев менее 20 см. Это привело к увеличению преобладающего диаметра (мода распределения) примерно на пять сантиметров. В отличие от пихты, ель не проявляет бимодального распределения, что вероятнее всего свидетельствует о неспособности занимать в данных условиях доминирующее положение. Текущая динамика позволяет предположить, что меньшая часть деревьев из правой части распределения сохранит свое положение во втором ярусе, в то время как основная часть перейдет в низкие классы Крафта. В конечном итоге, ель будет представлять собой разнородную примесь в разных ярусах

Распределение берез по диаметру внешне напоминает нормальное распределение и за время наблюдений сохранило свою форму, за исключением смещения коэффициента ассиметрии в область отрицательных значений (усыхание деревьев с диаметром ствола менее 20 см). Впрочем, берез на пробе к 2018 году осталось лишь полтора десятка (меньше половины процента), поэтому информативность данной выборки переоценивать не стоит.

Кедр за шестнадцать лет сохранил суббимодальное распределение по диаметрам, однако его ассиметрия утроилась за счет выпадения деревьев толще 20 см. К настоящему времени ярко выделяется преобладающая мода в диапазоне 15-25 см. Вероятнее всего со временем бимодальность и ассиметрия в распределении будет расти, количество деревьев существенно снизится: отдельные деревья займут промежуточный ярус между лиственницей и пихтой, большая же часть кедров останется угнетенной во втором ярусе.

Распределения еловых, кедровых и, частично пихтовых стволов прямо не соответствуют кривой Шарлье, однако имеют сходство с распределением в насаждениях, где длительное время производят выборочные рубки, направленные на уборку отстающих в росте деревьев (Н.П. Анучин, 1982). В отличии от них, у лиственницы распределение с изначально отрицательной ассиметрий за время наблюдений еще больше сместилось в правую область. Равномерное снижение количества деревьев при уменьшении диаметра сменилось небольшим прогибом в диапазоне 20-40 см, что компенсировало выпадение деревьев толще 60 см.

При проверке распределения диаметров на нормальность воспользуемся p-значением 0.01. Классическое p=0.05, несмотря на его популярность не выдерживает критики, особенно в биологических исследованиях, где выборки представлены небольшим числом наблюдений (да, истинная причина в обосновании дальнейших параметрических методов, но я согласен с теми, кто даже 99% точность считает недопустимо низкой).

Проверка на нормальность диаметров живых пихт в 2002 году

shapiro.test(abies.all.live02$'TRUE'$d02) # тест Шапиро-Уилка
ad.test(abies.all.live02$'TRUE'$d02) # тест Андерсона-Дарлинга

В таблице указаны результаты теста Шапиро-Уилка (W) и Андерсона-Дарлинга (A) с вероятностями принятия нуль-гипотезы. В скобках указаны результаты тестов для живых деревьев, в остальных случаях для всех учтенных на пробе деревьев определенной породы.

Порода 2002 год 2008 год 2018 год
Ель (picea) W = 0.963, p-value = 0.018 (W = 0.959, p-value = 0.015);A = 0.801, p-value = 0.036 (A = 0.867, p-value = 0.025); W = 0.963, p-value = 0.018;A = 0.903, p-value = 0.020; W = 0.980, p-value = 0.239 (W = 0.952, p-value = 0.071);A = 0.494, p-value = 0.210 (A = 0.630, p-value = 0.094);
Береза (betula) W = 0.980, p-value = 0.925 (W = 0.980, p-value = 0.925);A = 0.218, p-value = 0.815 (A = 0.218, p-value = 0.815); W = 0.969, p-value = 0.681;
A = 0.381, p-value = 0.370;
W = 0.980, p-value = 0.936 (W = 0.958, p-value = 0.686);A = 0.249, p-value = 0.712 (A = 0.266, p-value = 0.633);
Кедр (pinsib) W = 0.961, p-value = 0.186 (W = 0.964, p-value = 0.263);A = 0.480, p-value = 0.222 (A = 0.440, p-value = 0.278); W = 0.963, p-value = 0.207;
A = 0.461, p-value = 0.247;
W = 0.960, p-value = 0.161 (W = 0.957, p-value = 0.274);A = 0.488, p-value = 0.211 (A = 0.420, p-value = 0.305);
Пихта (abies) W = 0.922, p-value = 1.653e-06 (W = 0.923, p-value = 3.764e-06);A = 0.801, p-value = 0.036 (A = 1.679, p-value = 0.0002); W = 0.962, p-value = 0.001;
A = 0.903, p-value = 0.020;
W = 0.966, p-value = 0.007 (W = 0.965, p-value = 0.007);A = 0.494, p-value = 0.210 (A = 1.117, p-value = 0.006);
Лиственница (larix) W = 0.956, p-value = 0.184 (W = 0.959, p-value = 0.236);A = 0.476, p-value = 0.224 (A = 0.437, p-value = 0.280); W = 0.958, p-value = 0.207;
A = 0.488, p-value = 0.209;
W = 0.950, p-value = 0.111 (W = 0.961, p-value = 0.281);A = 0.544, p-value = 0.151 (A = 0.387, p-value = 0.369);


Диаметры елей, берез, кедров и лиственниц распределены нормально во всех выборках, исходя из обоих тестов. При последнем наблюдении p-значения елок существенно увеличены, а критерий Андерсона-Дарлинга значительно снижен, что косвенно говорит о нормализации элемента леса.

Сложнее обстоит дело с пихтами. В 2002 году их распределение существенно отличалось от нормального по тесту Шапиро-Уилка и соответствовало нормальному по тесту Андерсона-Дарлинга. Данная выборка превышает сотню наблюдений, поэтому тест Шапиро-Уилка мы можем проигнорировать, но даже в этом случае нормальность распределения наблюдается лишь для всей совокупности деревьев (живых и мертвых). При наблюдениях 2008 и 2018 года нормальность всей совокупности подтверждается обоими тестами, причем, как в случае с елями, вероятность случайного распределения существенно возрастает к настоящему времени. При этом выборка измеренных диаметров живых деревьев остается далекой от нормального распределения.

Полученные результаты дают нам основание сравнивать между собой средние значения диаметров пород в разные годы наблюдения, за исключением живых деревьев пихты. В последнем случае мы вынуждены использовать для сравнения медианные значения и не можем достоверными параметрическими методами выявить изменение величины радиального прироста.

Таблицы описательных статистик распределения диаметров

Вычисление описательных статистик

mean(abies.all.live02$'TRUE'$d02, na.rm = TRUE) # Арифметическая средняя
median(abies.all.live02$'TRUE'$d02, na.rm = TRUE) # Медиана
sd(abies.all.live02$'TRUE'$d02, na.rm = TRUE)# Стандартное отклонение
var(abies.all.live02$'TRUE'$d02, na.rm = TRUE) # Дисперсия
min(abies.all.live02$'TRUE'$d02, na.rm = TRUE) # Минимальное значение
max(abies.all.live02$'TRUE'$d02, na.rm = TRUE) # Максимальное значение
sd(abies.all.live02$'TRUE'$d02, na.rm = TRUE)/sqrt(sum(!is.na(abies.all.live02$'TRUE'$d02))) # Стандартная ошибка
IQR(abies.all.live02$'TRUE'$d02, na.rm = TRUE) # Интерквартильный
размах

Описательные статистики для ели (в скобках данные для живых деревьев, за скобками данные для всей совокупности деревьев)

Характеристика выбоки 2002 г. 2008 г. 2018 г.
Арифметическая средняя 26.000 (26.303) 26.819 27.519 (23.512)
Стандартная ошибка 1.257 (1.332) 1.241 1.254 (1.604)
Медиана 24.0 (24.5) 24.0 27.0 (24.0)
Стандартное отклонение 11.384 (11.608) 11.305 11.148 (10.518)
Дисперсия 129.605 (134.747) 127.808 124.279 (110.637)
Минимальное значение 8 (8) 8 6 (6)
Максимальное значение 52 (52) 52 54 (46)
Интерквартильный размах 18.0 (18.5) 18.0 17.0 (12.0)


Описательные статистики для лиственницы (в скобках данные для живых деревьев, за скобками данные для всей совокупности деревьев)

Характеристика выбоки 2002 г. 2008 г. 2018 г.
Арифметическая средняя 47.353 (48.121) 48.353 48.371 (49.030)
Стандартная ошибка 1.648 (2.517) 1.631 1.594 (2.361)
Медиана 50.5 (52.0) 52.0 50.0 (50.0)
Стандартное отклонение 14.926 (14.458) 14.857 14.167 (13.566)
Дисперсия 222.781 (209.047) 220.720 200.711 (184.030)
Минимальное значение 15 (15) 16 17 (17)
Максимальное значение 70 (70) 72 70 (70)
Интерквартильный размах 22.25 (20.0) 21.0 16.5 (16.0)


Описательные статистики для кедра (в скобках данные для живых деревьев, за скобками данные для всей совокупности деревьев)

Характеристика выбоки 2002 г. 2008 г. 2018 г.
Арифметическая средняя 28.750 (29.474) 27.950 29.375 (27.897)
Стандартная ошибка 2.255 (2.300) 2.218 2.272 (2.399)
Медиана 27.5 (30.0) 26.0 29.0 (29.0)
Стандартное отклонение 14.264 (14.180) 14.029 14.368 (12.921)
Дисперсия 203.474 (201.067) 196.818 206.446 (166.953)
Минимальное значение 6 (6) 6 6 (8)
Максимальное значение 59 (59) 60 57 (54)
Интерквартильный размах 24.75 (25.25) 24.5 23.25 (21.0)


Описательные статистики для березы (в скобках данные для живых деревьев, за скобками данные для всей совокупности деревьев)

Характеристика выбоки 2002 г. 2008 г. 2018 г.
Арифметическая средняя 22.476 (22.476) 22.0 22.9 (23.0)
Стандартная ошибка 1.310 (1.310) 1.276 1.339 (1.456)
Медиана 22.0 (22.0) 22.0 22.5 (22.5)
Стандартное отклонение 6.005 (6.005) 5.984 5.990 (5.449)
Дисперсия 36.062 (36.062) 35.810 35.884 (29.692)
Минимальное значение 11 (11) 10 11 (11)
Максимальное значение 37 (37) 36 36 (31)
Интерквартильный размах 7.0 (7.00) 5.5 5.75 (5.25)


Описательные статистики для пихты (в скобках данные для живых деревьев, за скобками данные для всей совокупности деревьев)

Характеристика выбоки 2002 г. 2008 г. 2018 г.
Арифметическая средняя 16.701 16.081 17.745
Стандартная ошибка 0.570 0.477 0.521
Медиана 16 (16) 16 17 (17)
Стандартное отклонение 6.425 5.294 5.461
Дисперсия 41.275 28.026 29.825
Минимальное значение 7 (7) 6 8 (8)
Максимальное значение 41 (41) 28 29 (28)
Интерквартильный размах 8 (8) 8 9 (9)


Средние значения диаметров всех деревьев (живых и мертвых) за время наблюдения возросли у ели, лиственницы, кедра (кроме 2008 г.), березы (кроме 2008 г.) и снизились у пихты. При этом средние диаметры живых елей и кедров снизились. Однако, ни одно из этих изменений нельзя назвать статистически достоверным. В этой связи, приходится признать, что значимых изменений радиального прироста за шестнадцать лет зафиксировать не удалось.

Распределение диаметров пород выравнивается (подтверждается снижением интерквартильного размаха и дисперсии на 10-30 процентов) вокруг средних значений. Максимальные значения диаметров снижаются, минимальные возрастают. Одновременное выпадение наиболее крупных и мелких деревьев свидетельствует об увеличении однородности насаждения и его несформированности. Однако, окончательный вывод о динамике развития древостоя по существующим данным делать недопустимо.

Еще меньшей информативностью обладают данные по высотам. Измерение высот — чрезвычайно трудоемкий процесс с большой вероятностью субъективных ошибок. Над его улучшением трудились Ленхорд, Ланг, Лайер, Таката, Видеманн, Филипп, Гогенадль, Вейзе, Кренн, Лорей, Митерлих, Жан Парде, Продан и другие выдающиеся исследователи, но результат высотных замеров как был, так и остается хуетой в подавляющем большинстве исследований. Это связано со сложностью распознавания вершины дерева (и самим понятием «вершины»), микрорельефом, трудностью выставления точного базисного расстояния, несоответствием отбираемых деревьев распределению по диаметру и ряду других причин.

Несоответствие диаметров 2002 и 2008-2018 годов заранее вызывает подозрение в плохом качестве проведенной измерительной работы при закладке пробы. Это подтверждают и графики распределения высот по диаметрам. Конечно же, за шестнадцать лет могли произойти видимые изменения, но едва ли они могут иметь столь радикальный характер. Вероятнее предположить, что наблюдаемые изменения являются следствием погрешности и распиздяйства.

Это предположение подтверждает и описательная статистика. Поскольку число модельных деревьев каждой породы составляет максимум полтора-два десятка наблюдений, для оценки нормальности распределения достаточно применить только критерий Шапиро-Уилка. За исключением лиственницы в перечете 2018 года, все остальные выборки распределены нормально, но их средние значения не выявляют достоверных различий.

Таблицы описательных статистик распределения высот

Статистики распределения значений высоты у кедра

Характеристика выборки 2002 г. 2018 г.
Тест Шапиро-Уилка W = 0.905, p-value = 0.281 W = 0.849, p-value = 0.224
Среднее 21.9 23.0
Стандартная ошибка 1.073 3
Медиана 23 24

Статистики распределения значений высоты у лиственницы

Характеристика выборки 2002 г. 2018 г.
Тест Шапиро-Уилка W = 0.496, p-value = 2.073e-05 W = 0.908, p-value = 0.266
Среднее 29.2 34.6
Стандартная ошибка 0.167 0.748
Медиана 29.0 34.0

Статистики распределения значений высоты у ели

Характеристика выборки 2002 г. 2018 г.
Тест Шапиро-Уилка W = 0.954, p-value = 0.737 W = 0.942, p-value = 0.537
Среднее 26.0 26.0
Стандартная ошибка 0.898 2.082
Медиана 27.0 25.0

Статистики распределения значений высоты у пихты

Характеристика выборки 2002 г. 2018 г.
Тест Шапиро-Уилка W = 0.92382, p-value = 0.4248 W = 0.93569, p-value = 0.1612
Среднее 19.0 19.4
Стандартная ошибка 1.280 1.062
Медиана 21.0 19.5

Статистики распределения значений высоты у березы

Характеристика выборки 2002 г. 2018 г.
Среднее 22.0


Таким образом, за период наблюдений 2002-20018 г. на пробной площади не отмечено достоверных изменений средних диаметров, высот, а значит и запасов у элементов леса. Запас продолжает быть необычайно высоким: принимая значение видовых чисел за 0.5, он составляет 452.5 кубометра живой древесины на гектар (лиственница — 270 куб.м, ель — 60 куб.м, кедр — 50 куб.м, пихта — 57.5 куб.м, береза — 15 куб.м). Это значение почти идентично запасу, рассчитанному в 2002 году (466 куб.м), хотя замечу, что в статье З.Я. и В.З. Нагимовых сумма запасов у пород (504 куб.м в таблице и 524 куб. м в тексте статьи) превышает запас на пробной площади: существенно разнятся по запасам ель (в статье 148 куб. м) и береза (в статье 15 куб. м). Запас, определенный в 2008 году идентичен текущему запасу.

Анализ изменения распределений по диаметру елей, кедров и в меньшей степени пихт указывает на процессы изреживания наиболее отстающих в росте деревьев. У пихты и кедра наблюдается небольшая бимодальность распределения в отличии от ели, что косвенно свидетельствует о меньшем потенциале елового элемента в становлении древостоя. Отмечаются слабые процессы нормализации в распределении диаметров у пород, что говорит о повышении его однородности и текущем активном процессе формирования древостоя (хотя это видно визуально и без всяких вычислений).

При рассмотрении выводов, следует помнить про вероятностный характер любых интерпретаций. Во многом это следствие необычных данных 2002 года (вероятно, включающих в себя значительные ошибки), но основная причина в том, что делать однозначные заключения о динамике развития растительного сообщества на основании трех наблюдений может только некомпетентный мудак.

Сайга в аэропорту

Огоньку найдется

Так получилось, что одну из летних ночей я провел в аэропорту. Достижение сомнительное, некоторые годами там живут и ничего. Но здесь случай особенный — ночевать предстояло в палатке, ближайшая вода была за четверть километра в соседнем болоте, а на костре жарились пластованные щуки. Еще кто-то додумался вылить остатки спирта в кисель. До глубокой ночи мы сидели рядом со взлетной полосой прихлебывая тягучую сладкую смесь с ароматом этанола.

За гостеприимство мы обязаны базе «Брусовая» — маленькому поселению на правом берегу реки Глубокий Сабун. Искать эту базу бесполезно: на картах Генштаба ее еще нет, а на современных картах уже нет — база сгорела в лесном пожаре несколько лет назад:
База Брусовая

Места там глухие, добраться можно лишь на вертолете, АН-2 или по воде. При строительстве базы сюда в половодье на барже привезли трактор, тягачи и другую технику, выгоревшие остатки которой теперь ржавеют посреди просторного сосняка.
Сгоревший трактор

Из всех конструкций сохранился лишь понтонный причал с лестницей, лавка на берегу и металлический контейнер. От деревянных строений остались только груды битого шифера.
Кучи шифера

Приютивший нас аэропорт великолепно бы смотрелся на снимках Филиппа Халсмана: посреди огромной гари прочерчен круг в центре которого стоит зимовье и сортир с выбитым окном. Сама взлетно-посадочная полоса зарастает сосняком и годится теперь лишь на случай аварийной посадки. Впрочем, летать сюда теперь незачем.
Аэропорт базы Брусовая

Об этом я вспоминал сегодня, пытаясь найти вход в здание лофта «Этажи». Если кто не знает, «лофт» — это такой хипстерский термин для помещений в которых последний ремонт делали еще до того как Черненко копченой рыбой отравился:
Что такое лофт

В этом здании на четвертом этаже сейчас проходит фотовыставка «Останови огонь» общества добровольных лесных пожарных. До этого в жизни я бывал лишь на одной фотовыставке, которая называлась «Их разыскивает милиция». Но ради инсайда иногда стоит побороть осеннюю депрессию и всесезонную лень. Просто смотреть на фотографии интересно, но ради этого я в жизни бы никуда не пошел. Тем более, что никогда не знаешь, постановочный перед тобой снимок:
Фотография вдалеке

или фотографу просто повезло заснять нарушение техники безопасности:
Фотография вблизи

Выставка небольшая, около пяти-шести десятков фотографий. У каждого стенда есть наушники из которых мужской голос вещает про опасность и вред лесных пожаров. Но меня больше интересовали живые разговоры людей.
Фотовыставка

Живые разговоры доносились тихо и чаще всего были связаны с приехавшими телевизионщиками. Я журналистов терпеть не мог еще до того как устроился на работу журналистом. Вначале они два часа всем мешают, затем выбрасывают из репортажа самые содержательные куски, а оставшийся бред выдают за «объективное мнение эксперта».

— Вы можете так не орать!? Съемка идет!

По этой же причине кино, которое показывают в конце выставки за темной шторкой шло почти без звука. После того как телевизионщики ушли, звук появился, но у меня с кино уже не сложилось, хотя я ни в одном кинотеатре не видел настолько крутого приглашения к сеансу:
Зайди в кино

Зато впервые в жизни увидел виар-очки. Кто-бы мог подумать, что в двадцать первом веке с помощью виртуальной реальности будут убеждать людей тушить костры и не бросать бычки куда попало.
Очки виртуальной реальности

Очки демонстрируют лес после пожара. У меня даже два леса было — один в правом глазу, второй в левом. Все это на фоне заволакивающего дыма и тревожной музыки. Картина такая, что все время ждешь какой-то подляны — упавшее дерево, обгоревшее йети или ступенька сзади. Последняя, кстати, реальна, поэтому вдвойне страшней.

В жизни все выглядит не так эпично и уж точно без музыки. Лет пять назад я заночевал в лесотундре, а проснувшись обнаружил, что вокруг все затянуло дымом. Внешне напоминает обычный туман, только с постоянным запахом гари:
Дым от лесного пожара

и солнце необычно выглядит:
Солнце в дыму лесного пожара

В тот день мне оставалось сделать лишь пару описаний, да вернуться обратно в поселок. К обеду дым стал сгущаться, все вокруг потемнело как в сумерках, хотя солнце так и висело над головой:
Дым от лесного пожара

Особого страха это не вызывало, тем более, что ветер был крайне слабый. Год выдался урожайным на пожары и такие задымления случались часто. Но инженеры не даром зарплату получают — я бы предпочел неделю провести в горящей лесотундре, чем час в виртуальной реальности. Хотя виртуальную реальность выгодно отличает отсутствие комаров.
Очки виртуальной реальности

Я скептически отношусь ко всевозможным общественным движениям. Отчасти потому, что многие из них пропитаны идеями всеобщего благоденствия и прочим религиозным бредом, который я на дух не перевариваю. Общественные движение — это коллективная форма самолечения: иногда лучше ничего не делать, чем делать что-то. Проблема в том, что иногда бездействие становится совершенно невыносимым.

История о лесном пожарном

Если возможности сидеть ровно больше нет, придется куда-то идти. Я рекомендую начать с фотовыставки.