Нечеткое тегирование это просто

В мире есть много сложных вещей: квантовая физика, алгебра кватернионов, теория суперструн, алгоритм включения стиральной машинки, динамика иерархических систем и многое другое. Каждая из них требует долгих лет детального изучения, в ходе которого неизбежны сотни ошибок и невероятных открытий. Это целый океан страстей, нырять в который может лишь лишенный рассудка человек. И если стоит примешивать этот океан к практической повседневной работе, то только в виде тоненького ручейка, вытекающего из под дамбы здравого смысла, что ограничивает океан невероятного безумия от вторжения в серую и тоскливую жизнь.

В мире много сложных вещей. Но я вам горбатого лепить не буду: нечеткое тегирование геоданных есть суть не более чем инженерное решение, для понимания которого требуется единственно оторвать насиженную жопу от привычных взглядов на универсальность булевой логики и красоту иерархии.

Итак, как говорил Сократ: «Точное логическое определение понятий — условие истинного знания». Тегирование в OpenStreetMap это присвоение набору геоданных некоего смысла и пояснения, которое выражается в виде присвоенного ключа (тега) и его значения. Например, дорога внутри жилых зон обозначается как highway=living_street. Здесь слева от знака равенства в теге прописано отнесение геоданных к классу (класс дорог), а справа дано пояснение (дорога вдоль жилых зон).

Можно ошибочно подумать, что схема тегирования OSM представляет собой примитивный аналог иерархических классификаций, состоящий всего из двух уровней. На самом деле это большое заблуждение, поскольку в верно построенной иерархической классификации два элемента относящиеся к разным надмножествам элементов не могут быть похожи до степени смешения, или говоря более строго, близость элементов различных подмножеств иерархической системы всегда меньше близости содержащих их надмножеств. Практически это выражается в том, что два объекта, относящиеся к разным образцам надклассов не могут быть более близки, чем сами эти надклассы. В OSM такое встречается сплошь и рядом: мой любимый пример natural=wood и landuse=forest. Близкие и часто взаимозаменяемые значения относятся к разным тегам. Такое в иерархической системе невозможно.

Впрочем, в этом нет ничего плохого. Как показывает эмпирический опыт, иерархические классификации подходят для искусственных, либо абстрактных геоданных. Объекты же «чисто конкретные», которые и содержит в себе база OSM в иерархическую систему не укладываются ибо для таких объектов характерен избыточный диатропизм.

Что это значит в переводе на язык бытового жанра? Это значит, что в нотации «ключ»=»значение», знак равенства абсолютно избыточен и выполняет карго-функцию. Это не более чем формализм и ничем необоснованное усложнение нотации. А значит и вся схема тегирования данных проекта OpenStreetMap сводится к присвоению геоданным пояснительного текста, содержащего в себе знак равенства. С таким же успехом можно было подписывать данные в виде «natural_wood», «naturalwood» или просто «wood» (забыл сказать, каждый тег содержит только уникальные значения, а это еще один довод против иерархичности схемы тегирования OSM). Говоря еще проще: никакой схемы тегирования в OSM нет, есть лишь набор странно оформленных подписей для каждого набора геоданных. Если вы сможете переступить через себя настолько, что признаете этот вывод, дальнейшее пояснение будет для вас совсем легким.

Повторюсь: данные OSM не имеют схемы тегирования, это лишь набор геоданных со странно оформленными подписями. но не подумайте, что это недостаток, как раз наоборот, это наиболее сильное преимущество проекта. Проблема в том, что преимущество это используется не до конца. Если-бы каждому объекту был присвоен только один тег, то можно было бы в полной мере говорить о примитивном булевом тегировании, которое безусловно давно устарело. Но тегов можно присвоить огромное количество. Например, не просто указать, что это здание и оно является магазином, но и дополнить информацию о нем часами работы, инженерными параметрами здания и еще чем в голову взбредет. Значит ли это, что объекту можно присвоить любое сочетание тегов (разумеется соответствующее действительности)? Нет. Каждый из тегов, присваиваемых объекту должен однозначно и независимо характеризовать какое-либо из свойств объекта. Есть у улицы свойство в виде ее названия — пожалуйста, тег «name». Есть у той же улицы свойство в виде покрытия дороги — пожалуйста, тег «surface». Для каждого свойства свой тег.

Но вот она, квинтэссенция моей сегодняшней речи. Одно и то-же свойство объекта можно (и нужно) выражать не посредством одного тега, а с помощью любого количества необходимых тегов. Зачем выбирать каким тегом обозначить лес с густым подлеском: natural=wood или natural=scrub, если можно использовать оба этих тега одновременно? А для большей ясности можно присвоить каждому тегу характеристическое значение истинности, от нуля до единицы. Ноль означает, что это свойство отсутствует, единица означает наличие этого свойства (не будем здесь поднимать дискуссию о критерии определений значений характеристических функций нечетких тегов и области значений таких функций). Конечно, придется изменить нотацию, но выглядеть это будет примерно так:
Лес с редким подлеском: wood(0.9),scrub(0.2);
Кустарниковые заросли с редким пологом леса: wood(0.4),scrub(1.0);

Так можно смешивать между собой абсолютно любые теги, что даст осмерам необычайно гибкий инструмент для описания реальной обстановки на местности. Вот несколько реальных примеров:
Юго-Запад Ленинградской области, дорога к базе охотников и рыбаков «Кривая Лука». Пять месяцев назад осмер под ником Sergey Astakhov отрисовал эту дорогу, обозначив ее как highway=track. На большем протяжении так оно и есть, но в паре мест, как бы вам это сказать… в паре мест то, что сейчас иначе кроме как highway=track не назовешь, в системе нечеткого тегирования выглядело бы как track(0.5),water(0.5). Или может вам больше по душе обозначение surface=water?

Другой пример из Кингиссепского района. Нарисованные по космосу тем же осмером дороги являются не чем иным как минерализованными противопожарными полосами и в системе нечеткого тегирования выглядели бы как road(0.2),ditch(1,0),forest(1.0) в том смысле, что это слабо похожая (0.2) на дорогу траншея используемая в лесном хозяйстве:

 

Другой похожий пример из Любанского района. На карте он не обозначен и честно говоря, не уверен, что есть отдельные теги для лесных волоков. Это один из главных недостатков привычной булевой классификации объектов по сравнению с нечетким тегированием. Пока старообрядцы будут выдвигать пропозалы с миллионами новых тегов, новое поколение картографов, владеющих знанием о нечетком тегировании легко опишет любой ранее невиданный объект. Например так: road(0.3),log(1,0),forest(1.0) — подобие дороги (0.3), устланное бревнами для целей лесного хозяйства.DSCN9054

Тут, пожалуй, наступило самое подходящее время, что-бы рассказать о потрясающей конструкции со вложенными нечеткими тегами, которая позволяет описывать реальность еще гибче, проще и правдоподобнее, но увы. Время уже позднее, а мне еще в деревню за трактором идти. Надо же как-то выбираться из этого track(0.3),water(0.7).

Математическая формализация единиц растительного покрова

Математическая формализация единиц растительного покрова

В основе «классических» методов классификации растительного покрова (Александрова, 1969) положены принципы булевой логики, которая опирается на следствие аддитивного свойства множеств (образование непересекающихся подмножеств при делении множества).

Для сложно устроенных (Растригин, 1981) природных систем, характерна не аддитивность, а эмергентность признаков.  Пренебрежение этим фактом ведёт к тому, что растительность внутри синтаксонов недостаточно охарактеризована, либо число синтаксонов неоправданно велико.

Используемые классификации не годятся для количественного представления выраженности тех или иных синтаксонов, что является тормозом для изучения структуры и динамики растительности. Требуется метод разделения растительного покрова на математически формализованные единицы.

Метод классификации растительности, который я предлагаю построен на обобщённом математическом аппарате теории множеств. Характеристика синтаксонов базируется на теории нечётких множеств (Заде, 1976).

Растительное сообщество представляет собой конечную группу, в связи с чем, признается дискретность пространственных границ. В тоже время, растительное сообщество не является примером непрерывного множества, поэтому описать его границу непрерывной, всюду дифференцируемой кривой невозможно. Таким образом, пространственные границы дискретны, но средствами эвклидовой геометрии выразить их невозможно (псевдоконтинуум).

Пространственные границы формализованы как мажорирующий контур растений. Если представить, что для каждой клетки растения характерны три координаты положения и координата времени, то мажорирующий контур будет проходить через клетки с максимальным значением координат. В самом простом случае это будет контур с параметрами равными максимальной высоте, длине и ширине растения, изменяющийся со временем, но сохраняющийся до момента гибели последней особи. В общем же случае, мажорирующий контур представляет собой объект с фрактальными границам.

Биологической основой новой классификации является трансформированный эколого-доминантный метод разделения растительного покрова (Александрова, 1969). Наличие эдификаторных свойств разной силы предполагается у всех особей сообщества. Основанием для выделения единиц растительности является степень обилия видов или групп видов. Она выражается через объем, занимаемый видами в пространстве (заполненность мажорирующего контура).

Основной единицей растительного покрова является специалитет – группа растений одного вида, целиком занимающая в пространстве объём своего мажорирующего контура.

Каждый специалитет обладает свойством истинности, выражающим степень его принадлежности к тому или иному синтаксону. Истинность характеризует степень заполненности мажорирующего контура органами растений. Примером абсолютно истинного  специалитета (истинность равна 1) можно считать накипной лишайник Rhizocarpon geographicum (L.) DC.:

IMG_1332

 

Большинство специалитетов имеет значительно меньшую истинность.  Так расчётная истинность еловых специалитетов на Северо-Западе России составляет в среднем 0,001-0,003.

Специалитеты объединяются в группы. Группы — это комплекс специалитетов в границах мажорирующего контура доминантного специалитета. Во многом этот класс напоминает эколого-ценотическую группу или тип леса в лесной типологии (Федорчук и др., 2005). В естественных лесах Северо-Запада России встречаются лишайниковая, кустарничковая, мелкотравная, неморальная, сфагновая, багульниковая, долгомошная, болотнотравяная, таволжная и приручейная группы (Голубев, 2012). Луга представлены насыпной, влажнозлаковой, злаковой и травяной группами (на основе данных: Нешатаев, Егоров, 2006). Поскольку мажорирующие контуры специалитетов (в том числе доминирующих) пересекаются, зачастую наблюдается пересечение групп.

Группы формируют формы. Формы — комплекс групп, занимающих в пространстве объем, ограниченный мажорирующим контуром групп с единой жизненной формой доминантов. Выделены древесные, кустарниковые, кустарничковые, травяные, моховые, лишайниковые, водорослевые, лиановые, подушковые и гетеротрофные формы.

Если особь вида s одновидового сообщества S={s1, s2, s3,…, sn} представить как множество клеток с параметрами: длина, ширина, высота, время s={(x1, y1, z1, t1) , (x2, y2, z2, t2),…, (xn, yn, zn, tn)}, то понятие специалитета можно формализовать как множество Sp={s1, s2, s3,…, sn}, такое, что:

Дальше в исходном тексте шли формулы, а так-же формализация понятий группы и формы. Но за давностью лет информация проебалась. Если не ошибаюсь, полный текст опубликован в сборнике материалов конференции «Математическое моделирование в экологии», что проходила в Пущино между 2010 и 2014 годами. Там же есть и недостающие формулы. Я их здесь публиковать не буду, поскольку, во-первых, у меня их почему-то нет под рукой, во-вторых, я сейчас еду в уазике и по тряской дороге пью пиво, а в-третьих, хуйню эту все-равно никто читать не будет, так что и так сойдет.

Допустимые пределы использования теории нечетких множеств в экологическом моделировании

Описаны допустимые пределы использования теории нечетких множеств, обусловленные синергетическим эффектом в природных системах

1. Введение

Успешное применение теории нечетких множеств (Заде, 1976) в технике привело к возрастанию популярности нечетких вычислений в других сферах, в том числе в экологическом моделировании. Моделирование растительного покрова с помощью нечетких множеств позволяет объединить континуальный и дискретный подход в рамках одной модели (Голубев, 2012). Это создает ошибочное ощущение универсальности данного подхода. Допустимые пределы использования теории нечетких множеств, как и факторы, обуславливающие эти пределы до сих пор не определены.

2. Применение теории нечетких множеств

Теория нечётких множеств представляет собой развитие классической теории множеств. В отличии от последней, в теории нечетких множеств один элемент может принадлежать одновременно нескольким множествам. При этом степень принадлежности его к тому или иному множеству выражается при помощи функции принадлежности (характеристической функции). Значение характеристической функции обычно является дробным числом в диапазоне от 0 (элемент абсолютно не принадлежит множеству) до 1 (абсолютная принадлежность элемента множеству) (Заде, 1976).

В качестве примера применения теории нечетких множеств в экологических моделях можно привести нечеткую типологию лесов Северо-Запада России (Голубев, 2012). Данная типология основана на новейших лесотипологических исследованиях (Федорчук и др., 2005) и принципах классификации нечетких множеств (Заде, 1976). Серии типов леса в типологии выделяются на основе обилия групп индикаторных видов. Для каждой серии характерна индикаторная группа с уникальным набором видов. Растительное сообщество может одновременно относиться к одной (истинной) серии или нескольким (переходным) сериям. Истинная серия характеризуется присутствием только одной индикаторной группы с суммарным проективным покрытием травяно-кустарничкового и мохово-лишайникового яруса 100 %. Показатель истинности серии рассчитывается как мера количественного сходства (например, коэффициент Чекановского (Словарь…, 1989)) между рассматриваемым растительным сообществом и истинной серией типа леса.

Одним из ключевых преимуществ такой типологии является возможность обоснованной интерполяции данных. Зная значение индикационных параметров (например, агрохимических почвенных показателей) в истинных типах леса (или типах с известной истинностью), мы можем рассчитать эти параметры для произвольного участка леса на основе его нечетких лесотипологических показателей (близости к тому или иному типу леса). Результаты расчетов будут содержать погрешность, иногда значительно искажающую результаты. Основной причиной данной погрешности является неприменимость теории нечетких множеств к описании природных систем, которая проявляется в возникновении синергетического эффекта при объединении различных множеств природных объектов.

3. Синергетический эффект при объединении нечетких множеств

Синергетический эффект — эффект взаимодействия нескольких систем, характеризующийся тем, что их совместное действие существенно превосходит простую сумму действий каждого отдельного компонента (Жилин, 2004). Частным случаем синергетического эффекта является эмергентность — свойство факторов образовывать при совместном влиянии новый фактор, отличный от исходных и от их суммарной мощности.

В нечетком типологическом ряду «лишайниковая-кустарничковая-мелкотравная» (серии типов леса) (Голубев, 2012), кустарничковая серия не является простой механической смесью лишайниковой и мелкотравной серий. В связи с этим индикационные показатели, рассчитанные на основе близости кустарничкового типа леса к лишайниковому и мелкотравному будут содержать определенную ошибку. Величина этой ошибки может быть использована как показатель мощности синергетического эффекта: чем больше расхождение реальных данных с расчетными, тем менее сообщество похоже на механическую смесь других растительных сообществ (и тем менее применимы к нему разработанные для других типов леса хозяйственные мероприятия).

4. Расширение пределов использования теории нечетких множеств

Из приведенного примера следует, что теорию нечетких множеств допустимо применять лишь для систем с незначительным синергетическим эффектом. С более примитивной лесохозяйственной точки зрения это устранимо за счет введения поправочных коэффициентов, рассчитанных указанным методом для каждого из типов леса. В то же время, невозможно построение на основе теории нечетких множеств аппарата, пригодного для анализа состояний детерминированного хаоса в природных системах.

Математическим аппаратом, расширяющим теорию множеств может служить аппарат субъективных вычислений, в котором изменение характеристической функции принадлежности элемента к одному из двух подмножеств не влияет на характеристическую функцию принадлежности элемента ко второму подмножеству.

5. Выводы

Применение теории нечетких множеств допустимо в системах с пренебрежимо малым синергетическим эффектом объединения систем. Ограниченно эту теорию допустимо использовать в практической деятельности с использованием поправочных коэффициентов на синергетический эффект (эти же коэффициенты возможно использовать в качестве меры тесноты взаимосвязи элементов в растительном сообществе). Для характеристики состояний детерминированного хаоса в экологических моделях применение теории нечетких множеств недопустимо.