КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ ТИПОЛОГИЧЕСКОЙ КЛАССИФИКАЦИИ В
ПРИРОДОПОЛЬЗОВАНИИ[1]
Ускова О.Ф., Львова И.А., Бочаров В.Л., Бугреева М.Н., Ермоленко Н.Н.
(Воронеж)
Известно достаточно много методов
прикладной статистики (корреляционный анализ многомерной генеральной
совокупности, регрессионный анализ, факторный анализ, метод главных компонент и
др. [1]), которые могут оказаться полезными в изучении структуры взаимосвязей,
существующих между свойствами различных природных объектов.
В природопользовании одной из
основных задач и одновременно методом исследования является классификация.
Формально задача
классификации ставится следующим образом [2-3]. Задан массив X, состоящий из N
точек, каждая из них характеризуется n-мерным вектором xi=(xi1,…,xin)
в евклидовом пространстве Rn. Требуется разбить его на «классы»,
образующие «существенные сгущения». Имеется предположение, что таких классов
получится по меньшей мере два.
Пусть на исходном массиве X определена
мера близости m(x,y). Одним из наиболее
важных условий любой объектной классификации мы считаем выполнение следующих
(для случая двух классов A и B) неравенств
_Inf μ(x,u)<Inf
μ(y,u),
xОA, x№u yОB
Inf μ(x,v)> Inf
μ(y,v) (uОA,vОB)
xОA yОB,y№v
Аналогичные условия можно выписать и для большего числа классов. Это
замечание с одной стороны подчеркивает тот факт, что каждое скопление
(сгущение) точек X в пространстве признаков должно целиком принадлежать одному
классу, а с другой стороны – что при классификации нужно не только отыскивать
«сгущения», но и следить за тем, чтобы границы классов проходили по
«разрежениям». Отмеченные обстоятельства были отправными при разработке
излагаемого ниже алгоритма.
Пусть для каждой точки xiОC зафиксировано некоторое множество U(xi)ОRn , содержащее эту точку. Множество U(xi) будем
называть окрестностью точки xi, а количество P(xi) точек
из C, содержащихся в U(xi) – плотностью массива C в точке xi.
Пусть q – положительная
константа. Множество AМX назовем q-связным (или q- однородным), если для любых x,yОA существует конечная последовательность x=x1,x2…xk=y
точек из A такая, что при любом i=1,2,...k-1 точки xi и xi+1
являются q-близкими, т. е. µ(x,y)=1,2,...k-1 точки x_ x,МC назовем число max p(x)-min p(x), (xОA) а абсолютной высотой A – число max p(x) (xОA).
Пусть h – положительное число. Множество AМC назовем h-почти связным, если все его q-связные компоненты (за исключением
может быть одного) имеют высоту, меньшую h.
Множество AМC назовем существенным сгущением C, если
а) A является q-связным,
б) абсолютная высота A не
меньше h,
в) при любом tі0 множество At={xsymbol 206 \f
"Symbol" \s 12Îsymbol 65 \f "Symbol" \s 12Asymbol 58 \f
"Symbol" \s 12:p(x)symbol 179 \f "Symbol" \s 12³symbol 116 \f
"Symbol" \s 12tsymbol 125 \f "Symbol" \s 12 является h-почти связным,
г) при t>max p(x)-h,(xОA) справедливо неравенство
m(At,(C\A)t)>q
Здесь через µ(A,B)
обозначается мера близости между множествами A и B в естественном смысле:
µ(A,B)=inf µ(x,y), где xОA, yОB.
Из определения нетрудно заметить,
что пересечение различных существенных сгущений имеет абсолютную высоту, не
большую h.
Пусть различные множества U(xi)
не пересекаются. Если положить p(x)=p(xi) для любого xОU(xi), то функция p(x) является некоторым приближением
плотности распределения массива X. Как легко видеть, каждое существенное
сгущение X содержит одну из точек максимума функции p(x).
Понимая теперь под классом
существенное сгущение, мы сводим задачу классификации к выделению в X
совокупности попарно непересекающихся существенных сгущений.
Величину q, с помощью которой
мы определяем понятия близости и связности, удобно выбирать, когда заранее
можно оценить порог q такой, что при µ(x,y)Јq0 элементы x,y можно считать схожими из соображений
специфики задачи. В противном случае q необходимо варьировать, добиваясь
наиболее четкого распределения X на непересекающиеся существенные сгущения.
Следует отметить, что ниже мы заранее фиксируем число q, полагая его равным
единице. Такой жесткий выбор будет в дальнейшем компенсироваться подбором
подходящих масштабных единиц.
Известно, что для эффективной математической обработки большого массива
эмпирических данных, как правило, полезно этот массив несколько «огрубить» (или
усреднить) с тем , чтобы по возможности уменьшить влияние "информационного
шума" .
Описываемое огрубление будет
определяться двумя целочисленными параметрами: r и h0. Найдем
величины:
hk=minixki,Hk=maxixki
(k=1,2,...n).
Тогда наименьший
параллелепипед с осями, параллельными осям координат, содержащий множество X,
описывается неравенствами hk£x£Hk (k=1,2,...,n).
Далее, разобьем каждую
сторону этого параллелепипеда на r равных частей и проведем через точки деления
гиперплоскости так, чтобы весь параллелепипед разбился на rn
параллелепипедов с осями, параллельными осям координат. Теперь каждую точку xiОX заменим ближайшей к началу
координат вершиной zi того «маленького»
параллелепипеда, в котором эта точка лежит, причем координатами точки zi
будем считать целые числа от 0 до r-1, порожденные заданным разбиением
параллелепипеда.
Если r достаточно велико, то
переход от массива X к массиву Z (со старыми координатами) почти не изменяет
структуру множества X.
В полученном массиве Z, состоящем
из N точек с целочисленными координатами
многие точки совпадают. Поэтому мы рассмотрим еще
массив W, который получается из массива Z отождествлением одинаковых точек. Для
любого wОW обозначим через p(w) число всех точек zОZ, совпадающих с w. Нетрудно видеть, что величина p(w) совпадает с плотностью исходного массива X в любой точке xi, попавшей при огрублении в w, если окрестностью xi считать элементарный
параллелепипед (без некоторых граней), содержащий xi. Таким образом,
функцию p можно считать «приближением» плотности исходного массива.
Переход к целочисленным
координатам означает выбор новых единиц на осях координат. Можно было бы для
каждой оси ввести свой параметр rk с тем, чтобы единицы на всех осях
оказались одинаковыми. Выбирая на некоторых осях маленькие единичные отрезки,
мы тем самым придаем этим координатам большое значение при классификации.
Отметим еще, что, очевидно,
степень огрубления задачи обратно пропорциональна параметру r.
Второй этап огрубления связан
с параметром h0. Мы исключим из массива W все точки w, для которых p(w)<h0. Новый массив обозначим через
V. Таким образом, «редкие» точки массива не будут участвовать в классификации.
Мы отнесем их к «нейтральному» классу, который обозначим через X0. Конечно,
при выборе параметра h0 следует позаботиться о том, чтобы в
нейтральный класс попало не слишком много точек.
Цель наших исследований
состояла в разработке программы, реализующей алгоритм многомерной классификации
[1-2] и проверке его работоспособности на некоторых реальных объектах
природопользования.
Программа классификации
апробировалась при многомерно анализе эрозионного рельефа Русской равнины.
Исходные данные: угол наклона, площадь, ширина, относительная высота скатов
были получены картометрическим путем для 1063 объектов. В результате
классификации выявились участки типичные и аномальные по характеру расчленения.
Кроме того, проводилось сравнение результатов автоматической классификации,
полученных при значениях «свободных» параметров h0, h и r, которые
по условиям алгоритма определяют осреднение исходного массива. Результаты
классификации, представленные картографически, сравнивались с разнообразными
природными картами, где дифференциация исследуемой территории выявлена специалистами
на основе неформальных соображений. За критерий качества классификационных
построений, получаемых при последовательных значениях свободных параметров,
принималась возможность их содержательной интерпретации. Основанием для
интерпретации служило совпадение получаемых на основе классификаций разбиений
исследуемой территории с разбиениями в этих же границах природных компонентов,
определяющих морфологию и развитие классифицируемого объекта.
Эксперименты показали, что
параметр h0 не влияет на результат классификации. Можно даже не
выделять предварительного класса X0, перенеся естественным образом
уже установленную классификацию на весь исходный массив (напомним, что массив V
представляет часть исходного массива X). Однако при выделении класса X0 создается
некоторое удобство для выявления наиболее типичных (фоновых) и аномальных
характеристик, выяснение природы которых представляет для геоморфологов
определенный интерес.
Результат классификации
зависит от выбора окрестностей U(xi) и числа h. С уменьшением окрестностей
и числа h классификация становится более подробной, с увеличением – более
грубой (и более простой). Огрубление выражается в том, что уменьшается число
классов, соответственно их количественные характеристики обобщаются (т.е.
укрупняются интервалы между границами классов). Таким образом, изменяется не
только детальность классификационного построения, но и границы между
таксономическими единицами. Принцип действия алгоритма позволяет, по существу,
производить генерализацию, регулировать пространственное упорядочение объектов
в зависимости от требований масштаба.
Совершенно очевидно, что
уровень обобщения при детальных исследованиях любых объектов, имеющих
непрерывное пространственное изменение, будет непригодным при их региональном
изучении в масштабе, скажем, континентов – потребуется установление
генерализации более высшего уровня. Это требование можно реализовать (при
необходимости решать подобную задачу) соответствующим подбором значений r и h.
В итоге можно определить наиболее предпочтительное разбиение совокупности.
Для реализации алгоритма
классификации [1-2] использовалась интегрированная среда DELPHI 3. Исходные
данные, для которых проводится классификация, считываются из таблицы Базы
Данных. Выбор СУБД не имеет принципиального значения для описания программной
реализации алгоритма и производится из соображений удобства в зависимости от
имеющегося аппаратного и программного обеспечения. При разработке данного
программного продута не рассматривалась проблема связи приложения с различными
серверами баз данных, так как она представляет собой отдельную задачу и при
рассмотрении реализации алгоритма классификации мы не будем ее касаться.
Поэтому для того, чтобы настроить программу на уже имеющиеся в таблицах данные,
необходимо внести некоторые незначительные изменения в исходный код программы.
Программа имеет модульную
структуру, включает в себя несколько смысловых блоков – модулей, реализующих
основные функциональные части алгоритма, а также отвечающих за рабочий
интерфейс пользователя и визуализацию результатов классификации. Основной
модуль представляет собой реализацию шагов алгоритма и содержит ряд процедур
обработки данных, выполняющих заполнение массива исходных данных, этап
огрубления задачи, классификацию точек «огрубленного» массива и возврат к
исходным данным. Один из модулей отвечает за вывод на экран результатов
классификации, что позволяет просмотреть рабочее состояние исходного и всех
промежуточных массивов.
Разработанная программа использовалась для
кластер-анализа геохимии йодо-бромных минеральных вод (табл. 1)
Сурско-Хоперского артезианского бассейна Воронежской области (районы г. Борисоглебска,
с. Октябрьского, с. Алферовка, озера Ильмень –
борисоглебско-поворинская субпровинция; районы г. Новохоперска, с. Елань-Колено,
с. Бурляевка – Елань-Новохоперская субпровинция). Химический состав
йодо-бромных минеральных вод в пределах Среднехоперской гидроминеральной
провинции приведен в таблице 2.
Таблица 1. Химический
состав йодо-бромных минеральных вод в пределах Среднехоперской гидроминеральной
провинции.
№ на карте |
Местоположение точки
наблюдения |
1, 2, 3, 4, 5, 6 |
Г. Борисоглебск
(у слияния реки Ворона и Хопер) |
7, 8, 9, 10, 11, 12, 13,
14, 15 |
Поворинский
р-н на с.з. берегу оз. Ильмень, в 10 км от ж/ст Байчурово |
16 |
С. Петровское
Борисоглебского р-на, в 18 км к ю.в. от г. Борисоглебска |
17 |
П. Елка
Новохоперского р-на, в 3 км к югу от г. Елань-Коленовский |
20, 31 |
С. Вязовка
Новохоперского р-на |
21 |
Хутор
Ильманский Новохоперского р-на |
22 |
С. Бурляевка
Новохоперского р-на |
23 |
С. Октябрьское
Поворинского р-на |
24 |
Кордон
Булдак Новохоперского р-на |
25 |
Кордон
Горелоольховский Новохоперского р-на |
26 |
Хутор
Зубриловка Волгоградской области |
27 |
Скв.
Петровская Волгоградской обл. |
28, 30 |
В
11 км к с-з от г. Новохоперска(с. Алферовка) |
29 |
П. Вихлянцевский |
Таблица 2. Химический состав
йодо-бромных минеральных вод в пределах Среднехоперской гидроминеральной
провинции.
№ т.н.
на карте |
Ca2+ |
Mg2+ |
Na+ |
HCO3- |
SO42- |
Cl- |
Br |
J |
1 |
4865,11 |
1117,0 |
11927,0 |
73,0 |
377,99 |
29926,89 |
148,1 |
2,4 |
2 |
8118,38 |
2648,99 |
21503,57 |
- |
1495,9 |
54132,92 |
200,0 |
5,4 |
3 |
8651,07 |
2579,0 |
21935,33 |
18,0 |
158,0 |
56510,0 |
265,0 |
3,8 |
4 |
8780,2 |
2258,24 |
24419,3 |
- |
- |
59742,1 |
250,0 |
2,7 |
5 |
8883,33 |
2595,97 |
17482,99 |
12,0 |
18,0 |
50214,93 |
276,6 |
4,7 |
6 |
657,32 |
1525,31 |
32466,11 |
37,0 |
164,0 |
65972,45 |
480,3 |
6,0 |
7 |
2977,0 |
1042,0 |
7817,24 |
128,0 |
256,0 |
20092,0 |
100,0 |
1,0 |
8 |
10205,0 |
2833,38 |
21799,17 |
4,0 |
8,65 |
59902,7 |
300,0 |
3,0 |
9 |
10148,06 |
2864,24 |
21809,75 |
7,32 |
13,45 |
59909,79 |
200,0 |
3,0 |
10 |
10222,0 |
2972,0 |
21090,54 |
5,0 |
1,0 |
59257,51 |
333,0 |
3,8 |
11 |
10122,0 |
2819,0 |
21680,95 |
- |
6,0 |
59542,88 |
306,4 |
4,0 |
12 |
10139,24 |
2869,0 |
22075,86 |
2,0 |
1,0 |
60330,58 |
333,0 |
4,1 |
13 |
11777,11 |
31,94,11 |
26677,7 |
1,0 |
1616,0 |
70077,56 |
332,6 |
4,16 |
14 |
12940,23 |
3524,0 |
23839,0 |
6,0 |
1,0 |
69912,72 |
364,3 |
5,1 |
15 |
8383,22 |
2684,39 |
35271,23 |
- |
- |
78001,34 |
339,6 |
5,6 |
16 |
1894,67 |
446,11 |
9053,49 |
- |
- |
18605,58 |
70,0 |
1,0 |
17 |
1124,0 |
406,9 |
4953,0 |
73,2 |
1771,1 |
9488,2 |
52,4 |
2,5 |
31 |
672,9 |
280,7 |
3212,3 |
119,1 |
1677,3 |
5657,8 |
0,03 |
- |
20 |
694,1 |
292,9 |
3250,0 |
115,9 |
1711,4 |
5767,8 |
0,03 |
3,09 |
21 |
4930,8 |
1246,6 |
8686,4 |
27,4 |
10,2 |
25607,6 |
35,0 |
3,0 |
22 |
126,7 |
500,0 |
3217,5 |
73,1 |
1246,4 |
7701,6 |
1,5 |
1,0 |
23 |
6574,0 |
1869,9 |
12476,9 |
30,5 |
104,9 |
36231,7 |
5,0 |
3,5 |
24 |
8000,0 |
243,0 |
45000,0 |
73,2 |
110,0 |
85200,0 |
250,2 |
5,4 |
25 |
1600,0 |
60,7 |
4500,5 |
122,0 |
1600,5 |
23963,0 |
75,2 |
2,1 |
26 |
3206,4 |
1375,9 |
883,2 |
153,5 |
1282,2 |
22087,0 |
130,5 |
- |
27 |
4143,0 |
948,0 |
5721,0 |
20,0 |
21,0 |
18936,0 |
70,0 |
- |
28 |
2510,4 |
1633,6 |
11799,4 |
24,4 |
32,34 |
31950,0 |
155,6 |
1,52 |
30 |
6813,0 |
2157,8 |
15361,5 |
42,7 |
222,6 |
41890,0 |
224,8 |
1,65 |
29 |
2510,6 |
1551,3 |
1067,2 |
76,2 |
235,9 |
30246,0 |
156,0 |
1,3 |
По результатам многомерной
классификации по 30 объектам, представленным химическими анализами минеральных вод,
выделены четыре геохимических типа вод, в целом соответствующие предложенной
ранее классификации Н.А. Плотникова [4] (таблица 3).
|
|
Br мг/дм3 |
J мг/дм3 |
Местонахождение |
Использование |
Минера-лизация г/дм3 |
1 |
Йодо-бромные
воды с промышленным содержанием брома и повышенными концентрациями йода |
250
– 480 |
3.0
– 6.0 |
Борисоглебско-Поворинская
субпровинция, скважины в районе г. Борисоглебска и озера Ильмень. |
Промышленное
извлечение брома, бальнеология. |
>100
|
2 |
Йодо-бромные
рассольные воды |
35
– 250 |
1.0
– 3.0 |
Борисоглебско-Поворинская
субпровинция, хутора Зубриловский, Вихлянцевский Волгоградской области. |
Бальнеология |
<100 |
3 |
Бромные
минеральные воды |
50
– 130 |
– |
В
районе г. Новохоперска (кордон Горемольховский) |
Наружное
применение при нарушении опорно-двигательного аппарата. |
35-40 |
4 |
Йодные
минеральные воды |
5
– 15 |
1.0
– 3.5 |
Елань-Новохоперская
субпровинция (с. Бурляевка, с. Вязовка), Борисоглебско-Поворинская
субпровинция (с. Октябрьское). |
Прием
внутрь при определенной степени разбавления. |
15-40 |
Литература.
1.
Айвадян
С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М., 1998.
2.
Дядченко
Ю.А., Ермоленко Н.Н., Курбатов В.Г., Покорный Ю.В., Садовский Б.Н.,
Ускова О.Ф. Об одном алгоритме классификации. // Труды
научно-исследовательского института математики. Сб. работ по прикладному
анализу). – Воронеж, 1973. – Вып. 9. – С. 9-22.
3.
Ускова О.Ф.,
Ермоленко Н.Н. Автоматическая классификация объектов окружающей среды с
комплексом свойств // Экология. Экологическое образование. Нелинейное мышление.
– М., 1998. – С. 244-249.
4.
Гидрогеология
СССР. Сводный том. – М.: "Недра", 1997. – Вып.3. – С. 248-254.
[1] Работа выполнена при частичной поддержке Международной соросовской программы образования в области точных наук института «Открытое общество. фонд содействия» (ISSE). Грант № d 99-1181, грант № p 99-90.