Кластерный анализ

 













Кластерный анализ


Пример 1.

Имеются следующие данные о 12 объектах, наблюдаемые по двум признакам и .


Объект11,753,2522,655,5031,804,4742,504,7553,005,0063,544,7172,824,2282,534,0792,254,04102,063,95112,753,75123,243,93

Требуется найти классы однородных объектов при радиусе круга, равном 1,1, используя центрографический метод поиска соответствующих кластеров.

Решение

. Обоснуем, выбор радиуса круга. Радиус круга, величина которого обозначается как Т, определяется по признаку минимального и максимального значений расстояний между наблюдаемыми объектами. Если принять минимальный радиус, равный расстоянию между двумя ближайшими объектами, выделяется максимальное число кластеров, тождественное числу наблюдаемых объектов или близкое к нему. Если принять максимальный радиус, равный расстоянию между крайними объектами, вся совокупность наблюдаемых объектов превращается в один-единственный кластер, собственно кластерный анализ которого теряет смысл. Обычно процедуру выбора радиуса круга рассматривают как итерационную.

Запишем совокупность расстояний между объектами, каждого с с остальными.


Объект123456789101112123,1531,271,8842,250,90,98530,851,730,7563,251,681,981,080,8372,041,451,270,850,961,2181,61,551,130,711,41,160,4491,291,860,880,961,711,320,750,31101,012,140,781,241,991,571,030,590,28111,51,851,671,251,50,990,540,540,790,89122,172,161,981,561,310,480,710,851,11,20,67


Теперь скопируем получившиеся расстояния между объектами, используя специальную вставку , вставим их как значения.


Затем составим получившиеся значения в один столбец или строку и упорядочим их, например, по возрастанию. Затем на закладке построим гистограмму .


центрографический кластер координата круг

Проанализируем полученную гистограмму. Анализ гистограммы показывает, минимальное значения расстояния между объектами оставляет - 0,28, максимальное - 3,25. Причем три последних значения расстояния сильно отличаются от всех остальных, которые плавно увеличиваются от 0,28 до 2,25. Выберем радиус круга равным 1,1 как половину 2.25 (максимального значения расстояния между объектами, при котором наблюдается плавное увеличение).

Мы считали расстояние как сумму модулей разностей между наблюдаемыми признаками.

Поскольку исследуются только два наблюдаемых признака, то можно нанести наблюдаемые признаки объектов на плоскость. Выделяем только значения наблюдаемых признаков, переходим на закладку и выбираем из множества точечных графиков график, не содержащий линии .

Получили следующий рисунок



Возьмем объект 10 с координатами (2,06;3,95) в качестве центра тяжести круга радиуса 1,1 для выбора первого кластера.

Измерим расстояния от центра тяжести до других точек, определим совокупность точек, попавших в круг и среднее расстояние между ними.

Сначала зададим формулы до вычисления расстояния между центром тяжести (сейчас это объект 10 ) и всеми остальными объектами.



Получим следующие результаты.



Чтобы определить совокупность точек, попавших в круг радиуса 1,1, требуется упорядочить полученные значения расстояния. Но упорядочивать можно только величины или значения формул, поэтому скопируем расстояния , и используя специальную вставку, вставим их как значения.

Выделим все объекты и используя инструмент , упорядочим объекты по величине расстояния от центра тяжести по соответствующего объекта. Получили следующие результаты.



Мы выделили объекты, попавшие в круг радиуса 1,1, т.е. объекты, расстояние от которых до центра тяжести меньше или равно 1,1. Это семь объектов. Вычислим новые координаты центра тяжести, найдя среднее значение по каждому наблюдаемому признаку по семи объектам, попавшим в круг.

И теперь посчитаем значения расстояний объектов от нового центра тяжести



Уже на третьем шаге центр тяжести круга не смещается, координаты его остаются неизменными, и мы можем сделать вывод, что объекты 8, 9, 7, 4, 10, 11, 12 и 3 образуют первый кластер, самым типичным представителем, которого является объект 8, он обладает самыми близкими к центру тяжести наблюдаемыми признаками. Итак, мы выделили первый кластер и можем исключить объекты, вошедшие в первый кластер из рассмотрения.

Теперь мы рассмотрим оставшиеся 4 объекта



Нанесем на рисунок наблюдаемые характеристики этих объектов, и можем предположить, что объекты 5, 2 и 6 образуют второй кластер. Третий кластер будет состоять из единственного объекта - объекта 1.



Проверим эти предположения, взяв объект 5 за центр тяжести второго кластера.



И действительно, уже на втором шаге центр тяжести второго кластера перестает смещаться, и его координаты остаются неизменными.



Итак, на рисунке представлены объекты, разделенные на три кластера. Первый кластер содержит объекты 8, 9, 7, 4, 10, 11, 12 и 3. Второй кластер содержит объекты 2, 5 и 6. И третий кластер состоит из единственного объекта - объекта 1.


Кластерный анализ Пример 1. Имеются следующие данные о 12 объектах, наблюдаемые по двум признакам и .

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ