Kafe-sviaz.ru

Финансовый журнал
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Кластерный анализ в статистике

Кластерный анализ в статистике

Кластеризация методом K средних в STATISTICA

Этот пример будет иллюстрировать один из других методов кластеризации: метод k средних. Как описано в разделе Вводный обзор, целью алгоритма является оптимальное «разбиение» всего набора объектов на k кластеров. Эта процедура будет перемещать объекты из одного кластера в другой, чтобы минимизировать внутрикластерную дисперсию и максимизировать межкластерную. В Примере 1, вы нашли три кластера во множестве данных об автомобилях (Cars.sta). Теперь посмотрим, какого сорта решение получим с помощью метода k средних в предположении, что в данных имеется всего три кластера.

Спецификация анализа . Выберите Кластерный анализ в меню Анализ — Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В появившемся диалоге выберите Кластеризация методом К средних и нажмите кнопку OK для отображения диалогового окна Кластерный анализ: кластеризация методом К средних. В этом диалоге выберите вкладу Дополнительно.

Нажмите кнопку Переменные, в появившемся окне Выбор переменных выберите все переменные. Далее, нажмите кнопку OK, чтобы вернуться во вкладку Дополнительно диалогового окна Кластерный анализ: кластеризация методом К средних. Как и в Примере 1 вы можете кластеризовать объекты или переменные. В этом случае выберите Наблюдения (строки) в поле Кластер для того, чтобы кластеризовать автомобили. Чтобы получить результаты для трех кластеров, изменим Число кластеров на 3.

Начальные центры кластеров . Эти опции управляют способом вычисления начальных центров кластеров. Результаты метода k средних зависят в известной мере от начальной конфигурации (т.е. от средних или центров кластеров). В частности, это происходит, когда формируется много маленьких отчетливо различающихся кластеров (с несколькими объектами). Для дальнейшей информации об этих опциях обратитесь к вкладке Дополнительно диалогового окна Кластерный анализ: категоризация методом К средних.

В этом примере выберите, по умолчанию, метод Сортировать расстояния и выбрать набл. на постоянных интервалах и затем нажмите кнопку OK, чтобы начать анализ.

Результаты . После завершения анализа появляется диалоговое окно Результаты метода K средних.

Дисперсионный анализ . В разделе Вводный обзор — Метод k средних этот метод был назван «дисперсионным анализом наоборот». В дисперсионном анализе межгрупповая дисперсия сравнивается с внутригрупповой дисперсией для принятия решения, являются ли средние для отдельных переменных в разных совокупностях значимо различными.

Даже, несмотря на то, что тестирование в этом случае не вполне корректно (во многом вы рассчитываете на везение), вы можете, тем не менее, принимать во внимание результаты дисперсионного анализа, сравнивая для каждого измерения средние (т.е. измерения характеристик) между совокупностями (кластерами автомобилей). Нажмите на кнопку Дисперсионный анализ для отображения приведенной выше таблицы.

Исходя из амплитуды (и уровней значимости) F-статистики, переменные Управляемость — Handling, Тормоз — Braking и Цена — Price являются главными при решении вопроса о распределении объектов по кластерам.

Идентификация кластеров. Теперь посмотрим, как программа назначает автомобили в кластеры с использованием этого критерия. Для того чтобы понять, из каких членов состоит каждый кластер, нажмите на кнопку Элементы кластеров и расстояния во вкладке Дополнительно диалогового окна Результаты метода К средних для получения таблиц результатов (по одной для каждого кластера). Кластер 1 состоит из Акура — Acura, Бьюик — Buick, Крайслер — Chrysler, Додж — Dodge, Хонда — Honda, Мицубиси — Mitsubishi, Ниссан — Nissan, Олдс — Olds, Понтиак — Pontiac, Сааб — Saab, Тойота — Toyota, Фольксваген — VW и Вольво — Volvo.

Следующая таблица содержит члены кластера 2:

Второй кластер содержит Ауди — Audi, БМВ — BMW, Корвет — Corvette, Форд — Ford, Мазду — Mazda, Мерседес — Mercedes и Порше — Porsche. Последний кластер приведен в третьей таблице ниже. Этот кластер состоит из Игл — Eagle и Исузу — Isuzu.

Эти результаты не полностью аналогичны кластерам, найденным в предшествующем анализе. Однако различия между кластерами экономичный седан и роскошный седан по-прежнему кажутся устойчивыми. Автомобили Игл — Eagle и Исузу — Isuzu были, вероятно, помещены в собственную категорию, так как они не «подходят» куда-либо ещё, и поскольку любое другое перераспределение автомобилей не улучшает решение (т.е. увеличивает межгрупповые суммы квадратов).

Описательные статистики для каждого кластера . Другим способом определения природы кластеров является проверка средних значений для каждого кластера и для каждого измерения. Вы можете или отобразить описательные статистики отдельно (нажмите на кнопку Описат. статистики для каждого кластера), или отобразить средние для всех кластеров и расстояний (евклидовых и квадратов евклидовых, см. ниже) между кластерами в отдельную таблицу результатов (нажмите на кнопку Средние кластеров и евклидовы расстояния), или вывести диаграмму этих средних (нажмите на кнопку График средних). Обычно, этот график дает наилучшее представление результатов.

Взглянем, например, на линию для кластера экономичный седан (Кластер 1) и сравним её с кластером роскошный седан (Кластер 2) на графике ниже. Можно заметить, что и в самом деле, автомобили в последнем классе:

(1) Являются более дорогими,

(2) Имеют меньше время разгона (вероятно из-за большего веса),

(3) Имеют приблизительно тот самый тормозной путь,

(4) Являются одинаковыми с точки зрения управляемости, и

(5) Имеют меньший расход топлива.

Наиболее различающим признаком автомобилей из третьего кластера (Игл — Eagle и Исузу — Isuzu) в соответствии с этим графиком, является их более короткий тормозной путь и плохая управляемость.

Расстояния между кластерами. Другой полезный результат проверки — евклидовы расстояния между кластерами (нажмите на кнопку Средние кластеров и евклидовы расстояния). Эти расстояния (евклидовы и их квадраты) вычисляются по средним каждой переменной в кластере.

Читать еще:  Содержание анализа затрат на предприятии

Отметим, что кластеры 1 и 2 относительно близки друг к другу (евклидово расстояние = 0.97) по отношению к расстояниям от кластера 3 до кластеров 1 и 2.

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft

Пример использования кластерного анализа STATISTICA в автостраховании

Посмотреть видеоурок на Statistica

В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения.

Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.

Наблюдения и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и различные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).

Постановка задачи

Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:

марка автомобиля – первая переменная;

стоимость автомобиля – вторая переменная;

возраст водителя – третья переменная;

стаж водителя – четвертая переменная;

возраст автомобиля – пятая переменная;

Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.

Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.

Масштаб измерений

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

Таблица со стандартизованными переменными приведена ниже.

Шаг 1. Иерархическая классификация

На первом этапе выясним, формируют ли автомобили «естественные» кластеры, которые могут быть осмыслены.

Выберем Кластерный анализ в меню АнализМногомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В этом диалоге выберем Иерархическая классификация и нажмем OK.

Нажмем кнопку Переменные, выберем Все, в поле Объекты выберем Наблюдения (строки). В качестве правила объединения отметим Метод полной связи, в качестве меры близости – Евклидово расстояние. Нажмем ОК.

Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. «наиболее удаленными соседями»).

Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма.

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.

Как только вы начнете двигаться вниз, автомобили, которые «теснее соприкасаются друг с другом» объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

Шаг 2. Кластеризация методом К средних

Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.

В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних.

Нажмем кнопку Переменные и выберем Все, в поле Объекты выберем Наблюдения (строки), зададим 4 кластера разбиения.

Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.

Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.

Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.

В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Кластерный анализ в статистике

Кластеризация методом K средних в STATISTICA

Этот пример будет иллюстрировать один из других методов кластеризации: метод k средних. Как описано в разделе Вводный обзор, целью алгоритма является оптимальное «разбиение» всего набора объектов на k кластеров. Эта процедура будет перемещать объекты из одного кластера в другой, чтобы минимизировать внутрикластерную дисперсию и максимизировать межкластерную. В Примере 1, вы нашли три кластера во множестве данных об автомобилях (Cars.sta). Теперь посмотрим, какого сорта решение получим с помощью метода k средних в предположении, что в данных имеется всего три кластера.

Спецификация анализа . Выберите Кластерный анализ в меню Анализ — Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В появившемся диалоге выберите Кластеризация методом К средних и нажмите кнопку OK для отображения диалогового окна Кластерный анализ: кластеризация методом К средних. В этом диалоге выберите вкладу Дополнительно.

Читать еще:  Сущность технико экономического анализа

Нажмите кнопку Переменные, в появившемся окне Выбор переменных выберите все переменные. Далее, нажмите кнопку OK, чтобы вернуться во вкладку Дополнительно диалогового окна Кластерный анализ: кластеризация методом К средних. Как и в Примере 1 вы можете кластеризовать объекты или переменные. В этом случае выберите Наблюдения (строки) в поле Кластер для того, чтобы кластеризовать автомобили. Чтобы получить результаты для трех кластеров, изменим Число кластеров на 3.

Начальные центры кластеров . Эти опции управляют способом вычисления начальных центров кластеров. Результаты метода k средних зависят в известной мере от начальной конфигурации (т.е. от средних или центров кластеров). В частности, это происходит, когда формируется много маленьких отчетливо различающихся кластеров (с несколькими объектами). Для дальнейшей информации об этих опциях обратитесь к вкладке Дополнительно диалогового окна Кластерный анализ: категоризация методом К средних.

В этом примере выберите, по умолчанию, метод Сортировать расстояния и выбрать набл. на постоянных интервалах и затем нажмите кнопку OK, чтобы начать анализ.

Результаты . После завершения анализа появляется диалоговое окно Результаты метода K средних.

Дисперсионный анализ . В разделе Вводный обзор — Метод k средних этот метод был назван «дисперсионным анализом наоборот». В дисперсионном анализе межгрупповая дисперсия сравнивается с внутригрупповой дисперсией для принятия решения, являются ли средние для отдельных переменных в разных совокупностях значимо различными.

Даже, несмотря на то, что тестирование в этом случае не вполне корректно (во многом вы рассчитываете на везение), вы можете, тем не менее, принимать во внимание результаты дисперсионного анализа, сравнивая для каждого измерения средние (т.е. измерения характеристик) между совокупностями (кластерами автомобилей). Нажмите на кнопку Дисперсионный анализ для отображения приведенной выше таблицы.

Исходя из амплитуды (и уровней значимости) F-статистики, переменные Управляемость — Handling, Тормоз — Braking и Цена — Price являются главными при решении вопроса о распределении объектов по кластерам.

Идентификация кластеров. Теперь посмотрим, как программа назначает автомобили в кластеры с использованием этого критерия. Для того чтобы понять, из каких членов состоит каждый кластер, нажмите на кнопку Элементы кластеров и расстояния во вкладке Дополнительно диалогового окна Результаты метода К средних для получения таблиц результатов (по одной для каждого кластера). Кластер 1 состоит из Акура — Acura, Бьюик — Buick, Крайслер — Chrysler, Додж — Dodge, Хонда — Honda, Мицубиси — Mitsubishi, Ниссан — Nissan, Олдс — Olds, Понтиак — Pontiac, Сааб — Saab, Тойота — Toyota, Фольксваген — VW и Вольво — Volvo.

Следующая таблица содержит члены кластера 2:

Второй кластер содержит Ауди — Audi, БМВ — BMW, Корвет — Corvette, Форд — Ford, Мазду — Mazda, Мерседес — Mercedes и Порше — Porsche. Последний кластер приведен в третьей таблице ниже. Этот кластер состоит из Игл — Eagle и Исузу — Isuzu.

Эти результаты не полностью аналогичны кластерам, найденным в предшествующем анализе. Однако различия между кластерами экономичный седан и роскошный седан по-прежнему кажутся устойчивыми. Автомобили Игл — Eagle и Исузу — Isuzu были, вероятно, помещены в собственную категорию, так как они не «подходят» куда-либо ещё, и поскольку любое другое перераспределение автомобилей не улучшает решение (т.е. увеличивает межгрупповые суммы квадратов).

Описательные статистики для каждого кластера . Другим способом определения природы кластеров является проверка средних значений для каждого кластера и для каждого измерения. Вы можете или отобразить описательные статистики отдельно (нажмите на кнопку Описат. статистики для каждого кластера), или отобразить средние для всех кластеров и расстояний (евклидовых и квадратов евклидовых, см. ниже) между кластерами в отдельную таблицу результатов (нажмите на кнопку Средние кластеров и евклидовы расстояния), или вывести диаграмму этих средних (нажмите на кнопку График средних). Обычно, этот график дает наилучшее представление результатов.

Взглянем, например, на линию для кластера экономичный седан (Кластер 1) и сравним её с кластером роскошный седан (Кластер 2) на графике ниже. Можно заметить, что и в самом деле, автомобили в последнем классе:

(1) Являются более дорогими,

(2) Имеют меньше время разгона (вероятно из-за большего веса),

(3) Имеют приблизительно тот самый тормозной путь,

(4) Являются одинаковыми с точки зрения управляемости, и

(5) Имеют меньший расход топлива.

Наиболее различающим признаком автомобилей из третьего кластера (Игл — Eagle и Исузу — Isuzu) в соответствии с этим графиком, является их более короткий тормозной путь и плохая управляемость.

Расстояния между кластерами. Другой полезный результат проверки — евклидовы расстояния между кластерами (нажмите на кнопку Средние кластеров и евклидовы расстояния). Эти расстояния (евклидовы и их квадраты) вычисляются по средним каждой переменной в кластере.

Отметим, что кластеры 1 и 2 относительно близки друг к другу (евклидово расстояние = 0.97) по отношению к расстояниям от кластера 3 до кластеров 1 и 2.

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft

Кластерный анализ

Знакомство с возможностями кластерного анализа в ППП Statistica приводится на примере анализа уровня жизни населения различных регионов. Задача состоит в том, чтобы разбить регионы на несколько групп, в которых регионы мало отличаются друг от друга (существенно меньше, чем в целом).

Кластерный анализ производится при помощи модуля «Statistics/Multivariate Exploratory/ Cluster Analysis». После выбора данного модуля отобразиться диалоговой окно выбора метода проведения кластерного анализа (рис.):

2. В строке меню из пункта Статистика выберите модуль Многомерные исследовательские методы подмодуль Анализ кластеров (Cluster Analysis). Откроется стартовая панель модуля Анализ кластеров (Cluster Analysis):

Читать еще:  Теория анализа хозяйственной деятельности учебник

Рис. 3.2. Стартовая панель модуля Кластерный анализ

3. Выберите метод. Для этого посмотрите на стартовую панель, в главной части которой находится список методов кластерного анализа, реализованных в STATISTICA 6.0. В списке методов выбрать k-means clustering (метод k-средних) и нажмите кнопку в правом верхнем углу панели. Диалоговое окно метода k-meansпоявится на экране:

Рис. 3.3. Диалоговое окно метода k-means

4. Выберите переменные для анализа. Нажмите кнопку Variables (Переменные) в левом верхнем углу текущего окна и откроется диалоговое окно: Select variables for the analysis (Выбор переменных для анализа). Нажмите вначале Shift и удерживая эту кнопку на клавиатуре выберите следующие параметры: DISPANCER(S), FIST LIFE(S), DEATH RATE(S), ALCOGOL(S), а затем нажмите кнопку .

Рис. 3.4. Выбор переменных для Кластерного анализа

5. Установите начальные значения. Посмотрите на поле Cluster (Кластер), находящееся ниже кнопкиVariables (Переменные). Нажав на стрелку в этом поле, выберите пункт меню Cases(rows) (Случаи), так как кластеризуемые районы являются случаями в исходном файле данных.

· В поле Number of clusters (Число кластеров) нужно определить число групп, на которые хотим разбить районы. Запишите в этом поле число 3.

· В строке Number of(iterations) (Число итераций) задается максимальное число итераций, используемых при построении классов. Задайте, например, число 11.

· Группа опций Начальные центры кластера (Initial cluster centres) позволяет задать начальные центры кластеров. Выберете Отсортируйте расстояния и возьмите измерения в постоянных интервалах(Sort distances and take observations at constant intervals).

Вопрос: Изменится ли результаты классификации, если выбрать другие опции Начальные центры кластера (Initial cluster centres)? Проверьте это экспериментально, после того как разберете данный пример.

После того как все установки сделаны, нажмите кнопку в верхнем правом углу окнаk-means clustering (метод k-средних)и запустите вычислительную процедуру.

6. Просмотр результатов кластеризации. В окне результатов в верхней части приведена следующая информация:

· Количество переменных (Number of variables) – 4;

· Число регистров (Number of cases) – 64;

· K-means clustering of cases – Метод кластеризации k-means clustering;

· Количество групп (Number of cluster) – 3;

· Solution was obtained after 3 iterations – Решение найдено после 3 итераций.

Рис. 3.5. Окно результатов кластеризации районов по методу средних

Выберите закладку Расширенный (Advanced). Данное диалоговое окно состоит из двух частей: верхней – информационной, и нижней, где содержатся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.

· Функциональная кнопка Кластерные усреднения & евклидова расстояния (Cluster Means&Euclidean Distances) позволяет вывести таблицы, в первой из которых указаны средние для каждого кластера (усреднение производится внутри кластера):

Рис. 3.6. Средние значения для каждого кластера

Во второй таблице указаны, евклидовы расстояния и квадраты евклидовых расстояний между кластерами.

Рис. 3.7. Евклидовы расстояния и квадраты евклидовых расстояний между кластерами

В данной таблице даны евклидовы расстояния между средними кластеров (по каждому из параметров внутри кластера вычисляется среднее, получается 3 точки в пятимерном пространстве, и между ними находится расстояние). Из таблицы видно, что расстояние между первым и вторым кластерами 1,303, а например, между вторым и третьим – 0,755. Над диагональю в таблице даны квадраты расстояний между кластерами.

· Кнопка Анализ дисперсии (Analysis of variation) позволяет просмотреть таблицу дисперсионного анализа, где например, Между SS – внутригрупповая дисперсия (изменчивость), Внутренняя SS – межгрупповая дисперсия.

Рис. 3.8. Результаты дисперсионного анализа

· Функциональная кнопка Граф усреднений (Graph of means) позволяет посмотреть средние значения для каждого кластера на линейном графике (графики средних значений характеристик районов для каждого кластера).

Рис. 3.9. График средних для каждого кластера

· Кнопка Описательная статистика для каждого кластера (Descriptive Statistics for each clusters) открывает электронные таблицы с описательными статистиками для каждого кластера (среднее, стандартное отклонение, дисперсия).

Рис. 3.10. Описательные статистики для первого кластера

· Чтобы посмотреть, как распределились районы по кластерам, нажмите кнопку Элементы каждого кластера & расстояния (Member of each cluster&distances). На экране появятся 3 электронные таблицы с номерами районов, отнесенных к определенным кластерам. В строках таблиц указано расстояние от каждой машины до центра кластера. Например, в первом кластер попало 13 районов с номерами 1, 3, 5, 6, 17,18 и т.д.

Рис. 3.11. Элементы первого кластера и расстояния

· Кнопка Сохранить классификации и расстояния (Save classifications and distances) позволяет сохранить результаты классификации в файле STATISTICAдля дальнейшего исследования, результаты анализа формируются в отдельную таблицу, в которой указаны номера кластеров, в который попал каждый случай (район), и расстояние от центра кластера до каждого случая (района.)

Теперь можно сохранить все полученные результаты в рабочей книге, которая формируется автоматически, для дальнейшей работе с полученными результатами.

7.Изменение числа переменных. Закройте рабочую книгу результатов и вернитесь в начальное окно метода k-means clustering. Нажмите кнопку Variables (Переменные)в левомверхнем углу текущего окна и откройте диалоговое окно Select variables for the analysis (Выбор переменных для анализа). Сделайте в нем установку трех последних параметров: FIST LIFE(S), DEATH RATE(S), ALCOGOL(S).Повторите действия, описанные ранее. Нажмите кнопку Graph of means (График средних),постойте графики средних значений характеристик районов для каждого кластера:

Рис. 3.12. График средних для новых кластеров

Заметьте, что состав групп изменился. Теперь районы более отчетливо группируются, так как изменилась размерность: сократилось число параметров и получилось более отчетливо выраженные группы.

Ссылка на основную публикацию
Adblock
detector