Kafe-sviaz.ru

Финансовый журнал
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Регрессионный и кластерный анализ

Измерение в психологии: виды статистических распределений, шкалы измерения, сущность корреляционного, регрессионного, кластерного, факторного анализов

Измерение — это приписывание числовых форм объектам или событиям в соответствии с определенными правилами (С. Стивенс). Стивенсоном предложена классификация из 4 типов шкал измерения:

1) Номинативная, или номинальная, или шкала наименований — это шкала, классифицирующая по названию и устанавливающая соответствие признака тому или иному классу. Название не измеряется количественно, оно лишь позволяет отличить один объект от другого или одного субъекта от другого.

2) Порядковая, или ординальная, шкала — это шкала, классифицирующая по принципу «больше-меньше». Здесь субъекты могут быть ранжированы, например, по весу или росту.

3) Интервальная, или шкала равных интервалов — это шкала классифицирующая по принципу «больше на определенное количество единиц — меньше на определенное количество единиц».

4) Шкала равных отношений — это шкала, классифицирующая объекты или субъектов пропорционально степени выраженности измеряемого свойства.

Распределение числовой случайной величины — это функция, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу.

1. Равномерное распределение — непрерывная случайная величина Х имеет равномерное распределение на отрезке [а, в], если на этом отрезке плотность распределения вероятности случайной величины постоянна, т. е. если дифференциальная функция распределения f(х) имеет следующий вид:

Иногда это распределение называют законом равномерной плотности. Про величину, которая имеет равномерное распределение на некотором отрезке, будем говорить, что она распределена равномерно на этом отрезке.

2. Нормальное распределение — непрерывная случайная величина Х имеет нормальное распределение (распределена по нормальному закону), если плотность распределения вероятности f(x) имеет вид

где а и s—некоторые постоянные, называемые параметрами нормального распределения.

Функция распределения F(x) в рассматриваемом случае принимает вид

Параметр а- есть математическое ожидание НСВХ (непрерывной случайной величины Х), имеющей нормальное распределение, s — среднее квадратическое отклонение, тогда дисперсия равна

3. Показательное (экспоненциальное) распределение. Непрерывная случайная величина X, функция плотности которой задается выражением

называется случайной величиной, имеющей показательное, или экспоненциальное, распределение.

Сущность основных видов анализов в психологии:

1. Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции. Коэффициент корреляции – двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных. Таким образом, корреляционный анализ это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками. Корреляционный анализ для двух случайных величин заключает в себе:

1. построение корреляционного поля и составление корреляционной таблицы;

2. вычисление выборочных коэффициентов корреляции и корреляционных отношений;

3. проверка статистической гипотезы значимости связи.

Основное назначение корреляционного анализа – выявление корреляционной связи между двумя или более изучаемыми переменными. Корреляционная связь это совместное согласованное изменение двух изучаемых характеристик. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой.

По форме связь может быть линейной или нелинейной. Более удобной для выявления и интерпретации корреляционной связи является линейная форма.

Для линейной корреляционной связи можно выделить два основных направления: положительное («прямая связь») и отрицательное («обратная связь»). Сила связи напрямую указывает, насколько ярко проявляется совместная изменчивость изучаемых переменных. В психологии функциональная взаимосвязь явлений эмпирически может быть выявлена только как вероятностная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания – график, оси которого соответствует значениям двух переменных, а каждый испытуемый представляет собой точку.

Коэффициент корреляции — это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1.;

2. Регрессионный анализ представляет собой вычисления на основе статистической информации с целью математической оценки усредненной связи между зависимой переменной и некоторой независимой переменной или переменными. Простая регрессия предполагает одну независимую переменную, множественная же регрессия предполагает две и более переменных. Регрессионный анализ описывает или оценивает величину какой-либо переменной (зависимой переменной на основе изменения одной или более других переменных — независимых или каузальных).

Читать еще:  План анализа предприятия

Регрессионный анализ может быть использован при попытке предсказания или оценки величины зависимой переменной. По следующей формуле рассчитывается простая линейная регрессия: у = а + bx, где:

у — зависимая переменная;

х — независимая переменная;

а — постоянная величина или точка пересечения постоянной линии регрессии переменной у, отражающая величину у при Ъ = 0;

b — наклон линии регрессии (коэффициент пропорциональности изменений у при изменении х);

3. Кластерный анализ — широкий класс процедур многомерного статистического анализа, позволяющих произвести автоматизированную группировку наблюдений в однородные классы — кластеры. Входным материалом для него служат попарные показатели различия или сходства классифицируемых объектов. В частности, это могут быть коэффициенты корреляции между переменными. В результате такого анализа исследователь получает разбиение объектов на классы. Среди множества различных алгоритмов кластерного анализа наибольшей популярностью до сих пор пользуются алгоритмы иерархической кластеризации. Эти алгоритмы дают не одно, а несколько разбиений на разных уровнях сходства (различия) между объектами. При этом строится дерево кластеризации, позволяющее наглядно увидеть, какие классы объектов являются более внутренне однородными, а какие — более общими, внутренне разнородными, а также увидеть, на каких уровнях более мелкие однородные классы объединяются в более крупные. Кластерный анализ позволяет выявить группы испытуемых, обладающих близкими психодиагностическими профилями (соотношением выявленных и измеренных психических свойств).

При конструировании тестов кластерный анализ позволяет сгруппировать родственные тестовые пункты (задания) и перепроверить тем самым результаты другого метода построения факторных шкал — результаты факторного анализа;

4. Факторный анализ – его методы направлены на выделение из заданного множества переменных подмножеств переменных, тесно связанных (коррелирующих) между собой. Переменные, входящие в одно подмножество и коррелирующие между собой, но в значительной степени независимые от переменных из других подмножеств, образуют факторы.

Цель факторного анализа — идентифицировать явно не наблюдаемые факторы с помощью множества наблюдаемых переменных.

В основе парадигмы использования факторного анализа лежит предположение о том, что выделяемые факторы отражают глубинные процессы (латентные, не наблюдаемые, не измеряемые), являющиеся причиной корреляций первичных (наблюдаемых, измеряемых) переменных. Другими словами, факторы (глубинные параметры) детерминируют (определяют) первичные наблюдаемые переменные и могут быть использованы для объяснения комплексных явлений. Наблюдаемые корреляции между первичными переменными возникают из-за того, что их детерминируют одни и те же факторы.

Регрессионный анализ

Материал из MachineLearning.

Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Содержание

Определение регрессионного анализа

Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть . Регрессионным анализом называется поиск такой функции , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

где — функция регрессионной зависимости, а — аддитивная случайная величина с нулевым матожиданием. Предположение о характере распределения этой величины называется гипотезой порождения данных. Обычно предполагается, что величина имеет гауссово распределение с нулевым средним и дисперсией .

Задача нахождения регрессионной модели нескольких свободных переменных ставится следующим образом. Задана выборка — множество значений свободных переменных и множество соответствующих им значений зависимой переменной. Эти множества обозначаются как , множество исходных данных . Задана регрессионная модель — параметрическое семейство функций зависящая от параметров и свободных переменных . Требуется найти наиболее вероятные параметры :

Читать еще:  Факторные модели в экономическом анализе

Функция вероятности зависит от гипотезы порождения данных и задается Байесовским выводом или методом наибольшего правдоподобия.

Линейная регрессия

Линейная регрессия предполагает, что функция зависит от параметров линейно. При этом линейная зависимость от свободной переменной необязательна,

В случае, когда функция линейная регрессия имеет вид

здесь — компоненты вектора .

Значения параметров в случае линейной регрессии находят с помощью метода наименьших квадратов. Использование этого метода обосновано предположением о гауссовском распределении случайной переменной.

Разности между фактическими значениями зависимой переменной и восстановленными называются регрессионными остатками (residuals). В литературе используются также синонимы: невязки и ошибки. Одной из важных оценок критерия качества полученной зависимости является сумма квадратов остатков:

Здесь — Sum of Squared Errors.

Дисперсия остатков вычисляется по формуле

Здесь — Mean Square Error, среднеквадратичная ошибка.

На графиках представлены выборки, обозначенные синими точками, и регрессионные зависимости, обозначенные сплошными линиями. По оси абсцисс отложена свободная переменная, а по оси ординат — зависимая. Все три зависимости линейны относительно параметров.

Нелинейная регрессия

Нелинейные регрессионные модели — модели вида

которые не могут быть представлены в виде скалярного произведения

где — параметры регрессионной модели, — свободная переменная из пространства , — зависимая переменная, — случайная величина и — функция из некоторого заданного множества.

Значения параметров в случае нелинейной регрессии находят с помощью одного из методов градиентного спуска, например алгоритма Левенберга-Марквардта.

О терминах

Термин «регрессия» был введён Фрэнсисом Гальтоном в конце 19-го века. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен «регрессия к посредственности». Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.

В статистической литературе различают регрессию с участием одной свободной переменной и с несколькими свободными переменными — одномерную и многомерную регрессию. Предполагается, что мы используем несколько свободных переменных, то есть, свободная переменная — вектор . В частных случаях, когда свободная переменная является скаляром, она будет обозначаться . Различают линейную и нелинейную регрессию. Если регрессионную модель не является линейной комбинацией функций от параметров, то говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией функций из некоторого набора. Нелинейными моделями являются, экспоненциальные, тригонометрические и другие (например, радиальные базисные функции или персептрон Розенблатта), полагающие зависимость между параметрами и зависимой переменной нелинейной.

Различают параметрическую и непараметрическую регрессию. Строгую границу между этими двумя типами регрессий провести сложно. Сейчас не существует общепринятого критерия отличия одного типа моделей от другого. Например, считается, что линейные модели являются параметрическими, а модели, включающие усреднение зависимой переменной по пространству свободной переменной —непараметрическими. Пример параметрической регресионной модели: линейный предиктор, многослойный персептрон. Примеры смешанной регрессионной модели: функции радиального базиса. Непараметрическая модель — скользящее усреднение в окне некоторой ширины. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.

Есть различие между терминами: «приближение функций», «аппроксимация», «интерполяция», и «регрессия». Оно заключается в следующем.

Приближение функций. Дана функция дискретного или непрерывного аргумента. Требуется найти функцию из некоторого параметрическую семейства, например, среди алгебраических полиномов заданной степени. Параметры функции должны доставлять минимум некоторому функционалу, например,

Термин аппроксимация — синоним термина «приближение функций». Чаще используется тогда, когда речь идет о заданной функции, как о функции дискретного аргумента. Здесь также требуется отыскать такую функцию , которая проходит наиболее близко ко всем точкам заданной функции. При этом вводится понятие невязки — расстояния между точками непрерывной функции и соответствующими точками функции дискретного аргумента.

Интерполяция функций — частный случай задачи приближения, когда требуется, чтобы в определенных точках, называемых узлами интерполяции совпадали значения функции и приближающей ее функции . В более общем случае накладываются ограничения на значения некоторых производных производных. То есть, дана функция дискретного аргумента. Требуется отыскать такую функцию , которая проходит через все точки . При этом метрика обычно не используется, однако часто вводится понятие «гладкости» искомой функции.

Читать еще:  Анализ принципов функционирования предприятия

Регрессия и классификация тесно связаны друг с другом. Термин алгоритм в классификации мог бы стать синонимом термина модель в регрессии, если бы алгоритм не оперировал с дискретным множеством ответов-классов, а модель — с непрерывно-определенной свободной переменной.

Задачи Data Mining. Классификация и кластеризация

Оценивание классификационных методов

Оценивание методов следует проводить, исходя из следующих характеристик [21]: скорость, робастность , интерпретируемость, надежность .

Скорость характеризует время, которое требуется на создание модели и ее использование.

Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.

Интерпретируемость обеспечивает возможность понимания модели аналитиком.

Свойства классификационных правил:

  • размер дерева решений;
  • компактность классификационных правил.

Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.

Задача кластеризации

Только что мы изучили задачу классификации , относящуюся к стратегии » обучение с учителем «.

В этой части лекции мы введем понятия кластеризации , кластера , кратко рассмотрим классы методов, с помощью которых решается задача кластеризации , некоторые моменты процесса кластеризации , а также разберем примеры применения кластерного анализа.

Задача кластеризации сходна с задачей классификации , является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены.

Синонимами термина » кластеризация » являются «автоматическая классификация «, » обучение без учителя » и » таксономия «.

Кластеризация предназначена для разбиения совокупности объектов на однородные группы ( кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению «сгущений точек».

Цель кластеризации — поиск существующих структур.

Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить «структуру данных».

Само понятие » кластер » определено неоднозначно: в каждом исследовании свои » кластеры «. Переводится понятие кластер ( cluster ) как «скопление», «гроздь».

Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.

Характеристиками кластера можно назвать два признака:

  • внутренняя однородность;
  • внешняя изолированность.

Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.

Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.

В таблице 5.2 приведено сравнение некоторых параметров задач классификации и кластеризации.

На рис. 5.7 схематически представлены задачи классификации и кластеризации.

Кластеры могут быть непересекающимися, или эксклюзивными (non- overlapping , exclusive), и пересекающимися ( overlapping ) [22]. Схематическое изображение непересекающихся и пересекающихся кластеров дано на рис. 5.8.

Следует отметить, что в результате применения различных методов кластерного анализа могут быть получены кластеры различной формы. Например, возможны кластеры «цепочного» типа, когда кластеры представлены длинными «цепочками», кластеры удлиненной формы и т.д., а некоторые методы могут создавать кластеры произвольной формы.

Различные методы могут стремиться создавать кластеры определенных размеров (например, малых или крупных) либо предполагать в наборе данных наличие кластеров различного размера.

Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие — менее.

В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма.

Данные особенности следует учитывать при выборе метода кластеризации .

Подробнее обо всех свойствах кластерного анализа будет рассказано в лекции, посвященной его методам.

На сегодняшний день разработано более сотни различных алгоритмов кластеризации . Некоторые, наиболее часто используемые, будут подробно описаны во втором разделе курса лекций.

Приведем краткую характеристику подходов к кластеризации [21].

Ссылка на основную публикацию
Adblock
detector