Kafe-sviaz.ru

Финансовый журнал
10 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Статистический анализ связей

Статистический анализ связей.

В статистике принято выделять два вида связи между явлениями:

1) функциональные (или детерминированные). Для этого вида связи характерна однозначная строго определенная зависимость между взаимосвязанными показателями или признаками.

2) статистические (или стохастические). Здесь характерно то, что одному значению независимого признака или показателя может соответствовать несколько значений другого (зависимого) признака или показателя.

В статистике независимые признаки принято называть факторными, а зависимые – результативными. Однако не всякая статистическая связь отражает какую-то причинно-следственную зависимость. Иногда статистическая зависимость может носить случайный характер и не отражать реальную причинно-следственную взаимосвязь. Обычно, обнаружив статистическую зависимость между какими-то процессами или явлениями, ученые выдвигают гипотезу о наличии причинно-следственной зависимости, а потом проверяют эту гипотезу на практике или доказывают ее истинность с помощью других методов.

Статистические связи в статистике часто называют корреляционными (от английского слова «correlation» — отношение или соотношение), а показатели, используемые для оценки степени тесноты статистических связей – показателями корреляции.

Для выявления статистических связей и измерения степени их тесноты в статистике используются различные методы, основными из которых являются:

1. Метод параллельных рядов.

2. Метод таблиц сопряженности.

3. Расчет специальных аналитических показателей (или показателей корреляции), оценивающих степень тесноты связи;

4. Построение уравнений регрессии, количественно выражающих статистическую взаимосвязь между двумя и более признаками, в виде уравнения некоторой математической функции.

Метод параллельных рядов заключается в том, что параллельно выстраивается два ряда значений количественно измеримых признаков (показателей), причем первый (ряд значений признака x) из них выстраивается в порядке возрастания. Затем проверяется, будет ли соблюдаться тенденция к возрастанию соответствующих значений признака y во втором ряду. Если такая тенденция соблюдается, значит, между двумя признаками имеется статистическая взаимосвязь.

Таблица сопряженности – эта таблица, в которой по вертикали и по горизонтали выстроены различные значения двух признаков (x и y) в порядке возрастания. На пересечении строк и столбцов таблицы стоят числа, выражающие количество статистических единиц, одновременно обладающих соответствующими значениями признаков (x и y). Если ненулевые (т.е. не равные нулю) элементы таблицы сосредоточены вокруг ее главной диагонали, значит, между признаками имеется связь.

Таблицы сопряженности могут использоваться не только для оценки степени тесноты взаимосвязи между количественно измеримыми признаками, но и между качественными (альтернативными) признаками, которые условно принимают только два значения (0 и 1). Число 1 означает, что данная статистическая единица обладает этим признаком, а 0 – не обладает.

К специальным аналитическим показателям, измеряющим тесноту статистических взаимосвязей, относятся:

а) линейный коэффициент корреляции;

б) ранговый коэффициент корреляции Cпирмена;

в) корреляционное отношение и другие.

Формулы для их расчета приведены в таблице.

Статистический анализ связей;

В жизни все явления взаимосвязаны. Обычно нас интересуют непосредственные факторы, измерение их воздействия на результат, а также ранжирование факторов по интенсивности их влияния. Особенность связей в экономике и социальной сфере состоит в том, что их закономерный характер проявляется лишь в массе явлений — в среднем по совокупности. Такого рода связи называют статистическими. Они проявляются в том, что при изменении значения фактора изменяется распределение результативного признака. Изменяются и условные средние значения результата (таблица 1.9).

Таблица 1.9 — Проявление статистической и корреляционной связи

При статистической связи разным значениям одной переменной (фактора, х) соответствуют разные распределения другой переменной (результата, у).

Корреляционная связь — частный случай статистической связи, при котором разным значениям переменной соответствуют разные средние значения другой переменной.

Корреляционная связь предполагает, что изучаемые переменные имеют количественное выражение.

Статистическая связь — более широкое понятие, она не включает ограничений на уровень измерения переменных. Переменные, связь между которыми изучается, могут быть как количественными, так и неколичественными.

Если изучается связь между двумя признаками, налицо парная корреляция. Если изучается связь между многими признаками — множественная корреляция.

Парная корреляция — это изучение корреляционной связи между двумя переменными.

Прежде всего, чтобы проверить, как проявляется связь между двумя переменными, нужно построить график-поле корреляции.

Поле корреляции — это поле точек, на котором каждая точка соответствует единице совокупности; ее координаты определяются значениями признаков х и у.

По характеру расположения точек на поле корреляции делают вывод о наличии или отсутствии связи, о характере связи (линейная или нелинейная, а если связь линейная-то прямая или обратная).

В случае если точки корреляционного поля обнаруживают определенную направленность в своем расположении, можно говорить о наличии связи. При этом корреляционное поле можно оконтурить эллипсом (корреляционный эллипс).

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Если изучается связь между двумя переменными, причем их можно рассматривать как фактор и результат, т.е. вероятно наличие зависимости, то эту зависимость целесообразно представить в математическом виде. С этой целью подбирают функцию у =f(х), которая наилучшим образом соответствует исходным данным, иначе говоря, обеспечивает наилучшую аппроксимацию поля корреляции. При выборе типа функции руководствуются характером расположения точек на поле корреляции, а также содержанием изучаемой связи. Так, например, при изучении зависимости себестоимости единицы продукции (у) от объема производства (х) теоретический анализ показывает, что такая зависимость должна описываться уравнением гиперболы: , поскольку при увеличении объема производства себестоимость снижается до определенного предела, по достижении которого ее дальнейшего снижения не происходит.

Читать еще:  Регрессионный и кластерный анализ

Математически описание зависимости в среднем изменений переменной у от переменной х называется уравнением парной регрессии.

Чаще всего используется линейное уравнение парной регрессии:

, (1.46)

где — среднее значение результативного признака при определенном значении факторного признака х; а — свободный член уравнения регрессии; b — коэффициент регрессии, который показывает, на сколько единиц в среднем изменится результативный признак при изменении факторного признака на одну единицу его измерения.

При такой интерпретации коэффициента регрессии предполагается, что сила воздействия х на у постоянна при любых значениях х.

Знак при коэффициенте регрессии соответствует направлению зависимости у от х:

b>0 — зависимость прямая;

где а и b-параметры уравнения парной регрессии.

Если необходимо отразить нелинейность зависимости у от х, то могут быть использованы следующие уравнения регрессии:

, (1.47)

, (1.48)

, (1.49)

и т.д. (1.50)

Выбираемые функции должны быть линейны по параметрам. Перечисленные регрессии приводятся к линейному виду (линеаризуются) путем замены переменных или логарифмирования.

Параметры линейного уравнения парной регрессии находятся методом наименьших квадратов (МНК). Исходное условие МНК формулируется следующим образом:

, (1.51)

т.е. должна быть обеспечена минимальность суммы квадратов отклонений фактических, значений результативной переменной от ее теоретических значений, получаемых на основе уравнения регрессии.

Для отыскания значений параметров а и b, при которых f(а,b) принимает минимальное значение, приравниваем нулю первые частные производные функции:

, (1.52)

(1.53)

Преобразуя полученные уравнения, получаем систему нормальных уравнений МНК для прямой:

(1.54)

, (1.55)

где Δ — определитель системы; Δa — частный определитель, получаемый путем замены коэффициентов при а членами правой части системы уравнений; Δb — частный определитель, получаемый путем замены коэффициентов при b членами правой части системы уравнений.

. (1.56)

; (1.57)

. (1.58)

Можно найти параметр а, разделив на n первое уравнение системы:

, (1.59)

. (1.60)

Параметр b может быть выражен следующим образом:

. (1.61)

Так как знаменатель этого выражения есть не что иное, как дисперсия переменной х, формула коэффициента регрессии b может быть записана следующим образом:

. (1.62)

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать, например, две следующие формулы:

Отклонения от средних по одной и другой переменным лежат в основе измерения корреляционной связи. В случае линейной связи ее теснота измеряется с помощью коэффициента парной корреляции:

. (1.63)

Если знаки отклонений от средних совпадают, то связь прямая (rxy > 0), если знаки отклонений не совпадают, то связь обратная (rxy 0,7-сильной, или тесной.

Коэффициент корреляции — симметричная мера связи, т.е. это мера взаимосвязи между х и у. Поэтому rху = rух.

Квадрат коэффициента корреляции представляет собой коэффициент детерминации:

Коэффициент детерминации = r 2 .

Коэффициент детерминации часто более предпочтителен для измерения связи, так как он может быть использован для измерения не только линейных, но и нелинейных связей. Коэффициент детерминации может быть выражен в процентах. Коэффициент детерминации принимает значения в интервале [0, 1]. Чем ближе значение к 1, тем теснее связь, и наоборот.

Коэффициент регрессии можно найти на основе коэффициента корреляции. Поскольку

, , (1.66)

. (1.67)

В отличие от коэффициента корреляции коэффициент регрессии является асимметричной характеристикой связи: он характеризует не просто связь между переменными, а зависимость изменения у от х, но не наоборот, т.е. bух ≠ bху.

Коэффициент детерминации рассчитывается по формуле:

. (1.68)

Контрольные вопросы и задания:

1 Как вы понимаете сущность корреляционной связи? В чем ее отличие от функциональной связи?

2 Каковы признаки парной корреляции?

3 Что значит найти уравнение регрессии?

4 Какой вид имеет система нормальных уравнений?

5 С помощью каких коэффициентов можно определить степень тесноты парной линейной зависимости?

Статистический анализ связи

Теоретическое обоснование связи между показателями. Определение методологии исследования вариационного ряда. Проверка статистической значимости. Показатели среднедушевых доходов населения и числа собственных легковых автомобилей и их взаимосвязь.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

ТЮМЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

МЕЖДУНАРОДНЫЙ ИНСТИТУТ ФИНАНСОВ, УПРАВЛЕНИЯ И БИЗНЕСА

КАФЕДРА ЭКОНОМИКИ И УПРАВЛЕНИЯ СОБСТВЕННОСТЬЮ

По дисциплине: Статистика

На тему: Статистический анализ связи

Выполнила студентка группы

1. Теоретическое обоснование связи между показателями. Определение методологии исследования связи

2. Исследование вариационного ряда

3. Исследование связи. Проверка статистической значимости

Для исследования статистической связи взяли два показателя:

1. Среднедушевые денежные доходы населения в месяц по субъектам Российской Федерации за 2004 год, руб.

2. Число собственных легковых автомобилей на 1000 человек населения по субъектам Российской Федерации на конец 2006 года, шт.

Эти показатели вызывают интерес для изучения, так как в последнее время можно заметить резкий рост количества покупаемых автомобилей в России. Вместе с тем происходит и постепенное увеличение доходов населения. Таким образом, выбранные показатели являются актуальными. Поэтому поставлена цель, выявить закономерность между этими фактами, если она существует, объяснить ее. Если же никакой связи обнаружено не будет, то возникнет необходимость разобраться в причинах.

Объектом исследования в нашей работе являются показатели среднедушевых доходов населения и числа собственных легковых автомобилей. Предметом исследования — взаимосвязь этих показателей.

Читать еще:  Факторный анализ позволяет

Цель проводимого исследования — выявить между показателями зависимость и объяснить ее, либо объяснить ее отсутствие.

В соответствии с целью перед нами ставятся следующие задачи:

1. Сделать предположение о наличии связи между показателями, объяснить это теоретически;

2. Исследовать вариационный ряд, рассчитать его числовые характеристики;

3. Исследовать взаимосвязь показателей, составить модель парной линейной регрессии, проверить ее значимость;

4. Сделать соответствующие выводы и объяснить полученные результаты.

Данная курсовая работа состоит из трех глав, введения и заключения. В первой главе теоретическое обоснование предположения о наличии связи. Во второй исследуем вариационный ряд и находим его числовые характеристики. В третьей главе решаем вопрос о наличии связи между показателями и делаем выводы.

1. Теоретическое обоснование связи между показателями и методологии исследования связи

Доходы населения — сумма денежных средств и материальных благ, полученных или произведенных домашними хозяйствами за определенный промежуток времени. Денежные доходы населения включают оплату труда, доходы от предпринимательской деятельности, пенсии, стипендии, различные пособия, доходы от собственности в виде процентов, дивиденды, ренту, средства от продажи ценных бумаг, недвижимости, продукции сельского хозяйства, различных изделий, а также доходы от различных услуг, оказанных на стороне. С ростом благосостояния населения его потребности постепенно увеличиваются, происходит переход от базовых потребностей и не требующих больших затрат для удовлетворения к все более «дорогостоящим», например, обзавестись личным автомобилем. К тому же при увеличении доходов населения повышается уровень жизни. Поэтому приобретение нового автомобиля может быть необходимо для поддержания статуса, некого стандарта.

Предположим, что выбранные показатели — доходы населения и число собственных легковых автомобилей связаны между собой. При наличии такой связи факторным признаком будет именно доходы населения, а число автомобилей — результативным, так как при увеличении доходов у людей появляется больше возможностей приобрести автомобиль. Так как перед такой покупкой нужно сделать некие накопления и для этого нужно некоторое время, поэтому возьмем для исследования данные по доходам населения за 2004 год, а число автомобилей — на конец 2006 года. Таким образом, исследование взаимосвязи будет более корректным.

Методология исследования связи: 1) Анализ факторного признака доходов населения. 2) Нахождение среднего значение и отклонение вариант признака от средней величины, вычисление среднего линейного и квадратического отклонения, дисперсии, коэффициента вариации, а так же указывается смысл рассчитываемых показателей.

3) Применение показателя корреляции рангов, построение модели парной линейной регрессии, проверка качества полученного уравнения с помощью коэффициента детерминации и F-статистики и t-статистики. После расчета можно делать выводы о наличии или отсутствии связи.

2. Исследование вариационного ряда

Произведем механическую выборку из имеющихся данных по 87 субъектам Российской Федерации. Для этого из генеральной совокупности сначала исключим города федерального значения: Москву и Санкт-Петербург, так как показатели по этим субъектам сильно отличаются от остальных и будут оказывать большое влияние на общие характеристики совокупности. Далее выбираем каждое четвертое значение и включаем его в выборочную совокупность. Таким образом, получаем таблицу с данными по 21 субъекту Российской Федерации. Ранжируем полученный вариационный ряд по факторному признаку — среднедушевому денежному доходу населения (Приложение №2).

Произведем группировку. В качестве группировочного признака примем факторный признак — среднедушевой доход населения. Для удобства последующих расчетов и применения, полученных в ходе группировки данных используем равные закрытые интервалы.

Найдем число интервалов (групп) по формуле:

где n — объем выборочной совокупности;

1 + 3,322 * lg (21) = 5,39241.

Округлив полученное значение, имеем число групп = 6.

Разбиваем выборочную совокупность на 6 интервалов. Для этого необходимо найти величину i интервала:

где r — размах вариации, n — число групп, которое необходимо организовать.

Размах вариации найдем по формуле:

Теперь вычисляем величину интервала:

Используя найденные данные, разбиваем выборочную совокупность на 6 групп и считаем кол-во субъектов попавшие в каждый интервал.

Статистический анализ связей

Цель работы:научиться использовать возможности MS Excel для проведения статистического анализа связей.

ЗАДАНИЕ 1.

Известны данные о размере потребительских расходов на продукты питания в среднем на члена домашнего хозяйства, руб. в месяц, и динамика среднедушевых доходов населения с 2004 по 2017 годы.

Необходимо оценить тесноту связи между признаками и составить уравнение регрессии расчетным методом, с помощью встроенных функций, с помощью анализа данных.

1. Определим что является факторным признаком, что результативным. В данном случае возможность расходования средств зависит от доходов, поэтому в качестве переменной Х выберем доходы, а переменной Y — расходы

2. Построим поле корреляции. Каждая пара наблюдений (расходы и доходы за определенный год) отображается на плоскости в виде точки с соответствующими координатами. Совокупность таких точек называется полем корреляции. Чтобы построить в Excel такой график, по виду которого можно выдвинуть гипотезу о форме связи исследуемых величин, выберем на ленте интерфейса (вкладка Вставка, группа Диаграммы) тип диаграммы Точечная с маркерами:

Рисунок 1 – Поле корреляции

Построенная диаграмма позволяет сделать вывод о линейной связи между переменными.

3. Параметры уравнения регрессии y=a+bx рассчитываются по формулам:

Для определения параметров регрессии составим расчетную таблицу и вычислим коэффициенты a и b:

Рисунок 2 – Расчетная таблица для определения параметров регрессии

Рисунок 3 – Результаты расчета коэффициентов регрессии

Таким образом, уравнение парной линейной регрессии имеет вид:

В этой модели наклон b найденной прямой представляет собой количество единиц измерения переменной Y, приходящихся на одну единицу измерения переменно й X. Эта величина характеризует среднюю величину изменения переменной Y (положительного или отрицательного) на заданном отрезке оси X. Сдвиг а представляет собой среднее значение переменной Y, когда переменная X равна 0. Таким образом, в данном случае мы видим, что если значения доходов увеличить на 1 рубль, значение расходов на продукты питания вырастет на 0,156 рубля.

Читать еще:  Анализ структуры оборотных средств

4. Уравнение регрессии всегда дополняется показателем тесноты связи изучаемых факторов. Для линейной регрессии в качестве такого показателя выступает линейный коэффициент парной корреляции

= ,

Знак коэффициента характеризует направление, а абсолютная величина — тесноту связи.

Качественно оценить тесноту линейной корреляционной связи между x и y можно с помощью таблицы Чеддока:

Определим тесноту связи между переменными (найдем коэффициент корреляции). Почти все необходимые данные для расчета у нас имеются в расчетной таблице, кроме значения . Дополним таблицу столбцом y 2 .

Рисунок 4 – Таблица для расчета коэффициента корреляции

Находим среднее квадратическое отклонение для обеих переменных, вносим в заранее подготовленную ячейку, а затем вычисляем коэффициент корреляции.

Рисунок 5 – Расчет средних квадратических отклонений и коэффициента корреляции

Рисунок 6 – Результаты расчета

Таким образом, связь прямая, очень высокая. При анализе среднедушевых доходов становится понятным, что чем выше доходы, тем больше человек тратит на продукты питания. Однако, если мы в нашей расчетной таблице заменим столбец абсолютных значений расходов на продукты питания столбцом с долей расходов на питание в общих доходах, то получим следующее:

Рисунок 7 – Расчет корреляции при замене абсолютного значения расходов на долю в доходах

Как видно из расчетов, коэффициент корреляции стал отрицательным. Это означает, что чем выше доходы, тем больше человек может позволить себе расходов на товары непродовольственной группы и иные расходы (связь обратная, умеренная).

5. Рассмотрим расчет необходимых показателей с помощью встроенных функций.

Функция ЛИНЕЙН рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные и затем возвращает массив, который описывает полученную прямую.

Уравнение для прямой линии имеет следующий вид:

Синтаксис функции: ЛИНЕЙН(известные_значения_y; [известные_значения_x]; [конст]; [статистика])

Известные_значения_y: множество значений y, которые известны для соотношения y = mx + b.

Известные_значения_x.: множество значений x, которые уже известны для соотношения y = mx + b.

Конст. Необязательный аргумент. Логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. Если аргумент конст имеет значение ИСТИНА или опущен, то константа b вычисляется обычным образом. Если аргумент конст имеет значение ЛОЖЬ, то значение b полагается равным 0 и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx.

Статистика.Необязательный аргумент. Логическое значение, которое указывает, требуется ли возвратить дополнительную регрессионную статистику. В данном исследовании этим параметром мы пользоваться не будем.

Данную формулу необходимо вводить как формулу массива из двух значений по строке (необходимо выделить две ячейки горизонтально, ввести формулу массива и нажать Ctrl+Shift+Enter).

Рисунок 8 – Ввод функции ЛИНЕЙН

Рисунок 9– Параметры линейного уравнения регрессии

Таким образом, уравнение парной линейной регрессии имеет вид:

Если необходимо отобразить дополнительные статистики, выделите диапазон на один столбец больше, чем столбцов с переменными х, и высотой 5 строк. Поскольку у нас лишь одна переменная х, выделим диапазон 2 столбца по 5 строк. Третьему и четвертому аргументам присвоим значения ИСТИНА, чтобы b считалось обычным образом, и для вывода дополнительных статистик. После ввода формулы нажатием Ctrl+Shift+Enter, результат должен соответствовать рисунку ниже:

Рисунок 10 – Вывод дополнительных статистик

Параметры регрессионной статистики для линейной модели выводятся в следующем порядке:

Рисунок 11 – Вывод регрессионной статистики

Рассчитаем коэффициент корреляции с помощью функции КОРРЕЛ. Синтаксис функции имеет следующий вид:

КОРРЕЛ(массив1;массив2), где Массив1 — диапазон ячеек со значениями переменной х, Массив2 —диапазон ячеек со значениями y.

В нашем случае формула будет выглядеть следующим образом:

Расчет коэффициента дает результат 0,991561092.

6. Проведем регрессионный анализ с использованием Анализа данных/Регрессия. Значения параметров, установленных в одноименном диалоговом окне, представлены на рисунке.

Рисунок 12 – Диалоговое окно «Регрессия»

После нажатия «ОК», программа отобразит расчеты на новом листе (можно выбрать интервал для отображения на текущем листе или назначить вывод в новую книгу).

Рисунок 13 – Вывод регрессионного анализа

Из множества полученных коэффициентов выбираем необходимые нам:

Множественный r – коэффициент корреляции;

r 2 – это квадрат коэффициента корреляции, он показывает сколько процентов вариации результата объясняется изменчивостью признака. То есть в нашем случае 98% вариации расходов на продукты питания объясняется изменчивостью объемов доходов. Кроме того, сдвиг b0 переменной Y равен –16,032, а наклон b1 = 0,0308;

первые два коэффициента по столбцу в последней таблице – это характеристики регрессионной прямой.

Добавим линию тренда на поле корреляции:

Рисунок 14 – Добавление линии тренда

В диалоговом окне выбираем линейную линию тренда, ставим флажки на «Показывать уравнение на диаграмме».

Рисунок 15 – Линия тренда на поле корреляции

ЗАДАНИЕ 2.

На сайте Росстата выберите две переменные, которые могут совместно изменяться. Обоснуйте (логически) это совместное изменение. Для расчета коэффициента корреляции и нахождения уравнения регрессии выберите не менее 10 показателей каждого признака (не менее 10 временных периодов). Рассчитайте необходимые показатели расчетным путем и с помощью функций. Постройте поле корреляции.

Ссылка на основную публикацию
Adblock
detector