Студопедия — ОТБОР ФАКТОРОВ В МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

ОТБОР ФАКТОРОВ В МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ






1. wikiTaxi // Assembler NASM

2. wikiTaxi // Основные команды NASM

3. wikiTaxi // Ядро Darwin

4. wikiTaxi // Компиляция пакетов

 

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

 

ОТБОР ФАКТОРОВ В МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ

 

При построении модели множественной регрессии для отображения зависимости между объясняемой переменной Y и независимыми (объясняющими) переменными X 1, X 2, …, Xk могут использоваться показательная, параболическая и многие другие функции. Однако наибольшее распространение получили модели линейной взаимосвязи, когда факторы входят в модель линейно.

Линейная модель множественной регрессии имеет вид

(4.1)

где k – количество включенных в модель факторов.

Коэффициент регрессии aj показывает, на какую величину в среднем изменится результативный признак Y, если переменную Xj увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения:

где Y – это вектор зависимой переменной размерности , представляющий собой n наблюдений значений yi; X – матрица n наблюдений независимых переменных X 1, X 2, …, Xk, размерность матрицы X равна ; а — подлежащий оцениванию вектор неизвестных параметров размерности ; ε; — вектор случайных отклонений (возмущений) размерности .

Таким образом,

Уравнение (4.1) содержит значения неизвестных параметров
. Эти величины оцениваются на основе выборочных
наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки.

(4.2)
Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид

где – вектор оценок параметров; – вектор «оцененных» отклонений регрессии, остатки регрессии ; – оценка значений , равная .

(4.3)
Оценка параметров модели множественной регрессии проводится с помощью метода наименьших квадратов. Формулу для вычисления параметров регрессионного уравнения приведем без вывода:

Отбор факторов, включаемых в регрессию – один из важнейших этапов построения модели регрессии. Подходы к отбору факторов могут быть разные: один из них основан на анализе матрицы коэффициентов парной корреляции, другой – на процедурах пошагового отбора факторов.

Перед построением модели множественной регрессии вычисляются парные коэффициенты линейной корреляции между всеми исследуемыми переменными Y, X 1, X 2, …, Xm, и из них формируется матрица

Вначале анализируют коэффициенты корреляции, отражающие тесноту связи зависимой переменной со всеми включенными в анализ факторами, с целью отсева незначимых переменных.

Затем переходят к анализу остальных столбцов матрицы с целью выявления мультиколлинеарности.

Ситуация, когда два фактора связаны между собой тесной линейной связью (парный коэффициент корреляции между ними превышает по абсолютной величине 0,8), называется коллинеарностью факторов. Коллинеарные факторы фактически дублируют друг друга в модели, существенно ухудшая ее качество.

Наибольшие трудности возникают при наличии мультикоминеарности факторов, когда тесной связью одновременно связаны несколько факторов, т.е. когда нарушается одна из предпосылок регрессионного анализа, состоящая в том, что объясняющие переменные должны быть независимы.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Мультиколлинеарность может проявляться в двух формах:

· функциональной – определитель матрицы равен нулю. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели;

· стохастической, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. В этом случае определитель матрицы не равен нулю, но очень мал. Экономическая интерпретация параметров уравнения регрессии при этом затруднена, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Существует несколько способов для определения наличия или отсутствия мультиколлинеарности:

· анализ матрицы коэффициентов парной корреляции. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0,8:

· исследование матрицы . Если определитель матрицы близок к нулю, это свидетельствует о наличии мультиколлинеарности.

Для выявления второй ситуации служит тест на мультиколлинеарность Фаррара-Глоубера. С помощью этого теста проверяют, насколько значимо определитель матрицы парных коэффициентов корреляции отличается от единицы. Если он равен нулю, то столбцы матрицы X линейно зависимы и вычислить оценку коэффициентов множественной регрессии по методу наименьших квадратов становится невозможно.

Этот алгоритм содержит три вида статистических критериев проверки наличия мультиколлинеарности:

1) всего массива переменных (критерий «хи-квадрат»);

2) каждой переменной с другими переменными (F -критерий);

3) каждой пары переменных (t -тест).

Опишем алгоритм для каждого вида критериев.

1. Проверка наличия мультиколлинеарности всего массива переменных (критерий «хи-квадрат»):

1) Построить корреляционную матрицу R и найти ее определитель .

2) Вычислить наблюдаемое значение статистики Фаррара-Глоубера по формуле

Эта статистика имеет распределение (хи-квадрат).

3) Фактическое значение -критерия сравнить с табличным значением при 0,5 k (k – 1) степенях свободы и уровне значимости α;. Если FG набл больше табличного, то в массиве объясняющих переменных существует мультиколлинеарность.

2. Проверка наличия мультиколлинеарности каждой переменной другими переменными (F - критерий):

1) Вычислить обратную матрицу .

2) Вычислить F -критерии

где cij – диагональные элементы матрицы C.

3) Фактические значения F -критериев сравнить с табличным значением при v 1 = k, v 2 = n – k – 1 степенях свободы и уровне значимости α;, где k – количество факторов. Если Fj > F табл, то соответствующая j -я независимая переменная мультиколлинеарна с другими.

3. Проверка наличия мультиколлинеарности каждой пары переменных (t -тест).

1) Вычислить коэффициент детерминации для каждой переменной:

2) Найти частные коэффициенты корреляции:

где cij — элемент матрицы С. содержащийся в i -й строке и j -м столбце; cii и cjj – диагональные элементы матрицы С.

3) Вычислить t -критерии:

4) Фактические значения критериев tij сравнить с табличным t табл при (n – k – 1) степенях свободы и уровне значимости α;. Если , то между независимыми переменными i и j существует мультиколлинеарность.

Разработаны различные методы устранения или уменьшения мультиколлинеарности. Самый простой из них, но не всегда самый эффективный, состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают исходя из экономических соображений.

Для устранения мультиколлинеарности можно также:

· добавить в модель важный фактор для уменьшения дисперсии случайного члена;

· изменить или увеличить выборку;

· преобразовать мульти коллинеарные переменные и др.

Другой метод устранения или уменьшения мультиколлинеар-
ности – использование стратегии шагового отбора, реализованной
в ряде алгоритмов пошаговой регрессии.

Наиболее широкое применение получили следующие схемы
построения уравнения множественной регрессии:

· метод включения – дополнительное введение фактора;

· метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой признак включается в
уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции. Это позволяет последовательно отбирать факторы, оказывающие существенное влияние на результативный признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y вторым – тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.

Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее по модулю значение t -критерия. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если и среди них окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна из этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится регрессия.

Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения.

 







Дата добавления: 2015-10-15; просмотров: 3493. Нарушение авторских прав; Мы поможем в написании вашей работы!



Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Огоньки» в основной период В основной период смены могут проводиться три вида «огоньков»: «огонек-анализ», тематический «огонек» и «конфликтный» огонек...

Упражнение Джеффа. Это список вопросов или утверждений, отвечая на которые участник может раскрыть свой внутренний мир перед другими участниками и узнать о других участниках больше...

Влияние первой русской революции 1905-1907 гг. на Казахстан. Революция в России (1905-1907 гг.), дала первый толчок политическому пробуждению трудящихся Казахстана, развитию национально-освободительного рабочего движения против гнета. В Казахстане, находившемся далеко от политических центров Российской империи...

Постинъекционные осложнения, оказать необходимую помощь пациенту I.ОСЛОЖНЕНИЕ: Инфильтрат (уплотнение). II.ПРИЗНАКИ ОСЛОЖНЕНИЯ: Уплотнение...

Приготовление дезинфицирующего рабочего раствора хлорамина Задача: рассчитать необходимое количество порошка хлорамина для приготовления 5-ти литров 3% раствора...

Дезинфекция предметов ухода, инструментов однократного и многократного использования   Дезинфекция изделий медицинского назначения проводится с целью уничтожения патогенных и условно-патогенных микроорганизмов - вирусов (в т...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия