По какви показатели се избира най-добрият регресионен модел? Модел на сдвоена линейна регресия

05.07.2023

Понякога това се случва: проблемът може да бъде решен почти аритметично, но първото нещо, което идва на ум, са всички видове интеграли на Лебег и функции на Бесел. Тук започвате да преподавате невронна мрежа, след това добавяте още няколко скрити слоя, експериментирате с броя на невроните, функциите за активиране, след това си спомняте за SVM и Random Forest и започвате отначало. И въпреки това, въпреки изобилието от забавни статистически методи за обучение, линейната регресия остава един от популярните инструменти. А предпоставки за това има, не на последно място е интуитивността при интерпретирането на модела.

Няколко формули

В най-простия случай линейният модел може да бъде представен по следния начин:

Y i = a 0 + a 1 x i + ε i

Където a 0 е математическото очакване на зависимата променлива y i, когато променливата x i е равна на нула; a 1 е очакваната промяна в зависимата променлива y i, когато x i се промени с единица (този коефициент е избран така, че стойността ½Σ(y i -ŷ i) 2 да е минимална - това е така наречената „остатъчна функция“); ε i - случайна грешка.
В този случай коефициентите a 1 и a 0 могат да бъдат изразени чрез корелационния коефициент на Pearson, стандартни отклоненияи средните стойности на променливите x и y:

В 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Диагностика и грешки на модела

За да бъде моделът коректен е необходимо да отговаря на условията на Гаус-Марков, т.е. грешките трябва да са хомоскедастични с нулево математическо очакване. Остатъчната графика e i = y i - ŷ i помага да се определи колко адекватен е изграденият модел (e i може да се счита за оценка на ε i).
Нека да разгледаме графиката на остатъците в случай на проста линейна зависимост y 1 ~ x (по-нататък всички примери са дадени на езика Р):

Скрит текст

set.seed(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Остатъците са повече или по-малко равномерно разпределени по хоризонталната ос, което показва „никаква систематична връзка между стойностите на произволния член във всеки две наблюдения“. Сега нека разгледаме същата графика, но построена за линеен модел, който всъщност не е линеен:

Скрит текст

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Според графиката y 2 ~ x изглежда, че може да се приеме линейна връзка, но остатъците имат модел, което означава, че чистата линейна регресия няма да работи тук. Ето какво всъщност означава хетероскедастичността:

Скрит текст

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Линеен модел с такива „раздути“ остатъци не е правилен. Също така понякога е полезно да се начертаят квантилите на остатъците спрямо квантилите, които биха се очаквали, ако остатъците бяха нормално разпределени:

Скрит текст

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



Втората графика ясно показва, че предположението за нормалност на остатъците може да бъде отхвърлено (което отново показва, че моделът е неправилен). И има и такива ситуации:

Скрит текст

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Това е т. нар. „отклонение“, което може силно да изкриви резултатите и да доведе до погрешни заключения. R има средство за откриване - използвайки стандартизираната мярка dfbetas и стойностите на шапката:
> round(dfbetas(fit4), 3) (Intercept) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 6 -0,245 0,131 7 0,055 0,084 0 .027 0.055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Както можете да видите, първият член на вектора x4 има забележимо по-голямо влияние върху параметрите на регресионния модел от останалите, като по този начин е отклонение.

Избор на модел за множествена регресия

Естествено, при множествената регресия възниква въпросът: струва ли си да се вземат предвид всички променливи? От една страна, изглежда, че си заслужава, защото... всяка променлива потенциално носи полезна информация. Освен това, чрез увеличаване на броя на променливите, ние увеличаваме R2 (между другото, поради тази причина тази мярка не може да се счита за надеждна при оценката на качеството на модела). От друга страна, струва си да имате предвид неща като AIC и BIC, които въвеждат санкции за сложността на модела. Абсолютната стойност на информационния критерий сама по себе си няма смисъл, така че е необходимо тези стойности да се сравняват в няколко модела: в нашия случай с различен брой променливи. Моделът с минимална стойност на информационния критерий ще бъде най-добрият (въпреки че има за какво да се спори).
Нека да разгледаме набора от данни за UScrime от библиотеката MASS:
библиотека(MASS) данни(UScrime) stepAIC(lm(y~., данни=UScrime))
Моделът с най-малка стойност на AIC има следните параметри:
Обаждане: lm(формула = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, данни = UScrime) Коефициенти: (Intercept) M Ed Po1 M.F U1 U2 Ineq Prob -6426.101 9.332 18.012 10.265 2.234 -6.087 18.735 6.133 -3796.032
По този начин оптималният модел, който взема предвид AIC, ще бъде:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Коефициенти: Оценка Std. Error t value Pr(>|t|) (Intercept) -6426.101 1194.611 -5.379 4.04e-06 *** M 9.332 3.350 2.786 0.00828 ** Ed 18.012 5.275 3.414 0.00153 ** Po1 10.265 1.5 5 2 6.613 8.26e-08 ** * M.F 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622. U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Вероятност -3796,032 1490,646 -2,547 0,01505 * Знач. кодове: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1
Ако се вгледате внимателно, се оказва, че променливите M.F и U1 имат доста висока p-стойност, което изглежда ни подсказва, че тези променливи не са толкова важни. Но p-стойността е доста двусмислена мярка, когато се оценява важността на определена променлива за статистически модел. Този факт е ясно демонстриран от пример:
данни<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Оценка Std. Стойност на грешка Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7 .503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e -15 V7 1.0092041 0.1287784 7.836752 7.021785e-15 V8 0.9307010 0.1219609 7.631143 3.391212e-14 V9 0.8624487 0.1198499 7.196073 8.3 62082e-13 V10 0.9763194 0.0879140 11.105393 6.027585e-28
P-стойностите на всяка променлива са практически нула и може да се приеме, че всички променливи са важни за този линеен модел. Но всъщност, ако се вгледате внимателно в останките, се оказва нещо подобно:

Скрит текст

plot(predict(fit), resid(fit), pch=".")



И все пак алтернативен подход разчита на анализ на дисперсията, в който p-стойностите играят ключова роля. Нека сравним модела без променливата M.F с модела, изграден, като се вземе предвид само AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Анализ на таблицата с дисперсии Модел 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Модел 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Сума на Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Като се има предвид P-стойност от 0,1087 при ниво на значимост α=0,05, можем да заключим, че няма статистически значими доказателства в полза на алтернативната хипотеза, т.е. в полза на модела с допълнителната променлива M.F.

Използване на метода на най-малките квадрати.

Регресионният модел съчетава широк клас универсални функции, които описват определен модел. В този случай, за изграждане на модел, се използват главно измерени данни, а не знания за свойствата на изследвания модел. Този модел често е неинтерпретируем, но по-точен. Това се обяснява или с големия брой кандидат-модели, които се използват за изграждане на оптималния модел, или с високата сложност на модела. Намирането на параметрите на регресионен модел се нарича модел обучение.

Недостатъци на регресионния анализ: моделите с твърде малка сложност може да са неточни, а моделите с твърде голяма сложност може да са преквалифициран.

В управлението и планирането има редица типични задачи, които могат да бъдат прехвърлени на раменете на компютъра. Потребителят на такъв софтуер може дори да не познава задълбочено математиката зад използваното устройство. Той трябва да представи само същността на проблема, който се решава, да подготви и въведе изходни данни в компютъра и да интерпретира получените резултати. Програмен продукт, който може да се използва за тези цели е Ms Excel.

Ms Excel не е просто електронна таблица с данни и формули за изчисления. Това е универсална система за обработка на данни, която може да се използва за анализиране и представяне на данни във визуална форма.

Една от най-често използваните функции на Excel е екстраполацията на данни - например за анализиране на съществуващи действителни данни, оценка на тенденцията на тяхното изменение и на тази база извличане на краткосрочна прогноза за бъдещето. В този случай се използва линейна екстраполация на данни въз основа на отклонението на най-малкия квадрат - намира се линейна зависимост на данните, която би минимизирала сумата от квадратите на разликите между наличните действителни данни и съответните стойности ​на линията на линейния тренд (интерполационна или екстраполационна зависимост). Въз основа на намерената връзка може да се направи разумно предположение за очакваните бъдещи стойности на серията данни, която се изследва.

Решаването на проблемите на планирането и управлението постоянно изисква отчитане на зависимостите на едни фактори от други.

Нека да разгледаме различни методи за представяне на зависимости.

Ако връзката между количествата може да бъде представена в математическа форма, тогава имаме математически модел.


Математически моделе набор от количествени характеристики на някакъв обект (процес) и връзки между тях, представени на езика на математиката.

Математическите модели могат да бъдат представени под формата на формули, уравнения или системи от уравнения. Например зависимостта на времето за падане на тялото на земята от първоначалната височина се описва с формулата. Нека да разгледаме примери за други начини за представяне на зависимости между количествата: табличен и графичен. Въз основа на резултатите от експеримента съставихме таблица и начертахме графика (Фигура 1).

N (m) t (сек)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Фигура 1. Таблично и графично представяне на данните.

Разгледахме три начина за показване на зависимостта на количествата: функционален (формула), табличен и графичен. Но само формула може да се нарече математически модел на процеса на падане на тялото на земята, т.к формулата е универсална. Таблица и диаграма (графика) излагат фактите, а математическият модел ви позволява да правите прогнози чрез изчисления.

Статистическите данни винаги са приблизителни, осреднени. Следователно те имат оценъчен характер. Те обаче правилно отразяват характера на зависимостта на величините. И още една важна забележка: за надеждността на резултатите, получени чрез анализ на статистически данни, трябва да има много от тези данни.

Графиката на желаната функция трябва да минава близо до точките от диаграмата на експерименталните данни. Няма смисъл да се конструира функция, така че нейната графика да минава точно през всички тези точки (Фигура 2). Първо, математическата форма на такава функция може да е твърде сложна. Второ, вече беше казано, че експерименталните стойности са приблизителни.

Това предполага основните изисквания за необходимата функция:

Трябва да е достатъчно просто, за да се използва в по-нататъшни изчисления;

Графиката на тази функция трябва да минава близо до експерименталните точки, така че отклоненията на тези точки от графиката да са минимални и еднакви (Фигура 3).

Фигура 3. Два варианта за изграждане на графична зависимост въз основа на експериментални данни.

Получената функция, чиято графика е показана на фигура 3(b), обикновено се нарича регресионен модел в статистиката. Регресионен моделе функция, която описва връзката между количествените характеристики на сложни системи.

Получаването на регресионен модел се извършва на два етапа:

1. Избор на вида на функцията;

2. Изчисляване на функционални параметри.

Най-често изборът се прави между следните функции:

y = ax + b - линейна функция;

y = ax 2 + bx + c - квадратична функция;

y = aln(x) + b - логаритмична функция;

y = ae bx - експоненциална функция;

y = ax b е степенна функция.

Ако сте избрали (съзнателно или произволно) една от предложените функции, тогава следващата стъпка е да изберете параметрите (a, b, c и т.н.), така че функцията да е разположена възможно най-близо до експерименталните точки. Методът на най-малките квадрати (OLS) е подходящ за тази цел. Неговата същност е следната: търсената функция трябва да бъде конструирана така, че сумата от квадратите на отклоненията на y-координатите на всички експериментални точки от y-координатите на графиката на функцията да е минимална.

Важно е да разберете следното: използвайки метода на най-малките квадрати, всяка функция може да бъде конструирана от даден набор от експериментални точки. Но дали ще ни удовлетвори е друг въпрос - въпрос на критерия за съответствие. Фигура 4 показва 3 функции, конструирани с помощта на метода на най-малките квадрати.

Фигура 4

Тези цифри са получени с помощта на Ms Excel. Графиката на регресионния модел се нарича тенденция(тенденция - посока, тенденция).

Графиката на линейна функция е права линия. Правата линия, получена с помощта на метода OLS, отразява факта на увеличаване на заболеваемостта от концентрацията на въглероден окис, но от тази графика е трудно да се каже нещо за естеството на това увеличение. Но квадратичните и експоненциалните тенденции се държат много правдоподобно.

Графиките съдържат друга стойност, получена в резултат на изграждане на тенденции. Означава се като R2. В статистиката това количество се нарича коефициент на детерминизъм.Именно това определя колко успешен ще бъде регресионният модел. Коефициентът на детерминизъм винаги е в диапазона от 0 до 1. Ако е равен на 1, тогава функцията преминава точно през стойностите на таблицата, ако е 0, тогава избраният тип регресионен модел е неуспешен. Колкото по-близо е R2 до 1, толкова по-успешен е регресионният модел.

Методът на най-малките квадрати се използва за изчисляване на параметрите на регресионния модел. Този метод се съдържа в математическия арсенал от електронни таблици.

След като получим регресионен математически модел, можем да предвидим процеса чрез изчисления. Сега е възможно да се оцени честотата на астма не само за тези стойности на концентрациите на въглероден окис, които са получени чрез измервания, но и за други стойности. Това е много важно от практическа гледна точка. Например, ако град планира да построи завод, който ще отделя въглероден окис в атмосферата, тогава чрез изчисляване на възможната концентрация на газ можете да предвидите как това ще се отрази на честотата на астма сред жителите на града.

Има два начина за правене на прогнози с помощта на регресионен модел. Ако прогнозата е направена в рамките на експерименталните стойности на независимата променлива (в нашия случай това е стойността на концентрацията на въглероден окис - C), тогава това се нарича възстановяване на стойността.

Прогнозата извън експерименталните данни се нарича екстраполация.

Наличието на регресионен модел улеснява правенето на прогнози чрез извършване на изчисления с помощта на електронна таблица.

Процесорът за електронни таблици дава възможност за графична екстраполация, продължавайки тенденцията отвъд експерименталните данни. Как изглежда при използване на квадратичен тренд за C = 7 е показано на фигура 5.

Фигура 5

В някои случаи трябва да внимавате с екстраполацията. Приложимостта на всеки регресионен модел е ограничена, особено извън експерименталната област.

Референции.

1. Новиков F.A., Yatsenko A.D.. Microsoft Office. С.-П.: БХВ-Петербург, 2002. стр.449-458

2. Семакин И.Г., Хенър Е.К. Информатика 11 клас. М.: БИНОМ. Лаборатория на знанието, 2003г стр.102-117

Какво е регресия?

Разгледайте две непрекъснати променливи x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Нека поставим точките върху двуизмерна точкова диаграма и кажем, че имаме линейна връзка, ако данните са апроксимирани с права линия.

Ако вярваме в това гзависи от х, и промени в гса причинени именно от промени в х, можем да определим линията на регресия (регресия гна х), което най-добре описва линейната връзка между тези две променливи.

Статистическата употреба на думата регресия идва от явлението, известно като регресия към средната стойност, приписвано на сър Франсис Галтън (1889).

Той показа, че въпреки че високите бащи са склонни да имат високи синове, средният ръст на синовете е по-нисък от този на техните високи бащи. Средният ръст на синовете "регресира" и се "премести назад" към средния ръст на всички бащи в населението. Така средно високите бащи имат по-ниски (но все още доста високи) синове, а ниските бащи имат по-високи (но все още доста ниски) синове.

Регресионна линия

Математическо уравнение, което оценява проста (по двойки) линейна регресионна линия:

хнаречена независима променлива или предиктор.

Y- зависима променлива или променлива на отговора. Това е стойността, която очакваме г(средно), ако знаем стойността х, т.е. това е "предвидената стойност" г»

  • а- свободен член (пресечна точка) на линията за оценка; това е смисъла Y, Кога х=0(фиг.1).
  • b- наклон или градиент на прогнозната линия; представлява сумата, с която Yсе увеличава средно, ако увеличим хза една единица.
  • аИ bсе наричат ​​регресионни коефициенти на оценената линия, въпреки че този термин често се използва само за b.

Линейната регресия по двойки може да бъде разширена, за да включва повече от една независима променлива; в този случай е известен като множествена регресия.

Фиг.1. Линия на линейна регресия, показваща пресечната точка a и наклона b (количеството Y нараства, когато x се увеличава с една единица)

Метод на най-малките квадрати

Извършваме регресионен анализ, използвайки извадка от наблюдения, където аИ b- извадкови оценки на истинските (общи) параметри, α и β, които определят линейната регресионна линия в популацията (генерална популация).

Най-простият метод за определяне на коефициентите аИ bе метод на най-малките квадрати(MNC).

Напасването се оценява чрез разглеждане на остатъците (вертикално разстояние на всяка точка от линията, напр. остатък = наблюдавано г- предсказано г, ориз. 2).

Линията на най-добро прилягане е избрана така, че сумата от квадратите на остатъците да е минимална.

ориз. 2. Линия на линейна регресия с изобразени остатъци (вертикални пунктирани линии) за всяка точка.

Предположения за линейна регресия

Така че за всяка наблюдавана стойност остатъкът е равен на разликата и съответната прогнозирана стойност. Всеки остатък може да бъде положителен или отрицателен.

Можете да използвате остатъци, за да тествате следните допускания зад линейната регресия:

  • Остатъците обикновено се разпределят със средна стойност нула;

Ако предположенията за линейност, нормалност и/или постоянна дисперсия са съмнителни, можем да трансформираме или изчислим нова регресионна линия, за която тези предположения са изпълнени (например да използваме логаритмична трансформация и т.н.).

Аномални стойности (отклонения) и точки на влияние

„Влиятелно“ наблюдение, ако е пропуснато, променя една или повече оценки на параметрите на модела (т.е. наклон или пресечна точка).

Отклонение (наблюдение, което е в противоречие с повечето стойности в набор от данни) може да бъде "влиятелно" наблюдение и може лесно да бъде открито визуално чрез проверка на двумерна диаграма на разсейване или остатъчна диаграма.

Както за извънредни стойности, така и за „влиятелни“ наблюдения (точки) се използват модели, както със, така и без тяхното включване, като се обръща внимание на промените в оценките (регресионни коефициенти).

Когато извършвате анализ, не трябва автоматично да отхвърляте отклонения или точки на влияние, тъй като простото им игнориране може да повлияе на получените резултати. Винаги изучавайте причините за тези отклонения и ги анализирайте.

Хипотеза за линейна регресия

При конструирането на линейна регресия се тества нулевата хипотеза, че общият наклон на регресионната линия β е равен на нула.

Ако наклонът на линията е нула, няма линейна връзка между и: промяната не засяга

За да тествате нулевата хипотеза, че истинският наклон е нула, можете да използвате следния алгоритъм:

Изчислете тестовата статистика, равна на съотношението , което е обект на разпределение със степени на свобода, където стандартната грешка на коефициента


,

- оценка на дисперсията на остатъците.

Обикновено, ако се достигне нивото на значимост, нулевата хипотеза се отхвърля.


където е процентната точка на разпределението със степени на свобода, което дава вероятността за двустранен тест

Това е интервалът, който съдържа общия наклон с вероятност от 95%.

За големи извадки, да речем, можем да приближим със стойност от 1,96 (т.е. тестовата статистика ще има тенденция да бъде нормално разпределена)

Оценка на качеството на линейната регресия: коефициент на детерминация R 2

Поради линейната връзка и ние очакваме това да се промени като и го наречете вариация, която се дължи или се обяснява с регресия. Остатъчната вариация трябва да бъде възможно най-малка.

Ако това е вярно, тогава по-голямата част от вариацията ще бъде обяснена с регресия и точките ще лежат близо до линията на регресия, т.е. линията пасва добре на данните.

Пропорцията на общата дисперсия, която се обяснява с регресия, се нарича коефициент на детерминация, обикновено изразен като процент и означен R 2(в сдвоената линейна регресия това е количеството r 2, квадрат на корелационния коефициент), ви позволява субективно да оцените качеството на регресионното уравнение.

Разликата представлява процентът на дисперсията, който не може да бъде обяснен с регресия.

Няма официален тест за оценка; трябва да разчитаме на субективна преценка, за да определим съответствието на регресионната линия.

Прилагане на регресионна линия към прогнозата

Можете да използвате регресионна линия, за да предвидите стойност от стойност в края на наблюдавания диапазон (никога не екстраполирайте извън тези граници).

Ние прогнозираме средната стойност на наблюдаемите величини, които имат определена стойност, като включим тази стойност в уравнението на регресионната линия.

Така че, ако прогнозираме като Използвайте тази прогнозирана стойност и нейната стандартна грешка, за да оцените доверителния интервал за истинската средна съвкупност.

Повтарянето на тази процедура за различни стойности ви позволява да конструирате доверителни граници за този ред. Това е лентата или зоната, която съдържа истинската линия, например при 95% ниво на сигурност.

Прости планове за регресия

Простите регресионни проекти съдържат един непрекъснат предиктор. Ако има 3 наблюдения с предикторни стойности P, като 7, 4 и 9, и дизайнът включва ефект от първи ред P, тогава проектната матрица X ще бъде

и регресионното уравнение, използващо P за X1 е

Y = b0 + b1 P

Ако прост регресионен дизайн съдържа ефект от по-висок порядък върху P, като квадратичен ефект, тогава стойностите в колона X1 в проектната матрица ще бъдат повишени на втора степен:

и уравнението ще приеме формата

Y = b0 + b1 P2

Сигма-ограничени и свръхпараметризирани методи за кодиране не се прилагат за прости регресионни дизайни и други дизайни, съдържащи само непрекъснати предиктори (защото просто няма категорични предиктори). Независимо от избрания метод на кодиране, стойностите на непрекъснатите променливи се увеличават съответно и се използват като стойности за X променливите. В този случай не се извършва прекодиране. Освен това, когато описвате регресионни планове, можете да пропуснете разглеждането на проектната матрица X и да работите само с регресионното уравнение.

Пример: Прост регресионен анализ

Този пример използва данните, представени в таблицата:

ориз. 3. Таблица с изходни данни.

Данни, събрани от сравнение на преброяванията от 1960 г. и 1970 г. в произволно избрани 30 окръга. Имената на окръгите са представени като имена на наблюдения. Информацията за всяка променлива е представена по-долу:

ориз. 4. Таблица с променливи спецификации.

Изследователски проблем

За този пример ще бъде анализирана връзката между нивото на бедност и степента, която прогнозира процента на семействата, които са под прага на бедността. Следователно ще третираме променлива 3 (Pt_Poor) като зависима променлива.

Можем да изложим хипотеза: промените в числеността на населението и процента на семействата, които са под прага на бедността, са свързани. Изглежда разумно да се очаква, че бедността води до миграция навън, така че ще има отрицателна корелация между процента на хората под прага на бедността и промяната на населението. Следователно ще третираме променлива 1 (Pop_Chng) като променлива за прогнозиране.

Вижте резултатите

Коефициенти на регресия

ориз. 5. Коефициенти на регресия на Pt_Poor върху Pop_Chng.

В пресечната точка на реда Pop_Chng и колоната Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

нестандартизираният коефициент за регресията на Pt_Poor върху Pop_Chng е -0,40374. Това означава, че за всяка една единица намаление на населението има увеличение на нивото на бедност от 0,40374. Горната и долната (по подразбиране) 95% доверителни граници за този нестандартизиран коефициент не включват нула, така че регресионният коефициент е значим на ниво p

Променливо разпределение

Коефициентите на корелация могат да станат значително надценени или подценени, ако в данните присъстват големи отклонения. Нека проучим разпределението на зависимата променлива Pt_Poor по области. За да направим това, нека изградим хистограма на променливата Pt_Poor.

ориз. 6. Хистограма на променливата Pt_Poor.

Както можете да видите, разпределението на тази променлива се различава значително от нормалното разпределение. Въпреки това, въпреки че дори два окръга (двете десни колони) имат по-висок процент семейства, които са под прага на бедността, отколкото се очаква при нормално разпределение, те изглеждат „в рамките на диапазона“.

ориз. 7. Хистограма на променливата Pt_Poor.

Тази преценка е донякъде субективна. Основното правило е, че отклоненията трябва да се вземат предвид, ако наблюдението (или наблюденията) не попадат в интервала (средно ± 3 пъти стандартното отклонение). В този случай си струва да повторите анализа със и без извънредни стойности, за да сте сигурни, че те нямат голям ефект върху корелацията между членовете на популацията.

Точкова диаграма

Ако една от хипотезите е a priori за връзката между дадени променливи, тогава е полезно да я тествате върху графиката на съответната диаграма на разсейване.

ориз. 8. Точкова диаграма.

Точковата диаграма показва ясна отрицателна корелация (-.65) между двете променливи. Той също така показва 95% доверителен интервал за регресионната линия, т.е. има 95% вероятност регресионната линия да лежи между двете пунктирани криви.

Критерии за значимост

Тестът за регресионния коефициент Pop_Chng потвърждава, че Pop_Chng е тясно свързан с Pt_Poor, p<.001 .

Долен ред

Този пример показа как да се анализира прост регресионен дизайн. Бяха представени и интерпретации на нестандартизирани и стандартизирани регресионни коефициенти. Обсъжда се значението на изучаването на разпределението на отговора на зависима променлива и се демонстрира техника за определяне на посоката и силата на връзката между предиктор и зависима променлива.

След като корелационният анализ разкри наличието на статистически значими връзки между променливите и оцени степента на тяхната близост, обикновено се преминава към математическо описание на конкретен тип връзка с помощта на регресионен анализ.

Корелацията между две променливи е функционална връзка между едната променлива и очакваната (условна средна) стойност на другата. Уравнението на такава връзка между две променливи се нарича регресионно уравнение. Ако има две променливи (една зависима и една независима), тогава регресията се нарича проста, а ако има повече от две, тогава множествена. Ако връзката между променливите е линейна, тогава регресията се нарича линейна, в противен случай се нарича нелинейна.

Нека разгледаме по-отблизо простата линейна регресия. Модел на такава зависимост може да бъде представен във формата

г = α + β х + ε, (1.1)

Къде при – зависима променлива (резултатен атрибут);

X – независима променлива (факторна характеристика);

α – свободен член на регресионното уравнение или константа;

β – коефициент на регресионното уравнение;

ε - случайна променлива, характеризираща отклоненията на действителните стойности на зависимата променлива при от моделни или теоретични стойности, изчислени с помощта на регресионното уравнение.

Предполага се, че обяснителната променлива X – стойността не е случайна, а обяснима г – случаен. В бъдеще това предположение може да бъде премахнато.

1.2.1. Метод на най-малките квадрати (LSM) и неговите предпоставки

α и β са параметри на регресионния модел (1.1), които трябва да бъдат оценени въз основа на извадковите данни. Въз основа на същите примерни данни трябва да се оцени дисперсията ε. Един метод за изчисляване на такива оценки е класическият метод на най-малките квадрати (OLS). Същността на OLS е да се минимизира сумата от квадратните отклонения на действителните стойности на зависимата променлива при от техните условни математически очаквания, определени от регресионното уравнение: = α + β х, при допускането, че математическото очакване на ε е равно на нула. Очакване гозначете с, а сумата от квадратите на отклоненията с Q(.

Тук сумирането се извършва върху цялата популация. Тази сума се нарича остатъчна сума на квадратите.

За да минимизираме тази функция по отношение на параметрите, ние се обръщаме към условията от първи ред, получени чрез диференциране на Q() по отношение на

След това нека приемем, че за оценка на параметрите на модел (1.1), извадка, съдържаща пдвойки променливи стойности (x i,y i), където азприема стойности от 1 до п (аз=). Приравнявайки частните производни на нула и преминавайки от популацията към извадката (заменяйки параметрите с техните оценки), получаваме система от нормални уравнения за изчисляване на оценки на параметрите α и β. Нека означим тези оценки съответно като А и b . Получаваме следната система от нормални уравнения

Ако оцененото уравнение се означи като г = а + bx + д , Къде д е една от реализациите на случайната променлива ε, съответстваща на конкретна извадка, тогава изразът в скоби на системата от нормални уравнения не е нищо повече от остатъка от регресионното уравнение д аз = г ази тогава първото уравнение на тази система ще приеме формата = 0. Тоест средната стойност на остатъците е нула. По този начин, ако регресионното уравнение съдържа константа, тогава сумата от остатъците в изчисленото уравнение винаги е нула.

Второто уравнение на системата в тази нотация дава = 0, т.е. векторите на стойностите на независимата променлива и остатъците са ортогонални (независими).

Ето една от формулите за изчисляване на такива оценки:

а = – b, b = . (1.2)

Известно е също, че безпристрастна оценка на дисперсията на случайните отклонения е остатъчната дисперсия, изчислена от връзката:

= .

И така, изчисленият линеен регресионен модел по двойки е

г = а + bx + д, (1.3)

където e - наблюдаваните отклонения на действителните стойности на зависимата променлива при от калкулирани, които се изчисляват от отношението = а + bx .

Разликата между ε и де, че ε е случайна променлива и не е възможно да се предвидят нейните стойности, докато дса наблюдаваните стойности на отклонение ( e = y–) и тези отклонения могат да се считат за произволна извадка от съвкупността от регресионни остатъчни стойности и могат да бъдат анализирани с помощта на статистически методи.

Както беше отбелязано, OLS конструира регресионни оценки въз основа на минимизиране на сумата от квадратни отклонения или остатъци ε, така че е важно да се знаят техните свойства. За да се получат „добри“ оценки на OLS, е необходимо да бъдат изпълнени следните основни допускания относно остатъците на модела (1.1), наречени предположения на Гаус–Марков.

Първото предположение гласи, че очакваните регресионни остатъци са нула и предполага, че средно линията на регресия трябва да е вярна. Предположение 3 гласи, че всички регресионни остатъци имат една и съща дисперсия и се нарича предположение за хомоскедастичност, докато предположение 4 изключва всякаква форма на автокорелация между тях, т.е. предполага нулева корелация между различни регресионни остатъци. Взети заедно, тези предположения означават, че регресионните остатъци са некорелирани екстракти от популация с разпределение с нулева средна стойност и постоянна дисперсия.

Предположение 2 посочва независимостта на векторите на стойностите на независимата променлива и регресионните остатъци.

Известно е, че ако тези четири предположения са изпълнени, тогава Теорема на ГаусМаркова, което гласи, че в този случай OLS оценителят на b е най-добрата линейна безпристрастна оценка на параметъра β. Най-доброто от гледна точка на ефективност.

В допълнение към посочените допускания се въвежда още едно, което би ни позволило да формулираме показатели за точността на регресионното уравнение и неговите оценки. Тази предпоставка гласи, че остатъците трябва да следват нормално разпределение с нулева очаквана стойност и постоянна дисперсия.

По-нататък уравнението = а + bхние ще наречем примерното регресионно уравнение или просто регресионно уравнение, а неговите коефициенти, съответно, свободен член ( А) и коефициент на регресионно уравнение ( b).

Прехващащият член на регресионно уравнение обикновено не се интерпретира. Коефициентът на регресия показва колко средно ще се промени зависимата променлива (в нейните мерни единици), когато независимата променлива се промени с една единица от нейното измерване.

В същото време е необходимо да се има предвид, че разглежданите коефициенти са оценки на параметрите на регресионното уравнение =α + β хс всички произтичащи от това последствия, включително необходимостта от получаване на оценки за точността на регресионното уравнение и неговите параметри.

Нека разгледаме някои от тях.

Линейният регресионен модел е най-често използваният и най-изучаван в иконометрията. А именно, бяха изследвани свойствата на оценките на параметрите, получени чрез различни методи при предположения за вероятностните характеристики на факторите и случайните грешки на модела. Граничните (асимптотични) свойства на оценките на нелинейните модели също се извеждат въз основа на апроксимацията на последните от линейни модели. Трябва да се отбележи, че от иконометрична гледна точка линейността на параметрите е по-важна от линейността на факторите на модела.

Регресионен модел

къде са параметрите на модела, е случайната грешка на модела, нарича се линейна регресия, ако регресионната функция има формата

където са регресионни параметри (коефициенти), са регресори (моделни фактори), к— брой фактори на модела.

Коефициентите на линейна регресия показват скоростта на промяна на зависимата променлива за даден фактор, като другите фактори са фиксирани (в линеен модел тази скорост е постоянна):

Параметърът, за който няма фактори, често се нарича постоянен. Формално, това е стойността на функцията, когато всички фактори са нула. За аналитични цели е удобно да се приеме, че константата е параметър с „коефициент“, равен на 1 (или друга произволна константа, така че този „коефициент“ също се нарича константа). В този случай, ако преномерираме факторите и параметрите на оригиналния модел, като вземем това предвид (оставяйки обозначението на общия брой фактори - k), тогава линейната регресионна функция може да бъде записана в следната форма, която формално не съдържа константа:

където е векторът на регресорите, е векторът на колоната на параметрите (коефициентите).

Линейният модел може да бъде със или без константа. Тогава в това представяне първият фактор или е равен на единица, или съответно е обикновен фактор

Тестване на значимостта на регресията

Тестът на Фишер за регресионен модел отразява колко добре моделът обяснява общата дисперсия на зависимата променлива. Критерият се изчислява с помощта на уравнението:

Къде Р- коефициент на корелация;
f 1 и f 2 - брой степени на свобода.
Първата дроб в уравнението е равна на съотношението на обяснената към необяснимата дисперсия. Всяка от тези вариации се разделя на своята степен на свобода (втората дроб в израза). Брой степени на свобода на обяснената дисперсия f 1 е равен на броя на обяснителните променливи (например за линеен модел на формата Y=A*X+Bполучаваме f 1 =1). Брой степени на свобода на необяснима дисперсия f 2 = Н-к-1, където Н- брой експериментални точки, к- брой обяснителни променливи (например за модел Y=A*X+Bзаместител к=1).
Друг пример:
за линеен модел на формата Y=A 0 +А 1 *X 1 +А 2 *X 2, конструирана от 20 експериментални точки, получаваме f 1 =2 (две променливи X 1 и X 2), f 2 =20-2-1=17.
За да се провери значимостта на регресионното уравнение, изчислената стойност на критерия на Фишер се сравнява с табличната стойност, взета за броя на степените на свобода f 1 (по-голяма дисперсия) и f 2 (по-ниска дисперсия) при избраното ниво на значимост (обикновено 0,05). Ако изчисленият тест на Fisher е по-висок от табличния, тогава обяснената дисперсия е значително по-голяма от необяснената дисперсия и моделът е значим.

Коефициент на корелация и Е-критерият, заедно с параметрите на регресионния модел, обикновено се изчисляват в алгоритми, които имплементират