Pēc kādiem rādītājiem tiek izvēlēts labākais regresijas modelis? Pārī lineārās regresijas modelis

05.07.2023

Dažreiz tā notiek: problēmu var atrisināt gandrīz aritmētiski, bet pirmais, kas nāk prātā, ir visādi Lēbesga integrāļi un Besela funkcijas. Šeit jūs sākat mācīt neironu tīkls, tad pievienojat vēl pāris slēptos slāņus, eksperimentējiet ar neironu skaitu, aktivizācijas funkcijām, pēc tam atcerieties par SVM un Random Forest un sāciet visu no jauna. Un tomēr, neskatoties uz izklaidējošo statistikas mācību metožu pārpilnību, lineārā regresija joprojām ir viens no populārākajiem instrumentiem. Un tam ir priekšnoteikumi, no kuriem ne mazāk svarīgi ir modeļa interpretācijas intuitivitāte.

Dažas formulas

Vienkāršākajā gadījumā lineāro modeli var attēlot šādi:

Y i = a 0 + a 1 x i + ε i

kur a 0 ir atkarīgā mainīgā y i matemātiskā sagaidāmā vērtība, ja mainīgais x i ir vienāds ar nulli; a 1 ir paredzamās izmaiņas atkarīgajā mainīgajā y i, kad x i mainās par vienu (šis koeficients ir izvēlēts tā, lai vērtība ½Σ(y i -ŷ i) 2 būtu minimāla - tā ir tā sauktā “atlikuma funkcija”); ε i - nejauša kļūda.
Šajā gadījumā koeficientus a 1 un a 0 var izteikt ar Pīrsona korelācijas koeficientu, standarta novirzes un mainīgo x un y vidējās vērtības:

В 1 = kor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Diagnostikas un modeļa kļūdas

Lai modelis būtu pareizs, ir jāizpilda Gausa-Markova nosacījumi, t.i. kļūdām jābūt homoskedastiskām ar nulles matemātiskām cerībām. Atlikušais grafiks e i = y i - ŷ i palīdz noteikt, cik adekvāts ir konstruētais modelis (e i var uzskatīt par ε i aprēķinu).
Apskatīsim atlieku grafiku vienkāršas lineāras sakarības y 1 ~ x gadījumā (turpmāk visi piemēri doti valodā R):

Slēpts teksts

komplekts.sēkla(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Atlikumi ir vairāk vai mazāk vienmērīgi sadalīti pa horizontālo asi, norādot, ka “nav sistemātiskas attiecības starp nejaušā vārda vērtībām jebkuros divos novērojumos”. Tagad apskatīsim to pašu grafiku, kas izveidots lineāram modelim, kas patiesībā nav lineārs:

Slēpts teksts

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Pēc grafika y 2 ~ x šķiet, ka var pieņemt lineāru sakarību, bet atlikumiem ir paraugs, kas nozīmē, ka tīra lineārā regresija šeit nedarbosies. Lūk, ko patiesībā nozīmē heteroskedastiskums:

Slēpts teksts

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Lineārs modelis ar tik “uzpūstiem” atlikumiem nav pareizs. Dažreiz ir arī lietderīgi attēlot atlikuma kvantiles attiecībā pret kvantilēm, kas būtu sagaidāmas, ja atlikumi būtu normāli sadalīti:

Slēpts teksts

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



Otrais grafiks skaidri parāda, ka pieņēmumu par atlikumu normalitāti var noraidīt (kas atkal norāda, ka modelis ir nepareizs). Un ir arī šādas situācijas:

Slēpts teksts

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Tas ir tā sauktais “ārējais rādītājs”, kas var ievērojami izkropļot rezultātus un novest pie kļūdainiem secinājumiem. R ir līdzeklis, lai to atklātu - izmantojot standartizētu mērījumu dfbetas un hat vērtības:
> round(dfbetas(fit4), 3) (Intercept) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 5 0,023 0,034 5 - 0,8 . 0,027 0,055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Kā redzams, vektora x4 pirmajam loceklim ir manāmi lielāka ietekme uz regresijas modeļa parametriem nekā pārējiem, tātad ir izņēmums.

Modeļa izvēle daudzkārtējai regresijai

Protams, ar daudzkārtēju regresiju rodas jautājums: vai ir vērts ņemt vērā visus mainīgos? No vienas puses, šķiet, ka tas ir tā vērts, jo... jebkurš mainīgais potenciāli satur noderīgu informāciju. Turklāt, palielinot mainīgo lielumu skaitu, mēs palielinām R2 (starp citu, tieši tāpēc šo mērījumu nevar uzskatīt par ticamu, vērtējot modeļa kvalitāti). No otras puses, ir vērts paturēt prātā tādas lietas kā AIC un BIC, kas ievieš sodus par modeļa sarežģītību. Informācijas kritērija absolūtā vērtība pati par sevi nav jēga, tāpēc šīs vērtības ir jāsalīdzina vairākos modeļos: mūsu gadījumā ar dažādu mainīgo skaitu. Vislabākais būs modelis ar minimālo informācijas kritērija vērtību (lai gan ir par ko strīdēties).
Apskatīsim ASV noziedzības datu kopu no MASS bibliotēkas:
bibliotēkas(MASS) dati(UScrime) stepAIC(lm(y~., data=UScrime))
Modelim ar mazāko AIC vērtību ir šādi parametri:
Zvans: lm(formula = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, dati = UScrime) Koeficienti: (pārtveršana) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,235 -6235 -6235. 6,133 -3796,032
Tādējādi optimālais modelis, ņemot vērā AIC, būs:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Koeficienti: Estimate Std. Kļūdas t vērtība Pr(>|t|) (pārtveršana) -6426.101 1194.611 -5.379 4.04e-06 *** M 9.332 3.350 2.786 0.00828 ** Red. 18.012 5.275 .55 2 6.613 8.26e-08 ** * M.F 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. kodi: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘’ 1
Ja paskatās uzmanīgi, izrādās, ka mainīgajiem M.F un U1 ir diezgan augsta p vērtība, kas mums šķietami norāda uz to, ka šie mainīgie nav tik svarīgi. Taču p-vērtība ir diezgan neskaidrs rādītājs, novērtējot konkrēta mainīgā lieluma nozīmi statistikas modelī. Šo faktu skaidri parāda piemērs:
datus<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimate Std. Kļūdas t vērtība Pr(>|t|) V2 1,1912939 0,1401286 8,501431 3,325404e-17 V3 0,9354776 0,1271192 7,359057 2,56843 V2 1,40 7 .503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 0.1317248 8.05734205 -15 V7 1,0092041 0,1287784 7,836752 7,021785 e-15 V8 0,9307010 0,1219609 7,631143 3,391212e-14 V9 4878692 0.9307010. 8.3 62082e-13 V10 0.9763194 0.0879140 11.105393 6.027585e-28
Katra mainīgā p-vērtības ir praktiski nulle, un var pieņemt, ka šim lineārajam modelim ir svarīgi visi mainīgie. Bet patiesībā, ja paskatās uz mirstīgajām atliekām, tas izrādās apmēram šāds:

Slēpts teksts

plot(prognozēt(atbilst), resid(fit), pch=".")



Tomēr alternatīva pieeja balstās uz dispersijas analīzi, kurā p-vērtībām ir galvenā loma. Salīdzināsim modeli bez M.F mainīgā ar modeli, kas izveidots, ņemot vērā tikai AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
1. varianču tabulas modeļa analīze: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Model 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sum of Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Ņemot vērā P-vērtību 0,1087 pie nozīmīguma līmeņa α=0,05, varam secināt, ka nav statistiski nozīmīgu pierādījumu par labu alternatīvajai hipotēzei, t.i. par labu modelim ar papildu mainīgo M.F.

Izmantojot mazāko kvadrātu metodi.

Regresijas modelis apvieno plašu universālo funkciju klasi, kas apraksta noteiktu modeli. Šajā gadījumā, lai izveidotu modeli, galvenokārt tiek izmantoti izmērītie dati, nevis zināšanas par pētāmā modeļa īpašībām. Šis modelis bieži ir neinterpretējams, bet precīzāks. Tas ir izskaidrojams vai nu ar lielo kandidātu modeļu skaitu, kas tiek izmantots optimālā modeļa izveidošanai, vai ar modeļa lielo sarežģītību. Regresijas modeļa parametru atrašanu sauc modeļu apmācība.

Regresijas analīzes trūkumi: modeļi, kuriem ir pārāk maz sarežģītības, var būt neprecīzi, un modeļi, kuriem ir pārāk daudz sarežģītības, var būt pārkvalificēts.

Pārvaldībā un plānošanā ir vairāki tipiski uzdevumi, kurus var pārnest uz datora pleciem. Šādas programmatūras lietotājs var pat nezināt dziļi izmantotā aparāta matemātiku. Viņam jāuzrāda tikai risināmās problēmas būtība, jāsagatavo un jāievada datorā sākotnējie dati, kā arī jāinterpretē iegūtie rezultāti. Programmatūras produkts, ko var izmantot šiem nolūkiem, ir Ms Excel.

Ms Excel nav tikai izklājlapa ar datiem un aprēķinu formulām. Tā ir universāla datu apstrādes sistēma, ko var izmantot, lai analizētu un parādītu datus vizuālā formā.

Viena no visbiežāk izmantotajām Excel funkcijām ir datu ekstrapolācija – piemēram, lai analizētu esošos faktiskos datus, novērtētu to izmaiņu tendences un, pamatojoties uz to, iegūtu īstermiņa prognozi nākotnei. Šajā gadījumā tiek izmantota datu lineārā ekstrapolācija, pamatojoties uz mazāko kvadrātu novirzi - tiek atrasta datu lineāra atkarība, kas samazinātu atšķirību kvadrātu summu starp pieejamajiem faktiskajiem datiem un atbilstošajām vērtībām. uz lineārās tendences līnijas (interpolācijas vai ekstrapolācijas atkarība). Pamatojoties uz atrasto saistību, var izdarīt pamatotu pieņēmumu par pētāmo datu sērijas paredzamajām nākotnes vērtībām.

Lai pastāvīgi risinātu plānošanas un vadības problēmas, ir jāņem vērā dažu faktoru atkarība no citiem.

Apskatīsim dažādas atkarību attēlošanas metodes.

Ja attiecību starp lielumiem var attēlot matemātiskā formā, tad mums ir matemātiskais modelis.


Matemātiskais modelis ir kāda objekta (procesa) kvantitatīvo raksturlielumu kopums un sakarības starp tiem, kas pasniegts matemātikas valodā.

Matemātiskos modeļus var attēlot formulu, vienādojumu vai vienādojumu sistēmu veidā. Piemēram, ķermeņa nokrišanas zemē atkarība no sākotnējā augstuma ir aprakstīta ar formulu. Apskatīsim piemērus citiem veidiem, kā attēlot lielumu atkarības: tabulas un grafiskas. Pamatojoties uz eksperimenta rezultātiem, mēs sastādījām tabulu un uzzīmējām grafiku (1. attēls).

N (m) t (s)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

1. attēls. Datu tabulas un grafiskais attēlojums.

Mēs apskatījām trīs veidus, kā parādīt daudzumu atkarību: funkcionālo (formula), tabulu un grafisko. Bet tikai formulu var saukt par ķermeņa krišanas zemē procesa matemātisko modeli, jo formula ir universāla. Tabulā un diagrammā (grafikā) ir norādīti fakti, un matemātiskais modelis ļauj veikt prognozes, izmantojot aprēķinus.

Statistikas dati vienmēr ir aptuveni, vidēji. Tāpēc tiem ir vērtējošs raksturs. Tomēr tie pareizi atspoguļo daudzumu atkarības raksturu. Un vēl viena svarīga piezīme: lai statistikas datu analīzes rezultātā iegūtie rezultāti būtu ticami, šiem datiem ir jābūt daudz.

Vēlamās funkcijas grafikam jāiet tuvu eksperimentālo datu diagrammas punktiem. Nav jēgas konstruēt funkciju tā, lai tās grafiks precīzi iet cauri visiem šiem punktiem (2. attēls). Pirmkārt, šādas funkcijas matemātiskā forma var būt pārāk sarežģīta. Otrkārt, jau tika teikts, ka eksperimentālās vērtības ir aptuvenas.

Tas nozīmē nepieciešamās funkcijas pamatprasības:

Tam jābūt pietiekami vienkāršam, lai to izmantotu turpmākajos aprēķinos;

Šīs funkcijas grafikam jāiet tuvu eksperimentālajiem punktiem, lai šo punktu novirzes no grafika būtu minimālas un vienmērīgas (3. attēls).

3. attēls. Divas iespējas grafiskās atkarības konstruēšanai, pamatojoties uz eksperimentāliem datiem.

Iegūto funkciju, kuras grafiks ir parādīts 3. (b) attēlā, statistikā parasti sauc par regresijas modeli. Regresijas modelis ir funkcija, kas apraksta saistību starp sarežģītu sistēmu kvantitatīviem raksturlielumiem.

Regresijas modeļa iegūšana notiek divos posmos:

1. Funkcijas veida izvēle;

2. Funkciju parametru aprēķins.

Visbiežāk izvēle tiek veikta starp šādām funkcijām:

y = ax + b - lineāra funkcija;

y = ax 2 + bx + c - kvadrātfunkcija;

y = aln(x) + b - logaritmiskā funkcija;

y = ae bx - eksponenciāla funkcija;

y = ax b ir jaudas funkcija.

Ja esat izvēlējies (apzināti vai nejauši) kādu no piedāvātajām funkcijām, tad nākamais solis ir izvēlēties parametrus (a, b, c utt.), lai funkcija atrastos pēc iespējas tuvāk eksperimentālajiem punktiem. Šim nolūkam ir piemērota mazāko kvadrātu metode (OLS). Tās būtība ir šāda: vajadzīgā funkcija jākonstruē tā, lai visu eksperimentālo punktu y - koordinātu kvadrātu noviržu summa no funkcijas grafika y - koordinātām būtu minimāla.

Ir svarīgi saprast sekojošo: izmantojot mazāko kvadrātu metodi, no noteiktas eksperimentālo punktu kopas var izveidot jebkuru funkciju. Bet vai tas mūs apmierinās, tas ir cits jautājums – atbilstības kritērija jautājums. 4. attēlā parādītas 3 funkcijas, kas konstruētas, izmantojot mazāko kvadrātu metodi.

4. attēls

Šie skaitļi tika iegūti, izmantojot Ms Excel. Regresijas modeļa grafiku sauc tendence(tendence - virziens, tendence).

Lineāras funkcijas grafiks ir taisna līnija. Ar OLS metodi iegūtā taisne atspoguļo saslimstības pieauguma faktu no oglekļa monoksīda koncentrācijas, taču no šī grafika ir grūti kaut ko pateikt par šī pieauguma būtību. Taču kvadrātiskās un eksponenciālās tendences darbojas ļoti ticami.

Grafiki satur citu vērtību, kas iegūta būvniecības tendenču rezultātā. Tas ir apzīmēts ar R2. Statistikā šo lielumu sauc determinisma koeficients. Tieši tas nosaka, cik veiksmīgs būs regresijas modelis. Determinisma koeficients vienmēr ir robežās no 0 līdz 1. Ja tas ir vienāds ar 1, tad funkcija precīzi iet cauri tabulas vērtībām, ja 0, tad izvēlētais regresijas modeļa veids ir neveiksmīgs. Jo tuvāk R2 ir 1, jo veiksmīgāks ir regresijas modelis.

Regresijas modeļa parametru aprēķināšanai tiek izmantota mazāko kvadrātu metode. Šī metode ir iekļauta izklājlapu matemātiskajā arsenālā.

Iegūstot regresijas matemātisko modeli, procesu varam prognozēt ar aprēķinu palīdzību. Tagad astmas biežumu ir iespējams novērtēt ne tikai tām oglekļa monoksīda koncentrācijas vērtībām, kas iegūtas mērījumos, bet arī citām vērtībām. Tas ir ļoti svarīgi no praktiskā viedokļa. Piemēram, ja pilsēta plāno būvēt ražotni, kas atmosfērā izlaidīs tvana gāzi, tad, aprēķinot iespējamo gāzes koncentrāciju, var prognozēt, kā tas ietekmēs pilsētas iedzīvotāju saslimstību ar astmu.

Ir divi veidi, kā veikt prognozes, izmantojot regresijas modeli. Ja prognoze tiek veikta neatkarīgā mainīgā lieluma eksperimentālajās vērtībās (mūsu gadījumā tā ir oglekļa monoksīda koncentrācijas vērtība - C), tad to sauc vērtības atjaunošana.

Tiek saukta pareģošana, kas pārsniedz eksperimentālos datus ekstrapolācija.

Izmantojot regresijas modeli, ir viegli veikt prognozes, veicot aprēķinus, izmantojot izklājlapu.

Izklājlapu procesors ļauj ekstrapolēt grafiski, turpinot tendenci ārpus eksperimentālajiem datiem. Kā tas izskatās, izmantojot kvadrātisko tendenci C = 7, parādīts 5. attēlā.

5. attēls

Dažos gadījumos jums ir jābūt uzmanīgiem ar ekstrapolāciju. Jebkura regresijas modeļa pielietojamība ir ierobežota, īpaši ārpus eksperimentālās jomas.

Atsauces.

1. Novikovs F.A., Yatsenko A.D.. Microsoft Office. S.-P.: BHV-Pēterburga, 2002. gads. lpp.449-458

2. Semakins I.G., Henners E.K. Datorzinātne 11. klase. M.: BINOM. Zināšanu laboratorija, 2003 102.-117.lpp

Kas ir regresija?

Apsveriet divus nepārtrauktus mainīgos x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Novietosim punktus uz divdimensiju izkliedes diagrammas un sakām, ka mums ir lineāra sakarība, ja dati ir tuvināti ar taisnu līniju.

Ja mēs tam ticam y atkarīgs no x, un izmaiņas y ko izraisa tieši izmaiņas x, mēs varam noteikt regresijas līniju (regresiju y ieslēgts x), kas vislabāk raksturo lineāro attiecību starp šiem diviem mainīgajiem.

Vārda regresija statistiskā lietojuma pamatā ir parādība, kas pazīstama kā regresija pret vidējo, ko attiecina uz seru Frensisu Galtonu (1889).

Viņš parādīja, ka, lai gan gariem tēviem parasti ir gari dēli, dēlu vidējais augums ir īsāks nekā viņu garajiem tēviem. Dēlu vidējais augums "regresēja" un "virzījās atpakaļ" uz visu populācijas tēvu vidējo augumu. Tādējādi vidēji gariem tēviem ir īsāki (bet tomēr diezgan gari) dēli, bet īsiem tēviem – garāki (bet tomēr diezgan mazi) dēli.

Regresijas līnija

Matemātisks vienādojums, kas aprēķina vienkāršu (pāru) lineāro regresijas līniju:

x sauc par neatkarīgo mainīgo vai prognozētāju.

Y- atkarīgais mainīgais vai atbildes mainīgais. Tā ir vērtība, ko mēs sagaidām y(vidēji), ja mēs zinām vērtību x, t.i. šī ir "paredzamā vērtība" y»

  • a- vērtēšanas līnijas brīvais dalībnieks (krustojums); šī ir jēga Y, Kad x=0(1. att.).
  • b- paredzamās līnijas slīpums vai slīpums; tas atspoguļo summu, par kādu Y palielinās vidēji, ja mēs palielinām x uz vienu vienību.
  • a Un b tiek saukti par aprēķinātās līnijas regresijas koeficientiem, lai gan šo terminu bieži lieto tikai b.

Pāru lineāro regresiju var paplašināt, iekļaujot vairāk nekā vienu neatkarīgu mainīgo; šajā gadījumā tas ir pazīstams kā daudzkārtēja regresija.

1. att. Lineāra regresijas līnija, kas parāda krustpunktu a un slīpumu b (lielums Y palielinās, x palielinoties par vienu vienību)

Mazāko kvadrātu metode

Mēs veicam regresijas analīzi, izmantojot novērojumu paraugu, kur a Un b- patieso (vispārējo) parametru α un β izlases aplēses, kas nosaka lineārās regresijas līniju populācijā (vispārējā populācijā).

Vienkāršākā koeficientu noteikšanas metode a Un b ir mazāko kvadrātu metode(MNC).

Atbilstība tiek novērtēta, aplūkojot atlikumus (katra punkta vertikālais attālums no līnijas, piemēram, atlikums = novērots y- prognozēts y, Rīsi. 2).

Vislabākās atbilstības līnija ir izvēlēta tā, lai atlikuma kvadrātu summa būtu minimāla.

Rīsi. 2. Lineāra regresijas līnija ar atlikuma attēlojumu (vertikālas punktētas līnijas) katram punktam.

Lineārās regresijas pieņēmumi

Tātad katrai novērotajai vērtībai atlikums ir vienāds ar starpību, un atbilstošā paredzamā vērtība var būt pozitīva vai negatīva.

Varat izmantot atlikumus, lai pārbaudītu šādus lineārās regresijas pieņēmumus:

  • Atlikumus parasti sadala ar vidējo nulli;

Ja linearitātes, normalitātes un/vai nemainīgas dispersijas pieņēmumi ir apšaubāmi, mēs varam transformēt vai un aprēķināt jaunu regresijas taisni, kurai šie pieņēmumi ir izpildīti (piemēram, izmantot logaritmisko transformāciju utt.).

Anomālas vērtības (ārpuses) un ietekmes punkti

"Ietekmīgs" novērojums, ja tas tiek izlaists, maina vienu vai vairākus modeļa parametru aprēķinus (ti, slīpumu vai krustojumu).

Ārējais rādītājs (novērojums, kas neatbilst lielākajai daļai datu kopas vērtību) var būt "ietekmīgs" novērojums, un to var viegli noteikt vizuāli, pārbaudot divfaktoru izkliedes diagrammu vai atlikuma diagrammu.

Gan izņēmumiem, gan “ietekmīgiem” novērojumiem (punktiem) tiek izmantoti modeļi gan ar to iekļaušanu, gan bez tiem, un tiek pievērsta uzmanība aplēšu (regresijas koeficientu) izmaiņām.

Veicot analīzi, nevajadzētu automātiski izmest novirzes vai ietekmes punktus, jo vienkārši to ignorēšana var ietekmēt iegūtos rezultātus. Vienmēr izpētiet šo noviržu iemeslus un analizējiet tos.

Lineārās regresijas hipotēze

Konstruējot lineāro regresiju, tiek pārbaudīta nulles hipotēze, ka regresijas taisnes β vispārējais slīpums ir vienāds ar nulli.

Ja līnijas slīpums ir nulle, nav lineāras attiecības starp un: izmaiņas neietekmē

Lai pārbaudītu nulles hipotēzi, ka patiesais slīpums ir nulle, varat izmantot šādu algoritmu:

Aprēķināt testa statistiku, kas vienāda ar attiecību , kas ir pakļauta sadalījumam ar brīvības pakāpēm, kur koeficienta standartkļūda


,

- atlikumu izkliedes novērtējums.

Parasti, ja tiek sasniegts nozīmīguma līmenis, nulles hipotēze tiek noraidīta.


kur ir sadalījuma procentpunkts ar brīvības pakāpēm, kas dod divpusēja testa varbūtību

Šis ir intervāls, kas satur vispārējo slīpumu ar 95% varbūtību.

Piemēram, lieliem paraugiem mēs varam tuvināt ar vērtību 1,96 (tas ir, testa statistika parasti ir sadalīta normāli).

Lineārās regresijas kvalitātes novērtēšana: determinācijas koeficients R 2

Lineāro attiecību dēļ, un mēs sagaidām, ka tas mainās kā , un sauc to par variāciju, kas ir saistīta ar regresiju vai izskaidrojama ar to. Atlikušajai variācijai jābūt pēc iespējas mazākai.

Ja tā ir taisnība, tad lielākā daļa variāciju tiks izskaidrota ar regresiju, un punkti atradīsies tuvu regresijas taisnei, t.i. līnija labi atbilst datiem.

Tiek saukta kopējās dispersijas proporcija, kas izskaidrojama ar regresiju determinācijas koeficients, parasti izteikts procentos un apzīmēts R 2(pāru lineārajā regresijā tas ir daudzums r 2, korelācijas koeficienta kvadrāts), ļauj subjektīvi novērtēt regresijas vienādojuma kvalitāti.

Atšķirība atspoguļo dispersijas procentuālo daļu, ko nevar izskaidrot ar regresiju.

Lai noteiktu regresijas līnijas piemērotību, mums nav jāpaļaujas uz subjektīvu vērtējumu.

Regresijas līnijas izmantošana prognozei

Varat izmantot regresijas līniju, lai prognozētu vērtību no vērtības, kas atrodas novērotā diapazona beigās (nekad neekstrapolējiet ārpus šīm robežām).

Mēs prognozējam novērojamo vērtību vidējo vērtību, kurām ir noteikta vērtība, pievienojot šo vērtību regresijas līnijas vienādojumam.

Tātad, ja mēs prognozējam kā Izmantojiet šo prognozēto vērtību un tās standarta kļūdu, lai novērtētu ticamības intervālu patiesajam populācijas vidējam rādītājam.

Atkārtojot šo procedūru dažādām vērtībām, varat izveidot šīs rindas ticamības robežas. Šī ir josla vai apgabals, kas satur patieso līniju, piemēram, ar 95% ticamības līmeni.

Vienkārši regresijas plāni

Vienkārši regresijas modeļi satur vienu nepārtrauktu prognozētāju. Ja ir 3 novērojumi ar prognozēšanas vērtībām P, piemēram, 7, 4 un 9, un dizains ietver pirmās kārtas efektu P, tad dizaina matrica X būs

un regresijas vienādojums, izmantojot P X1 ir

Y = b0 + b1 P

Ja vienkāršs regresijas dizains satur augstākas kārtas efektu uz P, piemēram, kvadrātveida efektu, tad vērtības X1 kolonnā projektēšanas matricā tiks paaugstinātas līdz otrajai pakāpei:

un vienādojums pieņems formu

Y = b0 + b1 P2

Sigma ierobežotas un pārāk parametrizētas kodēšanas metodes neattiecas uz vienkāršiem regresijas modeļiem un citiem modeļiem, kas satur tikai nepārtrauktus prognozētājus (jo vienkārši nav kategorisku prognozētāju). Neatkarīgi no izvēlētās kodēšanas metodes nepārtraukto mainīgo vērtības tiek attiecīgi palielinātas un tiek izmantotas kā X mainīgo vērtības. Šajā gadījumā pārkodēšana netiek veikta. Turklāt, aprakstot regresijas plānus, varat neņemt vērā dizaina matricu X un strādāt tikai ar regresijas vienādojumu.

Piemērs: vienkārša regresijas analīze

Šajā piemērā izmantoti tabulā sniegtie dati:

Rīsi. 3. Sākotnējo datu tabula.

Dati apkopoti, salīdzinot 1960. un 1970. gada tautas skaitīšanu nejauši izvēlētos 30 novados. Novadu nosaukumi tiek uzrādīti kā novērojumu nosaukumi. Informācija par katru mainīgo ir sniegta zemāk:

Rīsi. 4. Mainīgo specifikāciju tabula.

Pētījuma problēma

Šajā piemērā tiks analizēta korelācija starp nabadzības līmeni un pakāpi, kas paredz to ģimeņu procentuālo daļu, kuras atrodas zem nabadzības sliekšņa. Tāpēc mainīgo 3 (Pt_Poor) uzskatīsim par atkarīgo mainīgo.

Var izvirzīt hipotēzi: iedzīvotāju skaita izmaiņas un to ģimeņu procentuālais daudzums, kuras atrodas zem nabadzības sliekšņa, ir saistītas. Šķiet pamatoti sagaidīt, ka nabadzība izraisa ārzemju migrāciju, tāpēc pastāv negatīva korelācija starp cilvēku procentuālo daļu zem nabadzības sliekšņa un iedzīvotāju skaita izmaiņām. Tāpēc mainīgo 1 (Pop_Chng) uzskatīsim par prognozēšanas mainīgo.

Skatīt rezultātus

Regresijas koeficienti

Rīsi. 5. Pt_Poor regresijas koeficienti uz Pop_Chng.

Rindas Pop_Chng un Param kolonnas krustojumā.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

nestandartizētais koeficients Pt_Poor regresijai uz Pop_Chng ir -0,40374. Tas nozīmē, ka uz katru iedzīvotāju skaita samazināšanos par vienu vienību palielinās nabadzības līmenis par 0,40374. Augšējā un apakšējā (noklusējuma) 95% ticamības robeža šim nestandartizētajam koeficientam neietver nulli, tāpēc regresijas koeficients ir nozīmīgs p līmenī.

Mainīgais sadalījums

Korelācijas koeficienti var kļūt ievērojami pārvērtēti vai nenovērtēti, ja datos ir lielas novirzes. Izpētīsim atkarīgā mainīgā Pt_Poor sadalījumu pa rajoniem. Lai to izdarītu, izveidosim mainīgā Pt_Poor histogrammu.

Rīsi. 6. Pt_Poor mainīgā histogramma.

Kā redzat, šī mainīgā sadalījums ievērojami atšķiras no parastā sadalījuma. Tomēr, lai gan pat divos apgabalos (divas labās slejas) ir lielāks ģimeņu procentuālais daudzums, kas atrodas zem nabadzības sliekšņa, nekā paredzēts normālā sadalījumā, šķiet, ka tās atrodas "diapazonā".

Rīsi. 7. Pt_Poor mainīgā histogramma.

Šis spriedums ir nedaudz subjektīvs. Īkšķis ir tāds, ka ir jāņem vērā novirzes, ja novērojums (vai novērojumi) neietilpst intervālā (vidēji ± 3 reizes lielāka par standarta novirzi). Šajā gadījumā ir vērts atkārtot analīzi ar un bez novirzēm, lai nodrošinātu, ka tām nav būtiskas ietekmes uz korelāciju starp populācijas locekļiem.

Izkliedes diagramma

Ja kāda no hipotēzēm a priori ir par saistību starp dotajiem mainīgajiem, tad lietderīgi to pārbaudīt atbilstošā izkliedes diagrammas grafikā.

Rīsi. 8. Izkliedes diagramma.

Izkliedes diagramma parāda skaidru negatīvu korelāciju (-.65) starp diviem mainīgajiem. Tas parāda arī 95% ticamības intervālu regresijas līnijai, t.i., pastāv 95% varbūtība, ka regresijas līnija atrodas starp divām punktētām līknēm.

Nozīmīguma kritēriji

Pop_Chng regresijas koeficienta tests apstiprina, ka Pop_Chng ir cieši saistīts ar Pt_Poor , p<.001 .

Apakšējā līnija

Šis piemērs parādīja, kā analizēt vienkāršu regresijas dizainu. Tika prezentētas arī nestandartizēto un standartizēto regresijas koeficientu interpretācijas. Tiek apspriesta atkarīgā mainīgā atbildes sadalījuma izpētes nozīme, kā arī parādīta metode, kā noteikt attiecības virzienu un stiprumu starp prognozētāju un atkarīgo mainīgo.

Pēc tam, kad korelācijas analīze ir atklājusi statistiski nozīmīgu sakarību esamību starp mainīgajiem lielumiem un novērtējusi to tuvuma pakāpi, mēs parasti pārejam pie noteikta veida attiecību matemātiskā apraksta, izmantojot regresijas analīzi.

Korelācija starp diviem mainīgajiem ir funkcionāla sakarība starp vienu mainīgo un otra sagaidāmo (nosacītā vidējo) vērtību. Šādas attiecības starp diviem mainīgajiem vienādojumu sauc par regresijas vienādojumu. Ja ir divi mainīgie (viens atkarīgais un viens neatkarīgais), tad regresiju sauc par vienkāršu, un, ja ir vairāk par diviem, tad par vairākkārtējiem. Ja attiecības starp mainīgajiem ir lineāras, tad regresiju sauc par lineāru, pretējā gadījumā to sauc par nelineāru.

Sīkāk aplūkosim vienkāršu lineāro regresiju. Šādas atkarības modeli var uzrādīt formā

y = α + β x + ε, (1.1)

Kur plkst – atkarīgais mainīgais (rezultatīvais atribūts);

X – neatkarīgais mainīgais (faktoriālais raksturlielums);

α – regresijas vienādojuma brīvais termins vai konstante;

β – regresijas vienādojuma koeficients;

ε – gadījuma lielums, kas raksturo atkarīgā mainīgā faktisko vērtību novirzes plkst no modeļa vai teorētiskajām vērtībām, kas aprēķinātas, izmantojot regresijas vienādojumu.

Tiek pieņemts, ka skaidrojošais mainīgais X – vērtība nav nejauša, bet gan izskaidrojama y - nejauši. Nākotnē šo pieņēmumu var noņemt.

1.2.1. Mazāko kvadrātu metode (LSM) un tās telpas

α un β ir regresijas modeļa (1.1) parametri, kas jānovērtē, pamatojoties uz izlases datiem. Pamatojoties uz tiem pašiem izlases datiem, jānovērtē dispersija ε. Viena no metodēm šādu aplēšu aprēķināšanai ir klasiskā mazāko kvadrātu metode (OLS). OLS būtība ir samazināt atkarīgā mainīgā faktisko vērtību kvadrātu noviržu summu. plkst no to nosacītajām matemātiskajām cerībām, ko nosaka regresijas vienādojums: = α + β x, pieņemot, ka ε matemātiskā cerība ir vienāda ar nulli. Gaidīšana y apzīmē ar, un kvadrātu noviržu summu ar Q(.

Šeit summēšana tiek veikta visā populācijā. Šo summu sauc par atlikušo kvadrātu summu.

Lai samazinātu šo funkciju parametru izteiksmē, mēs pievēršamies pirmās kārtas nosacījumiem, kas iegūti, diferencējot Q() attiecībā uz

Tālāk pieņemsim, ka, lai novērtētu modeļa (1.1) parametrus, paraugs satur n mainīgo vērtību pāri (x i ,y i), kur iņem vērtības no 1 līdz n (i=). Pielīdzinot daļējos atvasinājumus nullei un pārejot no kopas uz izlasi (parametrus aizstājot ar to aplēsēm), iegūstam normālu vienādojumu sistēmu parametru α un β aplēšu aprēķināšanai. Apzīmēsim šīs aplēses attiecīgi kā A Un b . Mēs iegūstam šādu normālo vienādojumu sistēmu

Ja aprēķinātais vienādojums ir apzīmēts kā y = a + bx + e , Kur e ir viena no konkrētam paraugam atbilstošā gadījuma lieluma ε realizācijām, tad normālo vienādojumu sistēmas izteiksme iekavās nav nekas vairāk kā regresijas vienādojuma atlikums e i = y i un tad šīs sistēmas pirmais vienādojums būs = 0. Tas nozīmē, ka atlikumu vidējā vērtība ir nulle. Tādējādi, ja regresijas vienādojumā ir konstante, tad aprēķinātā vienādojuma atlikumu summa vienmēr ir nulle.

Otrais sistēmas vienādojums šajā apzīmējumā dod = 0, t.i., neatkarīgā mainīgā lieluma un atlikuma vērtību vektori ir ortogonāli (neatkarīgi).

Šeit ir viena no formulām šādu aprēķinu aprēķināšanai:

a = – b, b = . (1.2)

Ir arī zināms, ka nejaušu noviržu dispersijas objektīvs novērtējums ir atlikušā dispersija, kas aprēķināta no attiecības:

= .

Tātad aprēķinātais lineārās pāru regresijas modelis ir

y = a + bx + e, (1.3)

kur e – atkarīgā mainīgā faktisko vērtību novērotās novirzes plkst no aprēķinātajiem, kurus aprēķina no koeficienta = a + bx .

Atšķirība starp ε un e ir tas, ka ε ir gadījuma lielums un nav iespējams paredzēt tā vērtības, kamēr e ir novērotās novirzes vērtības ( e = y–), un šīs novirzes var uzskatīt par nejaušu paraugu no regresijas atlikušo vērtību kopas, un tās var analizēt, izmantojot statistikas metodes.

Kā minēts, OLS konstruē regresijas aplēses, kuru pamatā ir kvadrātu noviržu vai atlikuma ε summas samazināšana, tāpēc ir svarīgi zināt to īpašības. Lai iegūtu “labus” OLS aprēķinus, ir jāievēro šādi pamata pieņēmumi par modeļa (1.1.) atlikumiem, ko sauc par Gausa–Markova pieņēmumiem.

Pirmais pieņēmums nosaka, ka paredzamie regresijas atlikumi ir nulle, un tas nozīmē, ka vidēji regresijas taisnei ir jābūt patiesai. 3. pieņēmums nosaka, ka visiem regresijas atlikumiem ir vienāda dispersija, un to sauc par homoskedastiskuma pieņēmumu, savukārt 4. pieņēmums izslēdz jebkāda veida autokorelāciju starp tiem, t.i., tas nozīmē nulles korelāciju starp dažādiem regresijas atlikumiem. Kopumā šie pieņēmumi nozīmē, ka regresijas atlikumi ir nekorelēti izvilkumi no populācijas ar sadalījumu ar nulles vidējo un nemainīgu dispersiju.

2. pieņēmums nosaka neatkarīgā mainīgā lieluma un regresijas atlikuma vērtību vektoru neatkarību.

Ir zināms, ka, ja šie četri pieņēmumi ir izpildīti, tad Gausa teorēmaMarkova, kurā teikts, ka šajā gadījumā b OLS novērtētājs ir labākais parametra β lineārais objektīvs novērtējums. Labākais efektivitātes ziņā.

Papildus izteiktajiem pieņēmumiem tiek ieviests vēl viens, kas ļautu formulēt regresijas vienādojuma un tā aplēšu precizitātes rādītājus. Šis priekšnoteikums nosaka, ka atlikumiem ir jāatbilst normālam sadalījumam ar nulles paredzamo vērtību un nemainīgu dispersiju.

Turpmāk vienādojums = a + bx parauga regresijas vienādojumu jeb vienkārši regresijas vienādojumu un tā koeficientus attiecīgi sauksim par brīvo terminu ( A) un regresijas vienādojuma koeficients ( b).

Regresijas vienādojuma pārtveršanas termins parasti netiek interpretēts. Regresijas koeficients parāda, cik vidēji mainīsies atkarīgais mainīgais (tā mērvienībās), kad neatkarīgais mainīgais mainīsies par vienu mērvienību.

Vienlaikus jāpatur prātā, ka aplūkojamie koeficienti ir regresijas vienādojuma =α + β parametru aprēķini. x ar visām no tā izrietošajām sekām, tostarp nepieciešamību iegūt regresijas vienādojuma un tā parametru precizitātes aplēses.

Apskatīsim dažus no tiem.

Lineārās regresijas modelis ir visizplatītākais un visvairāk pētītais ekonometrikā. Proti, tika pētītas ar dažādām metodēm iegūto parametru novērtējumu īpašības pie pieņēmumiem par faktoru varbūtības raksturlielumiem un modeļa nejaušajām kļūdām. Arī nelineāro modeļu aplēšu limita (asimptotiskās) īpašības tiek iegūtas, pamatojoties uz pēdējo aproksimāciju ar lineārajiem modeļiem. Jāņem vērā, ka no ekonometriskā viedokļa linearitāte parametros ir svarīgāka par linearitāti modeļa faktoros.

Regresijas modelis

kur ir modeļa parametri, vai modeļa nejaušā kļūda, ko sauc par lineāro regresiju, ja regresijas funkcijai ir forma

kur ir regresijas parametri (koeficienti), ir regresori (modeļa faktori), k— modeļa faktoru skaits.

Lineārās regresijas koeficienti parāda atkarīgā mainīgā lieluma izmaiņu ātrumu konkrētam faktoram, bet citi faktori ir fiksēti (lineārajā modelī šis ātrums ir nemainīgs):

Bieži tiek saukts parametrs, kuram nav faktoru nemainīgs. Formāli tā ir funkcijas vērtība, ja visi faktori ir nulle. Analītiskiem nolūkiem ir ērti pieņemt, ka konstante ir parametrs, kura “faktors” ir vienāds ar 1 (vai cita patvaļīga konstante, tāpēc šo “koeficientu” sauc arī par konstanti). Šajā gadījumā, ja mēs pārnumurējam sākotnējā modeļa faktorus un parametrus, ņemot to vērā (atstājot kopējo faktoru skaita apzīmējumu - k), tad lineārās regresijas funkciju var uzrakstīt šādā formā, kas formāli nav satur konstanti:

kur ir regresoru vektors, ir parametru (koeficientu) kolonnas vektors.

Lineārais modelis var būt ar konstanti vai bez tās. Tad šajā attēlojumā pirmais koeficients ir attiecīgi vai nu vienāds ar vienu, vai arī ir parasts faktors

Regresijas nozīmīguma pārbaude

Fišera tests regresijas modelim atspoguļo to, cik labi modelis izskaidro atkarīgā mainīgā kopējo dispersiju. Kritērijs tiek aprēķināts, izmantojot vienādojumu:

Kur R- korelācijas koeficients;
f 1 un f 2 - brīvības pakāpju skaits.
Pirmā daļa vienādojumā ir vienāda ar izskaidrotās un neizskaidrojamās dispersijas attiecību. Katra no šīm dispersijām tiek dalīta pēc tās brīvības pakāpes (izteiksmes otrā daļa). Izskaidrotās dispersijas brīvības pakāpju skaits f 1 ir vienāds ar skaidrojošo mainīgo skaitu (piemēram, formas lineāram modelim Y=A*X+B mēs saņemam f 1 = 1). Neizskaidrojamas dispersijas brīvības pakāpju skaits f 2 = N-k-1, kur N- eksperimentālo punktu skaits, k-skaidrojošo mainīgo skaits (piemēram, modelim Y=A*X+B aizstājējs k=1).
Vēl viens piemērs:
formas lineāram modelim Y=A 0 +A 1 *X 1 +A 2 *X 2, kas konstruēts no 20 eksperimentālajiem punktiem, mēs iegūstam f 1 = 2 (divi mainīgie X 1 un X 2), f 2 =20-2-1=17.
Lai pārbaudītu regresijas vienādojuma nozīmīgumu, Fišera kritērija aprēķinātā vērtība tiek salīdzināta ar brīvības pakāpju skaitam tabulēto vērtību. f 1 (lielāka dispersija) un f 2 (mazāka dispersija) izvēlētajā nozīmīguma līmenī (parasti 0,05). Ja aprēķinātais Fišera tests ir augstāks par tabulēto, tad izskaidrotā dispersija ir ievērojami lielāka par neizskaidrojamo dispersiju, un modelis ir nozīmīgs.

Korelācijas koeficients un F-kritēriju kopā ar regresijas modeļa parametriem parasti aprēķina algoritmos, kas īsteno