Хамгийн сайн регрессийн загварыг ямар үзүүлэлтээр сонгодог вэ? Хосолсон шугаман регрессийн загвар

05.07.2023

Заримдаа ийм зүйл тохиолддог: асуудлыг бараг арифметик аргаар шийдэж болно, гэхдээ хамгийн түрүүнд санаанд орж ирдэг зүйл бол бүх төрлийн Лебегийн интеграл, Бесселийн функцууд юм. Эндээс та хичээл зааж эхэлнэ мэдрэлийн сүлжээ, дараа нь та хэд хэдэн далд давхаргыг нэмж, нейроны тоо, идэвхжүүлэх функцийг туршиж үзээд SVM болон Random Forest-ийн талаар санаж, бүгдийг дахин эхлүүлнэ үү. Гэсэн хэдий ч статистикийн заах зугаа цэнгэлийн олон аргууд байдаг ч шугаман регресс нь түгээмэл хэрэгслүүдийн нэг хэвээр байна. Үүний урьдчилсан нөхцөлүүд байдаг бөгөөд тэдгээрийн хамгийн бага нь загварыг тайлбарлахдаа зөн совинтой байх явдал юм.

Хэд хэдэн томъёо

Хамгийн энгийн тохиолдолд шугаман загварыг дараах байдлаар илэрхийлж болно.

Y i = a 0 + a 1 x i + ε i

Энд 0 нь x i хувьсагч тэгтэй тэнцүү байх үед хамааралтай y i хэмжигдэхүүний математик хүлээлт; a 1 нь x i нэгээр өөрчлөгдөхөд y i хамааралтай хувьсагчийн хүлээгдэж буй өөрчлөлт (энэ коэффициентийг ½Σ(y i -ŷ i) 2 утга хамгийн бага байхаар сонгосон - энэ нь "үлдэгдэл функц" гэж нэрлэгддэг); ε i - санамсаргүй алдаа.
Энэ тохиолдолд a 1 ба 0 коэффициентийг Пирсон корреляцийн коэффициентээр илэрхийлж болно. стандарт хазайлтболон x ба y хувьсагчдын дундаж утгууд:

В 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Оношлогоо ба загварын алдаа

Загвар зөв байхын тулд Гаусс-Марковын нөхцлийг хангах шаардлагатай. Алдаа нь математикийн тэг хүлээлттэй ижил төстэй байх ёстой. Үлдэгдэл график e i = y i - ŷ i нь баригдсан загвар хэр хангалттай болохыг тодорхойлоход тусалдаг (e i-г ε i-ийн тооцоо гэж үзэж болно).
Энгийн шугаман хамаарлын y 1 ~ x (цаашид бүх жишээг хэлээр өгсөн) тохиолдолд үлдэгдлийн графикийг харцгаая. Р):

Нуугдсан текст

багц.үр(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Үлдэгдэл нь хэвтээ тэнхлэгийн дагуу их бага хэмжээгээр жигд тархсан нь "ямар ч хоёр ажиглалтын санамсаргүй хугацааны утгуудын хооронд системчилсэн хамаарал байхгүй" болохыг харуулж байна. Одоо яг шугаман биш шугаман загварт зориулж бүтээсэн ижил графикийг авч үзье.

Нуугдсан текст

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



y 2 ~ x графикаас харахад шугаман хамаарлыг таамаглаж болох мэт боловч үлдэгдэл нь хэв маягтай байгаа нь энд цэвэр шугаман регресс ажиллахгүй гэсэн үг юм. Энд гетероскедастик гэдэг нь яг юу гэсэн үг вэ:

Нуугдсан текст

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Ийм "хийлсэн" үлдэгдэл бүхий шугаман загвар нь зөв биш юм. Үлдэгдэл хэвийн тархсан тохиолдолд хүлээгдэж буй квантилуудын эсрэг үлдэгдлийн квантилуудыг зурах нь заримдаа ашигтай байдаг.

Нуугдсан текст

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



Хоёр дахь график нь үлдэгдлийн хэвийн байдлын таамаглалыг үгүйсгэж болохыг тодорхой харуулж байна (энэ нь загвар буруу болохыг дахин харуулж байна). Мөн ийм нөхцөл байдал байдаг:

Нуугдсан текст

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Энэ нь үр дүнг ихээхэн гажуудуулж, алдаатай дүгнэлтэд хүргэж болзошгүй "гадна" гэж нэрлэгддэг зүйл юм. R нь үүнийг илрүүлэх хэрэгсэлтэй - стандартчилсан хэмжүүр dfbetas болон hat утгуудыг ашиглан:
> round(dfbetas(fit4), 3) (Intercept) x4 1 15.987 -26.342 2 -0.131 0.062 3 -0.049 0.017 4 0.083 0.000 5 0.023 0.037 680.30.30. 0.027 0.055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0.810 0.012 0.011 0.010 0.013 0.014 0.013 0.014 0.010... 0.010
Таны харж байгаагаар x4 векторын эхний гишүүн нь бусадтай харьцуулахад регрессийн загварын параметрүүдэд мэдэгдэхүйц их нөлөө үзүүлдэг тул хэт давсан үзүүлэлт юм.

Олон регрессийн загвар сонгох

Мэдээжийн хэрэг, олон тооны регрессийн үед асуулт гарч ирнэ: бүх хувьсагчдыг харгалзан үзэх нь зүйтэй болов уу? Нэг талаараа энэ нь үнэ цэнэтэй юм шиг санагдаж байна, учир нь ... аливаа хувьсагч нь ашигтай мэдээлэл агуулсан байж болзошгүй. Нэмж дурдахад, хувьсагчдын тоог нэмэгдүүлснээр бид R2-ийг нэмэгдүүлдэг (дашрамд хэлэхэд энэ нь загварын чанарыг үнэлэхдээ энэ хэмжүүрийг найдвартай гэж үзэх боломжгүй юм). Нөгөө талаас, загварын нарийн төвөгтэй байдлын торгуулийг нэвтрүүлдэг AIC болон BIC гэх мэт зүйлсийг санах нь зүйтэй. Мэдээллийн шалгуурын үнэмлэхүй утга нь өөрөө утгагүй тул эдгээр утгыг хэд хэдэн загварт харьцуулах шаардлагатай: манай тохиолдолд өөр өөр тооны хувьсагчтай. Мэдээллийн шалгуур үзүүлэлтийн хамгийн бага утгатай загвар нь хамгийн сайн байх болно (хэдийгээр маргах зүйл байгаа ч гэсэн).
MASS номын сангаас АНУ-ын гэмт хэргийн мэдээллийн багцыг харцгаая:
номын сангийн(MASS) өгөгдөл(АНУ-ын гэмт хэрэг) stepAIC(lm(y~., data=UScrime))
Хамгийн бага AIC утгатай загвар нь дараах параметрүүдийг агуулна.
Дуудлага: lm(томьёо = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, өгөгдөл = UScrime) Коэффицентүүд: (Тасалгаа) M Ed Po1 M.F U1 U2 Ineq Prob -6426.101 9.332 18.012 10.238 - 10.237. 6.133 -3796.032
Тиймээс AIC-ийг харгалзан үзсэн оновчтой загвар нь:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Коэффициент: Тооцоолсон Std. Алдаа t утга Pr(>|t|) (Тасалгаа) -6426.101 1194.611 -5.379 4.04e-06 *** М 9.332 3.350 2.786 0.00828 ** Ред 18.012 По 5.274113.**. 55 2 6.613 8.26e-08 ** * М.Ф 2.234 1.360 1.642 0.10874 U1 -6.087 3.339 -1.823 0.07622 . U2 18.735 7.248 2.585 0.01371 * Ineq 6.133 1.396 4.394 8.63e-05 *** Проб -3796.032 1490.646 -2.547 0.01505 *Тэмдэг. кодууд: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘’ 1
Хэрэв та анхааралтай ажиглавал M.F ба U1 хувьсагчид нэлээд өндөр p-утгатай байгаа нь эдгээр хувьсагч нь тийм ч чухал биш гэдгийг бидэнд сануулж байх шиг байна. Гэхдээ p-утга нь статистик загварт тодорхой хувьсагчийн ач холбогдлыг үнэлэхэд нэлээд хоёрдмол утгатай хэмжүүр юм. Энэ баримтыг жишээгээр тодорхой харуулж байна:
өгөгдөл<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Тооцоолсон Std. Алдааны t утга Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.56139014e.- 7 .503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.0572405 -15 V7 1.0092041 0.1287784 7.836752 7.021785e-15 V8 0.9307010 0.1219609 7.631143 3.391212e-14 V9 444.96. 8.3 62082e-13 V10 0.9763194 0.0879140 11.105393 6.027585e-28
Хувьсагч бүрийн p-утгууд нь бараг тэг бөгөөд энэ шугаман загварт бүх хувьсагч чухал ач холбогдолтой гэж үзэж болно. Гэвч үнэн хэрэгтээ, хэрэв та үлдэгдлийг сайтар ажиглавал ийм зүйл гарч ирнэ.

Нуугдсан текст

plot(урьдчилан таамаглах(тохирох), оршин суух(тохируулах), pch=".")



Гэсэн хэдий ч өөр арга нь p-утгууд гол үүрэг гүйцэтгэдэг дисперсийн шинжилгээнд тулгуурладаг. M.F хувьсагчгүй загварыг зөвхөн AIC-ийг харгалзан бүтээсэн загвартай харьцуулъя.
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Вариацын шинжилгээ Хүснэгт 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Проб Загвар 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sq-ийн нийлбэр F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2.6978 0.1087
α=0.05-ийн ач холбогдлын түвшинд 0.1087-ийн P-утгыг өгснөөр бид өөр таамаглалыг дэмжсэн статистикийн ач холбогдолтой нотолгоо байхгүй гэж дүгнэж болно, өөрөөр хэлбэл. M.F нэмэлт хувьсагчтай загварыг дэмжсэн.

Хамгийн бага квадратын аргыг ашиглах.

Регрессийн загвар нь тодорхой хэв маягийг дүрсэлсэн бүх нийтийн функцүүдийн өргөн хүрээг нэгтгэдэг. Энэ тохиолдолд загвар бүтээхийн тулд судалж буй загварын шинж чанарын талаархи мэдлэгээс илүүтэйгээр хэмжсэн өгөгдлийг голчлон ашигладаг. Энэ загвар нь ихэвчлэн тайлбарлагддаггүй, гэхдээ илүү нарийвчлалтай байдаг. Энэ нь оновчтой загварыг бий болгоход ашигладаг олон тооны нэр дэвшигч загварууд эсвэл загварын өндөр төвөгтэй байдал зэргээр тайлбарлагддаг. Регрессийн загварын параметрүүдийг олох гэж нэрлэдэг загвар сургалт.

Регрессийн шинжилгээний сул тал: хэт бага төвөгтэй загвар нь алдаатай байж болох ба хэт их төвөгтэй загвар нь буруу байж болно. давтан сургасан.

Удирдлага, төлөвлөлтийн хувьд компьютерийн мөрөнд шилжүүлж болох хэд хэдэн ердийн ажлууд байдаг. Ийм программ хангамжийн хэрэглэгч ашигласан аппаратын цаад математикийг ч сайн мэдэхгүй байж болно. Тэрээр зөвхөн шийдэж буй асуудлын мөн чанарыг танилцуулж, анхны өгөгдлийг компьютерт бэлтгэж, оруулж, олж авсан үр дүнг тайлбарлах ёстой. Эдгээр зорилгоор ашиглах боломжтой програм хангамжийн бүтээгдэхүүн бол Ms Excel юм.

Хатагтай Excel бол зөвхөн тооцоолол хийх өгөгдөл, томъёо бүхий хүснэгт биш юм. Энэ нь өгөгдлийг визуал хэлбэрээр шинжлэх, харуулахад ашиглаж болох бүх нийтийн өгөгдөл боловсруулах систем юм.

Excel-ийн хамгийн түгээмэл хэрэглэгддэг функцүүдийн нэг бол өгөгдлийн экстраполяци юм - жишээлбэл, одоо байгаа бодит өгөгдөлд дүн шинжилгээ хийх, тэдгээрийн өөрчлөлтийн чиг хандлагыг үнэлэх, үүн дээр үндэслэн ирээдүйн богино хугацааны таамаглалыг гаргах. Энэ тохиолдолд өгөгдлийн шугаман экстраполяцийг хамгийн бага квадрат хазайлт дээр үндэслэн ашигладаг - өгөгдлийн шугаман хамаарлыг олдог бөгөөд энэ нь боломжтой бодит өгөгдөл ба харгалзах утгуудын хоорондын зөрүүгийн квадратуудын нийлбэрийг багасгах болно. шугаман чиг хандлагын шугам дээр (интерполяци эсвэл экстраполяцийн хамаарал). Олдсон харилцаанд үндэслэн судалж буй өгөгдлийн цувралын ирээдүйн хүлээгдэж буй утгын талаар үндэслэлтэй таамаглал дэвшүүлж болно.

Төлөвлөлт, менежментийн асуудлыг шийдвэрлэхийн тулд зарим хүчин зүйлсийн бусдаас хамааралтай байдлыг байнга харгалзан үзэх шаардлагатай байдаг.

Хамааралтай байдлыг илэрхийлэх янз бүрийн аргуудыг авч үзье.

Хэрэв хэмжигдэхүүнүүдийн хоорондын хамаарлыг математик хэлбэрээр илэрхийлж чадвал бид математик загвартай болно.


Математик загварМатематикийн хэлээр илэрхийлсэн зарим объектын (үйл явц) тоон шинж чанар, тэдгээрийн хоорондын холболтын багц юм.

Математик загваруудыг томьёо, тэгшитгэл эсвэл тэгшитгэлийн систем хэлбэрээр танилцуулж болно. Жишээлбэл, биетийн газарт унах хугацаа нь анхны өндрөөс хамаарах хамаарлыг томъёогоор тодорхойлно. Хэмжигдэхүүн хоорондын хамаарлыг илэрхийлэх бусад аргуудын жишээг харцгаая. хүснэгт болон график. Туршилтын үр дүнд үндэслэн бид хүснэгтийг эмхэтгэж, график зурсан (Зураг 1).

N (м) t (сек)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Зураг 1. Мэдээллийн хүснэгт ба график дүрслэл.

Бид хэмжигдэхүүнүүдийн хамаарлыг харуулах гурван аргыг авч үзсэн: функциональ (томьёо), хүснэгт болон график. Гэхдээ зөвхөн томьёог л бие нь газарт унах үйл явцын математик загвар гэж нэрлэж болно, учир нь томъёо нь бүх нийтийнх юм. Хүснэгт ба диаграмм (график) нь баримтуудыг тусгасан бөгөөд математик загвар нь тооцоолол хийх замаар таамаглал гаргах боломжийг олгодог.

Статистик мэдээлэл нь үргэлж ойролцоо, дундаж утгатай байдаг. Тиймээс тэдгээр нь үнэлгээний шинж чанартай байдаг. Гэсэн хэдий ч тэдгээр нь хэмжигдэхүүнүүдийн хамаарлын шинж чанарыг зөв тусгасан байдаг. Бас нэг чухал тэмдэглэл: статистикийн мэдээлэлд дүн шинжилгээ хийх замаар олж авсан үр дүнгийн найдвартай байдлыг хангахын тулд энэ өгөгдөл маш их байх ёстой.

Хүссэн функцийн график нь туршилтын өгөгдлийн диаграммын цэгүүдийн ойролцоо өнгөрөх ёстой. График нь эдгээр бүх цэгүүдээр яг дамждаг байхаар функцийг бүтээх нь утгагүй юм (Зураг 2). Нэгдүгээрт, ийм функцийн математик хэлбэр нь хэтэрхий төвөгтэй байж болно. Хоёрдугаарт, туршилтын утгууд нь ойролцоо байна гэж аль хэдийн хэлсэн.

Энэ нь шаардлагатай функцэд тавигдах үндсэн шаардлагыг бий болгодог.

Энэ нь цаашдын тооцоололд ашиглахад хангалттай энгийн байх ёстой;

Энэ функцийн график нь туршилтын цэгүүдийн ойролцоо өнгөрөх ёстой бөгөөд ингэснээр эдгээр цэгүүдийн графикаас хазайлт нь хамгийн бага бөгөөд жигд байна (Зураг 3).

Зураг 3. Туршилтын өгөгдөл дээр үндэслэн график хамаарлыг байгуулах хоёр хувилбар.

Графикийг Зураг 3(b)-д үзүүлсэн үр дүнд бий болсон функцийг статистикт ихэвчлэн регрессийн загвар гэж нэрлэдэг. Регрессийн загварнь нарийн төвөгтэй системийн тоон шинж чанаруудын хоорондын хамаарлыг тодорхойлдог функц юм.

Регрессийн загварыг олж авах нь хоёр үе шаттайгаар явагдана.

1. Функцийн төрлийг сонгох;

2. Функцийн параметрийн тооцоо.

Ихэнх тохиолдолд сонголтыг дараахь функцүүдийн дунд хийдэг.

y = ax + b - шугаман функц;

y = ax 2 + bx + c - квадрат функц;

y = aln(x) + b - логарифмын функц;

y = ae bx - экспоненциал функц;

y = ax b нь чадлын функц юм.

Хэрэв та санал болгож буй функцүүдийн аль нэгийг (ухамсартайгаар эсвэл санамсаргүй байдлаар) сонгосон бол дараагийн алхам нь параметрүүдийг (a, b, c гэх мэт) сонгох бөгөөд ингэснээр функцийг туршилтын цэгүүдэд аль болох ойрхон байрлуулна. Энэ зорилгод хамгийн бага квадратын арга (OLS) тохиромжтой. Үүний мөн чанар нь дараах байдалтай байна: шаардлагатай функцийг функцийн графикийн y координатаас бүх туршилтын цэгүүдийн у координатын квадрат хазайлтын нийлбэр хамгийн бага байхаар байгуулах ёстой.

Дараахь зүйлийг ойлгох нь чухал юм: хамгийн бага квадратын аргыг ашиглан өгөгдсөн туршилтын цэгүүдээс дурын функцийг байгуулж болно. Гэхдээ энэ нь бидний сэтгэлд нийцэх эсэх нь өөр асуулт - дагаж мөрдөх шалгуурын тухай асуудал юм. Зураг 4-т хамгийн бага квадратын аргаар бүтээгдсэн 3 функцийг үзүүлэв.

Зураг 4

Эдгээр тоонуудыг Ms Excel ашиглан олж авсан. Регрессийн загварын график гэж нэрлэдэг чиг хандлага(трэнд - чиглэл, хандлага).

Шугаман функцийн график нь шулуун шугам юм. OLS аргыг ашиглан олж авсан шулуун шугам нь нүүрстөрөгчийн дутуу ислийн агууламжаас үүдэлтэй өвчлөл нэмэгдэж байгааг харуулж байгаа боловч энэ графикаас харахад энэхүү өсөлтийн мөн чанарын талаар юу ч хэлэх нь хэцүү юм. Гэхдээ квадрат ба экспоненциал хандлага нь маш үнэмшилтэй байдаг.

Графикууд нь чиг хандлагыг бий болгосны үр дүнд олж авсан өөр утгыг агуулдаг. Үүнийг R2 гэж тодорхойлсон. Статистикт энэ хэмжигдэхүүнийг нэрлэдэг детерминизмын коэффициент.Энэ нь регрессийн загвар хэр амжилттай болохыг тодорхойлдог. Детерминизмын коэффициент нь үргэлж 0-ээс 1-ийн хооронд байна. Хэрэв энэ нь 1-тэй тэнцүү бол функц нь хүснэгтийн утгуудаар яг дамждаг, хэрэв 0 бол сонгосон төрлийн регрессийн загвар амжилтгүй болно. R2 нь 1-д ойртох тусам регрессийн загвар амжилттай болно.

Регрессийн загварын параметрүүдийг тооцоолохдоо хамгийн бага квадратын аргыг ашигладаг. Энэ арга нь хүснэгтийн математикийн арсеналд агуулагддаг.

Регрессийн математик загварыг олж авсны дараа бид тооцооллын тусламжтайгаар үйл явцыг урьдчилан таамаглах боломжтой. Одоо астма өвчний тохиолдлыг зөвхөн хэмжилтээр олж авсан нүүрстөрөгчийн дутуу ислийн агууламжийн утгууд төдийгүй бусад утгуудын хувьд тооцоолох боломжтой болсон. Энэ нь практик талаасаа маш чухал юм. Жишээлбэл, хэрэв хот агаар мандалд нүүрстөрөгчийн дутуу исэл ялгаруулах үйлдвэр барихаар төлөвлөж байгаа бол хийн боломжит концентрацийг тооцоолсноор энэ нь хотын оршин суугчдын астма өвчнөөр өвчлөхөд хэрхэн нөлөөлөхийг урьдчилан таамаглах боломжтой.

Регрессийн загвар ашиглан таамаглал гаргах хоёр арга бий. Хэрэв таамаглал нь бие даасан хувьсагчийн туршилтын утгуудын хүрээнд хийгдсэн бол (бидний тохиолдолд энэ нь нүүрстөрөгчийн дутуу ислийн концентрацийн утга юм - C) үүнийг гэж нэрлэдэг. үнэ цэнийг сэргээх.

Туршилтын өгөгдлөөс давсан таамаглал гэж нэрлэдэг экстраполяци.

Регрессийн загвартай байх нь хүснэгт ашиглан тооцоолол хийх замаар таамаглахад хялбар болгодог.

Хүснэгтийн процессор нь туршилтын өгөгдлөөс гадна чиг хандлагыг үргэлжлүүлэн графикаар экстраполяци хийх боломжтой болгодог. C = 7-д квадрат тренд ашиглах үед хэрхэн харагдахыг 5-р зурагт үзүүлэв.

Зураг 5

Зарим тохиолдолд та экстраполяци хийхдээ болгоомжтой байх хэрэгтэй. Аливаа регрессийн загварыг хэрэглэх боломж хязгаарлагдмал, ялангуяа туршилтын хүрээнээс гадуур байдаг.

Ном зүй.

1. Новиков Ф.А., Яценко А.Д.. Microsoft Office. S.-P .: BHV-Петербург, 2002. х.449-458

2. Semakin I.G., Henner E.K. Компьютерийн шинжлэх ухаан 11-р анги. М .: БИНОМ. Мэдлэгийн лаборатори, 2003 он х.102-117

Регресс гэж юу вэ?

Хоёр тасралтгүй хувьсагчийг авч үзье x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Хоёр хэмжээст тархалтын график дээр цэгүүдийг байрлуулж, бидэнд байгаа гэж хэлье шугаман хамаарал, хэрэв өгөгдлийг шулуун шугамаар ойролцоолсон бол.

Хэрэв бид үүнд итгэдэг бол y-аас хамаарна x, өөрчлөлтүүд y-ийн өөрчлөлтөөс болж үүсдэг x, бид регрессийн шугамыг тодорхойлж болно (регресс yдээр x), эдгээр хоёр хувьсагчийн хоорондох шугаман хамаарлыг хамгийн сайн тодорхойлдог.

Регресс гэдэг үгийн статистик хэрэглээ нь Сэр Фрэнсис Гальтон (1889)-ийн тайлбарласан дундаж утга руу регресс гэж нэрлэгддэг үзэгдлээс үүдэлтэй.

Хэдийгээр өндөр аавууд өндөр хүүтэй байдаг ч хөвгүүдийн дундаж өндөр нь өндөр аавынхаас намхан байдгийг тэрээр харуулсан. Хөвгүүдийн дундаж өндөр нь хүн амын бүх эцгийн дундаж өндөр рүү "буцаж", "учирсан". Тиймээс дунджаар өндөр аавууд намхан (гэхдээ нэлээд өндөр) хүүтэй, намхан аавууд өндөр (гэхдээ нэлээд намхан) хүүтэй байдаг.

Регрессийн шугам

Энгийн (хосоор) шугаман регрессийн шугамыг тооцоолох математикийн тэгшитгэл:

xбие даасан хувьсагч эсвэл урьдчилан таамаглагч гэж нэрлэдэг.

Ю- хамааралтай хувьсагч эсвэл хариултын хувьсагч. Энэ бол бидний хүлээж буй үнэ цэнэ юм y(дунджаар) хэрэв бид үнэ цэнийг мэддэг бол x, өөрөөр хэлбэл Энэ бол "урьдчилан таамагласан үнэ цэнэ" y»

  • а- үнэлгээний шугамын чөлөөт гишүүн (уулзвар); энэ бол утга учир юм Ю, Хэзээ x=0(Зураг 1).
  • б- тооцоолсон шугамын налуу буюу налуу; энэ нь хэмжээг илэрхийлнэ Юнэмэгдүүлбэл дунджаар нэмэгддэг xнэг нэгж тутамд.
  • аТэгээд бТооцоолсон шугамын регрессийн коэффициент гэж нэрлэдэг боловч энэ нэр томъёог зөвхөн ашигладаг б.

Хос шугаман регрессийг нэгээс олон бие даасан хувьсагчийг багтаахын тулд өргөтгөж болно; энэ тохиолдолд гэж нэрлэдэг олон регресс.

Зураг 1. a огтлолцол ба налуу b-ийг харуулсан шугаман регрессийн шугам (х нэг нэгжээр нэмэгдэхэд Y хэмжээ нэмэгдэнэ)

Хамгийн бага квадрат арга

Бид ажиглалтын түүврийг ашиглан регрессийн шинжилгээ хийдэг аТэгээд б- популяци дахь шугаман регрессийн шугамыг тодорхойлдог α ба β гэсэн үнэн (ерөнхий) параметрүүдийн түүврийн тооцоо.

Коэффициентийг тодорхойлох хамгийн энгийн арга аТэгээд ббайна хамгийн бага квадрат арга(MNC).

Үлдэгдлийг (шугамаас цэг бүрийн босоо зай, жишээлбэл, үлдэгдэл = ажиглагдсан) харах замаар тохирлыг үнэлдэг. y- урьдчилан таамагласан y, будаа. 2).

Үлдэгдэл квадратуудын нийлбэр хамгийн бага байхаар хамгийн сайн тохирох шугамыг сонгосон.

Цагаан будаа. 2. Цэг бүрийн хувьд үлдэгдэл дүрслэгдсэн (босоо тасархай шугам) шугаман регрессийн шугам.

Шугаман регрессийн таамаглал

Тиймээс, ажиглагдсан утга бүрийн хувьд үлдэгдэл нь зөрүүтэй тэнцүү бөгөөд үлдэгдэл бүр нь эерэг эсвэл сөрөг байж болно.

Та шугаман регрессийн цаана байгаа дараах таамаглалуудыг шалгахын тулд үлдэгдлийг ашиглаж болно.

  • Үлдэгдэл нь ихэвчлэн тэг дунджаар тархсан;

Хэрэв шугаман байдал, хэвийн байдал ба/эсвэл тогтмол дисперсийн таамаглал эргэлзээтэй байвал бид эдгээр таамаглалыг хангасан шинэ регрессийн шугамыг хувиргаж эсвэл тооцоолж болно (жишээлбэл, логарифмын хувиргалт ашиглах гэх мэт).

Аномаль утгууд (хачирхалтай) ба нөлөөллийн цэгүүд

"Нөлөөтэй" ажиглалт нь орхигдуулсан тохиолдолд нэг буюу хэд хэдэн загварын параметрийн тооцоог өөрчилдөг (өөрөөр хэлбэл налуу эсвэл огтлолцол).

Хэт хэтийн үзүүлэлт (өгөгдлийн багц дахь ихэнх утгуудтай нийцэхгүй байгаа ажиглалт) нь "нөлөөтэй" ажиглалт байж болох бөгөөд хоёр хувьсах тархалтын график эсвэл үлдэгдэл графикийг шалгах замаар хялбархан илрүүлж болно.

Гадны болон "нөлөөлөх" ажиглалтын (цэг) аль алинд нь загваруудыг оруулаагүй, оруулалгүйгээр ашигладаг бөгөөд тооцооллын өөрчлөлтөд (регрессийн коэффициент) анхаарлаа хандуулдаг.

Шинжилгээ хийхдээ та үл тоомсорлох нь олж авсан үр дүнд нөлөөлж болзошгүй тул хэт давсан үзүүлэлт эсвэл нөлөөллийн цэгүүдийг автоматаар хаяж болохгүй. Эдгээр гажуудлын шалтгааныг үргэлж судалж, дүн шинжилгээ хий.

Шугаман регрессийн таамаглал

Шугаман регрессийг байгуулахдаа регрессийн шугамын ерөнхий налуу β тэгтэй тэнцүү гэсэн тэг таамаглалыг шалгана.

Хэрэв шугамын налуу нь тэг байвал ба хоёрын хооронд шугаман хамаарал байхгүй: өөрчлөлт нь нөлөөлөхгүй

Жинхэнэ налуу нь тэг гэсэн тэг таамаглалыг шалгахын тулд та дараах алгоритмыг ашиглаж болно.

Коэффициентийн стандарт алдаа нь эрх чөлөөний зэрэгтэй тархалтад хамаарах харьцаатай тэнцүү туршилтын статистикийг тооцоол.


,

- үлдэгдлийн тархалтыг тооцоолох.

Ерөнхийдөө, хэрэв ач холбогдлын түвшинд хүрсэн бол тэг таамаглалыг үгүйсгэдэг.


хоёр талт туршилтын магадлалыг өгдөг эрх чөлөөний зэрэгтэй хуваарилалтын хувь хаана байна

Энэ нь 95% магадлалтай ерөнхий налууг агуулсан интервал юм.

Том түүврийн хувьд бид ойролцоогоор 1.96 утгатай байж болно (өөрөөр хэлбэл туршилтын статистик хэвийн тархалттай байх болно)

Шугаман регрессийн чанарыг үнэлэх: тодорхойлох коэффициент R 2

Шугаман хамаарлаас болоод бид энэ нь өөрчлөгдөнө гэж найдаж байна , мөн үүнийг регрессээс үүдэлтэй эсвэл тайлбарласан өөрчлөлт гэж нэрлэнэ. Үлдэгдэл өөрчлөлт нь аль болох бага байх ёстой.

Хэрэв энэ нь үнэн бол ихэнх өөрчлөлтийг регрессээр тайлбарлах бөгөөд цэгүүд нь регрессийн шугамд ойрхон байх болно, өөрөөр хэлбэл. мөр нь өгөгдөлд сайн тохирч байна.

Регрессээр тайлбарлагдах нийт дисперсийн эзлэх хувийг нэрлэнэ тодорхойлох коэффициент, ихэвчлэн хувиар илэрхийлж, тэмдэглэдэг R 2(хосолсон шугаман регрессийн хувьд энэ нь хэмжигдэхүүн юм r 2, корреляцийн коэффициентийн квадрат) нь регрессийн тэгшитгэлийн чанарыг субъектив байдлаар үнэлэх боломжийг олгодог.

Энэ ялгаа нь регрессээр тайлбарлах боломжгүй дисперсийн хувийг илэрхийлнэ.

Регрессийн шугамын тохирох байдлыг тодорхойлохын тулд бид субъектив дүгнэлтэд найдах ёстой.

Урьдчилан таамаглахад регрессийн шугамыг ашиглах

Та регрессийн шугамыг ашиглан ажиглалтын хязгаарын төгсгөлд байгаа утгын утгыг таамаглах боломжтой (эдгээр хязгаараас хэтрүүлэн бүү гарга).

Бид тухайн утгыг регрессийн шугамын тэгшитгэлд залгах замаар тодорхой утгатай ажиглалтын дундажийг таамагладаг.

Тиймээс, хэрэв бид урьдчилан таамаглах юм бол энэ таамагласан утга болон түүний стандарт алдааг ашиглан жинхэнэ популяцийн дундаж утгын итгэлцлийн интервалыг тооцоол.

Өөр өөр утгуудын хувьд энэ процедурыг давтах нь энэ шугамын итгэлийн хязгаарыг бий болгох боломжийг танд олгоно. Энэ нь жишээлбэл 95% итгэлийн түвшинд үнэн шугамыг агуулсан хамтлаг эсвэл хэсэг юм.

Энгийн регрессийн төлөвлөгөө

Энгийн регрессийн загвар нь нэг тасралтгүй таамаглагчийг агуулна. Хэрэв 7, 4, 9 гэх мэт таамаглагч P утгатай 3 ажиглалт байгаа бөгөөд дизайн нь эхний дарааллын P эффектийг агуулж байвал дизайны матриц X болно.

X1-ийн P-г ашиглан регрессийн тэгшитгэл нь байна

Y = b0 + b1 P

Хэрэв энгийн регрессийн загвар нь квадрат эффект гэх мэт P дээр илүү өндөр эрэмбийн нөлөөг агуулж байвал дизайны матриц дахь X1 баганын утгууд хоёр дахь зэрэгт нэмэгдэнэ.

тэгшитгэл нь хэлбэрийг авна

Y = b0 + b1 P2

Сигма-хязгаарлагдмал болон хэт параметртэй кодлох аргууд нь энгийн регрессийн загварууд болон зөвхөн тасралтгүй таамаглагчдыг агуулсан бусад загварт хамаарахгүй (учир нь ангилсан таамаглагч байдаггүй). Сонгосон кодчилолын аргаас үл хамааран тасралтгүй хувьсагчдын утгыг зохих ёсоор нэмэгдүүлж, X хувьсагчийн утга болгон ашигладаг. Энэ тохиолдолд дахин кодчилол хийхгүй. Нэмж дурдахад, регрессийн төлөвлөгөөг тайлбарлахдаа дизайны X матрицыг авч үзэхгүй байж, зөвхөн регрессийн тэгшитгэлтэй ажиллах боломжтой.

Жишээ нь: Энгийн регрессийн шинжилгээ

Энэ жишээнд хүснэгтэд үзүүлсэн өгөгдлийг ашигласан болно:

Цагаан будаа. 3. Анхны өгөгдлийн хүснэгт.

Санамсаргүй байдлаар сонгогдсон 30 мужийн 1960 болон 1970 оны хүн амын тооллогын харьцуулалтаас цуглуулсан мэдээлэл. Тойргийн нэрсийг ажиглалтын нэрээр толилуулж байна. Хувьсагч бүрийн талаарх мэдээллийг доор харуулав.

Цагаан будаа. 4. Хувьсах үзүүлэлтүүдийн хүснэгт.

Судалгааны асуудал

Энэ жишээний хувьд ядуурлын түвшин болон ядуурлын шугамаас доогуур байгаа гэр бүлийн хувь хэмжээг урьдчилан таамаглах зэрэг хоорондын хамаарлыг шинжлэх болно. Тиймээс бид 3 (Pt_Poor) хувьсагчийг хамааралтай хувьсагч гэж үзэх болно.

Бид таамаглал дэвшүүлж болно: хүн амын тоо, ядуурлын шугамаас доогуур байгаа гэр бүлийн эзлэх хувь нь хоорондоо холбоотой байдаг. Ядуурал нь гадагш чиглэсэн шилжилт хөдөлгөөнд хүргэдэг гэж үзэх нь үндэслэлтэй юм шиг санагддаг, тиймээс ядуурлын шугамаас доогуур хүмүүсийн хувь болон хүн амын өөрчлөлтийн хооронд сөрөг хамаарал байх болно. Тиймээс бид 1 (Pop_Chng) хувьсагчийг урьдчилан таамаглах хувьсагч гэж үзэх болно.

Үр дүнг харах

Регрессийн коэффициентүүд

Цагаан будаа. 5. Pop_Chng дээрх Pt_Poor-ийн регрессийн коэффициентүүд.

Pop_Chng мөр ба Парам баганын огтлолцол дээр. Pop_Chng дээрх Pt_Poor-ийн регрессийн стандарт бус коэффициент нь -0.40374. Энэ нь хүн амын нэг нэгж буурах тутамд ядуурлын түвшин .40374 болж нэмэгддэг гэсэн үг. Энэхүү стандарт бус коэффициентийн дээд ба доод (анхдагч) 95%-ийн итгэлийн хязгаарт тэгийг оруулаагүй тул регрессийн коэффициент нь p түвшинд чухал ач холбогдолтой.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Хувьсах тархалт

Өгөгдөл дэх хэт их хэтийн үзүүлэлтүүд байгаа тохиолдолд корреляцийн коэффициентүүд нь мэдэгдэхүйц хэтрүүлсэн эсвэл дутуу үнэлэгдэж болно. Pt_Poor хамааралтай хувьсагчийг дүүрэг тус бүрээр нь судалъя. Үүний тулд Pt_Poor хувьсагчийн гистограммыг байгуулъя.

Цагаан будаа. 6. Pt_Poor хувьсагчийн гистограмм.

Таны харж байгаагаар энэ хувьсагчийн тархалт нь ердийн тархалтаас эрс ялгаатай байна. Гэсэн хэдий ч хоёр мужид (баруун хоёр багана) ядуурлын шугамаас доогуур байгаа гэр бүлүүдийн хувь хэвийн тархалтаас доогуур байгаа хэдий ч тэд "хамгийн хүрээнд" байгаа бололтой.

Цагаан будаа. 7. Pt_Poor хувьсагчийн гистограмм.

Энэ дүгнэлт нь зарим талаараа субъектив юм. Үндсэн дүрэм бол ажиглалт (эсвэл ажиглалт) нь интервалд (стандарт хазайлтаас ± 3 дахин их) багтахгүй бол хэт давсан үзүүлэлтүүдийг харгалзан үзэх ёстой. Энэ тохиолдолд хүн амын гишүүдийн хоорондын хамааралд томоохон нөлөө үзүүлэхгүй байхын тулд хэт давтагдах болон үл хамаарах шинжилгээг давтан хийх нь зүйтэй.

Тархалтын график

Хэрэв таамаглалуудын аль нэг нь өгөгдсөн хувьсагчдын хоорондын хамаарлын талаархи априори бол түүнийг харгалзах тархалтын график дээр турших нь зүйтэй.

Цагаан будаа. 8. Тархалтын диаграм.

Тархалтын график нь хоёр хувьсагчийн хооронд тодорхой сөрөг хамаарлыг (-.65) харуулж байна. Энэ нь мөн регрессийн шугамын 95% -ийн итгэлцлийн интервалыг харуулж байна, өөрөөр хэлбэл, регрессийн шугам нь хоёр тасархай муруйны хооронд байх магадлал 95% байна.

Ач холбогдолын шалгуур

Цагаан будаа. 9. Ач холбогдолын шалгуурыг агуулсан хүснэгт.

Pop_Chng регрессийн коэффициентийн тест нь Pop_Chng нь Pt_Poor, p -тэй хүчтэй холбоотой болохыг баталж байна.<.001 .

Доод шугам

Энэ жишээ нь энгийн регрессийн загварыг хэрхэн шинжлэхийг харуулсан. Стандарт бус болон стандартчилагдсан регрессийн коэффициентүүдийн тайлбарыг мөн танилцуулав. Хамаарах хувьсагчийн хариу урвалын тархалтыг судлахын ач холбогдлын талаар ярилцаж, урьдчилан таамаглагч болон хамааралтай хувьсагчийн хоорондын хамаарлын чиглэл, хүчийг тодорхойлох аргачлалыг үзүүлэв.

Корреляцийн шинжилгээгээр хувьсагчдын хооронд статистикийн ач холбогдол бүхий хамаарал байгааг илрүүлж, тэдгээрийн ойр байдлын түвшинг үнэлсний дараа бид ихэвчлэн регрессийн шинжилгээ ашиглан тодорхой төрлийн хамаарлын математик тайлбар руу шилждэг.

Хоёр хувьсагчийн хоорондын хамаарал нь нэг хувьсагчийн хүлээгдэж буй (нөхцөлт дундаж) утгын хоорондох функциональ хамаарал юм. Хоёр хувьсагчийн хоорондох ийм хамаарлын тэгшитгэлийг регрессийн тэгшитгэл гэж нэрлэдэг. Хэрэв хоёр хувьсагч (нэг хамааралтай, нэг бие даасан) байвал регрессийг энгийн, хоёроос дээш бол олон хувьсагч гэж нэрлэдэг. Хэрэв хувьсагчдын хоорондын хамаарал шугаман байвал регрессийг шугаман, өөрөөр хэлбэл шугаман бус гэж нэрлэдэг.

Энгийн шугаман регрессийг нарийвчлан авч үзье. Ийм хамаарлын загварыг хэлбэрээр танилцуулж болно

y = α + β x + ε, (1.1)

Хаана цагт – хамааралтай хувьсагч (үр дүнгийн шинж чанар);

X – бие даасан хувьсагч (факторын шинж чанар);

α – регрессийн тэгшитгэлийн чөлөөт гишүүн буюу тогтмол;

β – регрессийн тэгшитгэлийн коэффициент;

ε - хамааралтай хувьсагчийн бодит утгуудын хазайлтыг тодорхойлдог санамсаргүй хэмжигдэхүүн цагт регрессийн тэгшитгэлийг ашиглан тооцоолсон загвар эсвэл онолын утгуудаас.

тайлбарлагч хувьсагч гэж таамаглаж байна X – үнэ цэнэ нь санамсаргүй биш, харин тайлбарлах боломжтой y - Санамсаргүй. Ирээдүйд энэ таамаглалыг арилгаж болно.

1.2.1. Хамгийн бага квадратын арга (LSM) ба түүний байр

α ба β нь түүврийн өгөгдөлд үндэслэн тооцох ёстой регрессийн загварын (1.1) параметрүүд юм. Түүврийн ижил өгөгдөл дээр үндэслэн ε-ийн хэлбэлзлийг тооцоолох хэрэгтэй. Ийм тооцоог тооцоолох нэг арга бол сонгодог хамгийн бага квадратын арга (OLS) юм. OLS-ийн мөн чанар нь хамааралтай хувьсагчийн бодит утгуудын квадрат хазайлтын нийлбэрийг багасгах явдал юм. цагт Тэдний нөхцөлт математик хүлээлтээс регрессийн тэгшитгэлээр тодорхойлогддог: = α + β x, ε-ийн математик хүлээлт тэгтэй тэнцүү гэсэн таамаглалаар. Хүлээгдэж буй үнэ цэнэ y-ээр тэмдэглэж, квадрат хазайлтын нийлбэрийг Q(.

Энд нийлбэрийг нийт хүн амын дунд хийдэг. Энэ нийлбэрийг квадратуудын үлдэгдэл нийлбэр гэж нэрлэдэг.

Параметрийн хувьд энэ функцийг багасгахын тулд бид Q()-г ялгах замаар олж авсан нэгдүгээр эрэмбийн нөхцлүүд рүү шилжинэ.

Дараа нь загвар (1.1)-ийн параметрүүдийг тооцоолохын тулд түүврийг агуулсан гэж үзье nхувьсагчийн хос утгууд (x i, y i), хаана би 1-ээс утгыг авна n (би=). Хэсэгчилсэн деривативуудыг тэгтэй тэнцүүлж, олонлогоос түүвэр рүү шилжих (параметрүүдийг тэдгээрийн тооцоогоор солих) бид α ба β параметрийн тооцоог тооцоолох ердийн тэгшитгэлийн системийг олж авдаг. Эдгээр тооцооллыг тус тус гэж нэрлэе А Тэгээд б . Бид дараах хэвийн тэгшитгэлийн системийг олж авна

Хэрэв тооцоолсон тэгшитгэлийг дараах байдлаар тэмдэглэвэл y = а + bx + д , Хаана д нь тодорхой түүвэрт харгалзах санамсаргүй хэмжигдэхүүн ε-ийн бодит байдлын нэг бол хэвийн тэгшитгэлийн системийн хаалтанд байгаа илэрхийлэл нь регрессийн тэгшитгэлийн үлдэгдэлээс өөр зүйл биш юм. д би = y бидараа нь энэ системийн эхний тэгшитгэл нь = 0 хэлбэртэй болно. Өөрөөр хэлбэл, үлдэгдлийн дундаж утга тэг байна. Тиймээс хэрэв регрессийн тэгшитгэл нь тогтмолыг агуулж байвал тооцоолсон тэгшитгэлийн үлдэгдлийн нийлбэр үргэлж тэг байна.

Энэхүү тэмдэглэгээний системийн хоёр дахь тэгшитгэл нь = 0, өөрөөр хэлбэл бие даасан хувьсагч ба үлдэгдлийн утгуудын векторууд нь ортогональ (бие даасан) байна.

Ийм тооцоог тооцоолох нэг томъёо энд байна.

а = – b, б = . (1.2)

Санамсаргүй хазайлтын дисперсийн шударга бус үнэлгээ нь дараахь хамаарлаас тооцсон үлдэгдэл дисперс гэдгийг бас мэддэг.

= .

Тэгэхээр шугаман хос регрессийн тооцоолсон загвар нь байна

y = а + bx + д, (1.3)

Энд e - хамааралтай хувьсагчийн бодит утгын хазайлт ажиглагдсан цагт = харьцаагаар тооцсон тооцоолсоноос а + bx .

ε ба хоёрын ялгаа дε нь санамсаргүй хэмжигдэхүүн бөгөөд түүний утгыг урьдчилан таамаглах боломжгүй, харин дажиглагдсан хазайлтын утгууд ( e = y–) ба эдгээр хазайлтыг регрессийн үлдэгдэл утгын популяциас санамсаргүй түүвэр гэж үзэж, статистикийн аргуудыг ашиглан дүн шинжилгээ хийж болно.

Өмнө дурьдсанчлан OLS нь квадрат хазайлт эсвэл үлдэгдэл ε-ийн нийлбэрийг багасгахад үндэслэн регрессийн тооцооллыг хийдэг тул тэдгээрийн шинж чанарыг мэдэх нь чухал юм. OLS-ийн "сайн" үнэлгээг авахын тулд Гаусс-Марковын таамаглал гэж нэрлэгддэг загварын (1.1) үлдэгдэлтэй холбоотой дараах үндсэн таамаглалуудыг хангасан байх шаардлагатай.

Эхний таамаглал нь хүлээгдэж буй регрессийн үлдэгдэл нь тэг бөгөөд дунджаар регрессийн шугам үнэн байх ёстой гэсэн үг юм. 3-р таамаглалд бүх регрессийн үлдэгдэл ижил дисперстэй байх ба ижил төстэй байдлын таамаглал гэж нэрлэгддэг бол 4-р таамаглал нь тэдгээрийн хоорондох автокорреляцийн аливаа хэлбэрийг хассан, өөрөөр хэлбэл өөр өөр регрессийн үлдэгдэл хоорондын 0 корреляцийг илтгэнэ. Эдгээр таамаглалыг нэгтгэж үзвэл, регрессийн үлдэгдэл нь тэг дундаж, тогтмол дисперстэй тархалттай популяциас хамааралгүй хандлагууд гэсэн үг юм.

2-р таамаглал нь бие даасан хувьсагчийн утгуудын векторуудын бие даасан байдал ба регрессийн үлдэгдлийг илэрхийлдэг.

Хэрэв эдгээр дөрвөн таамаглал хангагдсан бол энэ нь мэдэгдэж байна Гауссын теоремМаркова, энэ тохиолдолд b-ийн OLS үнэлэгч нь β параметрийн хамгийн сайн шугаман бус үнэлгээ юм. Үр ашгийн хувьд хамгийн шилдэг нь.

Тайлбарласан таамаглалаас гадна регрессийн тэгшитгэл ба түүний тооцооллын нарийвчлалын үзүүлэлтүүдийг томъёолох боломжийг олгодог өөр нэг таамаглалыг оруулсан болно. Энэ үндэслэл нь үлдэгдэл нь тэг хүлээгдэж буй утга, тогтмол хэлбэлзэлтэй хэвийн тархалтыг дагаж мөрдөх ёстой гэж заасан.

Дараахь тэгшитгэл нь = а + бxБид түүврийн регрессийн тэгшитгэл эсвэл зүгээр л регрессийн тэгшитгэл, түүний коэффициентийг чөлөөт нэр томъёо гэж нэрлэх болно ( А) ба регрессийн тэгшитгэлийн коэффициент ( б).

Регрессийн тэгшитгэлийн хөндлөнгийн гишүүнийг ихэвчлэн тайлбарладаггүй. Регрессийн коэффициент нь бие даасан хувьсагч хэмжлийн нэг нэгжээр өөрчлөгдөхөд хамааралтай хувьсагч (хэмжих нэгжээр) дунджаар хэр их өөрчлөгдөхийг харуулдаг.

Үүний зэрэгцээ авч үзэж буй коэффициентүүд нь =α + β регрессийн тэгшитгэлийн параметрүүдийн тооцоолол гэдгийг санах нь зүйтэй. xрегрессийн тэгшитгэл ба түүний параметрүүдийн нарийвчлалын тооцоог олж авах хэрэгцээг багтаасан бүх үр дагавартай.

Тэдгээрийн заримыг нь харцгаая.

Шугаман регрессийн загвар нь эконометрикт хамгийн өргөн хэрэглэгддэг бөгөөд хамгийн их судлагдсан загвар юм. Тухайлбал, хүчин зүйлийн магадлалын шинж чанар, загварын санамсаргүй алдааны талаархи таамаглалын дагуу янз бүрийн аргаар олж авсан параметрийн үнэлгээний шинж чанарыг судалсан. Шугаман бус загваруудын үнэлгээний хязгаарын (асимптотик) шинж чанарыг мөн шугаман загвараар ойртсоны үндсэн дээр гаргаж авдаг. Эконометрийн үүднээс авч үзвэл параметрийн шугаман байдал нь загварын хүчин зүйлсийн шугаман байдлаас илүү чухал гэдгийг тэмдэглэх нь зүйтэй.

Регрессийн загвар

Загварын параметрүүд хаана байна, загварын санамсаргүй алдаа, регрессийн функц нь хэлбэртэй байвал шугаман регресс гэнэ.

регрессийн параметрүүд (коэффицентүүд), регрессүүд (загвар хүчин зүйлүүд) к- загварын хүчин зүйлсийн тоо.

Шугаман регрессийн коэффициентүүд нь өгөгдсөн хүчин зүйлийн хамааралтай хувьсагчийн өөрчлөлтийн хурдыг харуулдаг ба бусад хүчин зүйлүүд тогтмол байдаг (шугаман загварт энэ хурд тогтмол байдаг):

Ямар ч хүчин зүйл байхгүй параметрийг ихэвчлэн дууддаг тогтмол. Албан ёсоор энэ нь бүх хүчин зүйлүүд тэг байх үеийн функцийн утга юм. Шинжилгээний зорилгоор тогтмол нь 1-тэй тэнцүү "хүчин зүйл" (эсвэл өөр дурын тогтмол, тиймээс энэ "хүчин зүйл"-ийг мөн тогтмол гэж нэрлэдэг) параметр гэж үзэх нь тохиромжтой. Энэ тохиолдолд, хэрэв бид үүнийг харгалзан анхны загварын хүчин зүйл, параметрүүдийг дахин дугаарлавал (нийт хүчин зүйлийн тоог тэмдэглэсэн - k) шугаман регрессийн функцийг дараах хэлбэрээр бичиж болно, энэ нь албан ёсоор биш юм. тогтмол агуулсан:

Энд регрессоруудын вектор, параметрийн баганын вектор (коэффициент).

Шугаман загвар нь тогтмол тоотой эсвэл тогтмолгүй байж болно. Дараа нь энэ дүрслэлд эхний хүчин зүйл нь нэгтэй тэнцүү эсвэл энгийн хүчин зүйл болно

Регрессийн ач холбогдлыг шалгах

Регрессийн загварт зориулсан Фишерийн тест нь тухайн загвар нь хамааралтай хувьсагчийн нийт дисперсийг хэр сайн тайлбарлаж байгааг харуулдаг. Шалгуурыг дараахь томъёогоор тооцоолно.

Хаана Р- корреляцийн коэффициент;
е 1 ба е 2 - эрх чөлөөний зэрэглэлийн тоо.
Тэгшитгэлийн эхний бутархай нь тайлбарласан ба тайлбарлагдаагүй дисперсийн харьцаатай тэнцүү байна. Эдгээр хэлбэлзэл бүрийг эрх чөлөөний зэрэглэлээр нь хуваана (илэрхийлэл дэх хоёр дахь хэсэг). Тайлбарласан дисперсийн чөлөөт байдлын зэрэглэлийн тоо е 1 нь тайлбарлагч хувьсагчдын тоотой тэнцүү байна (жишээлбэл, маягтын шугаман загварын хувьд Y=A*X+Bбид авдаг е 1 =1). Тайлбарлагдаагүй вариацын эрх чөлөөний зэрэглэлийн тоо е 2 = Н-к-1, хаана Н- туршилтын цэгүүдийн тоо, к-тайлбарлах хувьсагчдын тоо (жишээ нь загвар Y=A*X+Bорлуулах к=1).
Бас нэг жишээ:
хэлбэрийн шугаман загварын хувьд Ү=А 0 +А 1 *X 1 +А 2 *X 2, туршилтын 20 цэгээс бүтээгдсэн, бид олж авсан е 1 =2 (хоёр хувьсагч X 1 ба X 2), е 2 =20-2-1=17.
Регрессийн тэгшитгэлийн ач холбогдлыг шалгахын тулд Фишерийн шалгуурын тооцоолсон утгыг эрх чөлөөний зэрэглэлд авсан хүснэгтийн утгатай харьцуулна. е 1 (илүү том тархалт) ба еСонгосон ач холбогдлын түвшинд 2 (бага хэлбэлзэл) (ихэвчлэн 0.05). Хэрэв тооцоолсон Фишерийн тест нь хүснэгтэд үзүүлсэн тестээс өндөр байвал тайлбарласан дисперс нь тайлбарлагдаагүй дисперсээс хамаагүй их бөгөөд загвар нь ач холбогдолтой байна.

Корреляцийн коэффициент ба Ф- Шалгуурыг регрессийн загварын параметрүүдийн хамт ихэвчлэн алгоритмд тооцдог.