Με ποιους δείκτες επιλέγεται το καλύτερο μοντέλο παλινδρόμησης; Μοντέλο ζευγαρωμένης γραμμικής παλινδρόμησης

05.07.2023

Μερικές φορές συμβαίνει αυτό: το πρόβλημα μπορεί να λυθεί σχεδόν αριθμητικά, αλλά το πρώτο πράγμα που έρχεται στο μυαλό είναι όλα τα ολοκληρώματα Lebesgue και οι συναρτήσεις Bessel. Εδώ ξεκινάς τη διδασκαλία νευρικό σύστημα, μετά προσθέτετε μερικά ακόμη κρυφά επίπεδα, πειραματίζεστε με τον αριθμό των νευρώνων, τις συναρτήσεις ενεργοποίησης, μετά θυμάστε το SVM και το Random Forest και ξεκινήστε από την αρχή. Και όμως, παρά την αφθονία των ψυχαγωγικών μεθόδων στατιστικής διδασκαλίας, η γραμμική παλινδρόμηση παραμένει ένα από τα δημοφιλή εργαλεία. Και υπάρχουν προϋποθέσεις για αυτό, μεταξύ των οποίων η διαισθητική ερμηνεία του μοντέλου.

Μερικές φόρμουλες

Στην απλούστερη περίπτωση, το γραμμικό μοντέλο μπορεί να αναπαρασταθεί ως εξής:

Y i = a 0 + a 1 x i + ε i

Όπου a 0 είναι η μαθηματική προσδοκία της εξαρτημένης μεταβλητής y i όταν η μεταβλητή x i είναι ίση με μηδέν. a 1 είναι η αναμενόμενη αλλαγή στην εξαρτημένη μεταβλητή y i όταν το x i αλλάζει κατά ένα (αυτός ο συντελεστής επιλέγεται έτσι ώστε η τιμή ½Σ(y i -ŷ i) 2 να είναι ελάχιστη - αυτή είναι η λεγόμενη "υπολειπόμενη συνάρτηση"). ε i - τυχαίο σφάλμα.
Στην περίπτωση αυτή, οι συντελεστές a 1 και a 0 μπορούν να εκφραστούν μέσω του συντελεστή συσχέτισης Pearson, τυπικές αποκλίσειςκαι οι μέσες τιμές των μεταβλητών x και y:

В 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Διαγνωστικά και σφάλματα μοντέλου

Για να είναι το μοντέλο σωστό, είναι απαραίτητο να πληρούνται οι συνθήκες Gauss-Markov, δηλ. Τα λάθη πρέπει να είναι ομοσκεδαστικά με μηδενική μαθηματική προσδοκία. Το υπολειπόμενο διάγραμμα e i = y i - ŷ i βοηθά στον προσδιορισμό του πόσο επαρκές είναι το κατασκευασμένο μοντέλο (το e i μπορεί να θεωρηθεί εκτίμηση του ε i).
Ας δούμε το γράφημα των υπολειμμάτων στην περίπτωση μιας απλής γραμμικής σχέσης y 1 ~ x (εφεξής όλα τα παραδείγματα δίνονται στη γλώσσα R):

Κρυφό κείμενο

set.seed(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Τα υπολείμματα είναι λίγο πολύ ομοιόμορφα κατανεμημένα κατά μήκος του οριζόντιου άξονα, υποδεικνύοντας «καμία συστηματική σχέση μεταξύ των τιμών του τυχαίου όρου σε οποιαδήποτε δύο παρατηρήσεις». Τώρα ας εξετάσουμε το ίδιο γράφημα, αλλά κατασκευασμένο για ένα γραμμικό μοντέλο, το οποίο στην πραγματικότητα δεν είναι γραμμικό:

Κρυφό κείμενο

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Σύμφωνα με το γράφημα y 2 ~ x, φαίνεται ότι μπορεί να υποτεθεί μια γραμμική σχέση, αλλά τα υπολείμματα έχουν ένα μοτίβο, που σημαίνει ότι η καθαρή γραμμική παλινδρόμηση δεν θα λειτουργήσει εδώ. Να τι σημαίνει στην πραγματικότητα ετεροσκεδαστικότητα:

Κρυφό κείμενο

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Ένα γραμμικό μοντέλο με τέτοια «φουσκωμένα» υπολείμματα δεν είναι σωστό. Μερικές φορές είναι επίσης χρήσιμο να γραφούν τα ποσοστά των υπολειμμάτων σε σχέση με τα ποσοστά που θα αναμένονταν εάν τα υπολείμματα ήταν κανονικά κατανεμημένα:

Κρυφό κείμενο

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



Το δεύτερο γράφημα δείχνει ξεκάθαρα ότι η υπόθεση της κανονικότητας των υπολειμμάτων μπορεί να απορριφθεί (κάτι που υποδεικνύει και πάλι ότι το μοντέλο είναι λανθασμένο). Και υπάρχουν και τέτοιες καταστάσεις:

Κρυφό κείμενο

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Αυτό είναι το λεγόμενο "outlier", το οποίο μπορεί να στρεβλώσει σε μεγάλο βαθμό τα αποτελέσματα και να οδηγήσει σε λανθασμένα συμπεράσματα. Το R έχει ένα μέσο για τον εντοπισμό του - χρησιμοποιώντας το τυποποιημένο μέτρο dfbetas και τιμές καπέλου:
> round(dfbetas(fit4), 3) (Intercept) x4 1 15.987 -26.342 2 -0.131 0.062 3 -0.049 0.017 4 0.083 0.000 5 0.023 0.037 0.037 6.000 ,027 0,055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Όπως μπορείτε να δείτε, ο πρώτος όρος του διανύσματος x4 έχει αισθητά μεγαλύτερη επιρροή στις παραμέτρους του μοντέλου παλινδρόμησης από τους άλλους, άρα είναι ακραίος.

Επιλογή μοντέλου για πολλαπλή παλινδρόμηση

Φυσικά, με την πολλαπλή παλινδρόμηση, τίθεται το ερώτημα: αξίζει να ληφθούν υπόψη όλες οι μεταβλητές; Από τη μια πλευρά, φαίνεται ότι αξίζει τον κόπο, γιατί... οποιαδήποτε μεταβλητή φέρει ενδεχομένως χρήσιμες πληροφορίες. Επιπλέον, αυξάνοντας τον αριθμό των μεταβλητών, αυξάνουμε το R2 (παρεμπιπτόντως, αυτός είναι ακριβώς ο λόγος που αυτό το μέτρο δεν μπορεί να θεωρηθεί αξιόπιστο κατά την αξιολόγηση της ποιότητας του μοντέλου). Από την άλλη πλευρά, αξίζει να έχετε κατά νου πράγματα όπως το AIC και το BIC, που εισάγουν κυρώσεις για την πολυπλοκότητα του μοντέλου. Η απόλυτη τιμή του κριτηρίου πληροφοριών από μόνη της δεν έχει νόημα, επομένως είναι απαραίτητο να συγκρίνουμε αυτές τις τιμές σε διάφορα μοντέλα: στην περίπτωσή μας, με διαφορετικούς αριθμούς μεταβλητών. Το μοντέλο με την ελάχιστη τιμή κριτηρίου πληροφοριών θα είναι το καλύτερο (αν και υπάρχει κάτι για το οποίο πρέπει να διαφωνήσουμε).
Ας δούμε το σύνολο δεδομένων UScrime από τη βιβλιοθήκη MASS:
βιβλιοθήκη (ΜΑΖΑ) δεδομένα (UScrime) stepAIC(lm(y~., data=UScrime))
Το μοντέλο με τη μικρότερη τιμή AIC έχει τις ακόλουθες παραμέτρους:
Κλήση: lm(τύπος = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, δεδομένα = UScrime) Συντελεστές: (Intercept) M Ed Po1 M.F U1 U2 Ineq Prob -6426.101 9.332 18.012 18.012 18.012 10.015 -20.74. 6.133 -3796.032
Έτσι, το βέλτιστο μοντέλο λαμβάνοντας υπόψη το AIC θα είναι:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Συντελεστές: Εκτίμηση Στ. Σφάλμα t τιμή Pr(>|t|) (Intercept) -6426.101 1194.611 -5.379 4.04e-06 *** M 9.332 3.350 2.786 0.00828 ** Έκδοση 18.012 5.2140 5.2140 2 6.613 8.26e-08 ** * M.F 2.234 1.360 1.642 0.10874 U1 -6.087 3.339 -1.823 0.07622. U2 18.735 7.248 2.585 0.01371 * Ineq 6.133 1.396 4.394 8.63e-05 *** Prob -3796.032 1490.646 -2.547 0.01505 κωδικοί: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘’ 1
Αν κοιτάξετε προσεκτικά, αποδεικνύεται ότι οι μεταβλητές M.F και U1 έχουν μια αρκετά υψηλή τιμή p, η οποία φαίνεται να μας υπονοεί ότι αυτές οι μεταβλητές δεν είναι τόσο σημαντικές. Αλλά η τιμή p είναι ένα μάλλον διφορούμενο μέτρο κατά την αξιολόγηση της σημασίας μιας συγκεκριμένης μεταβλητής για ένα στατιστικό μοντέλο. Το γεγονός αυτό αποδεικνύεται ξεκάθαρα από ένα παράδειγμα:
δεδομένα<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Εκτίμηση Std. Σφάλμα t τιμή Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.5131432e 2.568432e. 7 .503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.01424 8.01420 -15 V7 1,0092041 0,1287784 7,836752 7,021785e-15 V8 0,9307010 0,1219609 7,631143 3,391212e-14 24914788. 8,3 62082e-13 V10 0,9763194 0,0879140 11,105393 6,027585e-28
Οι τιμές p κάθε μεταβλητής είναι πρακτικά μηδενικές και μπορεί να υποτεθεί ότι όλες οι μεταβλητές είναι σημαντικές για αυτό το γραμμικό μοντέλο. Αλλά στην πραγματικότητα, αν κοιτάξετε προσεκτικά τα υπολείμματα, αποδεικνύεται κάπως έτσι:

Κρυφό κείμενο

plot(πρόβλεψη(ταιριάζουν), υπόλοιπη(ταιριάζουν), pch=".")



Ωστόσο, μια εναλλακτική προσέγγιση βασίζεται στην ανάλυση διακύμανσης, στην οποία οι τιμές p διαδραματίζουν βασικό ρόλο. Ας συγκρίνουμε το μοντέλο χωρίς τη μεταβλητή M.F με το μοντέλο που κατασκευάστηκε λαμβάνοντας υπόψη μόνο το AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Ανάλυση του πίνακα διακύμανσης Μοντέλο 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Μοντέλο 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Άθροισμα τ.μ. F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2.6978 0.1087
Με δεδομένη τιμή P 0,1087 σε επίπεδο σημαντικότητας α=0,05, μπορούμε να συμπεράνουμε ότι δεν υπάρχει στατιστικά σημαντική ένδειξη υπέρ της εναλλακτικής υπόθεσης, δηλ. υπέρ του μοντέλου με την πρόσθετη μεταβλητή Μ.Φ.

Χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

Το μοντέλο παλινδρόμησης συνδυάζει μια ευρεία κατηγορία καθολικών συναρτήσεων που περιγράφουν ένα συγκεκριμένο μοτίβο. Σε αυτή την περίπτωση, για την κατασκευή ενός μοντέλου, χρησιμοποιούνται κυρίως δεδομένα μέτρησης, αντί για γνώση των ιδιοτήτων του υπό μελέτη προτύπου. Αυτό το μοντέλο είναι συχνά μη ερμηνεύσιμο, αλλά πιο ακριβές. Αυτό εξηγείται είτε από τον μεγάλο αριθμό υποψήφιων μοντέλων που χρησιμοποιούνται για την κατασκευή του βέλτιστου μοντέλου, είτε από την υψηλή πολυπλοκότητα του μοντέλου. Η εύρεση των παραμέτρων ενός μοντέλου παλινδρόμησης ονομάζεται μοντέλο εκπαίδευσης.

Μειονεκτήματα της ανάλυσης παλινδρόμησης: τα μοντέλα που έχουν πολύ μικρή πολυπλοκότητα μπορεί να είναι ανακριβή και τα μοντέλα που έχουν υπερβολική πολυπλοκότητα μπορεί να είναι επανεκπαιδεύτηκε.

Στη διαχείριση και τον προγραμματισμό, υπάρχουν ορισμένες τυπικές εργασίες που μπορούν να μεταφερθούν στους ώμους ενός υπολογιστή. Ο χρήστης τέτοιου λογισμικού μπορεί να μην γνωρίζει καν τα μαθηματικά πίσω από τη συσκευή που χρησιμοποιείται. Πρέπει να παρουσιάσει μόνο την ουσία του προβλήματος που επιλύεται, να προετοιμάσει και να εισάγει αρχικά δεδομένα στον υπολογιστή και να ερμηνεύσει τα αποτελέσματα που προέκυψαν. Ένα προϊόν λογισμικού που μπορεί να χρησιμοποιηθεί για αυτούς τους σκοπούς είναι το Ms Excel.

Το Ms Excel δεν είναι απλώς ένα υπολογιστικό φύλλο με δεδομένα και τύπους για υπολογισμούς. Είναι ένα καθολικό σύστημα επεξεργασίας δεδομένων που μπορεί να χρησιμοποιηθεί για την ανάλυση και την παρουσίαση δεδομένων σε οπτική μορφή.

Ένα από τα πιο συχνά χρησιμοποιούμενα χαρακτηριστικά του Excel είναι η παρέκταση δεδομένων - για παράδειγμα, για την ανάλυση υπαρχόντων πραγματικών δεδομένων, την αξιολόγηση της τάσης της αλλαγής τους και την εξαγωγή μιας βραχυπρόθεσμης πρόβλεψης για το μέλλον σε αυτή τη βάση. Σε αυτήν την περίπτωση, χρησιμοποιείται γραμμική παρέκταση δεδομένων με βάση την απόκλιση του ελάχιστου τετραγώνου - βρίσκεται μια γραμμική εξάρτηση των δεδομένων, η οποία θα ελαχιστοποιούσε το άθροισμα των τετραγώνων των διαφορών μεταξύ των διαθέσιμων πραγματικών δεδομένων και των αντίστοιχων τιμών στη γραμμή γραμμικής τάσης (εξάρτηση παρεμβολής ή παρέκτασης). Με βάση τη σχέση που βρέθηκε, μπορεί να γίνει μια λογική υπόθεση σχετικά με τις αναμενόμενες μελλοντικές τιμές των σειρών δεδομένων που μελετώνται.

Η επίλυση προβλημάτων προγραμματισμού και διαχείρισης απαιτεί διαρκώς να λαμβάνονται υπόψη οι εξαρτήσεις ορισμένων παραγόντων από άλλους.

Ας δούμε διάφορες μεθόδους αναπαράστασης εξαρτήσεων.

Εάν η σχέση μεταξύ των ποσοτήτων μπορεί να αναπαρασταθεί σε μαθηματική μορφή, τότε έχουμε ένα μαθηματικό μοντέλο.


Μαθηματικό μοντέλοείναι ένα σύνολο ποσοτικών χαρακτηριστικών κάποιου αντικειμένου (διαδικασίας) και συνδέσεων μεταξύ τους, που παρουσιάζονται στη γλώσσα των μαθηματικών.

Τα μαθηματικά μοντέλα μπορούν να παρουσιαστούν με τη μορφή τύπων, εξισώσεων ή συστημάτων εξισώσεων. Για παράδειγμα, η εξάρτηση του χρόνου που ένα σώμα πέφτει στο έδαφος από το αρχικό ύψος περιγράφεται από τον τύπο. Ας δούμε παραδείγματα άλλων τρόπων αναπαράστασης εξαρτήσεων μεταξύ ποσοτήτων: πίνακα και γραφικό. Με βάση τα αποτελέσματα του πειράματος, συντάξαμε έναν πίνακα και σχεδιάσαμε ένα γράφημα (Εικόνα 1).

N (m) t (δευτ.)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Εικόνα 1. Πίνακας και γραφική παρουσίαση δεδομένων.

Εξετάσαμε τρεις τρόπους εμφάνισης της εξάρτησης των ποσοτήτων: λειτουργικό (τύπος), πίνακα και γραφικό. Αλλά μόνο ένας τύπος μπορεί να ονομαστεί μαθηματικό μοντέλο της διαδικασίας πτώσης ενός σώματος στο έδαφος, επειδή η φόρμουλα είναι καθολική. Ένας πίνακας και ένα διάγραμμα (γραφική παράσταση) δηλώνουν τα γεγονότα και ένα μαθηματικό μοντέλο σας επιτρέπει να κάνετε προβλέψεις μέσω υπολογισμών.

Τα στατιστικά δεδομένα είναι πάντα κατά προσέγγιση, με μέσο όρο. Ως εκ τούτου, έχουν αξιολογικό χαρακτήρα. Ωστόσο, αντικατοπτρίζουν σωστά τη φύση της εξάρτησης των ποσοτήτων. Και μια ακόμη σημαντική σημείωση: για την αξιοπιστία των αποτελεσμάτων που προκύπτουν από την ανάλυση στατιστικών δεδομένων, πρέπει να υπάρχουν πολλά από αυτά τα δεδομένα.

Το γράφημα της επιθυμητής συνάρτησης θα πρέπει να περνά κοντά στα σημεία του πειραματικού διαγράμματος δεδομένων. Δεν έχει νόημα να κατασκευάσουμε μια συνάρτηση έτσι ώστε η γραφική παράσταση της να περνά ακριβώς από όλα αυτά τα σημεία (Εικόνα 2). Πρώτον, η μαθηματική μορφή μιας τέτοιας συνάρτησης μπορεί να είναι πολύ περίπλοκη. Δεύτερον, έχει ήδη ειπωθεί ότι οι πειραματικές τιμές είναι κατά προσέγγιση.

Αυτό συνεπάγεται τις βασικές απαιτήσεις για την απαιτούμενη λειτουργία:

Θα πρέπει να είναι αρκετά απλό ώστε να χρησιμοποιείται σε περαιτέρω υπολογισμούς.

Το γράφημα αυτής της συνάρτησης θα πρέπει να περνά κοντά στα πειραματικά σημεία έτσι ώστε οι αποκλίσεις αυτών των σημείων από το γράφημα να είναι ελάχιστες και ομοιόμορφες (Εικόνα 3).

Εικόνα 3. Δύο επιλογές για την κατασκευή μιας γραφικής εξάρτησης με βάση πειραματικά δεδομένα.

Η συνάρτηση που προκύπτει, η γραφική παράσταση της οποίας φαίνεται στο Σχήμα 3(β), συνήθως ονομάζεται μοντέλο παλινδρόμησης στις στατιστικές. Μοντέλο παλινδρόμησηςείναι μια συνάρτηση που περιγράφει τη σχέση μεταξύ των ποσοτικών χαρακτηριστικών σύνθετων συστημάτων.

Η απόκτηση ενός μοντέλου παλινδρόμησης γίνεται σε δύο στάδια:

1. Επιλογή του τύπου της λειτουργίας.

2. Υπολογισμός παραμέτρων συνάρτησης.

Τις περισσότερες φορές, η επιλογή γίνεται μεταξύ των ακόλουθων λειτουργιών:

y = ax + b - γραμμική συνάρτηση;

y = ax 2 + bx + c - τετραγωνική συνάρτηση;

y = aln(x) + b - λογαριθμική συνάρτηση;

y = ae bx - εκθετική συνάρτηση;

y = ax b είναι συνάρτηση ισχύος.

Εάν έχετε επιλέξει (συνειδητά ή τυχαία) μία από τις προτεινόμενες συναρτήσεις, τότε το επόμενο βήμα είναι να επιλέξετε τις παραμέτρους (a, b, c κ.λπ.) ώστε η συνάρτηση να βρίσκεται όσο το δυνατόν πιο κοντά στα πειραματικά σημεία. Η μέθοδος ελαχίστων τετραγώνων (OLS) είναι κατάλληλη για αυτό το σκοπό. Η ουσία της είναι η εξής: η απαιτούμενη συνάρτηση πρέπει να κατασκευαστεί έτσι ώστε το άθροισμα των τετραγωνικών αποκλίσεων των συντεταγμένων y όλων των πειραματικών σημείων από τις συντεταγμένες y του γραφήματος συνάρτησης να είναι ελάχιστο.

Είναι σημαντικό να κατανοήσετε τα ακόλουθα: χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων, οποιαδήποτε συνάρτηση μπορεί να κατασκευαστεί από ένα δεδομένο σύνολο πειραματικών σημείων. Αλλά το αν θα μας ικανοποιήσει είναι ένα άλλο ερώτημα - ζήτημα του κριτηρίου της συμμόρφωσης. Το σχήμα 4 δείχνει 3 συναρτήσεις που κατασκευάστηκαν με τη μέθοδο των ελαχίστων τετραγώνων.

Εικόνα 4

Αυτά τα στοιχεία λήφθηκαν χρησιμοποιώντας το Ms Excel. Το γράφημα του μοντέλου παλινδρόμησης ονομάζεται τάση(τάση - κατεύθυνση, τάση).

Η γραφική παράσταση μιας γραμμικής συνάρτησης είναι μια ευθεία γραμμή. Η ευθεία γραμμή που λήφθηκε χρησιμοποιώντας τη μέθοδο OLS αντικατοπτρίζει το γεγονός της αύξησης της νοσηρότητας από τη συγκέντρωση μονοξειδίου του άνθρακα, αλλά από αυτό το γράφημα είναι δύσκολο να πούμε οτιδήποτε για τη φύση αυτής της αύξησης. Αλλά οι τετραγωνικές και εκθετικές τάσεις συμπεριφέρονται πολύ εύλογα.

Τα γραφήματα περιέχουν μια άλλη τιμή που προκύπτει ως αποτέλεσμα των τάσεων δόμησης. Ορίζεται ως R2. Στη στατιστική αυτή η ποσότητα ονομάζεται συντελεστής ντετερμινισμού.Αυτό είναι που καθορίζει πόσο επιτυχημένο θα είναι το μοντέλο παλινδρόμησης. Ο συντελεστής ντετερμινισμού είναι πάντα στην περιοχή από 0 έως 1. Εάν είναι ίσος με 1, τότε η συνάρτηση περνά ακριβώς από τις τιμές του πίνακα, εάν είναι 0, τότε ο επιλεγμένος τύπος μοντέλου παλινδρόμησης είναι ανεπιτυχής. Όσο πιο κοντά είναι το R2 στο 1, τόσο πιο επιτυχημένο είναι το μοντέλο παλινδρόμησης.

Η μέθοδος των ελαχίστων τετραγώνων χρησιμοποιείται για τον υπολογισμό των παραμέτρων του μοντέλου παλινδρόμησης. Αυτή η μέθοδος περιέχεται στο μαθηματικό οπλοστάσιο των υπολογιστικών φύλλων.

Έχοντας αποκτήσει ένα μαθηματικό μοντέλο παλινδρόμησης, μπορούμε να προβλέψουμε τη διαδικασία μέσω υπολογισμών. Τώρα είναι δυνατό να εκτιμηθεί η επίπτωση του άσθματος όχι μόνο για τις τιμές των συγκεντρώσεων μονοξειδίου του άνθρακα που ελήφθησαν με μετρήσεις, αλλά και για άλλες τιμές. Αυτό είναι πολύ σημαντικό από πρακτική άποψη. Για παράδειγμα, εάν μια πόλη σχεδιάζει να κατασκευάσει ένα εργοστάσιο που θα εκπέμπει μονοξείδιο του άνθρακα στην ατμόσφαιρα, τότε υπολογίζοντας την πιθανή συγκέντρωση αερίων, μπορείτε να προβλέψετε πώς αυτό θα επηρεάσει τη συχνότητα εμφάνισης άσθματος στους κατοίκους της πόλης.

Υπάρχουν δύο τρόποι για να κάνετε προβλέψεις χρησιμοποιώντας ένα μοντέλο παλινδρόμησης. Εάν η πρόβλεψη γίνεται εντός των πειραματικών τιμών της ανεξάρτητης μεταβλητής (στην περίπτωσή μας αυτή είναι η τιμή της συγκέντρωσης μονοξειδίου του άνθρακα - C), τότε αυτό ονομάζεται αποκατάσταση της αξίας.

Η πρόβλεψη πέρα ​​από τα πειραματικά δεδομένα ονομάζεται παρέκταση.

Η ύπαρξη ενός μοντέλου παλινδρόμησης καθιστά εύκολη την πραγματοποίηση προβλέψεων κάνοντας υπολογισμούς χρησιμοποιώντας ένα υπολογιστικό φύλλο.

Ο επεξεργαστής υπολογιστικών φύλλων καθιστά δυνατή την γραφική παρέκταση, συνεχίζοντας την τάση πέρα ​​από τα πειραματικά δεδομένα. Πώς φαίνεται όταν χρησιμοποιείται μια τετραγωνική τάση για C = 7 φαίνεται στο Σχήμα 5.

Εικόνα 5

Σε ορισμένες περιπτώσεις, πρέπει να είστε προσεκτικοί με την παρέκταση. Η δυνατότητα εφαρμογής οποιουδήποτε μοντέλου παλινδρόμησης είναι περιορισμένη, ειδικά εκτός του πειραματικού τομέα.

Αναφορές.

1. Novikov F.A., Yatsenko A.D.. Microsoft Office. S.-P.: BHV-Petersburg, 2002. σελ.449-458

2. Semakin I.G., Henner E.K. Πληροφορική 11η τάξη. Μ.: BINOM. Εργαστήριο Γνώσης, 2003 σελ.102-117

Τι είναι η παλινδρόμηση;

Θεωρήστε δύο συνεχείς μεταβλητές x=(x1, x2, .., x n), y=(y 1, y 2, ..., y n).

Ας τοποθετήσουμε τα σημεία σε ένα δισδιάστατο διάγραμμα διασποράς και ας πούμε ότι έχουμε γραμμική σχέση, εάν τα δεδομένα προσεγγίζονται με ευθεία γραμμή.

Αν το πιστέψουμε yεξαρτάται από x, και αλλαγές σε yπροκαλούνται ακριβώς από αλλαγές σε x, μπορούμε να προσδιορίσουμε τη γραμμή παλινδρόμησης (παλίνδρομο yεπί x), το οποίο περιγράφει καλύτερα τη γραμμική σχέση μεταξύ αυτών των δύο μεταβλητών.

Η στατιστική χρήση της λέξης παλινδρόμηση προέρχεται από το φαινόμενο γνωστό ως παλινδρόμηση στη μέση τιμή, που αποδίδεται στον Sir Francis Galton (1889).

Έδειξε ότι αν και οι ψηλοί πατεράδες τείνουν να έχουν ψηλούς γιους, το μέσο ύψος των γιων είναι μικρότερο από αυτό των ψηλών πατεράδων τους. Το μέσο ύψος των γιων «οπισθοχώρησε» και «μετακίνησε προς τα πίσω» προς το μέσο ύψος όλων των πατέρων του πληθυσμού. Έτσι, κατά μέσο όρο, οι ψηλοί πατέρες έχουν πιο κοντούς (αλλά ακόμα αρκετά ψηλούς) γιους και οι κοντοί πατέρες έχουν ψηλότερους (αλλά ακόμα αρκετά κοντούς) γιους.

Γραμμή παλινδρόμησης

Μια μαθηματική εξίσωση που υπολογίζει μια απλή (σε ζεύγη) γραμμική γραμμή παλινδρόμησης:

xονομάζεται ανεξάρτητη μεταβλητή ή προγνωστικός παράγοντας.

Υ- εξαρτημένη μεταβλητή ή μεταβλητή απόκρισης. Αυτή είναι η αξία που περιμένουμε y(κατά μέσο όρο) αν γνωρίζουμε την τιμή x, δηλ. αυτή είναι η "προβλεπόμενη τιμή" y»

  • ένα- ελεύθερο μέλος (τομή) της γραμμής αξιολόγησης. αυτό είναι το νόημα Υ, Πότε x=0(Εικ.1).
  • σι- κλίση ή κλίση της εκτιμώμενης γραμμής. αντιπροσωπεύει το ποσό με το οποίο Υαυξάνεται κατά μέσο όρο αν αυξήσουμε xανά μία μονάδα.
  • έναΚαι σιονομάζονται συντελεστές παλινδρόμησης της εκτιμώμενης γραμμής, αν και αυτός ο όρος χρησιμοποιείται συχνά μόνο για σι.

Η γραμμική παλινδρόμηση κατά ζεύγη μπορεί να επεκταθεί ώστε να περιλαμβάνει περισσότερες από μία ανεξάρτητες μεταβλητές. σε αυτή την περίπτωση είναι γνωστό ως πολλαπλή παλινδρόμηση.

Εικ.1. Γραμμή γραμμικής παλινδρόμησης που δείχνει την τομή a και την κλίση b (το ποσό Y αυξάνεται καθώς το x αυξάνεται κατά μία μονάδα)

Μέθοδος ελαχίστων τετραγώνων

Πραγματοποιούμε ανάλυση παλινδρόμησης χρησιμοποιώντας δείγμα παρατηρήσεων όπου έναΚαι σι- δειγματοληπτικές εκτιμήσεις των πραγματικών (γενικών) παραμέτρων, α και β, που καθορίζουν τη γραμμή γραμμικής παλινδρόμησης στον πληθυσμό (γενικός πληθυσμός).

Η απλούστερη μέθοδος για τον προσδιορισμό των συντελεστών έναΚαι σιείναι μέθοδος ελαχίστων τετραγώνων(MNC).

Η προσαρμογή αξιολογείται εξετάζοντας τα υπολείμματα (η κατακόρυφη απόσταση κάθε σημείου από τη γραμμή, π.χ. υπολειπόμενο = παρατηρήθηκε y- προέβλεψε y, Ρύζι. 2).

Η γραμμή καλύτερης προσαρμογής επιλέγεται έτσι ώστε το άθροισμα των τετραγώνων των υπολειμμάτων να είναι ελάχιστο.

Ρύζι. 2. Γραμμική γραμμή παλινδρόμησης με υπολείμματα που απεικονίζονται (κάθετες διακεκομμένες γραμμές) για κάθε σημείο.

Υποθέσεις Γραμμικής Παλινδρόμησης

Έτσι, για κάθε παρατηρούμενη τιμή, το υπόλοιπο είναι ίσο με τη διαφορά και η αντίστοιχη προβλεπόμενη τιμή μπορεί να είναι θετική ή αρνητική.

Μπορείτε να χρησιμοποιήσετε υπολείμματα για να ελέγξετε τις ακόλουθες υποθέσεις πίσω από τη γραμμική παλινδρόμηση:

  • Τα υπολείμματα κατανέμονται κανονικά με μέσο όρο μηδέν.

Εάν οι παραδοχές της γραμμικότητας, της κανονικότητας ή/και της σταθερής διακύμανσης είναι αμφισβητήσιμες, μπορούμε να μετατρέψουμε ή και να υπολογίσουμε μια νέα γραμμή παλινδρόμησης για την οποία ικανοποιούνται αυτές οι παραδοχές (για παράδειγμα, χρησιμοποιήστε έναν λογαριθμικό μετασχηματισμό κ.λπ.).

Ανώμαλες τιμές (ακραίες τιμές) και σημεία επιρροής

Μια παρατήρηση με "επιρροή", εάν παραλειφθεί, αλλάζει μία ή περισσότερες εκτιμήσεις παραμέτρων του μοντέλου (δηλαδή, κλίση ή τομή).

Μια ακραία τιμή (παρατήρηση που δεν συνάδει με την πλειονότητα των τιμών σε ένα σύνολο δεδομένων) μπορεί να είναι μια παρατήρηση με «επιρροή» και μπορεί εύκολα να ανιχνευθεί οπτικά επιθεωρώντας ένα διμεταβλητό διάγραμμα διασποράς ή υπολειπόμενο διάγραμμα.

Τόσο για ακραίες τιμές όσο και για παρατηρήσεις με «επιρροή» (σημεία), χρησιμοποιούνται μοντέλα, τόσο με όσο και χωρίς τη συμπερίληψή τους, και δίνεται προσοχή στις αλλαγές στις εκτιμήσεις (συντελεστές παλινδρόμησης).

Κατά τη διεξαγωγή μιας ανάλυσης, δεν πρέπει να απορρίπτετε αυτόματα τα ακραία σημεία ή τα σημεία επιρροής, καθώς η απλή αγνόησή τους μπορεί να επηρεάσει τα αποτελέσματα που λαμβάνονται. Πάντα να μελετάτε τους λόγους για αυτές τις ακραίες τιμές και να τις αναλύετε.

Υπόθεση γραμμικής παλινδρόμησης

Κατά την κατασκευή της γραμμικής παλινδρόμησης, ελέγχεται η μηδενική υπόθεση ότι η γενική κλίση της γραμμής παλινδρόμησης β είναι ίση με μηδέν.

Εάν η κλίση της γραμμής είναι μηδέν, δεν υπάρχει γραμμική σχέση μεταξύ και: η αλλαγή δεν επηρεάζει

Για να ελέγξετε τη μηδενική υπόθεση ότι η πραγματική κλίση είναι μηδέν, μπορείτε να χρησιμοποιήσετε τον ακόλουθο αλγόριθμο:

Υπολογίστε τη στατιστική δοκιμής ίση με την αναλογία , η οποία υπόκειται σε κατανομή με βαθμούς ελευθερίας, όπου το τυπικό σφάλμα του συντελεστή


,

- εκτίμηση της διασποράς των υπολειμμάτων.

Τυπικά, εάν επιτευχθεί το επίπεδο σημαντικότητας, η μηδενική υπόθεση απορρίπτεται.


όπου είναι το ποσοστό της κατανομής με βαθμούς ελευθερίας, που δίνει την πιθανότητα δοκιμής δύο όψεων

Αυτό είναι το διάστημα που περιέχει τη γενική κλίση με πιθανότητα 95%.

Για μεγάλα δείγματα, ας πούμε, μπορούμε να προσεγγίσουμε την τιμή 1,96 (δηλαδή, η στατιστική δοκιμής θα τείνει να κατανέμεται κανονικά)

Αξιολόγηση της ποιότητας της γραμμικής παλινδρόμησης: συντελεστής προσδιορισμού R 2

Λόγω της γραμμικής σχέσης και αναμένουμε ότι αλλάζει ως , και ονομάζουμε την παραλλαγή που οφείλεται ή εξηγείται από την παλινδρόμηση. Η υπολειπόμενη διακύμανση πρέπει να είναι όσο το δυνατόν μικρότερη.

Εάν αυτό ισχύει, τότε το μεγαλύτερο μέρος της παραλλαγής θα εξηγηθεί με παλινδρόμηση και τα σημεία θα βρίσκονται κοντά στη γραμμή παλινδρόμησης, δηλ. η γραμμή ταιριάζει καλά στα δεδομένα.

Το ποσοστό της συνολικής διακύμανσης που εξηγείται με παλινδρόμηση ονομάζεται συντελεστή προσδιορισμού, συνήθως εκφράζεται ως ποσοστό και συμβολίζεται R 2(σε ζευγαρωμένη γραμμική παλινδρόμηση αυτή είναι η ποσότητα r 2, τετράγωνο του συντελεστή συσχέτισης), σας επιτρέπει να αξιολογήσετε υποκειμενικά την ποιότητα της εξίσωσης παλινδρόμησης.

Η διαφορά αντιπροσωπεύει το ποσοστό διακύμανσης που δεν μπορεί να εξηγηθεί με παλινδρόμηση.

Δεν υπάρχει επίσημο τεστ για να αξιολογήσουμε πρέπει να βασιστούμε σε υποκειμενική κρίση για να προσδιορίσουμε την καλή προσαρμογή της γραμμής παλινδρόμησης.

Εφαρμογή γραμμής παλινδρόμησης στην πρόβλεψη

Μπορείτε να χρησιμοποιήσετε μια γραμμή παλινδρόμησης για να προβλέψετε μια τιμή από μια τιμή στο τέλος του παρατηρούμενου εύρους (ποτέ μην κάνετε παρέκταση πέρα ​​από αυτά τα όρια).

Προβλέπουμε τον μέσο όρο των παρατηρήσιμων στοιχείων που έχουν μια συγκεκριμένη τιμή συνδέοντας αυτήν την τιμή στην εξίσωση της γραμμής παλινδρόμησης.

Έτσι, εάν προβλέπουμε ως Χρησιμοποιήστε αυτήν την προβλεπόμενη τιμή και το τυπικό της σφάλμα για να υπολογίσετε ένα διάστημα εμπιστοσύνης για τον πραγματικό μέσο πληθυσμό.

Η επανάληψη αυτής της διαδικασίας για διαφορετικές τιμές σάς επιτρέπει να δημιουργήσετε όρια εμπιστοσύνης για αυτήν τη γραμμή. Αυτή είναι η ζώνη ή η περιοχή που περιέχει την αληθινή γραμμή, για παράδειγμα σε επίπεδο εμπιστοσύνης 95%.

Απλά σχέδια παλινδρόμησης

Τα απλά σχέδια παλινδρόμησης περιέχουν έναν συνεχή προγνωστικό παράγοντα. Εάν υπάρχουν 3 παρατηρήσεις με τιμές πρόβλεψης P, όπως 7, 4 και 9, και ο σχεδιασμός περιλαμβάνει ένα εφέ πρώτης τάξης P, τότε ο πίνακας σχεδίασης X θα είναι

και η εξίσωση παλινδρόμησης που χρησιμοποιεί το P για το X1 είναι

Y = b0 + b1 P

Εάν ένας απλός σχεδιασμός παλινδρόμησης περιέχει ένα εφέ υψηλότερης τάξης στο P, όπως ένα τετραγωνικό αποτέλεσμα, τότε οι τιμές στη στήλη X1 στον πίνακα σχεδίασης θα αυξηθούν στη δεύτερη ισχύ:

και η εξίσωση θα πάρει τη μορφή

Y = b0 + b1 P2

Οι μέθοδοι κωδικοποίησης με περιορισμούς Sigma και υπερπαραμετροποιημένες δεν ισχύουν για απλούς σχεδιασμούς παλινδρόμησης και άλλους σχεδιασμούς που περιέχουν μόνο συνεχείς προγνωστικούς παράγοντες (επειδή απλά δεν υπάρχουν κατηγορικοί προγνωστικοί παράγοντες). Ανεξάρτητα από την επιλεγμένη μέθοδο κωδικοποίησης, οι τιμές των συνεχών μεταβλητών αυξάνονται ανάλογα και χρησιμοποιούνται ως τιμές για τις μεταβλητές X. Σε αυτήν την περίπτωση, δεν πραγματοποιείται επανακωδικοποίηση. Επιπλέον, όταν περιγράφετε σχέδια παλινδρόμησης, μπορείτε να παραλείψετε την εξέταση του πίνακα σχεδίασης X και να εργαστείτε μόνο με την εξίσωση παλινδρόμησης.

Παράδειγμα: Απλή Ανάλυση παλινδρόμησης

Αυτό το παράδειγμα χρησιμοποιεί τα δεδομένα που παρουσιάζονται στον πίνακα:

Ρύζι. 3. Πίνακας αρχικών στοιχείων.

Στοιχεία που συγκεντρώθηκαν από μια σύγκριση των απογραφών του 1960 και του 1970 σε τυχαία επιλεγμένες 30 κομητείες. Τα ονόματα των νομών παρουσιάζονται ως ονόματα παρατήρησης. Πληροφορίες για κάθε μεταβλητή παρουσιάζονται παρακάτω:

Ρύζι. 4. Πίνακας μεταβλητών προδιαγραφών.

Ερευνητικό πρόβλημα

Για αυτό το παράδειγμα, θα αναλυθεί η συσχέτιση μεταξύ του ποσοστού φτώχειας και του βαθμού που προβλέπει το ποσοστό των οικογενειών που βρίσκονται κάτω από το όριο της φτώχειας. Επομένως, θα αντιμετωπίσουμε τη μεταβλητή 3 (Pt_Poor) ως την εξαρτημένη μεταβλητή.

Μπορούμε να υποβάλουμε μια υπόθεση: οι αλλαγές στο μέγεθος του πληθυσμού και το ποσοστό των οικογενειών που βρίσκονται κάτω από το όριο της φτώχειας σχετίζονται. Φαίνεται λογικό να περιμένουμε ότι η φτώχεια οδηγεί σε μετανάστευση έξω, επομένως θα υπήρχε αρνητική συσχέτιση μεταξύ του ποσοστού των ανθρώπων κάτω από το όριο της φτώχειας και της πληθυσμιακής αλλαγής. Επομένως, θα αντιμετωπίσουμε τη μεταβλητή 1 (Pop_Chng) ως μεταβλητή πρόβλεψης.

Προβολή αποτελεσμάτων

Συντελεστές παλινδρόμησης

Ρύζι. 5. Συντελεστές παλινδρόμησης του Pt_Poor στο Pop_Chng.

Στη διασταύρωση της γραμμής Pop_Chng και της στήλης Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

ο μη τυποποιημένος συντελεστής για την παλινδρόμηση του Pt_Poor στο Pop_Chng είναι -0,40374. Αυτό σημαίνει ότι για κάθε μία μονάδα μείωσης του πληθυσμού, υπάρχει αύξηση του ποσοστού φτώχειας 0,40374. Το ανώτερο και το κατώτερο (προεπιλογή) όριο εμπιστοσύνης 95% για αυτόν τον μη τυποποιημένο συντελεστή δεν περιλαμβάνουν το μηδέν, επομένως ο συντελεστής παλινδρόμησης είναι σημαντικός στο επίπεδο p

Μεταβλητή κατανομή

Οι συντελεστές συσχέτισης μπορεί να υπερεκτιμηθούν σημαντικά ή να υποτιμηθούν εάν υπάρχουν μεγάλα ακραία στοιχεία στα δεδομένα. Ας μελετήσουμε την κατανομή της εξαρτημένης μεταβλητής Pt_Poor ανά περιοχή. Για να γίνει αυτό, ας δημιουργήσουμε ένα ιστόγραμμα της μεταβλητής Pt_Poor.

Ρύζι. 6. Ιστόγραμμα της μεταβλητής Pt_Poor.

Όπως μπορείτε να δείτε, η κατανομή αυτής της μεταβλητής διαφέρει σημαντικά από την κανονική κατανομή. Ωστόσο, αν και ακόμη και δύο κομητείες (οι δύο δεξιές στήλες) έχουν υψηλότερο ποσοστό οικογενειών που βρίσκονται κάτω από το όριο της φτώχειας από το αναμενόμενο υπό μια κανονική κατανομή, φαίνεται ότι βρίσκονται "εντός του εύρους".

Ρύζι. 7. Ιστόγραμμα της μεταβλητής Pt_Poor.

Αυτή η κρίση είναι κάπως υποκειμενική. Ο εμπειρικός κανόνας είναι ότι οι ακραίες τιμές πρέπει να λαμβάνονται υπόψη εάν η παρατήρηση (ή οι παρατηρήσεις) δεν εμπίπτουν στο διάστημα (μέση τιμή ± 3 φορές την τυπική απόκλιση). Σε αυτή την περίπτωση, αξίζει να επαναληφθεί η ανάλυση με και χωρίς ακραίες τιμές για να διασφαλιστεί ότι δεν έχουν σημαντική επίδραση στη συσχέτιση μεταξύ των μελών του πληθυσμού.

Scatterplot

Εάν μια από τις υποθέσεις είναι a priori σχετικά με τη σχέση μεταξύ δεδομένων μεταβλητών, τότε είναι χρήσιμο να τη δοκιμάσετε στο γράφημα του αντίστοιχου scatterplot.

Ρύζι. 8. Διάγραμμα διασποράς.

Το διάγραμμα διασποράς δείχνει μια σαφή αρνητική συσχέτιση (-.65) μεταξύ των δύο μεταβλητών. Δείχνει επίσης το διάστημα εμπιστοσύνης 95% για τη γραμμή παλινδρόμησης, δηλαδή, υπάρχει πιθανότητα 95% η γραμμή παλινδρόμησης να βρίσκεται μεταξύ των δύο διακεκομμένων καμπυλών.

Κριτήρια σπουδαιότητας

Η δοκιμή για τον συντελεστή παλινδρόμησης Pop_Chng επιβεβαιώνει ότι το Pop_Chng σχετίζεται ισχυρά με το Pt_Poor, p<.001 .

Κατώτατη γραμμή

Αυτό το παράδειγμα έδειξε πώς να αναλύσετε ένα απλό σχέδιο παλινδρόμησης. Παρουσιάστηκαν επίσης ερμηνείες μη τυποποιημένων και τυποποιημένων συντελεστών παλινδρόμησης. Η σημασία της μελέτης της κατανομής απόκρισης μιας εξαρτημένης μεταβλητής συζητείται και αποδεικνύεται μια τεχνική για τον προσδιορισμό της κατεύθυνσης και της ισχύος της σχέσης μεταξύ ενός προγνωστικού και μιας εξαρτημένης μεταβλητής.

Αφού η ανάλυση συσχέτισης αποκαλύψει την παρουσία στατιστικά σημαντικών σχέσεων μεταξύ των μεταβλητών και εκτιμήσει τον βαθμό εγγύτητάς τους, συνήθως προχωράμε σε μια μαθηματική περιγραφή ενός συγκεκριμένου τύπου σχέσης χρησιμοποιώντας ανάλυση παλινδρόμησης.

Η συσχέτιση μεταξύ δύο μεταβλητών είναι μια λειτουργική σχέση μεταξύ της μιας μεταβλητής και της αναμενόμενης (μέσος όρος υπό όρους) τιμής της άλλης. Η εξίσωση μιας τέτοιας σχέσης μεταξύ δύο μεταβλητών ονομάζεται εξίσωση παλινδρόμησης. Αν υπάρχουν δύο μεταβλητές (μία εξαρτημένη και μία ανεξάρτητη), τότε η παλινδρόμηση ονομάζεται απλή και αν είναι περισσότερες από δύο, τότε πολλαπλή. Εάν η σχέση μεταξύ των μεταβλητών είναι γραμμική, τότε η παλινδρόμηση ονομάζεται γραμμική, διαφορετικά ονομάζεται μη γραμμική.

Ας ρίξουμε μια πιο προσεκτική ματιά στην απλή γραμμική παλινδρόμηση. Ένα μοντέλο μιας τέτοιας εξάρτησης μπορεί να παρουσιαστεί στη φόρμα

y = α + β x + ε, (1.1)

Οπου στο – εξαρτημένη μεταβλητή (αποτελεσματικό χαρακτηριστικό).

Χ – ανεξάρτητη μεταβλητή (παραγοντικό χαρακτηριστικό).

α – ελεύθερος όρος της εξίσωσης παλινδρόμησης ή σταθερά.

β – συντελεστής εξίσωσης παλινδρόμησης.

ε – τυχαία μεταβλητή που χαρακτηρίζει τις αποκλίσεις των πραγματικών τιμών της εξαρτημένης μεταβλητής στο από το μοντέλο ή τις θεωρητικές τιμές που υπολογίζονται χρησιμοποιώντας την εξίσωση παλινδρόμησης.

Υποτίθεται ότι η επεξηγηματική μεταβλητή Χ – η τιμή δεν είναι τυχαία, αλλά εξηγήσιμη y – τυχαία. Στο μέλλον, αυτή η υπόθεση μπορεί να αφαιρεθεί.

1.2.1. Μέθοδος ελαχίστων τετραγώνων (LSM) και οι εγκαταστάσεις της

Τα α και β είναι παράμετροι του μοντέλου παλινδρόμησης (1.1) που πρέπει να εκτιμηθούν με βάση τα δεδομένα του δείγματος. Με βάση τα ίδια δεδομένα δείγματος, θα πρέπει να εκτιμηθεί η διακύμανση ε. Μία μέθοδος για τον υπολογισμό τέτοιων εκτιμήσεων είναι η κλασική μέθοδος ελαχίστων τετραγώνων (OLS). Η ουσία του OLS είναι να ελαχιστοποιήσει το άθροισμα των τετραγωνικών αποκλίσεων των πραγματικών τιμών της εξαρτημένης μεταβλητής στο από τις υπό συνθήκη μαθηματικές προσδοκίες τους, που προσδιορίζονται από την εξίσωση παλινδρόμησης: = α + β x, με την υπόθεση ότι η μαθηματική προσδοκία του ε είναι ίση με μηδέν. Προσδοκία yσυμβολίζουμε με, και το άθροισμα των τετραγωνικών αποκλίσεων με Q(.

Εδώ η άθροιση πραγματοποιείται σε ολόκληρο τον πληθυσμό. Αυτό το άθροισμα ονομάζεται υπολειπόμενο άθροισμα τετραγώνων.

Για να ελαχιστοποιήσουμε αυτή τη συνάρτηση ως προς τις παραμέτρους, στραφούμε στις συνθήκες πρώτης τάξης που λαμβάνονται διαφοροποιώντας την Q() σε σχέση με

Στη συνέχεια, ας υποθέσουμε ότι για την εκτίμηση των παραμέτρων του μοντέλου (1.1), ένα δείγμα που περιέχει nζεύγη μεταβλητών τιμών (x i ,y i), όπου εγώπαίρνει τιμές από 1 έως n (εγώ=). Εξισώνοντας τις μερικές παραγώγους στο μηδέν και περνώντας από τον πληθυσμό στο δείγμα (αντικαθιστώντας τις παραμέτρους με τις εκτιμήσεις τους), λαμβάνουμε ένα σύστημα κανονικών εξισώσεων για τον υπολογισμό των εκτιμήσεων των παραμέτρων α και β. Ας υποδηλώσουμε αυτές τις εκτιμήσεις αντίστοιχα ως ΕΝΑ Και σι . Λαμβάνουμε το ακόλουθο σύστημα κανονικών εξισώσεων

Αν η εκτιμώμενη εξίσωση συμβολίζεται ως y = ένα + bx + μι , Πού μι είναι μία από τις πραγματοποιήσεις της τυχαίας μεταβλητής ε που αντιστοιχεί σε ένα συγκεκριμένο δείγμα, τότε η έκφραση σε αγκύλες του συστήματος των κανονικών εξισώσεων δεν είναι τίποτα άλλο από το υπόλοιπο της εξίσωσης παλινδρόμησης μι εγώ = y εγώκαι τότε η πρώτη εξίσωση αυτού του συστήματος θα πάρει τη μορφή = 0. Δηλαδή η μέση τιμή των υπολοίπων είναι μηδέν. Έτσι, εάν μια εξίσωση παλινδρόμησης περιέχει μια σταθερά, τότε το άθροισμα των υπολειμμάτων στην εκτιμώμενη εξίσωση είναι πάντα μηδέν.

Η δεύτερη εξίσωση του συστήματος σε αυτόν τον συμβολισμό δίνει = 0, δηλαδή, τα διανύσματα των τιμών της ανεξάρτητης μεταβλητής και των υπολειμμάτων είναι ορθογώνια (ανεξάρτητα).

Εδώ είναι ένας από τους τύπους για τον υπολογισμό τέτοιων εκτιμήσεων:

ένα = – β, σι = . (1.2)

Είναι επίσης γνωστό ότι μια αμερόληπτη εκτίμηση της διακύμανσης των τυχαίων αποκλίσεων είναι η υπολειπόμενη διακύμανση, που υπολογίζεται από τη σχέση:

= .

Έτσι, το εκτιμώμενο μοντέλο γραμμικής παλινδρόμησης κατά ζεύγη είναι

y = ένα + bx + μι, (1.3)

όπου e – παρατηρούμενες αποκλίσεις των πραγματικών τιμών της εξαρτημένης μεταβλητής στο από υπολογισμένες, οι οποίες υπολογίζονται από την αναλογία = ένα + bx .

Η διαφορά μεταξύ ε και μιείναι ότι το ε είναι τυχαία μεταβλητή και δεν είναι δυνατόν να προβλεφθούν οι τιμές της, ενώ μιείναι οι παρατηρούμενες τιμές απόκλισης ( e = y–) και αυτές οι αποκλίσεις μπορούν να θεωρηθούν τυχαίο δείγμα από τον πληθυσμό των υπολειμματικών τιμών παλινδρόμησης και μπορούν να αναλυθούν χρησιμοποιώντας στατιστικές μεθόδους.

Όπως σημειώθηκε, το OLS κατασκευάζει εκτιμήσεις παλινδρόμησης με βάση την ελαχιστοποίηση του αθροίσματος των τετραγωνικών αποκλίσεων ή των υπολειμμάτων ε, επομένως είναι σημαντικό να γνωρίζουμε τις ιδιότητές τους. Για να ληφθούν «καλές» εκτιμήσεις OLS, είναι απαραίτητο να πληρούνται οι ακόλουθες βασικές παραδοχές σχετικά με τα υπολείμματα του μοντέλου (1.1), που ονομάζονται υποθέσεις Gauss–Markov.

Η πρώτη υπόθεση δηλώνει ότι τα αναμενόμενα υπολείμματα παλινδρόμησης είναι μηδέν και υπονοεί ότι, κατά μέσο όρο, η γραμμή παλινδρόμησης πρέπει να είναι αληθής. Η υπόθεση 3 δηλώνει ότι όλα τα υπολείμματα παλινδρόμησης έχουν την ίδια διακύμανση και ονομάζεται υπόθεση ομοσκεδαστικότητας, ενώ η υπόθεση 4 αποκλείει οποιαδήποτε μορφή αυτοσυσχέτισης μεταξύ τους, δηλ. υπονοεί μηδενική συσχέτιση μεταξύ διαφορετικών υπολειμμάτων παλινδρόμησης. Συνολικά, αυτές οι υποθέσεις σημαίνουν ότι τα υπολείμματα παλινδρόμησης είναι ασύνδετα εκχυλίσματα από έναν πληθυσμό με κατανομή που έχει μηδενικό μέσο όρο και σταθερή διακύμανση.

Η υπόθεση 2 δηλώνει την ανεξαρτησία των διανυσμάτων των τιμών της ανεξάρτητης μεταβλητής και των υπολειμμάτων παλινδρόμησης.

Είναι γνωστό ότι αν ικανοποιηθούν αυτές οι τέσσερις παραδοχές, τότε Το θεώρημα του GaussΜάρκοβα, το οποίο δηλώνει ότι στην περίπτωση αυτή ο εκτιμητής OLS του b είναι η καλύτερη γραμμική αμερόληπτη εκτίμηση της παραμέτρου β. Το καλύτερο από άποψη αποτελεσματικότητας.

Εκτός από τις δηλωμένες παραδοχές, εισάγεται μια άλλη, η οποία θα μας επέτρεπε να διατυπώσουμε δείκτες για την ακρίβεια της εξίσωσης παλινδρόμησης και τις εκτιμήσεις της. Αυτή η υπόθεση δηλώνει ότι τα υπολείμματα πρέπει να ακολουθούν μια κανονική κατανομή με μηδενική αναμενόμενη τιμή και σταθερή διακύμανση.

Στη συνέχεια, η εξίσωση = ένα + σιxθα ονομάσουμε τη δειγματική εξίσωση παλινδρόμησης ή απλά την εξίσωση παλινδρόμησης, και τους συντελεστές της, κατά συνέπεια, ελεύθερο όρο ( ΕΝΑ) και συντελεστής εξίσωσης παλινδρόμησης ( σι).

Ο όρος τομής μιας εξίσωσης παλινδρόμησης συνήθως δεν ερμηνεύεται. Ο συντελεστής παλινδρόμησης δείχνει πόσο κατά μέσο όρο θα αλλάξει η εξαρτημένη μεταβλητή (στις μονάδες μέτρησής της) όταν η ανεξάρτητη μεταβλητή αλλάξει κατά μία μονάδα μέτρησής της.

Ταυτόχρονα, είναι απαραίτητο να ληφθεί υπόψη ότι οι συντελεστές που εξετάζονται είναι εκτιμήσεις των παραμέτρων της εξίσωσης παλινδρόμησης =α + β xμε όλες τις επακόλουθες συνέπειες, συμπεριλαμβανομένης της ανάγκης να ληφθούν εκτιμήσεις της ακρίβειας της εξίσωσης παλινδρόμησης και των παραμέτρων της.

Ας δούμε μερικά από αυτά.

Το μοντέλο γραμμικής παλινδρόμησης είναι το πιο συχνά χρησιμοποιούμενο και πιο μελετημένο στην οικονομετρία. Συγκεκριμένα, μελετήθηκαν οι ιδιότητες των εκτιμήσεων παραμέτρων που λήφθηκαν με διάφορες μεθόδους με υποθέσεις σχετικά με τα πιθανοτικά χαρακτηριστικά των παραγόντων και τα τυχαία σφάλματα του μοντέλου. Οι οριακές (ασυμπτωτικές) ιδιότητες εκτιμήσεων μη γραμμικών μοντέλων προκύπτουν επίσης με βάση την προσέγγιση των τελευταίων με γραμμικά μοντέλα. Πρέπει να σημειωθεί ότι από οικονομετρική άποψη, η γραμμικότητα στις παραμέτρους είναι πιο σημαντική από τη γραμμικότητα στους παράγοντες του μοντέλου.

Μοντέλο παλινδρόμησης

όπου είναι οι παράμετροι του μοντέλου, είναι το τυχαίο σφάλμα του μοντέλου, ονομάζεται γραμμική παλινδρόμηση εάν η συνάρτηση παλινδρόμησης έχει τη μορφή

όπου είναι οι παράμετροι παλινδρόμησης (συντελεστές), οι παλινδρομικοί παράγοντες (παράγοντες μοντέλου), κ— αριθμός παραγόντων μοντέλου.

Οι συντελεστές γραμμικής παλινδρόμησης δείχνουν το ρυθμό μεταβολής της εξαρτημένης μεταβλητής για έναν δεδομένο παράγοντα, με άλλους παράγοντες σταθερούς (σε ένα γραμμικό μοντέλο αυτός ο ρυθμός είναι σταθερός):

Η παράμετρος για την οποία δεν υπάρχουν παράγοντες συχνά ονομάζεται συνεχής. Τυπικά, αυτή είναι η τιμή της συνάρτησης όταν όλοι οι παράγοντες είναι μηδέν. Για αναλυτικούς σκοπούς, είναι βολικό να υποθέσουμε ότι μια σταθερά είναι μια παράμετρος με "συντελεστή" ίσο με 1 (ή μια άλλη αυθαίρετη σταθερά, επομένως αυτός ο "συντελεστής" ονομάζεται επίσης σταθερά). Σε αυτήν την περίπτωση, εάν επαναριθμήσουμε τους παράγοντες και τις παραμέτρους του αρχικού μοντέλου λαμβάνοντας αυτό υπόψη (αφήνοντας τον προσδιορισμό του συνολικού αριθμού παραγόντων - k), τότε η συνάρτηση γραμμικής παλινδρόμησης μπορεί να γραφτεί με την ακόλουθη μορφή, η οποία τυπικά δεν περιέχουν μια σταθερά:

όπου είναι το διάνυσμα των παλινδρομητών, είναι το διάνυσμα στήλης των παραμέτρων (συντελεστών).

Ένα γραμμικό μοντέλο μπορεί να είναι είτε με σταθερά είτε χωρίς. Τότε σε αυτή την αναπαράσταση ο πρώτος παράγοντας είναι είτε ίσος με ένα είτε είναι ένας συνηθισμένος παράγοντας, αντίστοιχα

Έλεγχος της σημασίας της παλινδρόμησης

Η δοκιμή Fisher για ένα μοντέλο παλινδρόμησης αντικατοπτρίζει πόσο καλά το μοντέλο εξηγεί τη συνολική διακύμανση της εξαρτημένης μεταβλητής. Το κριτήριο υπολογίζεται χρησιμοποιώντας την εξίσωση:

Οπου R- συντελεστής συσχέτισης.
φά 1 και φά 2 - αριθμός βαθμών ελευθερίας.
Το πρώτο κλάσμα στην εξίσωση είναι ίσο με τον λόγο της επεξηγημένης προς την ανεξήγητη διακύμανση. Κάθε μία από αυτές τις διακυμάνσεις διαιρείται με τον βαθμό ελευθερίας της (το δεύτερο κλάσμα στην έκφραση). Αριθμός βαθμών ελευθερίας επεξηγημένης διακύμανσης φάΤο 1 είναι ίσο με τον αριθμό των επεξηγηματικών μεταβλητών (για παράδειγμα, για ένα γραμμικό μοντέλο της φόρμας Υ=Α*Χ+Βπαίρνουμε φά 1 = 1). Αριθμός βαθμών ελευθερίας ανεξήγητης διακύμανσης φά 2 = Ν-κ-1, όπου Ν- αριθμός πειραματικών σημείων, κ- αριθμός επεξηγηματικών μεταβλητών (για παράδειγμα, για ένα μοντέλο Υ=Α*Χ+Βυποκατάστατο κ=1).
Άλλο παράδειγμα:
για ένα γραμμικό μοντέλο της φόρμας Υ=Α 0 +ΕΝΑ 1 *Χ 1 +ΕΝΑ 2 *Χ 2, κατασκευασμένο από 20 πειραματικά σημεία, παίρνουμε φά 1 = 2 (δύο μεταβλητές Χ 1 και Χ 2), φά 2 =20-2-1=17.
Για να ελεγχθεί η σημασία της εξίσωσης παλινδρόμησης, η υπολογισμένη τιμή του κριτηρίου Fisher συγκρίνεται με την πινακοποιημένη τιμή που λαμβάνεται για τον αριθμό των βαθμών ελευθερίας φά 1 (μεγαλύτερη διασπορά) και φά 2 (χαμηλότερη διακύμανση) στο επιλεγμένο επίπεδο σημαντικότητας (συνήθως 0,05). Εάν η υπολογισθείσα δοκιμή Fisher είναι υψηλότερη από αυτή που παρουσιάζεται στον πίνακα, τότε η επεξηγημένη διακύμανση είναι σημαντικά μεγαλύτερη από την ανεξήγητη διακύμανση και το μοντέλο είναι σημαντικό.

Συντελεστής συσχέτισης και φά-το κριτήριο, μαζί με τις παραμέτρους του μοντέλου παλινδρόμησης, συνήθως υπολογίζονται σε αλγόριθμους που υλοποιούν