Por quais indicadores o melhor modelo de regressão é selecionado? Modelo de regressão linear pareado

05.07.2023

Às vezes isso acontece: o problema pode ser resolvido quase aritmeticamente, mas a primeira coisa que vem à mente são todos os tipos de integrais de Lebesgue e funções de Bessel. Aqui você começa a ensinar rede neural, adicione mais algumas camadas ocultas, experimente o número de neurônios, funções de ativação, lembre-se do SVM e da Random Forest e comece tudo de novo. E, no entanto, apesar da abundância de métodos divertidos de ensino estatístico, a regressão linear continua a ser uma das ferramentas populares. E existem pré-requisitos para isso, entre os quais a intuitividade na interpretação do modelo.

Algumas fórmulas

No caso mais simples, o modelo linear pode ser representado da seguinte forma:

Y i = a 0 + a 1 x i + ε i

Onde a 0 é a expectativa matemática da variável dependente y i quando a variável x i é igual a zero; a 1 é a mudança esperada na variável dependente y i quando x i muda em um (este coeficiente é selecionado de modo que o valor ½Σ(y i -ŷ i) 2 seja mínimo - esta é a chamada “função residual”); ε i - erro aleatório.
Neste caso, os coeficientes a 1 e a 0 podem ser expressos através do coeficiente de correlação de Pearson, desvios padrão e os valores médios das variáveis ​​​​x e y:

Em 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Diagnóstico e erros de modelo

Para que o modelo esteja correto, é necessário satisfazer as condições de Gauss-Markov, ou seja, os erros devem ser homocedásticos com expectativa matemática zero. O gráfico residual e i = y i - ŷ i ajuda a determinar o quão adequado é o modelo construído (e i pode ser considerado uma estimativa de ε i).
Vejamos o gráfico dos resíduos no caso de uma relação linear simples y 1 ~ x (doravante todos os exemplos são dados na linguagem R):

Texto oculto

definir.seed(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Os resíduos estão distribuídos mais ou menos uniformemente ao longo do eixo horizontal, indicando “nenhuma relação sistemática entre os valores do termo aleatório em quaisquer duas observações”. Agora vamos examinar o mesmo gráfico, mas construído para um modelo linear, que na verdade não é linear:

Texto oculto

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



De acordo com o gráfico y 2 ~ x, parece que uma relação linear pode ser assumida, mas os resíduos têm um padrão, o que significa que a regressão linear pura não funcionará aqui. Aqui está o que heterocedasticidade realmente significa:

Texto oculto

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Um modelo linear com tais resíduos “inflacionados” não está correto. Às vezes também é útil representar graficamente os quantis dos resíduos em relação aos quantis que seriam esperados se os resíduos fossem normalmente distribuídos:

Texto oculto

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



O segundo gráfico mostra claramente que a suposição de normalidade dos resíduos pode ser rejeitada (o que novamente indica que o modelo está incorreto). E também existem essas situações:

Texto oculto

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Este é o chamado “outlier”, que pode distorcer bastante os resultados e levar a conclusões errôneas. R tem um meio de detectá-lo - usando a medida padronizada dfbetas e valores de chapéu:
> rodada (dfbetas (fit4), 3) (Interceptar) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 6 -0,245 0,131 7 0,055 0,084. 027 0,055 .....
> redondo(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Como você pode ver, o primeiro termo do vetor x4 tem uma influência visivelmente maior nos parâmetros do modelo de regressão do que os demais, sendo, portanto, um outlier.

Seleção de modelo para regressão múltipla

Naturalmente, com a regressão múltipla surge a pergunta: vale a pena levar em conta todas as variáveis? Por um lado, parece que vale a pena, porque... qualquer variável potencialmente carrega informações úteis. Além disso, ao aumentar o número de variáveis, aumentamos o R2 (aliás, é por esta razão que esta medida não pode ser considerada confiável na avaliação da qualidade do modelo). Por outro lado, vale a pena ter em mente coisas como AIC e BIC, que introduzem penalidades para a complexidade do modelo. O valor absoluto do critério de informação por si só não faz sentido, por isso é necessário comparar esses valores em vários modelos: no nosso caso, com diferentes números de variáveis. O modelo com o valor mínimo do critério de informação será o melhor (embora haja algo para discutir).
Vejamos o conjunto de dados UScrime da biblioteca MASS:
biblioteca(MASS) dados(UScrime) stepAIC(lm(y~., data=UScrime))
O modelo com menor valor de AIC possui os seguintes parâmetros:
Chamada: lm (fórmula = y ~ M + Ed + Po1 + MF + U1 + U2 + Ineq + Prob, dados = UScrime) Coeficientes: (Interceptação) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,265 2,234 -6,087 18,735 6.133 -3796.032
Assim, o modelo ótimo levando em consideração o AIC será:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Coeficientes: Estimativa Std. Valor t de erro Pr(>|t|) (Interceptação) -6426,101 1194,611 -5,379 4,04e-06 *** M 9,332 3,350 2,786 0,00828 ** Ed 18,012 5,275 3,414 0,00153 ** Po1 10,265 2 6.613 8.26e-08 ** * M.F 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. códigos: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Se você olhar com atenção, verifica-se que as variáveis ​​MF e U1 têm um valor p bastante alto, o que parece nos sugerir que essas variáveis ​​não são tão importantes. Mas o valor p é uma medida bastante ambígua ao avaliar a importância de uma variável específica para um modelo estatístico. Este fato é claramente demonstrado por um exemplo:
dados<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimativa padrão. Valor t de erro Pr(>|t|) V2 1,1912939 0,1401286 8,501431 3,325404e-17 V3 0,9354776 0,1271192 7,359057 2,568432e-13 V4 0,9311644 0,1240912 7 .503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e -15 V7 1,0092041 0,1287784 7,836752 7,021785e-15 V8 0,9307010 0,1219609 7,631143 3,391212e-14 V9 0,8624487 0,1198499 7,196073 8,3 62082e-13 V10 0,9763194 0,0879140 11,105393 6,027585e-28
Os valores p de cada variável são praticamente zero, podendo-se assumir que todas as variáveis ​​são importantes para este modelo linear. Mas, na verdade, se você olhar atentamente para os restos mortais, acontece algo assim:

Texto oculto

plot(prever(ajustar), residir(ajustar), pch=".")



No entanto, uma abordagem alternativa baseia-se na análise de variância, na qual os valores-p desempenham um papel fundamental. Vamos comparar o modelo sem a variável M.F com o modelo construído levando em consideração apenas o AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Tabela de Análise de Variância Modelo 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Modelo 2: y ~ M + Ed + Po1 + MF + U1 + U2 + Ineq + Prob Res.Df RSS Df Soma de Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Dado um valor P de 0,1087 a um nível de significância de α=0,05, podemos concluir que não há evidência estatisticamente significativa a favor da hipótese alternativa, ou seja, a favor do modelo com a variável adicional M.F.

Usando o método dos mínimos quadrados.

O modelo de regressão combina uma ampla classe de funções universais que descrevem um determinado padrão. Nesse caso, para construir um modelo, utilizam-se principalmente dados medidos, ao invés do conhecimento das propriedades do padrão em estudo. Este modelo muitas vezes não é interpretável, mas é mais preciso. Isto é explicado pelo grande número de modelos candidatos usados ​​para construir o modelo ótimo, ou pela alta complexidade do modelo. Encontrar os parâmetros de um modelo de regressão é chamado treinamento de modelo.

Desvantagens da análise de regressão: modelos com pouca complexidade podem ser imprecisos e modelos com muita complexidade podem ser imprecisos. retreinado.

Na gestão e no planejamento, há uma série de tarefas típicas que podem ser transferidas para os ombros de um computador. O usuário de tal software pode nem conhecer profundamente a matemática por trás do aparelho utilizado. Ele deve apresentar apenas a essência do problema a ser resolvido, preparar e inserir os dados iniciais no computador e interpretar os resultados obtidos. Um produto de software que pode ser usado para esses fins é o Ms Excel.

O MS Excel não é apenas uma planilha com dados e fórmulas para cálculos. É um sistema universal de processamento de dados que pode ser usado para analisar e apresentar dados de forma visual.

Um dos recursos mais comumente usados ​​do Excel é a extrapolação de dados - por exemplo, para analisar dados reais existentes, avaliar a tendência de sua mudança e derivar uma previsão de curto prazo para o futuro com base nisso. Nesse caso, utiliza-se a extrapolação linear dos dados com base no desvio mínimo quadrático - encontra-se uma dependência linear dos dados, que minimizaria a soma dos quadrados das diferenças entre os dados reais disponíveis e os valores correspondentes ​na linha de tendência linear (dependência de interpolação ou extrapolação). Com base na relação encontrada, uma suposição razoável pode ser feita sobre os valores futuros esperados da série de dados em estudo.

A resolução de problemas de planeamento e gestão exige constantemente que se leve em conta as dependências de alguns factores em relação a outros.

Vejamos diferentes métodos de representação de dependências.

Se a relação entre quantidades puder ser representada de forma matemática, então temos um modelo matemático.


Modelo matemáticoé um conjunto de características quantitativas de algum objeto (processo) e conexões entre eles, apresentadas na linguagem da matemática.

Os modelos matemáticos podem ser apresentados na forma de fórmulas, equações ou sistemas de equações. Por exemplo, a dependência do tempo que um corpo cai no solo em relação à altura inicial é descrita pela fórmula. Vejamos exemplos de outras maneiras de representar dependências entre quantidades: tabular e gráfico. Com base nos resultados do experimento, compilamos uma tabela e traçamos um gráfico (Figura 1).

N (m) t (seg)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Figura 1. Apresentação tabular e gráfica dos dados.

Examinamos três maneiras de exibir a dependência de quantidades: funcional (fórmula), tabular e gráfica. Mas apenas uma fórmula pode ser chamada de modelo matemático do processo de queda de um corpo ao solo, porque a fórmula é universal. Uma tabela e um diagrama (gráfico) expõem os fatos, e um modelo matemático permite fazer previsões por meio de cálculos.

Os dados estatísticos são sempre aproximados, calculados em média. Portanto, eles são de natureza avaliativa. No entanto, refletem corretamente a natureza da dependência das quantidades. E mais uma observação importante: para a confiabilidade dos resultados obtidos pela análise dos dados estatísticos, deve haver muitos desses dados.

O gráfico da função desejada deve passar próximo aos pontos do diagrama de dados experimentais. Não faz sentido construir uma função de forma que seu gráfico passe exatamente por todos esses pontos (Figura 2). Em primeiro lugar, a forma matemática de tal função pode ser demasiado complexa. Em segundo lugar, já foi dito que os valores experimentais são aproximados.

Isto implica os requisitos básicos para a função exigida:

Deve ser simples o suficiente para ser usado em cálculos posteriores;

O gráfico desta função deve passar próximo aos pontos experimentais para que os desvios desses pontos em relação ao gráfico sejam mínimos e uniformes (Figura 3).

Figura 3. Duas opções para construção de dependência gráfica baseada em dados experimentais.

A função resultante, cujo gráfico é mostrado na Figura 3(b), é geralmente chamada de modelo de regressão em estatística. Modelo de regressãoé uma função que descreve a relação entre as características quantitativas de sistemas complexos.

A obtenção de um modelo de regressão ocorre em duas etapas:

1. Seleção do tipo de função;

2. Cálculo de parâmetros de função.

Na maioria das vezes, a escolha é feita entre as seguintes funções:

y = machado + b - função linear;

y = machado 2 + bx + c - função quadrática;

y = aln(x) + b - função logarítmica;

y = ae bx - função exponencial;

y = ax b é uma função de potência.

Se você escolheu (conscientemente ou aleatoriamente) uma das funções propostas, o próximo passo é selecionar os parâmetros (a, b, c, etc.) para que a função fique localizada o mais próximo possível dos pontos experimentais. O método dos mínimos quadrados (OLS) é adequado para este propósito. Sua essência é a seguinte: a função necessária deve ser construída de modo que a soma dos desvios quadrados das coordenadas y de todos os pontos experimentais das coordenadas y do gráfico da função seja mínima.

É importante entender o seguinte: usando o método dos mínimos quadrados, qualquer função pode ser construída a partir de um determinado conjunto de pontos experimentais. Mas se isso nos irá satisfazer é outra questão – uma questão do critério de conformidade. A Figura 4 mostra 3 funções construídas usando o método dos mínimos quadrados.

Figura 4

Esses números foram obtidos usando o MS Excel. O gráfico do modelo de regressão é chamado tendência(tendência - direção, tendência).

O gráfico de uma função linear é uma linha reta. A linha reta obtida pelo método OLS reflete o fato de haver um aumento na morbidade pela concentração de monóxido de carbono, mas a partir deste gráfico é difícil dizer algo sobre a natureza desse aumento. Mas as tendências quadráticas e exponenciais comportam-se de forma muito plausível.

Os gráficos contêm outro valor obtido como resultado das tendências de construção. É designado como R2. Nas estatísticas esta quantidade é chamada coeficiente de determinismo.É isso que determina o sucesso do modelo de regressão. O coeficiente de determinismo está sempre na faixa de 0 a 1. Se for igual a 1, então a função passa exatamente pelos valores da tabela, se for 0, então o tipo de modelo de regressão selecionado não tem sucesso. Quanto mais próximo R2 estiver de 1, mais bem-sucedido será o modelo de regressão.

O método dos mínimos quadrados é usado para calcular os parâmetros do modelo de regressão. Este método está contido no arsenal matemático das planilhas.

Obtido um modelo matemático de regressão, podemos prever o processo por meio de cálculos. Agora é possível estimar a incidência de asma não apenas para os valores das concentrações de monóxido de carbono obtidos pelas medições, mas também para outros valores. Isto é muito importante do ponto de vista prático. Por exemplo, se uma cidade planeja construir uma usina que emitirá monóxido de carbono na atmosfera, calculando a possível concentração de gás, você poderá prever como isso afetará a incidência de asma nos residentes da cidade.

Existem duas maneiras de fazer previsões usando um modelo de regressão. Se a previsão for feita dentro dos valores experimentais da variável independente (no nosso caso este é o valor da concentração de monóxido de carbono - C), então isso é chamado restauração de valor.

A previsão além dos dados experimentais é chamada extrapolação.

Ter um modelo de regressão facilita fazer previsões por meio de cálculos em uma planilha.

O processador de planilhas permite extrapolar graficamente, dando continuidade à tendência além dos dados experimentais. A aparência ao usar uma tendência quadrática para C = 7 é mostrada na Figura 5.

Figura 5

Em alguns casos, é preciso ter cuidado com a extrapolação. A aplicabilidade de qualquer modelo de regressão é limitada, especialmente fora do domínio experimental.

Referências.

1. Novikov F.A., Yatsenko A.D.. Microsoft Office. S.-P.: BHV-Petersburgo, 2002. pp.449-458

2. Semakin I.G., Henner E.K. Ciência da Computação. M.: BINOM. Laboratório do Conhecimento, 2003 págs.102-117

O que é regressão?

Considere duas variáveis ​​contínuas x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Vamos colocar os pontos em um gráfico de dispersão bidimensional e dizer que temos relação linear, se os dados forem aproximados por uma linha reta.

Se acreditarmos nisso sim depende de x, e mudanças em sim são causadas precisamente por alterações x, podemos determinar a linha de regressão (regressão sim sobre x), que melhor descreve a relação linear entre essas duas variáveis.

O uso estatístico da palavra regressão vem do fenômeno conhecido como regressão à média, atribuído a Sir Francis Galton (1889).

Ele mostrou que embora pais altos tendam a ter filhos altos, a altura média dos filhos é menor do que a dos pais altos. A altura média dos filhos “regrediu” e “retrocedeu” em direção à altura média de todos os pais da população. Assim, em média, os pais altos têm filhos mais baixos (mas ainda bastante altos), e os pais baixos têm filhos mais altos (mas ainda bastante baixos).

Linha de regressão

Uma equação matemática que estima uma linha de regressão linear simples (em pares):

x chamada de variável independente ou preditor.

S- variável dependente ou variável de resposta. Este é o valor que esperamos para sim(em média) se soubermos o valor x, ou seja este é o "valor previsto" sim»

  • um- membro livre (cruzamento) da linha de avaliação; este é o significado S, Quando x=0(Fig.1).
  • b- inclinação ou gradiente da linha estimada; representa o valor pelo qual S aumenta em média se aumentarmos x por uma unidade.
  • um E b são chamados de coeficientes de regressão da linha estimada, embora este termo seja frequentemente usado apenas para b.

A regressão linear pareada pode ser estendida para incluir mais de uma variável independente; neste caso é conhecido como regressão múltipla.

Figura 1. Linha de regressão linear mostrando a interceptação a e a inclinação b (a quantidade Y aumenta à medida que x aumenta em uma unidade)

Método dos mínimos quadrados

Realizamos análise de regressão usando uma amostra de observações onde um E b- estimativas amostrais dos parâmetros verdadeiros (gerais), α e β, que determinam a linha de regressão linear na população (população geral).

O método mais simples para determinar coeficientes um E bé método dos mínimos quadrados(MNC).

O ajuste é avaliado observando os resíduos (distância vertical de cada ponto da linha, por exemplo, residual = observado sim- previsto sim, Arroz. 2).

A linha de melhor ajuste é escolhida de forma que a soma dos quadrados dos resíduos seja mínima.

Arroz. 2. Linha de regressão linear com resíduos representados (linhas pontilhadas verticais) para cada ponto.

Suposições de regressão linear

Assim, para cada valor observado, o resto é igual à diferença e o valor previsto correspondente. Cada resto pode ser positivo ou negativo.

Você pode usar resíduos para testar as seguintes suposições por trás da regressão linear:

  • Os resíduos são normalmente distribuídos com média zero;

Se as suposições de linearidade, normalidade e/ou variância constante forem questionáveis, podemos transformar ou calcular uma nova linha de regressão para a qual essas suposições sejam satisfeitas (por exemplo, usar uma transformação logarítmica, etc.).

Valores anômalos (outliers) e pontos de influência

Uma observação “influente”, se omitida, altera uma ou mais estimativas de parâmetros do modelo (ou seja, inclinação ou interceptação).

Um outlier (uma observação que é inconsistente com a maioria dos valores em um conjunto de dados) pode ser uma observação "influente" e pode ser facilmente detectada visualmente inspecionando um gráfico de dispersão bivariado ou gráfico residual.

Tanto para outliers como para observações “influentes” (pontos), são utilizados modelos, com e sem a sua inclusão, e é dada atenção às mudanças nas estimativas (coeficientes de regressão).

Ao realizar uma análise, não se deve descartar automaticamente valores discrepantes ou pontos de influência, pois simplesmente ignorá-los pode afetar os resultados obtidos. Sempre estude os motivos desses valores discrepantes e analise-os.

Hipótese de regressão linear

Ao construir a regressão linear, testa-se a hipótese nula de que a inclinação geral da linha de regressão β é igual a zero.

Se a inclinação da linha for zero, não há relação linear entre e: a mudança não afeta

Para testar a hipótese nula de que a inclinação verdadeira é zero, você pode usar o seguinte algoritmo:

Calcule a estatística de teste igual à razão , que está sujeita a uma distribuição com graus de liberdade, onde o erro padrão do coeficiente


,

- estimativa da dispersão dos resíduos.

Normalmente, se o nível de significância for atingido, a hipótese nula é rejeitada.


onde é o ponto percentual da distribuição com graus de liberdade, que dá a probabilidade de um teste bilateral

Este é o intervalo que contém a inclinação geral com probabilidade de 95%.

Para amostras grandes, digamos, podemos aproximar um valor de 1,96 (ou seja, a estatística de teste tenderá a ser normalmente distribuída)

Avaliando a qualidade da regressão linear: coeficiente de determinação R 2

Por causa da relação linear e esperamos que as mudanças à medida que e chame-a de variação que é devida ou explicada pela regressão. A variação residual deve ser a menor possível.

Se isto for verdade, então a maior parte da variação será explicada pela regressão, e os pontos ficarão próximos da linha de regressão, ou seja, a linha se ajusta bem aos dados.

A proporção da variância total que é explicada pela regressão é chamada coeficiente de determinação, geralmente expresso como uma porcentagem e denotado R2(na regressão linear pareada esta é a quantidade R2, quadrado do coeficiente de correlação), permite avaliar subjetivamente a qualidade da equação de regressão.

A diferença representa a porcentagem de variância que não pode ser explicada pela regressão.

Não existe um teste formal para avaliar; devemos confiar no julgamento subjetivo para determinar a qualidade do ajuste da linha de regressão.

Aplicando uma linha de regressão à previsão

Você pode usar uma linha de regressão para prever um valor a partir de um valor no final do intervalo observado (nunca extrapolar além desses limites).

Prevemos a média dos observáveis ​​que possuem um valor específico inserindo esse valor na equação da linha de regressão.

Portanto, se prevermos como Use esse valor previsto e seu erro padrão para estimar um intervalo de confiança para a verdadeira média populacional.

Repetir este procedimento para diferentes valores permite construir limites de confiança para esta linha. Esta é a banda ou área que contém a linha verdadeira, por exemplo, com nível de confiança de 95%.

Planos de regressão simples

Projetos de regressão simples contêm um preditor contínuo. Se houver 3 observações com valores preditores P, como 7, 4 e 9, e o projeto incluir um efeito de primeira ordem P, então a matriz de projeto X será

e a equação de regressão usando P para X1 é

Y = b0 + b1 P

Se um projeto de regressão simples contém um efeito de ordem superior em P, como um efeito quadrático, então os valores na coluna X1 na matriz de projeto serão elevados à segunda potência:

e a equação assumirá a forma

Y = b0 + b1 P2

Os métodos de codificação restritos por Sigma e superparametrizados não se aplicam a projetos de regressão simples e outros projetos contendo apenas preditores contínuos (porque simplesmente não há preditores categóricos). Independentemente do método de codificação escolhido, os valores das variáveis ​​contínuas são incrementados de acordo e usados ​​como valores para as variáveis ​​X. Neste caso, nenhuma recodificação é realizada. Além disso, ao descrever planos de regressão, você pode omitir a consideração da matriz de projeto X e trabalhar apenas com a equação de regressão.

Exemplo: Análise de Regressão Simples

Este exemplo usa os dados apresentados na tabela:

Arroz. 3. Tabela de dados iniciais.

Dados compilados a partir de uma comparação dos censos de 1960 e 1970 em 30 condados selecionados aleatoriamente. Os nomes dos condados são apresentados como nomes de observação. As informações sobre cada variável são apresentadas a seguir:

Arroz. 4. Tabela de especificações variáveis.

Problema de pesquisa

Para este exemplo, será analisada a correlação entre a taxa de pobreza e o grau que prevê a percentagem de famílias que estão abaixo da linha da pobreza. Portanto, trataremos a variável 3 (Pt_Poor) como variável dependente.

Podemos levantar uma hipótese: as mudanças no tamanho da população e a percentagem de famílias que estão abaixo da linha da pobreza estão relacionadas. Parece razoável esperar que a pobreza conduza à emigração, pelo que haveria uma correlação negativa entre a percentagem de pessoas abaixo do limiar da pobreza e a evolução populacional. Portanto, trataremos a variável 1 (Pop_Chng) como uma variável preditora.

Ver resultados

Coeficientes de regressão

Arroz. 5. Coeficientes de regressão de Pt_Poor em Pop_Chng.

Na interseção da linha Pop_Chng e da coluna Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

o coeficiente não padronizado para a regressão de Pt_Poor em Pop_Chng é -0,40374. Isto significa que para cada unidade de diminuição da população, há um aumento na taxa de pobreza de 0,40374. Os limites de confiança superior e inferior (padrão) de 95% para esse coeficiente não padronizado não incluem zero, portanto, o coeficiente de regressão é significativo no nível p

Distribuição variável

Os coeficientes de correlação podem ser significativamente superestimados ou subestimados se grandes valores discrepantes estiverem presentes nos dados. Vamos estudar a distribuição da variável dependente Pt_Poor por distrito. Para fazer isso, vamos construir um histograma da variável Pt_Poor.

Arroz. 6. Histograma da variável Pt_Poor.

Como você pode ver, a distribuição desta variável difere marcadamente da distribuição normal. Contudo, embora mesmo dois condados (as duas colunas da direita) tenham uma percentagem mais elevada de famílias que estão abaixo da linha da pobreza do que o esperado numa distribuição normal, eles parecem estar "dentro da faixa".

Arroz. 7. Histograma da variável Pt_Poor.

Este julgamento é um tanto subjetivo. A regra geral é que os valores discrepantes devem ser considerados se a observação (ou observações) não estiver dentro do intervalo (média ± 3 vezes o desvio padrão). Neste caso, vale a pena repetir a análise com e sem outliers para garantir que não tenham um efeito importante na correlação entre os membros da população.

Gráfico de dispersão

Se uma das hipóteses é a priori sobre a relação entre determinadas variáveis, então é útil testá-la no gráfico do gráfico de dispersão correspondente.

Arroz. 8. Diagrama de dispersão.

O gráfico de dispersão mostra uma clara correlação negativa (-0,65) entre as duas variáveis. Também mostra o intervalo de confiança de 95% para a linha de regressão, ou seja, há uma probabilidade de 95% de que a linha de regressão esteja entre as duas curvas pontilhadas.

Critérios de significância

O teste para o coeficiente de regressão Pop_Chng confirma que Pop_Chng está fortemente relacionado com Pt_Poor , p<.001 .

Resultado final

Este exemplo mostrou como analisar um projeto de regressão simples. Também foram apresentadas interpretações de coeficientes de regressão não padronizados e padronizados. A importância de estudar a distribuição de resposta de uma variável dependente é discutida e uma técnica para determinar a direção e a força do relacionamento entre um preditor e uma variável dependente é demonstrada.

Após a análise de correlação ter revelado a presença de relações estatisticamente significativas entre as variáveis ​​​​e avaliado o grau de sua proximidade, normalmente passamos para uma descrição matemática de um tipo específico de relação por meio da análise de regressão.

Uma correlação entre duas variáveis ​​é uma relação funcional entre uma variável e o valor esperado (média condicional) da outra. A equação de tal relacionamento entre duas variáveis ​​é chamada de equação de regressão. Se houver duas variáveis ​​(uma dependente e uma independente), então a regressão é chamada de simples, e se houver mais de duas, então múltipla. Se a relação entre as variáveis ​​​​for linear, então a regressão é chamada de linear, caso contrário é chamada de não linear.

Vamos dar uma olhada mais de perto na regressão linear simples. Um modelo de tal dependência pode ser apresentado na forma

sim = α + β x + ε, (1.1)

Onde no – variável dependente (atributo resultante);

X – variável independente (característica fatorial);

α – termo livre da equação de regressão ou constante;

β – coeficiente da equação de regressão;

ε – variável aleatória que caracteriza os desvios dos valores reais da variável dependente no a partir de valores modelo ou teóricos calculados usando a equação de regressão.

Supõe-se que a variável explicativa X – o valor não é aleatório, mas explicável sim - aleatório. No futuro, esta suposição poderá ser removida.

1.2.1. Método dos mínimos quadrados (LSM) e suas premissas

α e β são parâmetros do modelo de regressão (1.1) que devem ser estimados com base nos dados amostrais. Com base nos mesmos dados amostrais, a variância ε deve ser estimada. Um método para calcular tais estimativas é o método clássico dos mínimos quadrados (OLS). A essência do OLS é minimizar a soma dos desvios quadrados dos valores reais da variável dependente no a partir de suas expectativas matemáticas condicionais, determinadas pela equação de regressão: = α + β x, sob a suposição de que a expectativa matemática de ε é igual a zero. Expectativa sim denotado por, e a soma dos desvios quadrados por Q(.

Aqui a soma é realizada para toda a população. Essa soma é chamada de soma residual dos quadrados.

Para minimizar esta função em termos de parâmetros, recorremos às condições de primeira ordem obtidas pela diferenciação de Q() em relação a

A seguir, vamos supor que para estimar os parâmetros do modelo (1.1), uma amostra contendo n pares de valores de variáveis ​​​​(x i ,y i), onde eu assume valores de 1 a n (eu=). Igualando as derivadas parciais a zero e passando da população para a amostra (substituindo os parâmetros pelas suas estimativas), obtemos um sistema de equações normais para cálculo das estimativas dos parâmetros α e β. Vamos denotar essas estimativas respectivamente como UM E b . Obtemos o seguinte sistema de equações normais

Se a equação estimada for denotada como sim = um + bx + e , Onde e é uma das realizações da variável aleatória ε correspondente a uma amostra específica, então a expressão entre colchetes do sistema de equações normais nada mais é do que o resto da equação de regressão e eu = sim eu e então a primeira equação deste sistema terá a forma = 0. Ou seja, o valor médio dos restos é zero. Assim, se uma equação de regressão contém uma constante, então a soma dos resíduos na equação estimada é sempre zero.

A segunda equação do sistema nesta notação dá = 0, ou seja, os vetores de valores da variável independente e dos resíduos são ortogonais (independentes).

Aqui está uma das fórmulas para calcular essas estimativas:

um = – b, b = . (1.2)

Sabe-se também que uma estimativa imparcial da variância dos desvios aleatórios é a variância residual, calculada a partir da relação:

= .

Portanto, o modelo de regressão linear pareado estimado é

sim = um + bx + e, (1.3)

onde e – desvios observados dos valores reais da variável dependente no dos calculados, que são calculados a partir da razão = um + bx .

A diferença entre ε e eé que ε é uma variável aleatória e não é possível prever seus valores, enquanto e são os valores de desvio observados ( e = y–) e esses desvios podem ser considerados uma amostra aleatória da população de valores residuais da regressão e podem ser analisados ​​por meio de métodos estatísticos.

Conforme observado, o OLS constrói estimativas de regressão com base na minimização da soma dos desvios quadrados ou resíduos ε, por isso é importante conhecer suas propriedades. Para obter “boas” estimativas de MQO, é necessário que os seguintes pressupostos básicos relativos aos resíduos do modelo (1.1), denominados pressupostos de Gauss-Markov, sejam satisfeitos.

A primeira suposição afirma que os resíduos de regressão esperados são zero e implica que, em média, a linha de regressão deve ser verdadeira. A suposição 3 afirma que todos os resíduos da regressão têm a mesma variância e é chamada de suposição de homocedasticidade, enquanto a suposição 4 exclui qualquer forma de autocorrelação entre eles, ou seja, implica correlação zero entre diferentes resíduos da regressão. Tomadas em conjunto, estas suposições significam que os resíduos da regressão são extratos não correlacionados de uma população com uma distribuição com média zero e variância constante.

A suposição 2 afirma a independência dos vetores de valores da variável independente e dos resíduos da regressão.

Sabe-se que se estas quatro suposições forem satisfeitas, então Teorema de GaussMarkova, que afirma que neste caso o estimador OLS de b é a melhor estimativa linear imparcial do parâmetro β. O melhor em termos de eficiência.

Além dos pressupostos enunciados, é introduzido outro que nos permitiria formular indicadores de precisão da equação de regressão e das suas estimativas. Esta premissa afirma que os resíduos devem seguir uma distribuição normal com valor esperado zero e variância constante.

A seguir, a equação = um + bx chamaremos a equação de regressão amostral ou simplesmente a equação de regressão, e seus coeficientes, respectivamente, de termo livre ( UM) e coeficiente da equação de regressão ( b).

O termo de interceptação de uma equação de regressão geralmente não é interpretado. O coeficiente de regressão mostra quanto, em média, a variável dependente (em suas unidades de medida) mudará quando a variável independente mudar em uma unidade de sua medida.

Ao mesmo tempo, é necessário ter em mente que os coeficientes considerados são estimativas dos parâmetros da equação de regressão =α + β x com todas as consequências daí decorrentes, incluindo a necessidade de obter estimativas da precisão da equação de regressão e dos seus parâmetros.

Vejamos alguns deles.

O modelo de regressão linear é o mais utilizado e mais estudado em econometria. Nomeadamente, foram estudadas as propriedades das estimativas dos parâmetros obtidas por vários métodos sob pressupostos sobre as características probabilísticas dos fatores e erros aleatórios do modelo. As propriedades limite (assintóticas) das estimativas de modelos não lineares também são derivadas com base na aproximação destes últimos por modelos lineares. Deve-se notar que do ponto de vista econométrico, a linearidade nos parâmetros é mais importante do que a linearidade nos fatores do modelo.

Modelo de regressão

onde estão os parâmetros do modelo, é o erro aleatório do modelo, é chamado de regressão linear se a função de regressão tiver a forma

onde estão os parâmetros de regressão (coeficientes), são os regressores (fatores do modelo), k— número de fatores do modelo.

Os coeficientes de regressão linear mostram a taxa de variação da variável dependente para um determinado fator, com outros fatores fixos (em um modelo linear esta taxa é constante):

O parâmetro para o qual não há fatores é frequentemente chamado constante. Formalmente, este é o valor da função quando todos os fatores são zero. Para fins analíticos, é conveniente assumir que uma constante é um parâmetro com um “fator” igual a 1 (ou outra constante arbitrária, portanto esse “fator” também é chamado de constante). Neste caso, se renumerarmos os fatores e parâmetros do modelo original levando isso em consideração (deixando a designação do número total de fatores - k), então a função de regressão linear pode ser escrita na seguinte forma, o que formalmente não contém uma constante:

onde é o vetor de regressores, é o vetor coluna de parâmetros (coeficientes).

Um modelo linear pode ser com ou sem constante. Então, nesta representação, o primeiro fator é igual a um ou é um fator ordinário, respectivamente

Testando a significância da regressão

O teste de Fisher para um modelo de regressão reflete quão bem o modelo explica a variância total da variável dependente. O critério é calculado usando a equação:

Onde R- coeficiente de correlação;
f 1 e f 2 - número de graus de liberdade.
A primeira fração da equação é igual à razão entre a variância explicada e a inexplicável. Cada uma dessas variâncias é dividida pelo seu grau de liberdade (a segunda fração da expressão). Número de graus de liberdade de variância explicada f 1 é igual ao número de variáveis ​​​​explicativas (por exemplo, para um modelo linear da forma Y=A*X+B nós conseguimos f 1 =1). Número de graus de liberdade de variância inexplicável f 2 = N-k-1, onde N-número de pontos experimentais, k-número de variáveis ​​explicativas (por exemplo, para um modelo Y=A*X+B substituir k=1).
Outro exemplo:
para um modelo linear da forma S=A 0 +UM 1 *X 1 +UM 2 *X 2, construído a partir de 20 pontos experimentais, obtemos f 1 =2 (duas variáveis X 1 e X 2), f 2 =20-2-1=17.
Para verificar a significância da equação de regressão, o valor calculado do critério de Fisher é comparado com o valor tabulado tomado para o número de graus de liberdade f 1 (maior dispersão) e f 2 (menor variância) no nível de significância selecionado (geralmente 0,05). Se o teste de Fisher calculado for superior ao tabelado, então a variância explicada é significativamente maior que a variância inexplicada e o modelo é significativo.

Coeficiente de correlação e F-critério, juntamente com os parâmetros do modelo de regressão, geralmente são calculados em algoritmos que implementam