Às vezes isso acontece: o problema pode ser resolvido quase aritmeticamente, mas a primeira coisa que vem à mente são todos os tipos de integrais de Lebesgue e funções de Bessel. Aqui você começa a ensinar rede neural, adicione mais algumas camadas ocultas, experimente o número de neurônios, funções de ativação, lembre-se do SVM e da Random Forest e comece tudo de novo. E, no entanto, apesar da abundância de métodos divertidos de ensino estatístico, a regressão linear continua a ser uma das ferramentas populares. E existem pré-requisitos para isso, entre os quais a intuitividade na interpretação do modelo.
Y i = a 0 + a 1 x i + ε i
Onde a 0 é a expectativa matemática da variável dependente y i quando a variável x i é igual a zero; a 1 é a mudança esperada na variável dependente y i quando x i muda em um (este coeficiente é selecionado de modo que o valor ½Σ(y i -ŷ i) 2 seja mínimo - esta é a chamada “função residual”); ε i - erro aleatório.
Neste caso, os coeficientes a 1 e a 0 podem ser expressos através do coeficiente de correlação de Pearson, desvios padrão e os valores médios das variáveis x e y:
Em 1 = cor(y, x)σ y /σ x
 0 = ȳ - â 1 x̄
Texto oculto
definir.seed(1)n<- 100
x <- runif(n)
y1 <- x + rnorm(n, sd=.1)
fit1 <- lm(y1 ~ x)
par(mfrow=c(1, 2))
plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit1)
plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Texto oculto
y2<- log(x) + rnorm(n, sd=.1)
fit2 <- lm(y2 ~ x)
plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit2)
plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Texto oculto
y3<- x + rnorm(n, sd=.001*x)
fit3 <- lm(y3 ~ x)
plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit3)
plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Texto oculto
qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))
Texto oculto
x4<- c(9, x)
y4 <- c(3, x + rnorm(n, sd=.1))
fit4 <- lm(y4 ~ x4)
par(mfrow=c(1, 1))
plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit4)
Texto oculto
plot(prever(ajustar), residir(ajustar), pch=".")
Usando o método dos mínimos quadrados.
O modelo de regressão combina uma ampla classe de funções universais que descrevem um determinado padrão. Nesse caso, para construir um modelo, utilizam-se principalmente dados medidos, ao invés do conhecimento das propriedades do padrão em estudo. Este modelo muitas vezes não é interpretável, mas é mais preciso. Isto é explicado pelo grande número de modelos candidatos usados para construir o modelo ótimo, ou pela alta complexidade do modelo. Encontrar os parâmetros de um modelo de regressão é chamado treinamento de modelo.
Desvantagens da análise de regressão: modelos com pouca complexidade podem ser imprecisos e modelos com muita complexidade podem ser imprecisos. retreinado.
Na gestão e no planejamento, há uma série de tarefas típicas que podem ser transferidas para os ombros de um computador. O usuário de tal software pode nem conhecer profundamente a matemática por trás do aparelho utilizado. Ele deve apresentar apenas a essência do problema a ser resolvido, preparar e inserir os dados iniciais no computador e interpretar os resultados obtidos. Um produto de software que pode ser usado para esses fins é o Ms Excel.
O MS Excel não é apenas uma planilha com dados e fórmulas para cálculos. É um sistema universal de processamento de dados que pode ser usado para analisar e apresentar dados de forma visual.
Um dos recursos mais comumente usados do Excel é a extrapolação de dados - por exemplo, para analisar dados reais existentes, avaliar a tendência de sua mudança e derivar uma previsão de curto prazo para o futuro com base nisso. Nesse caso, utiliza-se a extrapolação linear dos dados com base no desvio mínimo quadrático - encontra-se uma dependência linear dos dados, que minimizaria a soma dos quadrados das diferenças entre os dados reais disponíveis e os valores correspondentes na linha de tendência linear (dependência de interpolação ou extrapolação). Com base na relação encontrada, uma suposição razoável pode ser feita sobre os valores futuros esperados da série de dados em estudo.
A resolução de problemas de planeamento e gestão exige constantemente que se leve em conta as dependências de alguns factores em relação a outros.
Vejamos diferentes métodos de representação de dependências.
Se a relação entre quantidades puder ser representada de forma matemática, então temos um modelo matemático.
Modelo matemáticoé um conjunto de características quantitativas de algum objeto (processo) e conexões entre eles, apresentadas na linguagem da matemática.
Os modelos matemáticos podem ser apresentados na forma de fórmulas, equações ou sistemas de equações. Por exemplo, a dependência do tempo que um corpo cai no solo em relação à altura inicial é descrita pela fórmula. Vejamos exemplos de outras maneiras de representar dependências entre quantidades: tabular e gráfico. Com base nos resultados do experimento, compilamos uma tabela e traçamos um gráfico (Figura 1).
N (m) | t (seg) |
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5 |
Figura 1. Apresentação tabular e gráfica dos dados.
Examinamos três maneiras de exibir a dependência de quantidades: funcional (fórmula), tabular e gráfica. Mas apenas uma fórmula pode ser chamada de modelo matemático do processo de queda de um corpo ao solo, porque a fórmula é universal. Uma tabela e um diagrama (gráfico) expõem os fatos, e um modelo matemático permite fazer previsões por meio de cálculos.
Os dados estatísticos são sempre aproximados, calculados em média. Portanto, eles são de natureza avaliativa. No entanto, refletem corretamente a natureza da dependência das quantidades. E mais uma observação importante: para a confiabilidade dos resultados obtidos pela análise dos dados estatísticos, deve haver muitos desses dados.
O gráfico da função desejada deve passar próximo aos pontos do diagrama de dados experimentais. Não faz sentido construir uma função de forma que seu gráfico passe exatamente por todos esses pontos (Figura 2). Em primeiro lugar, a forma matemática de tal função pode ser demasiado complexa. Em segundo lugar, já foi dito que os valores experimentais são aproximados.
Isto implica os requisitos básicos para a função exigida:
Deve ser simples o suficiente para ser usado em cálculos posteriores;
O gráfico desta função deve passar próximo aos pontos experimentais para que os desvios desses pontos em relação ao gráfico sejam mínimos e uniformes (Figura 3).
Figura 3. Duas opções para construção de dependência gráfica baseada em dados experimentais.
A função resultante, cujo gráfico é mostrado na Figura 3(b), é geralmente chamada de modelo de regressão em estatística. Modelo de regressãoé uma função que descreve a relação entre as características quantitativas de sistemas complexos.
A obtenção de um modelo de regressão ocorre em duas etapas:
1. Seleção do tipo de função;
2. Cálculo de parâmetros de função.
Na maioria das vezes, a escolha é feita entre as seguintes funções:
y = machado + b - função linear;
y = machado 2 + bx + c - função quadrática;
y = aln(x) + b - função logarítmica;
y = ae bx - função exponencial;
y = ax b é uma função de potência.
Se você escolheu (conscientemente ou aleatoriamente) uma das funções propostas, o próximo passo é selecionar os parâmetros (a, b, c, etc.) para que a função fique localizada o mais próximo possível dos pontos experimentais. O método dos mínimos quadrados (OLS) é adequado para este propósito. Sua essência é a seguinte: a função necessária deve ser construída de modo que a soma dos desvios quadrados das coordenadas y de todos os pontos experimentais das coordenadas y do gráfico da função seja mínima.
É importante entender o seguinte: usando o método dos mínimos quadrados, qualquer função pode ser construída a partir de um determinado conjunto de pontos experimentais. Mas se isso nos irá satisfazer é outra questão – uma questão do critério de conformidade. A Figura 4 mostra 3 funções construídas usando o método dos mínimos quadrados.
Figura 4
Esses números foram obtidos usando o MS Excel. O gráfico do modelo de regressão é chamado tendência(tendência - direção, tendência).
O gráfico de uma função linear é uma linha reta. A linha reta obtida pelo método OLS reflete o fato de haver um aumento na morbidade pela concentração de monóxido de carbono, mas a partir deste gráfico é difícil dizer algo sobre a natureza desse aumento. Mas as tendências quadráticas e exponenciais comportam-se de forma muito plausível.
Os gráficos contêm outro valor obtido como resultado das tendências de construção. É designado como R2. Nas estatísticas esta quantidade é chamada coeficiente de determinismo.É isso que determina o sucesso do modelo de regressão. O coeficiente de determinismo está sempre na faixa de 0 a 1. Se for igual a 1, então a função passa exatamente pelos valores da tabela, se for 0, então o tipo de modelo de regressão selecionado não tem sucesso. Quanto mais próximo R2 estiver de 1, mais bem-sucedido será o modelo de regressão.
O método dos mínimos quadrados é usado para calcular os parâmetros do modelo de regressão. Este método está contido no arsenal matemático das planilhas.
Obtido um modelo matemático de regressão, podemos prever o processo por meio de cálculos. Agora é possível estimar a incidência de asma não apenas para os valores das concentrações de monóxido de carbono obtidos pelas medições, mas também para outros valores. Isto é muito importante do ponto de vista prático. Por exemplo, se uma cidade planeja construir uma usina que emitirá monóxido de carbono na atmosfera, calculando a possível concentração de gás, você poderá prever como isso afetará a incidência de asma nos residentes da cidade.
Existem duas maneiras de fazer previsões usando um modelo de regressão. Se a previsão for feita dentro dos valores experimentais da variável independente (no nosso caso este é o valor da concentração de monóxido de carbono - C), então isso é chamado restauração de valor.
A previsão além dos dados experimentais é chamada extrapolação.
Ter um modelo de regressão facilita fazer previsões por meio de cálculos em uma planilha.
O processador de planilhas permite extrapolar graficamente, dando continuidade à tendência além dos dados experimentais. A aparência ao usar uma tendência quadrática para C = 7 é mostrada na Figura 5.
Figura 5
Em alguns casos, é preciso ter cuidado com a extrapolação. A aplicabilidade de qualquer modelo de regressão é limitada, especialmente fora do domínio experimental.
Referências.
1. Novikov F.A., Yatsenko A.D.. Microsoft Office. S.-P.: BHV-Petersburgo, 2002. pp.449-458
2. Semakin I.G., Henner E.K. Ciência da Computação. M.: BINOM. Laboratório do Conhecimento, 2003 págs.102-117
O que é regressão?
Considere duas variáveis contínuas x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).
Vamos colocar os pontos em um gráfico de dispersão bidimensional e dizer que temos relação linear, se os dados forem aproximados por uma linha reta.
Se acreditarmos nisso sim depende de x, e mudanças em sim são causadas precisamente por alterações x, podemos determinar a linha de regressão (regressão sim sobre x), que melhor descreve a relação linear entre essas duas variáveis.
O uso estatístico da palavra regressão vem do fenômeno conhecido como regressão à média, atribuído a Sir Francis Galton (1889).
Ele mostrou que embora pais altos tendam a ter filhos altos, a altura média dos filhos é menor do que a dos pais altos. A altura média dos filhos “regrediu” e “retrocedeu” em direção à altura média de todos os pais da população. Assim, em média, os pais altos têm filhos mais baixos (mas ainda bastante altos), e os pais baixos têm filhos mais altos (mas ainda bastante baixos).
Uma equação matemática que estima uma linha de regressão linear simples (em pares):
x chamada de variável independente ou preditor.
S- variável dependente ou variável de resposta. Este é o valor que esperamos para sim(em média) se soubermos o valor x, ou seja este é o "valor previsto" sim»
A regressão linear pareada pode ser estendida para incluir mais de uma variável independente; neste caso é conhecido como regressão múltipla.
Figura 1. Linha de regressão linear mostrando a interceptação a e a inclinação b (a quantidade Y aumenta à medida que x aumenta em uma unidade)
Realizamos análise de regressão usando uma amostra de observações onde um E b- estimativas amostrais dos parâmetros verdadeiros (gerais), α e β, que determinam a linha de regressão linear na população (população geral).
O método mais simples para determinar coeficientes um E bé método dos mínimos quadrados(MNC).
O ajuste é avaliado observando os resíduos (distância vertical de cada ponto da linha, por exemplo, residual = observado sim- previsto sim, Arroz. 2).
A linha de melhor ajuste é escolhida de forma que a soma dos quadrados dos resíduos seja mínima.
Arroz. 2. Linha de regressão linear com resíduos representados (linhas pontilhadas verticais) para cada ponto.
Assim, para cada valor observado, o resto é igual à diferença e o valor previsto correspondente. Cada resto pode ser positivo ou negativo.
Você pode usar resíduos para testar as seguintes suposições por trás da regressão linear:
Se as suposições de linearidade, normalidade e/ou variância constante forem questionáveis, podemos transformar ou calcular uma nova linha de regressão para a qual essas suposições sejam satisfeitas (por exemplo, usar uma transformação logarítmica, etc.).
Uma observação “influente”, se omitida, altera uma ou mais estimativas de parâmetros do modelo (ou seja, inclinação ou interceptação).
Um outlier (uma observação que é inconsistente com a maioria dos valores em um conjunto de dados) pode ser uma observação "influente" e pode ser facilmente detectada visualmente inspecionando um gráfico de dispersão bivariado ou gráfico residual.
Tanto para outliers como para observações “influentes” (pontos), são utilizados modelos, com e sem a sua inclusão, e é dada atenção às mudanças nas estimativas (coeficientes de regressão).
Ao realizar uma análise, não se deve descartar automaticamente valores discrepantes ou pontos de influência, pois simplesmente ignorá-los pode afetar os resultados obtidos. Sempre estude os motivos desses valores discrepantes e analise-os.
Ao construir a regressão linear, testa-se a hipótese nula de que a inclinação geral da linha de regressão β é igual a zero.
Se a inclinação da linha for zero, não há relação linear entre e: a mudança não afeta
Para testar a hipótese nula de que a inclinação verdadeira é zero, você pode usar o seguinte algoritmo:
Calcule a estatística de teste igual à razão , que está sujeita a uma distribuição com graus de liberdade, onde o erro padrão do coeficiente
,
- estimativa da dispersão dos resíduos.
Normalmente, se o nível de significância for atingido, a hipótese nula é rejeitada.
onde é o ponto percentual da distribuição com graus de liberdade, que dá a probabilidade de um teste bilateral
Este é o intervalo que contém a inclinação geral com probabilidade de 95%.
Para amostras grandes, digamos, podemos aproximar um valor de 1,96 (ou seja, a estatística de teste tenderá a ser normalmente distribuída)
Por causa da relação linear e esperamos que as mudanças à medida que
e chame-a de variação que é devida ou explicada pela regressão. A variação residual deve ser a menor possível.
Se isto for verdade, então a maior parte da variação será explicada pela regressão, e os pontos ficarão próximos da linha de regressão, ou seja, a linha se ajusta bem aos dados.
A proporção da variância total que é explicada pela regressão é chamada coeficiente de determinação, geralmente expresso como uma porcentagem e denotado R2(na regressão linear pareada esta é a quantidade R2, quadrado do coeficiente de correlação), permite avaliar subjetivamente a qualidade da equação de regressão.
A diferença representa a porcentagem de variância que não pode ser explicada pela regressão.
Não existe um teste formal para avaliar; devemos confiar no julgamento subjetivo para determinar a qualidade do ajuste da linha de regressão.
Você pode usar uma linha de regressão para prever um valor a partir de um valor no final do intervalo observado (nunca extrapolar além desses limites).
Prevemos a média dos observáveis que possuem um valor específico inserindo esse valor na equação da linha de regressão.
Portanto, se prevermos como Use esse valor previsto e seu erro padrão para estimar um intervalo de confiança para a verdadeira média populacional.
Repetir este procedimento para diferentes valores permite construir limites de confiança para esta linha. Esta é a banda ou área que contém a linha verdadeira, por exemplo, com nível de confiança de 95%.
Projetos de regressão simples contêm um preditor contínuo. Se houver 3 observações com valores preditores P, como 7, 4 e 9, e o projeto incluir um efeito de primeira ordem P, então a matriz de projeto X será
e a equação de regressão usando P para X1 é
Y = b0 + b1 P
Se um projeto de regressão simples contém um efeito de ordem superior em P, como um efeito quadrático, então os valores na coluna X1 na matriz de projeto serão elevados à segunda potência:
e a equação assumirá a forma
Y = b0 + b1 P2
Os métodos de codificação restritos por Sigma e superparametrizados não se aplicam a projetos de regressão simples e outros projetos contendo apenas preditores contínuos (porque simplesmente não há preditores categóricos). Independentemente do método de codificação escolhido, os valores das variáveis contínuas são incrementados de acordo e usados como valores para as variáveis X. Neste caso, nenhuma recodificação é realizada. Além disso, ao descrever planos de regressão, você pode omitir a consideração da matriz de projeto X e trabalhar apenas com a equação de regressão.
Este exemplo usa os dados apresentados na tabela:
Arroz. 3. Tabela de dados iniciais.
Dados compilados a partir de uma comparação dos censos de 1960 e 1970 em 30 condados selecionados aleatoriamente. Os nomes dos condados são apresentados como nomes de observação. As informações sobre cada variável são apresentadas a seguir:
Arroz. 4. Tabela de especificações variáveis.
Para este exemplo, será analisada a correlação entre a taxa de pobreza e o grau que prevê a percentagem de famílias que estão abaixo da linha da pobreza. Portanto, trataremos a variável 3 (Pt_Poor) como variável dependente.
Podemos levantar uma hipótese: as mudanças no tamanho da população e a percentagem de famílias que estão abaixo da linha da pobreza estão relacionadas. Parece razoável esperar que a pobreza conduza à emigração, pelo que haveria uma correlação negativa entre a percentagem de pessoas abaixo do limiar da pobreza e a evolução populacional. Portanto, trataremos a variável 1 (Pop_Chng) como uma variável preditora.
Arroz. 5. Coeficientes de regressão de Pt_Poor em Pop_Chng.
Na interseção da linha Pop_Chng e da coluna Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.
Distribuição variável
Os coeficientes de correlação podem ser significativamente superestimados ou subestimados se grandes valores discrepantes estiverem presentes nos dados. Vamos estudar a distribuição da variável dependente Pt_Poor por distrito. Para fazer isso, vamos construir um histograma da variável Pt_Poor.
Arroz. 6. Histograma da variável Pt_Poor.
Como você pode ver, a distribuição desta variável difere marcadamente da distribuição normal. Contudo, embora mesmo dois condados (as duas colunas da direita) tenham uma percentagem mais elevada de famílias que estão abaixo da linha da pobreza do que o esperado numa distribuição normal, eles parecem estar "dentro da faixa".
Arroz. 7. Histograma da variável Pt_Poor.
Gráfico de dispersão
Se uma das hipóteses é a priori sobre a relação entre determinadas variáveis, então é útil testá-la no gráfico do gráfico de dispersão correspondente.
Arroz. 8. Diagrama de dispersão.
Critérios de significância
O teste para o coeficiente de regressão Pop_Chng confirma que Pop_Chng está fortemente relacionado com Pt_Poor , p<.001 .
Este exemplo mostrou como analisar um projeto de regressão simples. Também foram apresentadas interpretações de coeficientes de regressão não padronizados e padronizados. A importância de estudar a distribuição de resposta de uma variável dependente é discutida e uma técnica para determinar a direção e a força do relacionamento entre um preditor e uma variável dependente é demonstrada.
Após a análise de correlação ter revelado a presença de relações estatisticamente significativas entre as variáveis e avaliado o grau de sua proximidade, normalmente passamos para uma descrição matemática de um tipo específico de relação por meio da análise de regressão.
Uma correlação entre duas variáveis é uma relação funcional entre uma variável e o valor esperado (média condicional) da outra. A equação de tal relacionamento entre duas variáveis é chamada de equação de regressão. Se houver duas variáveis (uma dependente e uma independente), então a regressão é chamada de simples, e se houver mais de duas, então múltipla. Se a relação entre as variáveis for linear, então a regressão é chamada de linear, caso contrário é chamada de não linear.
Vamos dar uma olhada mais de perto na regressão linear simples. Um modelo de tal dependência pode ser apresentado na forma
sim = α + β x + ε, (1.1)
Onde no – variável dependente (atributo resultante);
X – variável independente (característica fatorial);
α – termo livre da equação de regressão ou constante;
β – coeficiente da equação de regressão;
ε – variável aleatória que caracteriza os desvios dos valores reais da variável dependente no a partir de valores modelo ou teóricos calculados usando a equação de regressão.
Supõe-se que a variável explicativa X – o valor não é aleatório, mas explicável sim - aleatório. No futuro, esta suposição poderá ser removida.
α e β são parâmetros do modelo de regressão (1.1) que devem ser estimados com base nos dados amostrais. Com base nos mesmos dados amostrais, a variância ε deve ser estimada. Um método para calcular tais estimativas é o método clássico dos mínimos quadrados (OLS). A essência do OLS é minimizar a soma dos desvios quadrados dos valores reais da variável dependente no a partir de suas expectativas matemáticas condicionais, determinadas pela equação de regressão: = α + β x, sob a suposição de que a expectativa matemática de ε é igual a zero. Expectativa sim denotado por, e a soma dos desvios quadrados por Q(.
Aqui a soma é realizada para toda a população. Essa soma é chamada de soma residual dos quadrados.
Para minimizar esta função em termos de parâmetros, recorremos às condições de primeira ordem obtidas pela diferenciação de Q() em relação a
A seguir, vamos supor que para estimar os parâmetros do modelo (1.1), uma amostra contendo n pares de valores de variáveis (x i ,y i), onde eu assume valores de 1 a n (eu=). Igualando as derivadas parciais a zero e passando da população para a amostra (substituindo os parâmetros pelas suas estimativas), obtemos um sistema de equações normais para cálculo das estimativas dos parâmetros α e β. Vamos denotar essas estimativas respectivamente como UM E b . Obtemos o seguinte sistema de equações normais
Se a equação estimada for denotada como sim = um + bx + e , Onde e é uma das realizações da variável aleatória ε correspondente a uma amostra específica, então a expressão entre colchetes do sistema de equações normais nada mais é do que o resto da equação de regressão e eu = sim eu e então a primeira equação deste sistema terá a forma = 0. Ou seja, o valor médio dos restos é zero. Assim, se uma equação de regressão contém uma constante, então a soma dos resíduos na equação estimada é sempre zero.
A segunda equação do sistema nesta notação dá = 0, ou seja, os vetores de valores da variável independente e dos resíduos são ortogonais (independentes).
Aqui está uma das fórmulas para calcular essas estimativas:
um = – b, b = . (1.2)
Sabe-se também que uma estimativa imparcial da variância dos desvios aleatórios é a variância residual, calculada a partir da relação:
= .
Portanto, o modelo de regressão linear pareado estimado é
sim = um + bx + e, (1.3)
onde e – desvios observados dos valores reais da variável dependente no dos calculados, que são calculados a partir da razão = um + bx .
A diferença entre ε e eé que ε é uma variável aleatória e não é possível prever seus valores, enquanto e são os valores de desvio observados ( e = y–) e esses desvios podem ser considerados uma amostra aleatória da população de valores residuais da regressão e podem ser analisados por meio de métodos estatísticos.
Conforme observado, o OLS constrói estimativas de regressão com base na minimização da soma dos desvios quadrados ou resíduos ε, por isso é importante conhecer suas propriedades. Para obter “boas” estimativas de MQO, é necessário que os seguintes pressupostos básicos relativos aos resíduos do modelo (1.1), denominados pressupostos de Gauss-Markov, sejam satisfeitos.
A primeira suposição afirma que os resíduos de regressão esperados são zero e implica que, em média, a linha de regressão deve ser verdadeira. A suposição 3 afirma que todos os resíduos da regressão têm a mesma variância e é chamada de suposição de homocedasticidade, enquanto a suposição 4 exclui qualquer forma de autocorrelação entre eles, ou seja, implica correlação zero entre diferentes resíduos da regressão. Tomadas em conjunto, estas suposições significam que os resíduos da regressão são extratos não correlacionados de uma população com uma distribuição com média zero e variância constante.
A suposição 2 afirma a independência dos vetores de valores da variável independente e dos resíduos da regressão.
Sabe-se que se estas quatro suposições forem satisfeitas, então Teorema de Gauss–Markova, que afirma que neste caso o estimador OLS de b é a melhor estimativa linear imparcial do parâmetro β. O melhor em termos de eficiência.
Além dos pressupostos enunciados, é introduzido outro que nos permitiria formular indicadores de precisão da equação de regressão e das suas estimativas. Esta premissa afirma que os resíduos devem seguir uma distribuição normal com valor esperado zero e variância constante.
A seguir, a equação = um + bx chamaremos a equação de regressão amostral ou simplesmente a equação de regressão, e seus coeficientes, respectivamente, de termo livre ( UM) e coeficiente da equação de regressão ( b).
O termo de interceptação de uma equação de regressão geralmente não é interpretado. O coeficiente de regressão mostra quanto, em média, a variável dependente (em suas unidades de medida) mudará quando a variável independente mudar em uma unidade de sua medida.
Ao mesmo tempo, é necessário ter em mente que os coeficientes considerados são estimativas dos parâmetros da equação de regressão =α + β x com todas as consequências daí decorrentes, incluindo a necessidade de obter estimativas da precisão da equação de regressão e dos seus parâmetros.
Vejamos alguns deles.
O modelo de regressão linear é o mais utilizado e mais estudado em econometria. Nomeadamente, foram estudadas as propriedades das estimativas dos parâmetros obtidas por vários métodos sob pressupostos sobre as características probabilísticas dos fatores e erros aleatórios do modelo. As propriedades limite (assintóticas) das estimativas de modelos não lineares também são derivadas com base na aproximação destes últimos por modelos lineares. Deve-se notar que do ponto de vista econométrico, a linearidade nos parâmetros é mais importante do que a linearidade nos fatores do modelo.
Modelo de regressão
onde estão os parâmetros do modelo, é o erro aleatório do modelo, é chamado de regressão linear se a função de regressão tiver a forma
onde estão os parâmetros de regressão (coeficientes), são os regressores (fatores do modelo), k— número de fatores do modelo.
Os coeficientes de regressão linear mostram a taxa de variação da variável dependente para um determinado fator, com outros fatores fixos (em um modelo linear esta taxa é constante):
O parâmetro para o qual não há fatores é frequentemente chamado constante. Formalmente, este é o valor da função quando todos os fatores são zero. Para fins analíticos, é conveniente assumir que uma constante é um parâmetro com um “fator” igual a 1 (ou outra constante arbitrária, portanto esse “fator” também é chamado de constante). Neste caso, se renumerarmos os fatores e parâmetros do modelo original levando isso em consideração (deixando a designação do número total de fatores - k), então a função de regressão linear pode ser escrita na seguinte forma, o que formalmente não contém uma constante:
onde é o vetor de regressores, é o vetor coluna de parâmetros (coeficientes).
Um modelo linear pode ser com ou sem constante. Então, nesta representação, o primeiro fator é igual a um ou é um fator ordinário, respectivamente