Análise de regressão linear pareada. Regressão linear

3. Aproximação de funções usando o método

mínimos quadrados

O método dos mínimos quadrados é usado ao processar os resultados do experimento para aproximações (aproximações) dados experimentais fórmula analítica. A forma específica da fórmula é escolhida, via de regra, a partir de considerações físicas. Essas fórmulas podem ser:

e outros.

A essência do método dos mínimos quadrados é a seguinte. Deixe os resultados da medição serem apresentados na tabela:

Mesa 4

x n

y n

(3.1)

onde f é uma função conhecida, a 0 , a 1 , ..., a m - parâmetros constantes desconhecidos, cujos valores devem ser encontrados. No método dos mínimos quadrados, a aproximação da função (3.1) à dependência experimental é considerada a melhor se a condição

(3.2)

isso é quantidades uma desvios quadrados da função analítica desejada da dependência experimental devem ser mínimos .

Observe que a função Q chamado inviscid.


Desde a discrepância

então tem um mínimo. Uma condição necessária para o mínimo de uma função de várias variáveis ​​é a igualdade a zero de todas as derivadas parciais desta função com relação aos parâmetros. Assim, encontrando os melhores valores dos parâmetros da função de aproximação (3.1), ou seja, aqueles valores para os quais Q = Q (a 0 , a 1 , ..., a m ) é mínimo, reduz-se a resolver o sistema de equações:

(3.3)

O método dos mínimos quadrados pode receber a seguinte interpretação geométrica: entre uma família infinita de linhas de um determinado tipo, encontra-se uma linha para a qual a soma das diferenças quadradas nas ordenadas dos pontos experimentais e as correspondentes ordenadas dos pontos encontrado pela equação desta reta será o menor.

Encontrando os parâmetros de uma função linear

Sejam os dados experimentais representados por uma função linear:

É necessário escolher tais valores a e b , para o qual a função

(3.4)

será mínimo. As condições necessárias para o mínimo da função (3.4) são reduzidas ao sistema de equações:

Após as transformações, obtemos um sistema de duas equações lineares com duas incógnitas:

(3.5)

resolvendo qual, encontramos os valores desejados dos parâmetros a e b.

Encontrando os parâmetros de uma função quadrática

Se a função de aproximação for uma dependência quadrática

então seus parâmetros a , b , c encontre a partir da condição mínima da função:

(3.6)

As condições mínimas para a função (3.6) são reduzidas ao sistema de equações:


Após as transformações, obtemos um sistema de três equações lineares com três incógnitas:

(3.7)

no resolvendo qual encontramos os valores desejados dos parâmetros a, b e c.

Exemplo . Que a seguinte tabela de valores seja obtida como resultado do experimento x e y:

Mesa 5

e eu

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

É necessário aproximar os dados experimentais por funções lineares e quadráticas.

Solução. Encontrar os parâmetros das funções de aproximação reduz a resolução de sistemas de equações lineares (3.5) e (3.7). Para resolver o problema, usamos um processador de planilhas excel.

1. Primeiro ligamos as folhas 1 e 2. Insira os valores experimentais x eu e e eu em colunas A e B, a partir da segunda linha (na primeira linha colocamos os cabeçalhos das colunas). Em seguida, calculamos as somas dessas colunas e as colocamos na décima linha.

Nas colunas C–G coloque o cálculo e a soma respectivamente

2. Solte as folhas. Cálculos posteriores serão realizados de maneira semelhante para a dependência linear da Folha 1 e para a dependência quadrática da Folha 2.

3. Sob a tabela resultante, formamos uma matriz de coeficientes e um vetor coluna de termos livres. Vamos resolver o sistema de equações lineares de acordo com o seguinte algoritmo:

Para calcular a matriz inversa e multiplicar matrizes, usamos Mestre funções e funções MOBR e MUMNOZH.

4. No bloco de células H2: H 9 com base nos coeficientes obtidos, calculamos valores da aproximação polinomiale eu calcular., no bloco I 2: I 9 - desvios eu = e eu exp. - e eu calcular., na coluna J - a discrepância:

Tabelas obtidas e construídas usando Assistentes de gráficos gráficos são mostrados nas figuras 6, 7, 8.


Arroz. 6. Tabela para cálculo dos coeficientes de uma função linear,

aproximando dados experimentais.


Arroz. 7. Tabela para cálculo dos coeficientes de uma função quadrática,

aproximandodados experimentais.


Arroz. 8. Representação gráfica dos resultados da aproximação

funções lineares e quadráticas de dados experimentais.

Responda. Os dados experimentais foram aproximados pela dependência linear y = 0,07881 x + 0,442262 com residual Q = 0,165167 e dependência quadrática y = 3,115476 x 2 – 5,2175 x + 2,529631 com residual Q = 0,002103 .

Tarefas. Aproxime a função dada por funções tabulares, lineares e quadráticas.

Tabela 6

№0

x

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599

Aproximamos a função por um polinômio do 2º grau. Para fazer isso, calculamos os coeficientes do sistema normal de equações:

, ,

Vamos compor um sistema normal de mínimos quadrados, que tem a forma:

A solução do sistema é fácil de encontrar:, , .

Assim, encontra-se o polinômio do 2º grau: .

Bases teóricas

Voltar à página<Введение в вычислительную математику. Примеры>

Exemplo 2. Encontrar o grau ótimo de um polinômio.

Voltar à página<Введение в вычислительную математику. Примеры>

Exemplo 3. Derivação de um sistema normal de equações para encontrar os parâmetros de uma dependência empírica.

Vamos derivar um sistema de equações para determinar os coeficientes e funções , que executa a aproximação da raiz quadrada média da função fornecida em relação aos pontos. Compor uma função e escreva a condição extrema necessária para isso:

Então o sistema normal terá a forma:

Obtivemos um sistema linear de equações para parâmetros desconhecidos e, que é facilmente resolvido.

Bases teóricas

Voltar à página<Введение в вычислительную математику. Примеры>

Exemplo.

Dados experimentais sobre os valores das variáveis x e no são dados na tabela.

Como resultado de seu alinhamento, a função

Usando método dos mínimos quadrados, aproxime esses dados com uma dependência linear y=ax+b(encontrar parâmetros uma e b). Descubra qual das duas linhas é melhor (no sentido do método dos mínimos quadrados) alinha os dados experimentais. Faça um desenho.

A essência do método dos mínimos quadrados (LSM).

O problema é encontrar os coeficientes de dependência linear para os quais a função de duas variáveis uma e bassume o menor valor. Ou seja, dados os dados uma e b a soma dos desvios quadrados dos dados experimentais da linha reta encontrada será a menor. Este é o objetivo do método dos mínimos quadrados.

Assim, a solução do exemplo se reduz a encontrar o extremo de uma função de duas variáveis.

Derivação de fórmulas para encontrar coeficientes.

Um sistema de duas equações com duas incógnitas é compilado e resolvido. Encontrando derivadas parciais de funções por variáveis uma e b, igualamos essas derivadas a zero.

Resolvemos o sistema de equações resultante por qualquer método (por exemplo método de substituição ou o método de Cramer) e obter fórmulas para encontrar coeficientes usando o método dos mínimos quadrados (LSM).

Com dados uma e b função assume o menor valor. A prova deste fato é dada abaixo no texto no final da página.

Esse é todo o método dos mínimos quadrados. Fórmula para encontrar o parâmetro uma contém as somas , , e o parâmetro né a quantidade de dados experimentais. Recomenda-se que os valores dessas somas sejam calculados separadamente.

Coeficiente b encontrado após o cálculo uma.

É hora de lembrar o exemplo original.

Solução.

Em nosso exemplo n=5. Preenchemos a tabela para facilitar o cálculo dos valores incluídos nas fórmulas dos coeficientes necessários.

Os valores da quarta linha da tabela são obtidos multiplicando os valores da 2ª linha pelos valores da 3ª linha para cada número eu.

Os valores da quinta linha da tabela são obtidos elevando ao quadrado os valores da 2ª linha para cada número eu.

Os valores da última coluna da tabela são as somas dos valores nas linhas.

Usamos as fórmulas do método dos mínimos quadrados para encontrar os coeficientes uma e b. Substituímos neles os valores correspondentes da última coluna da tabela:

Consequentemente, y=0,165x+2,184é a linha reta de aproximação desejada.

Resta descobrir qual das linhas y=0,165x+2,184 ou melhor se aproxima dos dados originais, ou seja, para fazer uma estimativa usando o método dos mínimos quadrados.

Estimativa do erro do método dos mínimos quadrados.

Para fazer isso, você precisa calcular as somas dos desvios quadrados dos dados originais dessas linhas e , um valor menor corresponde a uma linha que melhor se aproxima dos dados originais em termos do método dos mínimos quadrados.

Desde , então a linha y=0,165x+2,184 aproxima melhor os dados originais.

Ilustração gráfica do método dos mínimos quadrados (LSM).

Tudo parece ótimo nas paradas. A linha vermelha é a linha encontrada y=0,165x+2,184, a linha azul é , os pontos rosa são os dados originais.

Para que serve, para que servem todas essas aproximações?

Eu pessoalmente uso para resolver problemas de suavização de dados, problemas de interpolação e extrapolação (no exemplo original, você pode ser solicitado a encontrar o valor do valor observado y no x=3 ou quando x=6 de acordo com o método MNC). Mas falaremos mais sobre isso posteriormente em outra seção do site.

Topo da página

Prova.

Para que quando encontrado uma e b função assume o menor valor, é necessário que neste ponto a matriz da forma quadrática da diferencial de segunda ordem para a função foi positivo definido. Vamos mostrar.

A diferencial de segunda ordem tem a forma:

Aquilo é

Portanto, a matriz da forma quadrática tem a forma

e os valores dos elementos não dependem uma e b.

Vamos mostrar que a matriz é positiva definida. Isso requer que os ângulos menores sejam positivos.

Angular menor de primeira ordem . A desigualdade é estrita, pois os pontos não coincidem. Isso estará implícito no que se segue.

Angular menor de segunda ordem

Vamos provar que método de indução matemática.

Conclusão: valores encontrados uma e b corresponde ao menor valor da função , portanto, são os parâmetros desejados para o método dos mínimos quadrados.

Já entendeu?
Solicite uma Solução

Topo da página

Desenvolvimento de uma previsão usando o método dos mínimos quadrados. Exemplo de solução de problema

Extrapolação - este é um método de pesquisa científica, que se baseia na divulgação de tendências, padrões e relações do passado e do presente para o desenvolvimento futuro do objeto de previsão. Métodos de extrapolação incluem método de média móvel, método de suavização exponencial, método de mínimos quadrados.

Essência método dos mínimos quadrados consiste em minimizar a soma dos desvios quadrados entre os valores observados e calculados. Os valores calculados são encontrados de acordo com a equação selecionada - a equação de regressão. Quanto menor a distância entre os valores reais e os calculados, mais precisa é a previsão com base na equação de regressão.

A análise teórica da essência do fenômeno em estudo, cuja mudança é exibida por uma série temporal, serve de base para a escolha de uma curva. Considerações sobre a natureza do crescimento dos níveis da série são algumas vezes levadas em consideração. Assim, se o crescimento da produção é esperado em uma progressão aritmética, então a suavização é realizada em linha reta. Se o crescimento for exponencial, a suavização deve ser feita de acordo com a função exponencial.

A fórmula de trabalho do método dos mínimos quadrados : Yt+1 = a*X + b, onde t + 1 é o período de previsão; Уt+1 – indicador previsto; aeb são coeficientes; X é um símbolo do tempo.

Os coeficientes a e b são calculados de acordo com as seguintes fórmulas:

onde, Uf - os valores reais da série de dinâmicas; n é o número de níveis na série temporal;

A suavização de séries temporais pelo método dos mínimos quadrados serve para refletir os padrões de desenvolvimento do fenômeno em estudo. Na expressão analítica de uma tendência, o tempo é considerado uma variável independente, e os níveis da série atuam em função dessa variável independente.

O desenvolvimento de um fenômeno não depende de quantos anos se passaram desde o ponto de partida, mas de quais fatores influenciaram seu desenvolvimento, em que direção e com que intensidade. A partir disso, fica claro que o desenvolvimento de um fenômeno no tempo surge como resultado da ação desses fatores.

Definir corretamente o tipo de curva, o tipo de dependência analítica no tempo é uma das tarefas mais difíceis da análise pré-preditiva. .

A seleção do tipo de função que descreve a tendência, cujos parâmetros são determinados pelo método dos mínimos quadrados, é na maioria dos casos empírica, construindo uma série de funções e comparando-as entre si pelo valor da raiz média - erro quadrado calculado pela fórmula:

onde Uf - os valores reais da série de dinâmicas; Ur – valores calculados (suavizados) da série temporal; n é o número de níveis na série temporal; p é o número de parâmetros definidos nas fórmulas que descrevem a tendência (tendência de desenvolvimento).

Desvantagens do método dos mínimos quadrados :

  • ao tentar descrever o fenômeno econômico em estudo por meio de uma equação matemática, a previsão será precisa para um curto período de tempo e a equação de regressão deverá ser recalculada à medida que novas informações forem disponibilizadas;
  • a complexidade da seleção da equação de regressão, que pode ser resolvida usando programas de computador padrão.

Um exemplo de uso do método dos mínimos quadrados para desenvolver uma previsão

Uma tarefa . Existem dados que caracterizam o nível de desemprego na região, %

  • Construa uma previsão da taxa de desemprego na região para os meses de novembro, dezembro e janeiro, usando os métodos: média móvel, suavização exponencial, mínimos quadrados.
  • Calcule os erros nas previsões resultantes usando cada método.
  • Compare os resultados obtidos, tire conclusões.

Solução de mínimos quadrados

Para a solução, compilaremos uma tabela na qual faremos os cálculos necessários:

ε = 28,63/10 = 2,86% precisão da previsão Alto.

Conclusão : Comparando os resultados obtidos nos cálculos método de média móvel , suavização exponencial e o método dos mínimos quadrados, podemos dizer que o erro relativo médio nos cálculos pelo método de suavização exponencial cai entre 20-50%. Isso significa que a precisão da previsão neste caso é apenas satisfatória.

No primeiro e terceiro casos, a precisão da previsão é alta, pois o erro relativo médio é inferior a 10%. Mas o método da média móvel possibilitou a obtenção de resultados mais confiáveis ​​​​(previsão para novembro - 1,52%, previsão para dezembro - 1,53%, previsão para janeiro - 1,49%), pois o erro relativo médio ao usar esse método é o menor - 1 ,13%.

método dos mínimos quadrados

Outros artigos relacionados:

Lista de fontes usadas

  1. Recomendações científicas e metodológicas sobre questões de diagnóstico de riscos sociais e previsão de desafios, ameaças e consequências sociais. Universidade Social Estatal Russa. Moscou. 2010;
  2. Vladimirova L.P. Previsão e planejamento em condições de mercado: Proc. mesada. M.: Editora "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Prospecção da Economia Nacional: Guia Pedagógico e Metodológico. Yekaterinburg: Editora Ural. Estado economia universidade, 2007;
  4. Slutskin L. N. Curso de MBA em previsão de negócios. Moscou: Alpina Business Books, 2006.

Programa MNE

Inserir dados

Dados e Aproximação y = a + b x

eu- número do ponto experimental;
XI- o valor do parâmetro fixo no ponto eu;
e eu- o valor do parâmetro medido no ponto eu;
ω eu- peso de medição no ponto eu;
y i, calc.- a diferença entre o valor medido e o valor calculado a partir da regressão y no ponto eu;
S x i (x i)- estimativa de erro XI ao medir y no ponto eu.

Dados e Aproximação y = k x

eu XI e eu ω eu y i, calc. Δy eu S x i (x i)

Clique no gráfico

Manual do usuário para o programa online MNC.

No campo de dados, insira em cada linha separada os valores de `x` e `y` em um ponto experimental. Os valores devem ser separados por espaço em branco (espaço ou tabulação).

O terceiro valor pode ser o peso do ponto de `w`. Se o peso do ponto não for especificado, será igual a um. Na esmagadora maioria dos casos, os pesos dos pontos experimentais são desconhecidos ou não calculados; todos os dados experimentais são considerados equivalentes. Às vezes, os pesos na faixa de valores estudada definitivamente não são equivalentes e podem até ser calculados teoricamente. Por exemplo, na espectrofotometria, os pesos podem ser calculados usando fórmulas simples, embora basicamente todos negligenciem isso para reduzir os custos de mão de obra.

Os dados podem ser colados na área de transferência de uma planilha do pacote de escritório, como o Excel do Microsoft Office ou o Calc do Open Office. Para fazer isso, na planilha, selecione o intervalo de dados a ser copiado, copie para a área de transferência e cole os dados no campo de dados desta página.

Para calcular pelo método dos mínimos quadrados, são necessários pelo menos dois pontos para determinar dois coeficientes `b` - a tangente do ângulo de inclinação da linha reta e `a` - o valor cortado pela linha reta no `y ` eixo.

Para estimar o erro dos coeficientes de regressão calculados, é necessário definir o número de pontos experimentais para mais de dois.

Método dos mínimos quadrados (LSM).

Quanto maior o número de pontos experimentais, mais precisa a estimativa estatística dos coeficientes (devido à diminuição do coeficiente de Student) e mais próxima a estimativa da estimativa da amostra geral.

A obtenção de valores em cada ponto experimental costuma estar associada a custos significativos de mão de obra, portanto, muitas vezes é realizado um número de experimentos de compromisso, o que fornece uma estimativa digerível e não leva a custos excessivos de mão de obra. Como regra, o número de pontos experimentais para uma dependência linear de mínimos quadrados com dois coeficientes é escolhido na região de 5-7 pontos.

Uma Breve Teoria dos Mínimos Quadrados para Dependência Linear

Suponha que temos um conjunto de dados experimentais na forma de pares de valores [`y_i`, `x_i`], onde `i` é o número de uma medição experimental de 1 a `n`; `y_i` - o valor do valor medido no ponto `i`; `x_i` - o valor do parâmetro que definimos no ponto `i`.

Um exemplo é a operação da lei de Ohm. Ao alterar a tensão (diferença de potencial) entre as seções do circuito elétrico, medimos a quantidade de corrente que passa por essa seção. A física nos dá a dependência encontrada experimentalmente:

`I=U/R`,
onde `I` - força atual; `R` - resistência; `U` - tensão.

Nesse caso, `y_i` é o valor da corrente medida e `x_i` é o valor da tensão.

Como outro exemplo, considere a absorção de luz por uma solução de uma substância em solução. A química nos dá a fórmula:

`A = εl C`,
onde `A` é a densidade óptica da solução; `ε` - transmitância do soluto; `l` - comprimento do caminho quando a luz passa por uma cubeta com uma solução; `C` é a concentração do soluto.

Neste caso, `y_i` é a densidade óptica medida `A`, e `x_i` é a concentração da substância que definimos.

Consideraremos o caso em que o erro relativo na configuração de `x_i` é muito menor do que o erro relativo na medição de `y_i`. Também assumiremos que todos os valores medidos de `y_i` são aleatórios e normalmente distribuídos, ou seja, obedecer à lei da distribuição normal.

No caso de uma dependência linear de `y` em `x`, podemos escrever a dependência teórica:
`y = a + bx`.

Do ponto de vista geométrico, o coeficiente `b` denota a tangente do ângulo de inclinação da linha ao eixo `x`, e o coeficiente `a` - o valor de `y` no ponto de interseção do linha com o eixo `y` (para `x = 0`).

Encontrando os parâmetros da linha de regressão.

Em um experimento, os valores medidos de `y_i` não podem estar exatamente na linha teórica devido a erros de medição, que sempre são inerentes à vida real. Portanto, uma equação linear deve ser representada por um sistema de equações:
`y_i = a + b x_i + ε_i` (1),
onde `ε_i` é o erro de medição desconhecido de `y` no experimento `i`th.

Dependência (1) também é chamada regressão, ou seja a dependência das duas quantidades entre si com significância estatística.

A tarefa de restaurar a dependência é encontrar os coeficientes `a` e `b` a partir dos pontos experimentais [`y_i`, `x_i`].

Para encontrar os coeficientes `a` e `b` geralmente é usado método dos mínimos quadrados(MNK). É um caso especial do princípio da máxima verossimilhança.

Vamos reescrever (1) como `ε_i = y_i - a - b x_i`.

Então a soma dos erros quadrados será
`Φ = soma_(i=1)^(n) ε_i^2 = soma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

O princípio do método dos mínimos quadrados é minimizar a soma (2) em relação aos parâmetros `a` e `b`.

O mínimo é atingido quando as derivadas parciais da soma (2) em relação aos coeficientes `a` e `b` são iguais a zero:
`frac(parcial Φ)(parcial a) = frac(parcial soma_(i=1)^(n) (y_i - a - b x_i)^2)(parcial a) = 0`
`frac(parcial Φ)(parcial b) = frac(parcial soma_(i=1)^(n) (y_i - a - b x_i)^2)(parcial b) = 0`

Expandindo as derivadas, obtemos um sistema de duas equações com duas incógnitas:
`soma_(i=1)^(n) (2a + 2bx_i - 2y_i) = soma_(i=1)^(n) (a + bx_i - y_i) = 0`
`soma_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = soma_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Abrimos os colchetes e transferimos as somas independentes dos coeficientes desejados para a outra metade, obtemos um sistema de equações lineares:
`soma_(i=1)^(n) y_i = a n + b soma_(i=1)^(n) bx_i`
`soma_(i=1)^(n) x_iy_i = a soma_(i=1)^(n) x_i + b soma_(i=1)^(n) x_i^2`

Resolvendo o sistema resultante, encontramos fórmulas para os coeficientes `a` e `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n soma_(i=1)^(n) x_i^2 — (soma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n soma_(i=1)^(n) x_iy_i - soma_(i=1)^(n) x_i soma_(i=1)^(n) y_i) (n soma_(i=1)^ (n) x_i^2 - (soma_(i=1)^(n) x_i)^2)` (3.2)

Essas fórmulas têm soluções quando `n > 1` (a linha pode ser desenhada usando pelo menos 2 pontos) e quando o determinante `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1 )^(n) x_i)^2 != 0`, ou seja quando os pontos `x_i` no experimento são diferentes (ou seja, quando a linha não é vertical).

Estimativa de erros nos coeficientes da linha de regressão

Para uma estimativa mais precisa do erro no cálculo dos coeficientes `a` e `b`, um grande número de pontos experimentais é desejável. Quando `n = 2`, é impossível estimar o erro dos coeficientes, porque a linha de aproximação passará exclusivamente por dois pontos.

O erro da variável aleatória `V` é determinado lei de acumulação de erros
`S_V^2 = sum_(i=1)^p (frac(parcial f)(parcial z_i))^2 S_(z_i)^2`,
onde `p` é o número de parâmetros `z_i` com erro `S_(z_i)` que afetam o erro `S_V`;
`f` é uma função de dependência de `V` em `z_i`.

Vamos escrever a lei de acumulação de erros para o erro dos coeficientes `a` e `b`
`S_a^2 = soma_(i=1)^(n)(frac(a parcial)(y_i parcial))^2 S_(y_i)^2 + soma_(i=1)^(n)(frac(a parcial )(parcial x_i))^2 S_(x_i)^2 = S_y^2 soma_(i=1)^(n)(frac(parcial a)(parcial y_i))^2 `,
`S_b^2 = soma_(i=1)^(n)(frac(parcial b)(parcial y_i))^2 S_(y_i)^2 + soma_(i=1)^(n)(frac(parcial b )(parcial x_i))^2 S_(x_i)^2 = S_y^2 soma_(i=1)^(n)(frac(parcial b)(parcial y_i))^2 `,
Porque `S_(x_i)^2 = 0` (anteriormente fizemos uma reserva de que o erro de `x` é desprezível).

`S_y^2 = S_(y_i)^2` - o erro (variância, desvio padrão quadrado) na dimensão `y`, assumindo que o erro é uniforme para todos os valores `y`.

Substituindo as fórmulas para calcular `a` e `b` nas expressões resultantes, obtemos

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n soma_(i=1)^(n) x_i^2 - (soma_(i=1)^(n) x_i)^2) soma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n soma_(i=1)^(n) x_i^2 - (soma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

Na maioria dos experimentos reais, o valor de `Sy` não é medido. Para isso, é necessário realizar várias medições paralelas (experimentos) em um ou vários pontos do plano, o que aumenta o tempo (e possivelmente o custo) do experimento. Portanto, geralmente assume-se que o desvio de `y` da linha de regressão pode ser considerado aleatório. A estimativa de variância `y` neste caso é calculada pela fórmula.

`S_y^2 = S_(y, rest)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

O divisor `n-2` aparece porque reduzimos o número de graus de liberdade devido ao cálculo de dois coeficientes para a mesma amostra de dados experimentais.

Essa estimativa também é chamada de variância residual relativa à linha de regressão `S_(y, rest)^2`.

A avaliação da significância dos coeficientes é realizada de acordo com o critério de Student

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Se os critérios calculados `t_a`, `t_b` forem menores que os critérios da tabela `t(P, n-2)`, então considera-se que o coeficiente correspondente não é significativamente diferente de zero com uma dada probabilidade `P`.

Para avaliar a qualidade da descrição de uma relação linear, você pode comparar `S_(y, rest)^2` e `S_(bar y)` em relação à média usando o critério de Fisher.

`S_(barra y) = frac(soma_(i=1)^n (y_i - barra y)^2) (n-1) = frac(soma_(i=1)^n (y_i - (soma_(i= 1)^n y_i) /n)^2) (n-1)` - estimativa amostral da variância de `y` em relação à média.

Para avaliar a eficácia da equação de regressão para descrever a dependência, o coeficiente de Fisher é calculado
`F = S_(bar y) / S_(y, resto)^2`,
que é comparado com o coeficiente tabular de Fisher `F(p, n-1, n-2)`.

Se `F > F(P, n-1, n-2)`, a diferença entre a descrição da dependência `y = f(x)` usando a equação de regressão e a descrição usando a média é considerada estatisticamente significativa com probabilidade `P`. Aqueles. a regressão descreve melhor a dependência do que a dispersão de `y` em torno da média.

Clique no gráfico
para adicionar valores à tabela

Método dos mínimos quadrados. O método dos mínimos quadrados significa a determinação dos parâmetros desconhecidos a, b, c, a dependência funcional aceita

O método dos mínimos quadrados significa a determinação de parâmetros desconhecidos a,b,c,… dependência funcional aceita

y = f(x,a,b,c,…),

que forneceria um mínimo do quadrado médio (variância) do erro

, (24)

onde x i , y i - conjunto de pares de números obtidos no experimento.

Como a condição para o extremo de uma função de várias variáveis ​​é a condição de que suas derivadas parciais sejam iguais a zero, então os parâmetros a,b,c,… são determinados a partir do sistema de equações:

; ; ; … (25)

Deve ser lembrado que o método dos mínimos quadrados é usado para selecionar parâmetros após a forma da função y = f(x) definiram.

Se a partir de considerações teóricas for impossível tirar conclusões sobre qual deve ser a fórmula empírica, então deve-se guiar por representações visuais, principalmente uma representação gráfica dos dados observados.

Na prática, na maioria das vezes limitado aos seguintes tipos de funções:

1) linear ;

2) quadrática a .

Após o alinhamento, obtemos uma função da seguinte forma: g (x) = x + 1 3 + 1 .

Podemos aproximar esses dados com uma relação linear y = a x + b calculando os parâmetros apropriados. Para fazer isso, precisaremos aplicar o chamado método dos mínimos quadrados. Você também precisará fazer um desenho para verificar qual linha alinhará melhor os dados experimentais.

O que exatamente é OLS (método dos mínimos quadrados)

A principal coisa que precisamos fazer é encontrar tais coeficientes de dependência linear em que o valor da função de duas variáveis ​​F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 será o menor. Ou seja, para determinados valores de a e b, a soma dos desvios quadrados dos dados apresentados a partir da reta resultante terá um valor mínimo. Este é o significado do método dos mínimos quadrados. Tudo o que precisamos fazer para resolver o exemplo é encontrar o extremo da função de duas variáveis.

Como derivar fórmulas para calcular coeficientes

Para derivar fórmulas para calcular os coeficientes, é necessário compor e resolver um sistema de equações com duas variáveis. Para fazer isso, calculamos as derivadas parciais da expressão F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 em relação a a e b e as igualamos a 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Para resolver um sistema de equações, você pode usar qualquer método, como a substituição ou o método de Cramer. Como resultado, devemos obter fórmulas que calculam os coeficientes usando o método dos mínimos quadrados.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Calculamos os valores das variáveis ​​para as quais a função
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 assumirá o valor mínimo. No terceiro parágrafo, provaremos por que é assim.

Esta é a aplicação do método dos mínimos quadrados na prática. Sua fórmula, que é usada para encontrar o parâmetro a , inclui ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , e o parâmetro
n - denota a quantidade de dados experimentais. Aconselhamos que calcule cada valor separadamente. O valor do coeficiente b é calculado imediatamente após a .

Voltemos ao exemplo original.

Exemplo 1

Aqui temos n igual a cinco. Para tornar mais conveniente calcular os valores necessários incluídos nas fórmulas de coeficientes, preenchemos a tabela.

eu = 1 eu = 2 eu = 3 eu = 4 eu = 5 ∑ i = 1 5
XI 0 1 2 4 5 12
e eu 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x eu e eu 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Solução

A quarta linha contém os dados obtidos pela multiplicação dos valores da segunda linha pelos valores da terceira para cada i individual. A quinta linha contém os dados do segundo quadrado. A última coluna mostra as somas dos valores das linhas individuais.

Vamos usar o método dos mínimos quadrados para calcular os coeficientes a e b de que precisamos. Para fazer isso, substitua os valores desejados da última coluna e calcule as somas:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y in ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33 , 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Conseguimos que a linha reta de aproximação desejada se pareça com y = 0, 165 x + 2, 184 . Agora precisamos determinar qual linha aproximará melhor os dados - g (x) = x + 1 3 + 1 ou 0 , 165 x + 2 , 184 . Vamos fazer uma estimativa usando o método dos mínimos quadrados.

Para calcular o erro, precisamos encontrar as somas dos desvios quadrados dos dados das linhas σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 e σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , o valor mínimo corresponderá a uma linha mais adequada.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Responda: desde σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0 , 165 x + 2 , 184 .

O método dos mínimos quadrados é claramente mostrado na ilustração gráfica. A linha vermelha marca a linha reta g (x) = x + 1 3 + 1, a linha azul marca y = 0, 165 x + 2, 184. Os dados brutos são marcados com pontos rosa.

Vamos explicar por que exatamente aproximações desse tipo são necessárias.

Eles podem ser usados ​​em problemas que requerem suavização de dados, bem como naqueles em que os dados precisam ser interpolados ou extrapolados. Por exemplo, no problema discutido acima, pode-se encontrar o valor da quantidade observada y em x = 3 ou em x = 6 . Dedicamos um artigo separado a esses exemplos.

Prova do método LSM

Para que a função tome o valor mínimo quando a e b são calculados, é necessário que em um determinado ponto a matriz da forma quadrática da diferencial da função da forma F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 ser positiva definida. Vamos mostrar como deve ficar.

Exemplo 2

Temos uma diferencial de segunda ordem da seguinte forma:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Solução

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Em outras palavras, pode ser escrito da seguinte forma: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Obtivemos uma matriz de forma quadrática M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

Nesse caso, os valores dos elementos individuais não serão alterados dependendo de a e b . Essa matriz é positiva definida? Para responder a esta pergunta, vamos verificar se seus menores angulares são positivos.

Calcule o menor angular de primeira ordem: 2 ∑ i = 1 n (x i) 2 > 0 . Como os pontos x i não coincidem, a desigualdade é estrita. Manteremos isso em mente em cálculos posteriores.

Calculamos o menor angular de segunda ordem:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Em seguida, procedemos à prova da desigualdade n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 por indução matemática.

  1. Vamos verificar se esta desigualdade é válida para n arbitrário. Vamos pegar 2 e calcular:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Obtivemos a igualdade correta (se os valores x 1 e x 2 não coincidirem).

  1. Vamos assumir que essa desigualdade será verdadeira para n , ou seja, n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – verdadeiro.
  2. Agora vamos provar a validade para n + 1 , ou seja que (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 se n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Nós calculamos:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

A expressão entre chaves será maior que 0 (com base no que assumimos na etapa 2) e o restante dos termos será maior que 0 porque são todos quadrados de números. Provamos a desigualdade.

Responda: o a e b encontrados corresponderão ao menor valor da função F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, o que significa que eles são os parâmetros necessários do método dos mínimos quadrados (LSM).

Se você notar um erro no texto, destaque-o e pressione Ctrl+Enter

Se alguma quantidade física depende de outra quantidade, essa dependência pode ser investigada medindo y em diferentes valores de x. Como resultado das medições, uma série de valores é obtida:

x 1 , x 2 , ..., x i , ... , x n ;

y 1 , y 2 , ..., y i , ... , y n .

Com base nos dados de tal experimento, é possível plotar a dependência y = ƒ(x). A curva resultante permite julgar a forma da função ƒ(x). No entanto, os coeficientes constantes que entram nessa função permanecem desconhecidos. Eles podem ser determinados usando o método dos mínimos quadrados. Os pontos experimentais, via de regra, não ficam exatamente sobre a curva. O método dos mínimos quadrados requer que a soma dos desvios quadrados dos pontos experimentais da curva, ou seja, 2 foi o menor.

Na prática, esse método é mais frequentemente (e mais simples) usado no caso de uma relação linear, ou seja, quando

y=kx ou y = a + bx.

A dependência linear é muito difundida na física. E mesmo quando a dependência não é linear, eles geralmente tentam construir um gráfico de forma a obter uma linha reta. Por exemplo, se for assumido que o índice de refração do vidro n está relacionado ao comprimento de onda λ da onda de luz pela relação n = a + b/λ 2 , então a dependência de n em λ -2 é plotada no gráfico .

Considere a dependência y=kx(linha reta passando pela origem). Vamos compor o valor φ a soma dos desvios quadrados de nossos pontos da linha reta

O valor de φ é sempre positivo e acaba sendo tanto menor quanto mais próximos nossos pontos estiverem da linha reta. O método dos mínimos quadrados afirma que para k deve-se escolher um valor no qual φ tenha um mínimo


ou
(19)

O cálculo mostra que a raiz do erro quadrático médio na determinação do valor de k é igual a

, (20)
onde n é o número de dimensões.

Vamos agora considerar um caso um pouco mais difícil, quando os pontos devem satisfazer a fórmula y = a + bx(uma linha reta que não passa pela origem).

A tarefa é encontrar os melhores valores de a e b do conjunto de valores dado x i , y i .

Novamente compomos uma forma quadrática φ igual à soma dos desvios quadrados dos pontos x i , y i da reta

e encontre os valores a e b para os quais φ tem um mínimo

;

.

.

A solução conjunta dessas equações dá

(21)

A raiz dos erros quadráticos médios da determinação de a e b são iguais

(23)

.  (24)

Ao processar os resultados da medição por este método, é conveniente resumir todos os dados em uma tabela na qual todos os valores incluídos nas fórmulas (19)(24) são calculados preliminarmente. As formas dessas tabelas são mostradas nos exemplos abaixo.

Exemplo 1 A equação básica da dinâmica do movimento rotacional ε = M/J (uma reta passando pela origem) foi estudada. Para vários valores do momento M, foi medida a aceleração angular ε de um determinado corpo. É necessário determinar o momento de inércia deste corpo. Os resultados das medições do momento de força e aceleração angular estão listados na segunda e terceira colunas tabelas 5.

Tabela 5
n M, N m ε, s-1 M2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Pela fórmula (19) determinamos:

.

Para determinar a raiz do erro quadrático médio, usamos a fórmula (20)

0.005775kg-1 · m -2 .

Pela fórmula (18) temos

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kg m 2.

Dada a confiabilidade P = 0,95 , de acordo com a tabela de coeficientes de Student para n = 5, encontramos t = 2,78 e determinamos o erro absoluto ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m 2.

Escrevemos os resultados na forma:

J = (3,0 ± 0,2) kg m 2;


Exemplo 2 Calculamos o coeficiente de temperatura de resistência do metal usando o método dos mínimos quadrados. A resistência depende da temperatura de acordo com uma lei linear

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

O termo livre determina a resistência R 0 a uma temperatura de 0 ° C, e o coeficiente angular é o produto do coeficiente de temperatura α e a resistência R 0 .

Os resultados das medições e cálculos são dados na tabela ( ver tabela 6).

Tabela 6
n t °, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Pelas fórmulas (21), (22) determinamos

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

Vamos encontrar um erro na definição de α. Desde , então pela fórmula (18) temos:

.

Usando as fórmulas (23), (24) temos

;

0.014126 Ohm.

Dada a confiabilidade P = 0,95, de acordo com a tabela de coeficientes de Student para n = 6, encontramos t = 2,57 e determinamos o erro absoluto Δα = 2,57 0,000132 = 0,000338 graus -1.

α = (23 ± 4) 10 -4 saudação-1 em P = 0,95.


Exemplo 3É necessário determinar o raio de curvatura da lente dos anéis de Newton. Os raios dos anéis de Newton r m foram medidos e os números desses anéis m foram determinados. Os raios dos anéis de Newton estão relacionados com o raio de curvatura da lente R e o número do anel pela equação

r 2 m = mλR - 2d 0 R,

onde d 0 a espessura do espaço entre a lente e a placa plana paralela (ou deformação da lente),

λ é o comprimento de onda da luz incidente.

λ = (600 ± 6) nm;
r2m = y;
m = x;
λR = b;
-2d 0 R = a,

então a equação terá a forma y = a + bx.

.

Os resultados das medições e cálculos são inseridos em mesa 7.

Tabela 7
n x = m y \u003d r 2, 10 -2 mm 2 milímetros (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

método dos mínimos quadradosé usado para estimar os parâmetros da equação de regressão.

Um dos métodos para estudar relações estocásticas entre recursos é a análise de regressão.
A análise de regressão é a derivação de uma equação de regressão, que é usada para encontrar o valor médio de uma variável aleatória (característica-resultado), se o valor de outra (ou outras) variáveis ​​(características-fatores) for conhecido. Ele inclui as seguintes etapas:

  1. escolha da forma de ligação (tipo de equação de regressão analítica);
  2. estimativa de parâmetros de equações;
  3. avaliação da qualidade da equação de regressão analítica.
Na maioria das vezes, uma forma linear é usada para descrever a relação estatística de recursos. A atenção a uma relação linear é explicada por uma clara interpretação econômica de seus parâmetros, limitada pela variação de variáveis, e pelo fato de que, na maioria dos casos, formas não lineares de uma relação são convertidas (tomando um logaritmo ou mudando variáveis) em uma forma linear para realizar cálculos.
No caso de uma relação linear de pares, a equação de regressão assumirá a forma: y i =a+b·xi +u i . Os parâmetros desta equação aeb são estimados a partir dos dados de observação estatística x e y . O resultado dessa avaliação é a equação: , onde , - estimativas dos parâmetros aeb , - o valor da característica efetiva (variável) obtido pela equação de regressão (valor calculado).

O mais comumente usado para estimativa de parâmetros é método dos mínimos quadrados (LSM).
O método dos mínimos quadrados fornece as melhores estimativas (consistentes, eficientes e imparciais) dos parâmetros da equação de regressão. Mas somente se certas suposições sobre o termo aleatório (u) e a variável independente (x) forem atendidas (ver suposições OLS).

O problema de estimar os parâmetros de uma equação linear de pares pelo método dos mínimos quadrados consiste no seguinte: obter tais estimativas dos parâmetros , , em que a soma dos desvios quadrados dos valores reais do recurso efetivo - y i dos valores calculados - é mínima.
Formalmente critério OLS pode ser escrito assim: .

Classificação dos métodos de mínimos quadrados

  1. Método dos mínimos quadrados.
  2. Método da máxima verossimilhança (para um modelo de regressão linear clássico normal, postula-se a normalidade dos resíduos da regressão).
  3. O método dos mínimos quadrados generalizados do GLSM é usado no caso de autocorrelação de erro e no caso de heterocedasticidade.
  4. Método dos mínimos quadrados ponderados (um caso especial de GLSM com resíduos heterocedásticos).

Ilustrar a essência o método clássico dos mínimos quadrados graficamente. Para fazer isso, construiremos um gráfico de pontos de acordo com os dados observacionais (x i , y i , i=1;n) em um sistema de coordenadas retangulares (tal gráfico de pontos é chamado de campo de correlação). Vamos tentar encontrar uma linha reta que esteja mais próxima dos pontos do campo de correlação. De acordo com o método dos mínimos quadrados, a linha é escolhida de forma que a soma dos quadrados das distâncias verticais entre os pontos do campo de correlação e esta linha seja mínima.

Notação matemática deste problema: .
Os valores de y i e x i =1...n são conhecidos por nós, são dados observacionais. Na função S eles são constantes. As variáveis ​​nesta função são as estimativas necessárias dos parâmetros - , . Para encontrar o mínimo de uma função de 2 variáveis, é necessário calcular as derivadas parciais dessa função em relação a cada um dos parâmetros e igualá-los a zero, ou seja, .
Como resultado, obtemos um sistema de 2 equações lineares normais:
Resolvendo este sistema, encontramos as estimativas dos parâmetros necessários:

A exatidão do cálculo dos parâmetros da equação de regressão pode ser verificada comparando as somas (alguma discrepância é possível devido ao arredondamento dos cálculos).
Para calcular estimativas de parâmetros, você pode construir a Tabela 1.
O sinal do coeficiente de regressão b indica a direção da relação (se b > 0, a relação é direta, se b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formalmente, o valor do parâmetro a é o valor médio de y para x igual a zero. Se o fator de sinal não tiver e não puder ter um valor zero, a interpretação acima do parâmetro a não faz sentido.

Avaliação da rigidez do relacionamento entre os recursos é realizada usando o coeficiente de correlação linear de pares - r x,y . Pode ser calculado através da fórmula: . Além disso, o coeficiente de correlação de par linear pode ser determinado em termos do coeficiente de regressão b: .
A faixa de valores admissíveis do coeficiente linear de correlação de pares é de –1 a +1. O sinal do coeficiente de correlação indica a direção da relação. Se r x, y >0, então a conexão é direta; se r x, y<0, то связь обратная.
Se este coeficiente estiver próximo da unidade em módulo, então a relação entre as feições pode ser interpretada como linear bastante próxima. Se seu módulo for igual a um ê r x , y ê =1, então a relação entre as feições é linear funcional. Se os recursos x e y são linearmente independentes, então r x,y está próximo de 0.
A Tabela 1 também pode ser usada para calcular r x,y.

Para avaliar a qualidade da equação de regressão obtida, o coeficiente teórico de determinação é calculado - R 2 yx:

,
onde d 2 é a variância y explicada pela equação de regressão;
e 2 - variância residual (não explicada pela equação de regressão) y ;
s 2 y - variância total (total) y .
O coeficiente de determinação caracteriza a parcela da variação (dispersão) da feição resultante y, explicada pela regressão (e, conseqüentemente, do fator x), na variação total (dispersão) y. O coeficiente de determinação R 2 yx assume valores de 0 a 1. Assim, o valor 1-R 2 yx caracteriza a proporção da variância y causada pela influência de outros fatores não levados em consideração nos erros de modelo e especificação.
Com regressão linear emparelhada R 2 yx =r 2 yx .