Processing math: 100%

Ferramentas do usuário

Ferramentas do site


ecovirt:roteiro:math:coef_determinacao

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
ecovirt:roteiro:math:coef_determinacao [2021/11/16 13:57]
amzmartini
ecovirt:roteiro:math:coef_determinacao [2021/11/16 14:17] (atual)
amzmartini
Linha 54: Linha 54:
 ==== A variação total ==== ==== A variação total ====
  
-Nosso ponto de partida é a variação de uma variável, no caso Y. Uma das maneiras mais usadas na estatística para expressar a variação de medidas é sua dispersão em torno da média. Para isso, calculamos a diferença de cada medida à média de todas as medidas. Vamos adicionar ​isto à nossa tabela de dados:+Nosso ponto de partida é a variação de uma variável, no caso Y. Uma das maneiras mais usadas na estatística para expressar a variação de medidas é sua dispersão em torno da média. Para isso, calculamos a diferença de cada medida à média de todas as medidas. Vamos adicionar ​uma coluna com essas diferenças ​à nossa tabela de dados:
  
 <​code>​ <​code>​
Linha 61: Linha 61:
 </​code>​ </​code>​
  
-Visualmente o que fizemos foi calcular a distância de cada ponto à média de todos os pontos, que está representada ​como uma linha horizontal azul:+Visualmente o que fizemos foi calcular a distância de cada ponto à média de todos os pontos ​(essas distâncias estão representadas pelos tracejados vermelhos na figura). A média ​está representada ​pela linha horizontal azul:
  
 {{  coef_determ1.png |}} {{  coef_determ1.png |}}
  
-Para resumir ​estas distâncias em um único número, as elevamos ao quadrado e somamos. Isso é chamado "soma dos desvios quadrados"​ ou simplesmente "soma dos quadrados"​((por que elevar ao quadrado os desvios à média? Bom, primeiro porque a soma dos desvios é sempre zero... Mas também porque a soma dos desvios ao quadrado tem várias propriedades estatísticas úteis, como a aditividade que vamos ver em seguida.)). Ela expressa a variação **total** da variável Y.+Para resumir ​essas distâncias em um único número, as elevamos ao quadrado e somamos. Isso é chamado "soma dos desvios quadrados"​ ou simplesmente "soma dos quadrados"​((por que elevar ao quadrado os desvios à média? Bom, primeiro porque a soma dos desvios ​brutos ​é sempre zero,pois temos valores positivo e valores engativos em torno da média... Mas também porque a soma dos desvios ao quadrado tem várias propriedades estatísticas úteis, como a aditividade que vamos ver em seguida.)). Ela expressa a variação **total** da variável Y.
  
-Calcule ​esta soma no R com o comando a seguir, e guarde em uma objeto chamado ''​V.total''​+Calcule ​essa soma no R com o comando a seguir, e guarde em um objeto chamado ''​V.total''​
  
 <​code>​ <​code>​
Linha 73: Linha 73:
 </​code>​ </​code>​
  
-Lembrando que para ver o valor que vc obteve e armazenou ​neste objeto, basta digitar o nome do objeto na linha de comando:+Lembrando quepara ver o valor que vc obteve e armazenou ​nesse objeto, basta digitar o nome do objeto na linha de comando:
  
 <​code>​ <​code>​
Linha 79: Linha 79:
 </​code>​ </​code>​
  
-==== A variação que sobra da regressão ====+==== A variação que sobra de uma regressão ====
  
-Uma regressão linear busca explicar a variação observada em uma variável pela variação de outra. Se a regressão é bem sucedida, esperamos que reste bem menos variação sem explicação,​ que chamamos de **variação residual** da regressão. ​Esta variação residual é a soma dos quadrados dos desvios de cada ponto à linha de regressão. ​+Uma regressão linear busca explicar a variação observada em uma variável ​(resposta) ​pela variação de outra (explanatória). Se a regressão é bem sucedida, esperamos que reste bem menos variação sem explicação,​ que chamamos de **variação residual** da regressão. ​Essa variação residual é a "soma dos quadrados dos desvios" ​de cada ponto à linha de regressão. ​
  
-Na figura a seguir está a linha da regressão linear de Y em função de X, e os desvios de cada observação em relação a esta reta de regressão. ​Os resíduos da regressão são bem menores que os desvios em relação à média, da figura anterior:+Na figura a seguir está a linha da regressão linear de Y em função de X (representada pela linha azul na figura abaixo), e os desvios de cada observação em relação a esta reta de regressão ​(tracejados vermelhos)Você percebe pela figura abaixo que os desvios (resíduosda regressão são bem menores que os desvios em relação à média, da figura anterior?
  
  
Linha 135: Linha 135:
 </​code>​ </​code>​
  
-E vemos que de fato esta variação residual é bem menor que a total:+E vemos que de fato esta variação residual é bem menor que a total (que está no objeto "​V.total"​):
  
 <​code>​ <​code>​
Linha 168: Linha 168:
 </​code>​ </​code>​
  
-Neste caso dizemos que 91% da variação de Y é explicada por X. Nada mal. Mas o que você poderia esperar de dados que a gente mesmo criou, né8-)+Esse coeficiente de determinação é o famoso R2 das regressões lineares! 
 + 
 +Neste caso dizemos que 91% da variação de Y é explicada por X. Nada mal. Mas o que você poderia esperar de dados que a gente mesmo criou, né8-)
ecovirt/roteiro/math/coef_determinacao.1637078242.txt.gz · Última modificação: 2021/11/16 13:57 por amzmartini