Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
ecovirt:roteiro:math:coef_determinacao [2021/11/16 13:57] amzmartini |
ecovirt:roteiro:math:coef_determinacao [2021/11/16 14:17] (atual) amzmartini |
||
---|---|---|---|
Linha 54: | Linha 54: | ||
==== A variação total ==== | ==== A variação total ==== | ||
- | Nosso ponto de partida é a variação de uma variável, no caso Y. Uma das maneiras mais usadas na estatística para expressar a variação de medidas é sua dispersão em torno da média. Para isso, calculamos a diferença de cada medida à média de todas as medidas. Vamos adicionar isto à nossa tabela de dados: | + | Nosso ponto de partida é a variação de uma variável, no caso Y. Uma das maneiras mais usadas na estatística para expressar a variação de medidas é sua dispersão em torno da média. Para isso, calculamos a diferença de cada medida à média de todas as medidas. Vamos adicionar uma coluna com essas diferenças à nossa tabela de dados: |
<code> | <code> | ||
Linha 61: | Linha 61: | ||
</code> | </code> | ||
- | Visualmente o que fizemos foi calcular a distância de cada ponto à média de todos os pontos, que está representada como uma linha horizontal azul: | + | Visualmente o que fizemos foi calcular a distância de cada ponto à média de todos os pontos (essas distâncias estão representadas pelos tracejados vermelhos na figura). A média está representada pela linha horizontal azul: |
{{ coef_determ1.png |}} | {{ coef_determ1.png |}} | ||
- | Para resumir estas distâncias em um único número, as elevamos ao quadrado e somamos. Isso é chamado "soma dos desvios quadrados" ou simplesmente "soma dos quadrados"((por que elevar ao quadrado os desvios à média? Bom, primeiro porque a soma dos desvios é sempre zero... Mas também porque a soma dos desvios ao quadrado tem várias propriedades estatísticas úteis, como a aditividade que vamos ver em seguida.)). Ela expressa a variação **total** da variável Y. | + | Para resumir essas distâncias em um único número, as elevamos ao quadrado e somamos. Isso é chamado "soma dos desvios quadrados" ou simplesmente "soma dos quadrados"((por que elevar ao quadrado os desvios à média? Bom, primeiro porque a soma dos desvios brutos é sempre zero,pois temos valores positivo e valores engativos em torno da média... Mas também porque a soma dos desvios ao quadrado tem várias propriedades estatísticas úteis, como a aditividade que vamos ver em seguida.)). Ela expressa a variação **total** da variável Y. |
- | Calcule esta soma no R com o comando a seguir, e guarde em uma objeto chamado ''V.total'' | + | Calcule essa soma no R com o comando a seguir, e guarde em um objeto chamado ''V.total'' |
<code> | <code> | ||
Linha 73: | Linha 73: | ||
</code> | </code> | ||
- | Lembrando que para ver o valor que vc obteve e armazenou neste objeto, basta digitar o nome do objeto na linha de comando: | + | Lembrando que, para ver o valor que vc obteve e armazenou nesse objeto, basta digitar o nome do objeto na linha de comando: |
<code> | <code> | ||
Linha 79: | Linha 79: | ||
</code> | </code> | ||
- | ==== A variação que sobra da regressão ==== | + | ==== A variação que sobra de uma regressão ==== |
- | Uma regressão linear busca explicar a variação observada em uma variável pela variação de outra. Se a regressão é bem sucedida, esperamos que reste bem menos variação sem explicação, que chamamos de **variação residual** da regressão. Esta variação residual é a soma dos quadrados dos desvios de cada ponto à linha de regressão. | + | Uma regressão linear busca explicar a variação observada em uma variável (resposta) pela variação de outra (explanatória). Se a regressão é bem sucedida, esperamos que reste bem menos variação sem explicação, que chamamos de **variação residual** da regressão. Essa variação residual é a "soma dos quadrados dos desvios" de cada ponto à linha de regressão. |
- | Na figura a seguir está a linha da regressão linear de Y em função de X, e os desvios de cada observação em relação a esta reta de regressão. Os resíduos da regressão são bem menores que os desvios em relação à média, da figura anterior: | + | Na figura a seguir está a linha da regressão linear de Y em função de X (representada pela linha azul na figura abaixo), e os desvios de cada observação em relação a esta reta de regressão (tracejados vermelhos). Você percebe pela figura abaixo que os desvios (resíduos) da regressão são bem menores que os desvios em relação à média, da figura anterior? |
Linha 135: | Linha 135: | ||
</code> | </code> | ||
- | E vemos que de fato esta variação residual é bem menor que a total: | + | E vemos que de fato esta variação residual é bem menor que a total (que está no objeto "V.total"): |
<code> | <code> | ||
Linha 168: | Linha 168: | ||
</code> | </code> | ||
- | Neste caso dizemos que 91% da variação de Y é explicada por X. Nada mal. Mas o que você poderia esperar de dados que a gente mesmo criou, né! 8-) | + | Esse coeficiente de determinação é o famoso R2 das regressões lineares! |
+ | |||
+ | Neste caso dizemos que 91% da variação de Y é explicada por X. Nada mal. Mas o que você poderia esperar de dados que a gente mesmo criou, né? 8-) |