Ayer he puesto un post sobre las nociones básicas de la econometría. Avisaba que era un post que iba a necesitar y hoy lo pretendo completar con una pequeña aplicación práctica de lo que pueden llegar a ser las burradas econométricas y los resultados engañosos.
El de hoy también es necesario para entender cómo se cocinan los resultados, y vuelvo a pedir perdón porque es muy difícil hacer estos post más amenos, (o por lo menos yo no tengo tal capacidad).
Hoy propongo un juego; imaginemos que me gustaría estimar cuales son las páginas vistas o mejor dicho, tratar de adivinar cómo afectan determinadas variables al tráfico de este blog.
Lo primero que he de hacer es tratar de encontrar algún indicativo de las razones que llevan a que unos días tenga unas visitas y otros días un número diferente. Por supuesto, tal circunstancia no es sencilla, pero como hay barra libre, he seleccionado en primer lugar la temperatura. Voy a asumir que el clima afecta a los hábitos de la gente y por tanto consiguiendo las temperaturas medias, comprobaré la relación con el blog.
Puestos a hacer un experimento he encontrado por internet los datos de la estación meteorológica de Tocumen, (en Panamá), y he cogido los datos de los días laborales de 2010 y los he comparado con las páginas vistas en mi blog. De esta forma he conseguido un modelo que me dice que las páginas vistas cada día en este blog serán iguales a 1590,383025 menos -15,87309759 por cada grado de temperatura en esta estación. Por tanto puedo decir con orgullo que existe la relación que yo estimaba lógica. Cuantos más grados existan, la gente se va a disfrutar del aire libre, olvida los ordenadores y tengo menos visitas.
Para demostrar que el modelo vale, podría decir que aplicando la fórmula para el pasado, es cierto que han existido errores, pero la verdad es que sumando los errores por exceso y restando los por defecto, el error global que me sale es -1,2867*10-09; o sea que es casi cero. Por supuesto, el hecho de que se compensen los errores y me de un acierto global perfecto no es más que una ilusión matemática, ya que de eso se trata. Es más, este pequeño error es derivado de los redondeos en los cálculos, que producen un error muy bajo.
Comprobando el coeficiente de determinación me ha dado un resultado de 0,002100788, lo cual viene a decir que mi modelo explica el 0.21% de las variaciones del tráfico en mi blog. Por esto, sorprendentemente me encuentro que debo buscar un fallo en todo el trabajo que he hecho.
Como tengo bastante moral, pues he decidido no tirar los datos, pero probar otra relación. De esta forma puedo defender que las páginas vistas de este blog están relacionadas con el valor el EONIA, (tipo del interbancario europeo a un día). La razón es que si el tipo sube, resulta que la gente se dedica a buscar información, (aunque resulta que casi nadie sigue los valores de eonia). En este caso, sale que las visitas de cada día a mi blog van a ser iguales a 1049,904458 a lo que tengo que sumarle 228,343548 por cada punto de eonia. Por tanto, puedo decir con unos datos inapelables que “según estudios y datos se comprueba que la subida de eonia va a beneficiar las visitas a mi blog”.
Ahora que sabemos que hay coeficientes de determinación, tengo que decir que en este caso da un resultado de 0,006513695; por tanto si me baso en esto para deducir que existe una relación entre el eonia y las visitas a mi blog, se me podría acusar de ser o un completo inútil o un manipulador que intenta vender una sucesión de tonterías como algo científico, olvidando el significado real de las cosas y el mínimo rigor, hasta el punto de que estaría ignorando que un coeficiente de determinación no llega a un nivel de 0,9 que es un mínimo para empezar a considerar el modelo y por tanto las conclusiones como buenas.
Pero bueno, sigamos probando y lo que voy a hacer es otro modelo en el que trate de explicar las visitas al blog en función de las dos variables. El resultado me diría que un día determinado debería tener 1226,915869 visitas más 209,4472794 por cada punto de eonia y restar 6,015465153 por cada grado de temperatura media de Tocumen. Como vemos, se confirman las dos hipótesis que tenía, que resulta que cuanta más temperatura, menos visitas y cuanto mayor sea el eonia, mayores visitas.
El coeficiente de determinación se incrementa hasta 0,006770804, de forma que es el mayor de todos, (aunque muy poquito superior a si lo explicaba sólo con el eonia). Esto es otro pequeño efecto de los cálculos; a medida que incrementamos las variables explicativas, se incrementa el coeficiente de determinación, por lo que podría ponerme a meter variables y variables hasta llegar a un coeficiente de determinación. Por supuesto, existe un método para seleccionar cual de los modelos es mejor, (R2 corregido); método que no tiene sentido, ya que lo primero es que tenemos que encontrar métodos válidos y luego compararlos.
Se puede analizar qué es lo que ha fallado en estos modelos, o incluso podemos esconder el coeficiente de determinación, (total, nadie preguntará por él), y seguir usando los modelos para hacer predicciones. Por supuesto, seguir en estas condiciones será una temeridad, que sólo se puede entender desde la inutilidad total del que propone este modelo, o de simplemente un morro increíble, si se trata de satisfacer algún interés en particular.
Existen varias razones para las que un modelo salga mal, pero desde luego la más plausible es que no existe una relación tan fuerte como suponíamos. En estos ejemplos es más que evidente, ya que ni la temperatura en Tocumen, ni el EONIA, (que nadie mira diariamente), tienen absolutamente nada que ver con los motivos por los que una persona accede a este blog, por lo que este modelo planteado es un absurdo completo.
Desde luego estos ejemplos no son realistas, lo más normal es que tratemos de establecer relaciones entre variables que pueden tener algo que ver. Ya que estábamos he tratado de establecer una relación entre Euribor a 12 meses y Eonia. Este sería un ejemplo un poco más normal y metiendo los datos del 2010 hasta el 26 de octubre (210 datos), me sale una relación que dice que el euribor fijado en cualquier día es 1,114978154 más 0,479319425 por cada punto de eonia.
Estos datos son coherentes ya que cuando sube el tipo de interés que han fijado ese día las entidades financieras, el euribor tiende a subir. ¿Qué ocurre con el coeficiente de determinación?. Pues el resultado es un 0,444532707; que es un resultado bastante pobre y que nos dice que el modelo que relaciona el euribor y el eonia simplemente no es válido.
Por supuesto, lo que quiere decir esto es que existe una relación entre ambas variables, pero que los valores finales dependen de variables distintas. Y tendríamos que buscar nuevas razones para defender las relaciones entre las dos variables.
Por supuesto, si salgo a defender que puedo estimar el euribor, sabiendo el eonia, en este enfoque, me aplicaría los mismos calificativos que intentando defender que las visitas de este blog se explican por eonia o temperaturas de algún sitio que reconozco no saber ni donde está. Sólo sería un poco menos exagerado.
Por cierto, no he puesto los datos porque todo esto es un absurdo, y bastante ladrillazo me ha salido. Además la presentación es un desastre; sin embargo, si alguien está especialmente interesado, puedo enviar por mail un Excel donde van los datos y los cálculos, pero por supuesto, los datos son fácilmente obtenibles y estoy seguro que existen múltiples programas más fáciles de usar que una hoja de Excel, bastante chapuza que he construido para el caso.