Hoy pido perdón porque viene un post un poco duro. Lo lamento pero es un post que necesito para otro que voy a poner brevemente, por lo que simplemente no puedo ahorrar complicar un poco la cosa. El tema va de los modelos econométricos, que es algo casi religioso. Todo el mundo ha oído hablar de ellos, pero en realidad muy poca gente sabe que significan y cómo funcionan.
En agosto de 2009, trate de usar un símil para explicar el fundamento de un modelo econométrico en el post “predicciones y econometría”; pero el caso es que llegados a este punto no es suficiente este post y tengo que ir un poco más allá. Trataré de simplificarlo lo más posible, pero nos metemos ya en un terreno un poco más complicado.
Los modelos econométricos parten de la necesidad de tratar de estimar algo que desconocemos en función de determinados parámetros que si son conocidos. Es algo que inconscientemente hacemos todos los días, dentro y fuera del ámbito estrictamente económico. Uno de los casos más claros está en las gráficas, que no son otra cosa que un modelo econométrico muy rudimentario, (tanto que no tiene ese nombre, a pesar de que el objetivo sea el mismo).
A fin y a cuentas, tratamos de analizar un valor que no conocemos, (el precio de un activo, índice o similar en el futuro), a partir de datos que conocemos, (los datos pasados). La necesidad y el objetivo es idéntico y simplemente cambia un poco el esquema, debido sobre todo a un problema técnico.
Cuando hablamos de gráficos, el grave problema es que no podemos comparar más que en dos dimensiones, lo cual nos lleva a que cada una de las gráficas sólo puede recoger una variable a explicar y una variable que explica. Sin embargo la realidad es un poco más compleja y existen muy pocas variables que dependan de una sola. Por ejemplo, el consumo de una persona dependerá de sus ingresos, de sus ahorros, de los tipos de interés de las perspectivas, de sus gustos, de su estado civil, del clima que exista en ese momento y de un infinito (o finito, pero casi infinito número de posibilidades). Unas de las variables serán más importantes, otras no tanto, unas de las variables serán medibles y otras no. Y por supuesto entre las medibles, de algunas tendremos datos y de otras no. Por esto siempre nos moveremos en el campo de la estadística, que trata de realizar predicciones o deducir el valor de una variable determinada en el pasado, a partir de otros datos conocidos, teniendo en cuenta que por las razones que sean, no vamos a usar todos los datos que influyen, (entre ellas que no tengamos los datos).
Desde el momento en que obviamos datos, lo que ocurre es que perdemos precisión y por tanto explicamos peor los resultados. Por ejemplo, si quiero saber el gasto en comida de una familia determinada puedo hacer una estimación en función del tamaño familiar. Está claro que hay una relación fuerte entre el número de personas que comen y el gasto en comida. Para eso, tengo que tener datos de otras familias. Hago una encuesta y voy introduciendo el gasto en comida en cada una de ellas y el número de familias y encontraré una relación que podré poner en una gráfica o en una ecuación, (al final es lo mismo expresarlo). Por tanto, en base a esta experiencia, puedo estimar cuánto va a gastar una familia con un dato que tengo de antemano que es el tamaño. Lo podemos hacer en un gráfico en el que colocamos los puntos que tenemos y construimos una línea que serán nuestras estimaciones.
El problema es que esa línea puede estar muy cerca de los puntos o muy lejos. Es decir, puede ser representativa o no. Y por supuesto que en un cuadro, jamás podremos incluir más de una variable explicativa. Esto es especialmente importante si entendemos que el gasto en comida puede depender también de los ingresos de la unidad familiar, (es lógico pensar que cuanto más ingresos, mayor será el gasto). En consecuencia, usamos un modelo econométrico para introducir varias variables, y de esta forma podemos afinar mucho más los resultados.
Obtenemos datos sobre el consumo de las familias, su renta y su tamaño y obtenemos una relación, de forma que si tenemos que conocer el consumo de una familia, le preguntaremos sus ingresos y su tamaño y podremos hacer una predicción mucho mayor.
Ese es el proceso de la econometría, y básicamente el de las estadísticas, que son armas poderosísimas, (y las únicas), para tener información que se usará para la toma de decisiones.
El problema es que cuando usamos una herramienta, podemos cometer errores y también podemos usarla de forma que convenga a otros intereses. En particular, debemos entender que al final lo que tenemos que tener es una recopilación de datos, (que pueden tener errores), una selección de relaciones, (necesaria para saber cuáles son los datos que vamos a usar y recopilar), y después un trabajo que no supone nada más allá que un conjunto de sumas, restas, multiplicaciones y divisiones que nos llevan a un resultado.
Este resultado es una ecuación o una gráfica, (si nos limitamos a sólo una variable), que se supone nos da las relaciones entre distintos datos.
Por supuesto, debemos entender que como todo proceso matemático, siempre tendremos un resultado. Puede ser que no tenga el mínimo sentido, o puede ser incluso que alguien necesite un resultado determinado, y para ello, se pase la vida buscando datos, que de acuerdo a las formulas que todos conocemos, justifiquen determinada conclusión.
Afortunadamente en la econometría nos encontramos con unas medidas de bondad de los ajustes y los modelos. Al final es muy sencillo, tenemos los datos y esos datos son variables. En particular, la primera medida que se usa es el coeficiente de determinación o R2. Este valor oscila entre 0 y 1, y nos facilita el porcentaje de variaciones de la variable explicada en el pasado, explicadas por el modelo. Es decir, tenemos la serie de datos para construir el modelo, y lo que hacemos es usar el modelo con estos datos conocidos. En tanto el modelo sea capaz de acertar las estimaciones con el valor real, mejor será. El 0 no es un valor posible, debido a que aunque sea de casualidad existe un porcentaje mínimo de acierto, y el 1 no sería posible a menos que estuviésemos en un entorno de certeza.
Un valor bajo significa que el modelo no es válido, y nos da que no existe relación entre las variables, de forma que simplemente toca revisar todo el trabajo y revisar. Un valor alto, no tiene que significar que el modelo sea válido y tendríamos que seguir analizando para comprobar si la relación es casual, (en lugar de causal), o bien existe alguna incidencia con las variables.
Como mínimo, se entiende que un modelo puede ser válido si este coeficiente es superior a 0,9; pero en algunos casos se puede exigir incluso datos menores. Por debajo de este valor los modelos son una chapuza increíble. Esto lo tiene que saber todo el mundo que trabaja con modelos econométricos, por lo que si se toman como válidos los resultados de un modelo con un coeficiente de determinación muy bajo, nos encontramos ante alguien completamente inútil en el campo de la econometría. Y si ante todo sigue defendiendo que es un experto, tendremos que inferir que está mintiendo y engañando, al usar un modelo que no es valido para dar una conclusión que alguien está pagando.