En este artículo nos embarcamos en el estudio de uno de estos principios fundamentales: la homocedasticidad, cuyo nombre quizás parezca un poco raro, pero cuyo concepto se puede desglosar en términos más fáciles de entender.
¿Qué es la homocedasticidad? | Definición
La homocedasticidad es un término estadístico que se refiere a la suposición o condición en la que los errores (o residuos) de un modelo de regresión tienen varianza constante con respecto a la variable independiente o predictor. Es decir, la dispersión de los errores en torno a la línea de regresión es uniforme para todos los valores de la variable independiente.
¿Qué es la homocedasticidad?
Adentrarse en el fascinante pero complejo mundo deltrading cuantitativo requiere no sólo esfuerzo y dedicación, sino también un buen entendimiento de los principios estadísticos que lo apoyan.
En términos coloquiales, la homocedasticidad es como un metrónomo constante que dicta un ritmo estable para las fluctuaciones de las variables en nuestro modelo de trading. Esta asume que dichas variables bailarán al mismo compás, mostrando una varianza igual a lo largo del tiempo. Es decir, tanto si estamos observando los precios al inicio como al final del tiempo estudiado, esperamos ver el mismo tipo y cantidad de oscilaciones o cambios.
En esta publicación, profundizaremos en el concepto con un ejemplo, que es como mejor se entienden las cosas, para terminar aprenderemos cómo podemos ayudar a asegurar la homocedasticidad en nuestros modelos.
Ejemplo de homocedasticidad
Aunque ya hemos definido el concepto de homocedasticidad, falta bajarlo un poco a la tierra. Y qué mejor que con un ejemplo. Como hemos indicado anteriormente, la homocedasticidad nos dice que los residuos de un modelo (la diferencia entre la realidad y lo que predice el modelo), tienen una varianza constante.
Imagina que estás investigando la relación entre el volumen de operaciones en el mercado de acciones y la volatilidad del precio de una acción específica. Utilizas un modelo de regresión lineal para predecir la volatilidad de la acción (variable dependiente) basándote en el volumen de operaciones (variable independiente). En teoría, podríamos esperar que un volumen de operaciones más alto se asocie con mayor volatilidad, ya que más transacciones podrían implicar más variación en el precio.
Después de ajustar el modelo de regresión, observas los residuos, que son las diferencias entre los valores observados de volatilidad y los valores predichos por el modelo:
En un escenario ideal de homocedasticidad, esperarías ver que la magnitud de los residuos sea más o menos constante a lo largo de todos los niveles del volumen de operaciones. Esto significaría que la variabilidad de los errores es igual independientemente de si el volumen de operaciones es bajo o alto.
Sin embargo, si descubres que los residuos son pequeños cuando el volumen de operaciones es bajo (indicando que tu modelo predice bastante bien la volatilidad en esos casos) pero son significativamente más grandes cuando el volumen de operaciones es alto (indicando una predicción menos precisa para volatilidades altas), estarías ante un caso de heterocedasticidad. En otras palabras, el tamaño del error de tu modelo varía en función del volumen de operaciones. También podría ocurrir al contrario.
Para identificar visualmente este patrón, podrías crear un diagrama de dispersión de los residuos frente a los valores predichos de la volatilidad:
¿Cuándo hay homocedasticidad?: Es cuando el diagrama muestra un patrón de dispersión uniforme (sin forma particular).
¿Cuándo hay heterocedasticidad? Por otro lado, sería cuando el diagrama muestra un patrón en forma de cono o abanico (donde la dispersión de los residuos aumenta con los valores predichos).
Fíjate en la siguiente imagen que ilustra este claro ejemplo de homocedasticidad:
Ejemplo de homocedasticidad
La línea azul ilustra lo que predice el modelo. En función del número de operaciones, según este ejemplo, pronosticamos más volatilidad. Si nos fijamos en la diferencia entre los puntos verdes (realidad observada) y la línea azul (estimación del modelo), podemos comprobar que a simple vista parece que el tamaño de los errores se mantiene más o menos constante. Esto, precisamente es la homocedasticidad.
👉 Ya lo hemos introducido, pero como podrás intuir, lo contrario a la homocedasticidad, es la heterocedasticidad. En el artículo enlazado, te explicamos el concepto más ampliamente.
¿Cómo comprobar homocedasticidad? | Gráfico de residuos
Otra forma de verlo, quizás más sencilla es viendo el gráfico de residuos. Si restamos a cada punto, el valor que predice el modelo, obtendremos un gráfico similar a este:
Prueba de homocedasticidad
Fíjate como los puntos rojos se distribuyen de forma homogénea. Para que veas la diferencia te muestro también cómo sería un gráfico que muestra heterocedasticidad:
ejemplo de heterocedasticidad
¿Ves la forma de cono? En el lado izquierdo hay poca diferencia entre la realidad y la estimación, pero conforme el volumen de operaciones aumenta, también aumenta la dispersión. Este último sería un caso muy claro de heterocedasticidad.
Por último, en la siguiente imagen puedes ver la diferencia entre homocedasticidad y heterocedasticidad:
Homocedasticidad vs heterocedasticidad
Debe quedar claro que la homocedasticidad es una propiedad deseable en muchos modelos, pero su ausencia no necesariamente implica un fracaso. Existen técnicas estadísticas para manejar casos de heterocedasticidad (es decir, cuando la varianza no es constante). Lo cual veremos en el siguiente apartado.
¿Cómo asegurar la homocedasticidad de nuestro modelo?
La homocedasticidad, prerrequisito clave para muchos modelos estadísticos en trading, se refiere a la constancia de la varianza de los errores en el tiempo. Asegurarla es fundamental, pero ¿Cómo hacerlo correctamente? Aquí te mostraremos cómo.
Primero, necesitamos entender qué estamos buscando. En términos simples, estás intentando verificar si la variación a lo largo de tu serie de datos es constante. Si tu modelo tiene homocedasticidad, los diferentes errores que generas no tendrán mucha discrepancia con respecto a sus respectivas varianzas.
Para comenzar el proceso deberíamos realizar una prueba estadística como el test de Breusch-Pagan o White. Estas pruebas nos mostrarán si existe heterocedasticidad (variancia no constante) en nuestros datos y nos darán una idea inicial sobre dónde debemos enfocar nuestros esfuerzos.
En cualquier caso, las pruebas son solo una guía inicial. No olvides visualizar tus datos. Algunas veces puedes detectar patrones y anomalías observándolos directamente que quizás no se noten en las pruebas estadísticas.
En caso de encontrar heterocedasticidad en nuestra serie temporal, existen varias técnicas que se pueden emplear:
Transformación logarítmica: Esta técnica simplifica hábilmente la complejidad al reducir las fluctuaciones de variabilidad e imponer homogeneidad en áreas donde antes había incongruencia. Por ejemplo, en el caso de los precios de las acciones, lo que se debe utilizar en el modelo son los cambios porcentuales, no el precio directamente.
Diferenciar los datos: La diferencia entre mediciones consecutivas puede ayudarte a estabilizar la varianza y asegurar la homocedasticidad.
Aplicar ponderaciones: Otra opción viable incluye la aplicación de ponderaciones específicas a diferentes secciones de tus datos.
Uso del Método Generalizado de los Momentos (GMM): Es una alternativa robusta para asegurar homocedasticidad. Ya que no requiere ninguna suposición acerca de la naturaleza de la heterocedasticidad.
Modelos GARCH (Modelos Autoregresivos Condicionalmente Heterocedásticos): Permiten modelar y estimar la varianza condicional, suponiendo que la varianza del término error es una función cuadrática de errores retardados y volatilidades pasadas.
Es importante resaltar que cada serie temporal es un caso individual único. Algunas técnicas pueden funcionar muy bien en un conjunto de datos, pero pueden fallar totalmente en otro. Por tanto, podría recomendarse emplear más de una técnica y probar cuál funciona mejor con tu conjunto especifico.
Además, ten en cuenta que este artículo acerca de la homocedasticidad, está simplificado pensado para entender el concepto, pero para trabajar con este tipo de conceptos deberemos trabajar con herramientas de analítica avanzada como R Studio o ciertas librerías de Python. No obstante, en algunos casos, podría ser suficiente Excel.