Recientemente, en mi empresa tuve que hacer una labor de desbrozador de datos de caracterización de materiales. Tenían una base de datos en Excel infame y en ella tuve que andar buscando relaciones entre parámetros para intentar obtener ciertas conclusiones.
Importé todos los datos en Matlab, y pulí la base de datos descartando datos corruptos o muy alejados de la media, y una vez tuve una serie representativa de experiencias me pregunté: qué demonios hago yo ahora con todo esto?
De haber leído a Taleb y otras fuentes conocía de la existencia del Método de Monte Carlo para predecir resultados de una serie de números aleatorios, así que me puse a buscar y, tirando tirando llegé al ya archiconocido concepto del 'Big Data'.
Varias veces había pasado por mis ojos, y siempre me había despertado curiosidad, solo que esta vez me detuve en ello.
Empecé viendo varias TED Talks sobre el tema, varias de ellas muy interesantes y me dí cuenta de que es uno de los fenómenos científicos del momento. Desde hace un par de años se han creado cientos de empresas que se dedican a la búsqueda de patrones en el océano de datos que generamos.
Os las dejo por aquí por si os interesa el asunto. Esta primera es bastante técnica.
https://www.ted.com/talks/
Esta es muy buena, es del creador de los primeros protocolos www. Al tipo parece que el Big Data le ha pasado por encima...
https://www.ted.com/talks/tim_
Y esta, sobre la clasificación de países en función del GDP y la mortalidad infantil es genial.
https://www.ted.com/talks/
Como es habitual, el interés está donde está la Viruta (al final me he decantado por la Viruta, en detrimento de la Guita) y los datos más demandados son los datos generados por nosotros, los humanos, para colocarte bicocas en las narices cuando pongas un pié en la calle, o cuando enciendas el ordenata, o los martes, que el Facebook ya sabe que estás más sensible... Lo que en el idioma bárbaro se define como 'Targetting Customers'.
Nuestra actividad diaria genera toneladas de datos de manera exponencial, y además llevamos un gps pegado al culo (sin hablar de los sensores de movimento). Estamos alimentando algoritmos de análisis de comportamiento de manera salvaje, y como el método de Monte Carlo aproxima, los errores de las predicciones disminuyen en relación de 1/RAÍZ(N), siendo N el número de muestras. Es decir, cuantos más datos, más fina es la predicción. Dentro de poco sabrán antes que tú cuándo te vas a tocar el cimbel.
Continuando con el tema, recordé que Google nos da acceso al Big Data mediante su 'Google Trends' (porque le interesa lo que te interesa, claro está...) y por supuesto, lo primero que se me ocurrió buscar fue 'Bolsa' y 'Stock Market', econtrando los siguientes resultados desde el 2004 hasta hoy.
Y el pico máximo localizado sobre el año 2009, me recordó al del VIX por esa época, cuando alcanzó el nivel de 80.
Así que descargué los datos de búsquedas en CSV, junto con los datos históricos del SP500 desde el 2004 y del VIX (desde yahoo)
Alineados por fecha y ploteados con el Python, tenemos esto:
Efectivamente el índice de búsqueda en Google de la cadena 'Stock MArket' correla al VIX que te cagas.
Últimamente no sigo todas la publicaciones en Rankia. Es posible que alguien haya hablado ya de esto pero... mola, ¿que no?
Si esto se ma ha ocurrido a mí en un rato, no quiero ni imaginarme los modelos de comportamiento que tienen montados las corporaciones....