Tonteando con el 'Big Data'

Actualizado: 11/11/2015

Recientemente, en mi empresa tuve que hacer una labor de desbrozador de datos de caracterización de materiales. Tenían una base de datos en Excel infame y en ella tuve que andar buscando relaciones entre parámetros para intentar obtener ciertas conclusiones.

Importé todos los datos en Matlab, y pulí la base de datos descartando datos corruptos o muy alejados de la media, y una vez tuve una serie representativa de experiencias me pregunté: qué demonios hago yo ahora con todo esto?

De haber leído a Taleb y otras fuentes conocía de la existencia del Método de Monte Carlo para predecir resultados de una serie de números aleatorios, así que me puse a buscar y, tirando tirando llegé al ya archiconocido concepto del 'Big Data'.

Varias veces había pasado por mis ojos, y siempre me había despertado curiosidad, solo que esta vez me detuve en ello.

Empecé viendo varias TED Talks sobre el tema, varias de ellas muy interesantes y me dí cuenta de que es uno de los fenómenos científicos del momento. Desde hace un par de años se han creado cientos de empresas que se dedican a la búsqueda de patrones en el océano de datos que generamos.

Os las dejo por aquí por si os interesa el asunto. Esta primera es bastante técnica.

https://www.ted.com/talks/kenneth_cukier_big_data_is_better_data?language=es

Esta es muy buena, es del creador de los primeros protocolos www. Al tipo parece que el Big Data le ha pasado por encima...

https://www.ted.com/talks/tim_berners_lee_on_the_next_web#t-354839

Y esta, sobre la clasificación de países en función del GDP y la mortalidad infantil es genial.

https://www.ted.com/talks/kenneth_cukier_big_data_is_better_data?language=es

Como es habitual, el interés está donde está la Viruta (al final me he decantado por la Viruta, en detrimento de la Guita) y los datos más demandados son los datos generados por nosotros, los humanos, para colocarte bicocas en las narices cuando pongas un pié en la calle, o cuando enciendas el ordenata, o los martes, que el Facebook ya sabe que estás más sensible... Lo que en el idioma bárbaro se define como 'Targetting Customers'.

Nuestra actividad diaria genera toneladas de datos de manera exponencial, y además llevamos un gps pegado al culo (sin hablar de los sensores de movimento). Estamos alimentando algoritmos de análisis de comportamiento de manera salvaje, y como el método de Monte Carlo aproxima, los errores de las predicciones disminuyen en relación de 1/RAÍZ(N), siendo N el número de muestras. Es decir, cuantos más datos, más fina es la predicción. Dentro de poco sabrán antes que tú cuándo te vas a tocar el cimbel.

Continuando con el tema, recordé que Google nos da acceso al Big Data mediante su 'Google Trends' (porque le interesa lo que te interesa, claro está...) y por supuesto, lo primero que se me ocurrió buscar fue 'Bolsa' y 'Stock Market', econtrando los siguientes resultados desde el 2004 hasta hoy.

Y el pico máximo localizado sobre el año 2009, me recordó al del VIX por esa época, cuando alcanzó el nivel de 80.

Así que descargué los datos de búsquedas en CSV, junto con los datos históricos del SP500 desde el 2004 y del VIX (desde yahoo)

Alineados por fecha y ploteados con el Python, tenemos esto:

Efectivamente el índice de búsqueda en Google de la cadena 'Stock MArket' correla al VIX que te cagas.

Últimamente no sigo todas la publicaciones en Rankia. Es posible que alguien haya hablado ya de esto pero... mola, ¿que no?

Si esto se ma ha ocurrido a mí en un rato, no quiero ni imaginarme los modelos de comportamiento que tienen montados las corporaciones....

Lecturas relacionadas

15 jun. 2019 |

7 min lectura

Los sueldos de los políticos

Blog Oikonomía: Economía de "andar por casa"

Por qué los presupuestos no valen para Nada (para el 95% de la gente)

12 may. 2015 |

6 min lectura

Por qué los presupuestos no valen para Nada (para el 95% de la gente)

Blog ThinkingRich

Cómo negociar para que tu banco te devuelva las comisiones (yo conseguí que me devolviesen 509€)

28 abr. 2015 |

6 min lectura

Cómo negociar para que tu banco te devuelva las comisiones (yo conseguí que me devolviesen 509€)

Blog ThinkingRich

en respuesta a Srcliment
-

#5

18/11/15 16:52

Hola de nuevo Srcliment,

De vez en cuando vuelvo a mirar la búsqueda Stock Markets por este post que escribiste, y en google trends hay una pestaña que pone "Previsión", que no sé muy bien cómo calculará esta previsión y lo fiable que será, pero según la previsión de google trends en teoría en octubre de 2016 debería haber otra caída en los mercados.

¿Utilizar previsiones de búsqueda en Google para analizar el mercado podría resultar más fiable que las previsiones que se hagan sobre el propio mercado?

Un saludo!
#4
Srcliment

13/11/15 13:12

Interesados, echadle un ojo a este artículo:

https://www.quantopian.com/posts/google-search-terms-predict-market-movements
en respuesta a David Snchz
-

#3

12/11/15 22:23

R es un software estadístico gratuito con multitud de paquetes desarrollados por la comunidad. puedes conectar a bases de datos, ficheros planos, excels.. lo ideal es hacer un motor en algo como R y llamarlo desde otros lenguajes, si quieres darle una bonita interfaz, conectar con según qué servicios, etc
También tienes soluciones de pago que te permiten hacer cosillas más fácilmente si no has programado en R, o cosas así, como crystal ball, que se instala como plugin en excel, trae simulaciones de monte carlo, etc. y se puede programar con vbasic
en respuesta a David Snchz
-

#2
Srcliment

12/11/15 20:41

Hola David,

Gracias por tu comentario. Matlab como solución comercial es lo mejor, el toolbox de Data Analysis and Machine Learning tiene, en mi opinión todo lo necesario y más. De hecho tiene tantas herramientas implementadas que diría que debría juzgarlo alguien que se dedique de lleno a este tema, a mí me desborda. Python es muy potente, pero te lo tienes que currar más. Para ser gratis es súper completo. R lo he visto por encima y no te puedo decir... pero puestos a meterte en fregaos yo entraría en Python ya que todo lo que aprendas te puede servir para otros muchos proyectos...

Un saludo
#1

12/11/15 13:40

Hola Srcliment!

Mola, mola bastante la verdad y no es que tenga correlación, es que parece que se adelanta al VIX, ¿es posible? Al menos en las caídas...

Por cierto, yo también me estoy iniciando en el mundo del big data y la programación (veré los vídeos que has recomendado), pero no sé por qué programa empezar, hago las simulaciones de Monte Carlo con excel, no te digo más... ¿Qué programa me recomiendas: MatLab, R o Phyton?

Un saludo y felicidades por el post!

Sitios que sigo

Te puede interesar...

Más recomendado Más leído

Tomando un café con Mr Taleb en Zúrich
Tonteando con el 'Big Data'
Trading con Matlab y/o Python
Hablando de mierdas... Mi primera experiencia en Bolsa con Chicharros y Porqué Empecé a Especular
A vueltas con el Blog, nueva vida en Zurich y Recordando Ciclos PI

Trading con Matlab y/o Python
Tonteando con el 'Big Data'
Hablando de mierdas... Mi primera experiencia en Bolsa con Chicharros y Porqué Empecé a Especular
Soy Mega Alcista
No hay Miedo