Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

Burbuja o no burbuja, esa es la cuestión

Llevo un tiempo que me llegan noticias tales como “Con el big data predecimos cuál va a ser tu próxima tienda y cuánto te vas a gastar” o “predecimos los rebotes por partido de un jugador con un margen de error de un rebote cada 6 partidos” y cosas aún más peregrinas. La verdad es que entre la gente más o menos seria que nos dedicamos a esto creo que está bastante claro que nuestra labor es reducir (y medir) la incertidumbre de algunos procesos de toma de decisiones, lean esto si quieren saber más en qué debería consistir nuestro trabajo.

Bicheando RStudio cloud

Pues eso, hoy en el trabajo alguien (a quien respeto) me ha hablado de la existencia de Rstudio Cloud, https://rstudio.cloud/ , dónde te logas con tu usuario de Google y ya tienes un rstudio andando. Parece una alternativa interesante a la hora de dar clase y similar, además, por defecto levanta una instancia con 30 gb de RAM y un procesador Intel® Xeon® CPU E5-2666 v3 @ 2.90GHz con 16 hilos de ejecución (puedes comprobarlo con parallel::detectCores() )

Codificación de variables categóricas III

Hoy vamos a comparar dos formas de codificar variables categóricas basadas en reducción de dimensionalidad, a saber, embeddings con redes neuronales frente a Análisis de Correspondencias. Para eso vamos a utilizar unos datos de kaggle de hace 2 años, se trata de un dataset donde se recoge el número de bicicletas que cruzan a diario los principales puentes de NY, datos La idea es hacer un modelo muy simple para predecir el número de ciclistas que cruzan a diario por “Manhattan.

El Big Data no da dinero

Ayer estuve de birras con dos de los científicos de datos que más respeto y, como suele ser habitual, nos lo pasamos bien y echamos un buen rato de conversación. El caso es que uno de ellos comentaba algo que debería ser obvio para todos los que estamos en este mundillo y es que “los modelos por sí solos no dan pasta”. Lo ejemplifico con un sencillo ejemplo. Supongamos que nos encargan como científicos de datos hacer uno de esos modelos de “churn” o de riesgo o cualquier otra cosa, y que nosotros de forma diligente, hacemos un modelo chachi piruli.

Productivizando modelos de clasificación binaria con H20

En un post anterior ya vimos como entrenar un modelo de h2o y cómo sería la lógica para hacer predicciones en un entorno que tenga Spark pero no h2o. Un lector del blog comentó que porque no usar directamente H20 con sparkling water y leer directamente los datos a partir de un sparkdataframe y predecir también usando sparkling water. Aquí varios motivos. Por mi escasa experiencia con sparkling water existe un cuello de botella al pasar de sparkdataframe a h2oframe.

Bayesian inference with INLA and R-INLA

Para todo áquel que quiera saber de que va esto de la Inferencia Bayesiana con INLA le recomiendo que le eche un vistazo a este libro de Virgilio Gómez Rubio. Bayesian Inference with INLA and R-INLA Cómo dice un amigo mío, si no tenemos en cuenta la estructura se palma pasta, y la estadística bayesiana va de esto, de considerar la estructura. El libro da ejemplos de cómo usar INLA para modelos lineales, lineales generalizados, modelos mixtos, modelos multinivel, modelos espaciales, modelos temporales, análisis de supervivencia, modelos GAM o modelos con mezcla de distribuciones.

Codificación de variables categóricas II

Voy a comentar por encima lo que se viene llamando “codificación por impacto”, la idea es codificar una variable categórica predictora usando la información del “target”, evidentemente este tipo de codificación sólo sirve cuando tenemos un modelo en mente y dicen que es útil si tenemos variables categóricas con alta cardinalidad. La idea es muy sencilla, para cada nivel de la variable categórica le asignamos su media de target, por ejemplo, (o la media(u otra medida) menos la media general)

glmer vs julia vs INLA

Hablábamos el otro día mi amigo Carlos y yo sobre los modelos mixtos y el uso de lme4, Stan o INLA. Total, que el problema es que queríamos un atajo que permitiera tener una estimación de los efectos aleatorios en un tiempo menor que lo que queda hasta el fin del universo. Pues nada, investigando vi que existía una librería en Julia llamada MixedModels y que es del autor de lme4 así que me puse a probar a ver si es verdad el lema de Julia, “tan rápido como C, tan fácil como Python”.

Codificación de variables categóricas I

Voy a hacer una serie de entradas sobre codificación de variables categóricas, mi idea es pasar desde la codificación parcial (OneHot Encoders para los modernos), hasta utilizar embeddings. Vamos al lío. Tradicionalmente, si tenemos una variable categórica con 5 niveles se codifica en tantas variables cero uno como niveles menos uno, puesto que uno de los niveles se toma como referencia y se codifica con todo 0’s en las varaibles indicadoras.

Arquitectos

Tengo la suerte de haber trabajado con algunos de los mejores arquitectos big data que hay en España y de considerarlos mis amigos. Para mí, este es el perfil clave en el éxito o fracaso de cualquier proyecto de Big Data y por desgracia es el perfil más complicado de encontrar. Un buen arquitecto big data es justo el pegamento que une los mundos del ingeniero de datos y el de los mal llamados data scientist.