Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

¿Agile?

Reconozco que no tengo mucha idea de lo que es esto del Agile, he leído el manifiesto y parecen cosas bastante lógicas, no obstante mi crítica no va tanto al agile sino más bien a cómo está implementado. En primer lugar, estoy más que harto de la mezcolanza de términos en inglés y en español, el sprint, la daily, la planning, la retro, el refinamiento, la tribu, el townhall, os juro que me entran ganas de matar a alguien cuando me dicen -tengo una call para hablar del kickoff de la próxima semana-.

Agua con gas

O mejor dicho Sparkling Water , que es una librería de la buena gente de h2o que permite aunar el mundo spark con el mundo de h2o. En un post anterior ya comentaba cómo poner modelos de h2o en producción en un cluster de spark, pero tengo que rectificar el punto en el que decía que con sparkling water había un cuello de botella al pasar de sparkdataframe a h2oframe, ese cuello ya no es tal, puesto que la conversión se hace en distribuido.

Jornadas de usuarios de R (y ya van 11)

Quién nos los iba a decir, allá por 2009 cuándo recién creada la lista de correo r-help-es nos llegó el mensaje de que iban a celebrarse las primeras jornadas.Creo que soy, salvo que me corrija Emilio o Carlos, el que a más jornadas ha ido (sólo falté a las míticas de Mieres), jejejeje. Hoy en día hay muchos eventos relacionados con software libre, analítica, big data, machine learning etcétera. Sin quitar méritos a ninguno de ellos, en mi humilde (y sesgada) opinión las jornadas de R-Hispano son uno de los mejores eventos.

Burbuja o no burbuja, esa es la cuestión

Llevo un tiempo que me llegan noticias tales como “Con el big data predecimos cuál va a ser tu próxima tienda y cuánto te vas a gastar” o “predecimos los rebotes por partido de un jugador con un margen de error de un rebote cada 6 partidos” y cosas aún más peregrinas. La verdad es que entre la gente más o menos seria que nos dedicamos a esto creo que está bastante claro que nuestra labor es reducir (y medir) la incertidumbre de algunos procesos de toma de decisiones, lean esto si quieren saber más en qué debería consistir nuestro trabajo.

Bicheando RStudio cloud

Pues eso, hoy en el trabajo alguien (a quien respeto) me ha hablado de la existencia de Rstudio Cloud, https://rstudio.cloud/ , dónde te logas con tu usuario de Google y ya tienes un rstudio andando. Parece una alternativa interesante a la hora de dar clase y similar, además, por defecto levanta una instancia con 30 gb de RAM y un procesador Intel® Xeon® CPU E5-2666 v3 @ 2.90GHz con 16 hilos de ejecución (puedes comprobarlo con parallel::detectCores() )

Codificación de variables categóricas III

Hoy vamos a comparar dos formas de codificar variables categóricas basadas en reducción de dimensionalidad, a saber, embeddings con redes neuronales frente a Análisis de Correspondencias. Para eso vamos a utilizar unos datos de kaggle de hace 2 años, se trata de un dataset donde se recoge el número de bicicletas que cruzan a diario los principales puentes de NY, datos La idea es hacer un modelo muy simple para predecir el número de ciclistas que cruzan a diario por “Manhattan.

El Big Data no da dinero

Ayer estuve de birras con dos de los científicos de datos que más respeto y, como suele ser habitual, nos lo pasamos bien y echamos un buen rato de conversación. El caso es que uno de ellos comentaba algo que debería ser obvio para todos los que estamos en este mundillo y es que “los modelos por sí solos no dan pasta”. Lo ejemplifico con un sencillo ejemplo. Supongamos que nos encargan como científicos de datos hacer uno de esos modelos de “churn” o de riesgo o cualquier otra cosa, y que nosotros de forma diligente, hacemos un modelo chachi piruli.

Productivizando modelos de clasificación binaria con H20

En un post anterior ya vimos como entrenar un modelo de h2o y cómo sería la lógica para hacer predicciones en un entorno que tenga Spark pero no h2o. Un lector del blog comentó que porque no usar directamente H20 con sparkling water y leer directamente los datos a partir de un sparkdataframe y predecir también usando sparkling water. Aquí varios motivos. Por mi escasa experiencia con sparkling water existe un cuello de botella al pasar de sparkdataframe a h2oframe.

Bayesian inference with INLA and R-INLA

Para todo áquel que quiera saber de que va esto de la Inferencia Bayesiana con INLA le recomiendo que le eche un vistazo a este libro de Virgilio Gómez Rubio. Bayesian Inference with INLA and R-INLA Cómo dice un amigo mío, si no tenemos en cuenta la estructura se palma pasta, y la estadística bayesiana va de esto, de considerar la estructura. El libro da ejemplos de cómo usar INLA para modelos lineales, lineales generalizados, modelos mixtos, modelos multinivel, modelos espaciales, modelos temporales, análisis de supervivencia, modelos GAM o modelos con mezcla de distribuciones.

Codificación de variables categóricas II

Voy a comentar por encima lo que se viene llamando “codificación por impacto”, la idea es codificar una variable categórica predictora usando la información del “target”, evidentemente este tipo de codificación sólo sirve cuando tenemos un modelo en mente y dicen que es útil si tenemos variables categóricas con alta cardinalidad. La idea es muy sencilla, para cada nivel de la variable categórica le asignamos su media de target, por ejemplo, (o la media(u otra medida) menos la media general)