Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

Lectura de domingo

Un amigo mío suele comentar que si no tienes en cuenta la estructura, palmas pasta. Así que hoy estoy leyendo capítulos sueltos de Doing Bayesian Data Analysis. El libro está bastante bien y me encanta la foto de portada, lo único que está más enfocado a usar JAGS y de Stan no cuenta mucho, pero para eso ya está la completa documentación de Stan. Sigo con la lectura, buen domingo.

Maestro liendre

Hay un refrán que dice “eres como el maestro liendres que de todo sabes y de nada entiendes”. Normalmente este dicho tiene un carácter peyorativo, pero siempre que lo menciono es justo con la intención contraria. Por ejemplo, para un científico de datos ser un maestro liendre es saber de todo un poco y entender algo más de lo que corresponde a su dominio. Dicho esto, me surge la pregunta de si no nos estaremos enamorando demasiado de las herramientas olvidando el fin de las mismas, que no es otro que usarlas para entender ciertos problemas y que al hacerlo alguien nos pague por ello.

Usar entorno de anaconda en R

El otro día me comentaba un científico de datos al que respeto profundamente que está flipando con poder usar sus modelos de python guardados en pickle dentro de R usando la librería reticulate y crear una shiny app, de hecho su comentario literal fue “estoy haciendo unos shinys monísimos”. El tema es que ayer me puse a investigar la maravillosa librería de la gente de databricks MLflow, ¡gracias Diego por animarme a probarla!

Muestreando II

Ya estuve hablando algo del partial pooling y existe un caso en el que es particularmente útil, se trata de cuando tenemos que estimar en áreas pequeñas. Entendamos áreas pequeñas cuando tenemos pocos datos en alguna o algunas categorías de una variable categórica. Continuando con el ejemplo de la anterior entrada, veamos qué sucede con las estimaciones de la tasa de paro en cada provincia y cómo nos pueden ayudar los modelos mixtos.

Muestreando

Vamos con el post. El INE tiene un ftp no muy publicitado aquí, yo suelo descargarme la Encuesta de Población Activa de este sitio, hay un fichero comprimido que tiene varias carpetas dónde hay script para poder importar los datos con Stata, SAS, spss y R. Gracias INE!!. El caso es que es que yo para la epa uso el paquete MicroDatosEs de Carlos Gil Bellosta Leo la EPA y me quedo sólo con la provincia, edad y aoi (que indica si una persona es inactiva, si está ocupada, parada, etc ).

Cosas que quiero probar

Iba a escribir una cosa chula que hiciera honor al nombre del blog, algo sobre muestreo, postestratificación y demás, pero he llegado a casa tarde y no tengo ni tiempo ni ganas. Así que voy a poner una serie de librerías que tengo pendiente de probar y que creo reducirían la brecha idiomática entre los científicos de datos, los ingenieros y los arquitectos de datos y big data (si es que en tu organización tienes la suerte de que exista este perfil)

ÑAAS

Por motivos que no vienen al caso un compañero del curro necesita hacer en spark una regresión lineal para los datos de cada cliente y extraer el coeficiente de una variable. Así que vamos a hacer algo que denomino ÑASS (Ñapas As A Service) Cómo lo haríamos en R library(tidyverse) ## ── Attaching packages ────────────────────── tidyverse 1.2.1 ── ## ✔ ggplot2 3.1.0 ✔ purrr 0.3.0 ## ✔ tibble 2.0.1 ✔ dplyr 0.

Entrenar con sparklyr, predecir con spark

Vivimos en la era del big data según dicen por esos lares, también tengo algún amigo que dice que el big data son los padres, no le falta razón. La mayoría de las cosas que hacemos se pueden hacer sin big data, porque en primer lugar ni en el 95 % de las veces se requiere y porque en el 5% restante podríamos hacer muestreo. Si no hay señal en 20.

Predictores a nivel de grupo

Volviendo al tema de los modelos mixtos, hay una particularidad que me gusta bastante y es la posibilidad de incluir predictores a nivel de grupo. Imaginemos que queremos estimar algo a nivel provincial, por ejemplo el salario medio. Para eso hemos preguntado de forma aleatoria (entendemos que con un muestreo bien hecho, tipo estratificado por provincias o similar) y tenemos unos datos con los que estimar.

Partial pooling

Voy a empezar una serie de entradas (no sé cuántas) sobre modelos mixtos, una de las cosas más chulas que hay en esto de la estadística. Yo ví la luz con el libro de uno de mis ídolos Andrew Gelman. El libro en cuestión se llama Data Analysis Using Regression and Multilevel/Hierarchical Models y recomiendo su lectura encarecidamente. Para ejemplificar de qué va esto de los modelos mixtos vamos a ver un ejemplo del libro de Gelman.