Estadística

Muestreando II

Ya estuve hablando algo del partial pooling y existe un caso en el que es particularmente útil, se trata de cuando tenemos que estimar en áreas pequeñas. Entendamos áreas pequeñas cuando tenemos pocos datos en alguna o algunas categorías de una variable categórica. Continuando con el ejemplo de la anterior entrada, veamos qué sucede con las estimaciones de la tasa de paro en cada provincia y cómo nos pueden ayudar los modelos mixtos.

Muestreando

Vamos con el post. El INE tiene un ftp no muy publicitado aquí, yo suelo descargarme la Encuesta de Población Activa de este sitio, hay un fichero comprimido que tiene varias carpetas dónde hay script para poder importar los datos con Stata, SAS, spss y R. Gracias INE!!. El caso es que es que yo para la epa uso el paquete MicroDatosEs de Carlos Gil Bellosta Leo la EPA y me quedo sólo con la provincia, edad y aoi (que indica si una persona es inactiva, si está ocupada, parada, etc ).

Las nuevas hornadas

Por circunstancias de la vida estoy entrevistando a nuevas generaciones de científicos de datos y no dejo de constatar algunas cosas , enumero algunas. Saben programar (R, Python, Scala) Están a la última en cuanto a modelos ensemble, Random Forest, Xgboost, catboost, lightgbm Conocen algo de deep learning Hablan más de un idioma correctamente Pero luego me pongo a charlar con ellos y parece que a todos se les ha olvidado el principio de parsimonia.