Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

La fatal arrogancia

No, no voy a hablar de liberalismo ni de Hayek. Solo quería hacer una pequeña reflexión sobre las nuevas generaciones de científicos de datos o como se les quiera llamar. Vengo observando hace cosa de 3 años, que las nuevas generaciones creen que es fácil utilizar modelos estadísticos (o de Machín Lenin como dice algún amigo mío) para predecir cosas como la bolsa, o acertar ,cual demiurgo, si se va a sufrir un cáncer y cosas por el estilo.

Cosas que deben cambiar

La semana pasada estuve en la bella ciudad de Alcoy en el congreso de Estadística e Investigación Operativa gracias a que nos invitaron a dar una sesión invitada presentando la Comunidad R-hispano. Como estoy en el mundo de la empresa mi percepción fue que, salvo en las charlas de investigación operativa, la distancia entre lo que se hace y se enseña en la universidad y lo que se utiliza en la empresa es bestial.

Codificación parcial y python

O como se conoce en estos tiempos modernos one hot encoding. En realidad se trata simplemente de cómo codificar una variable categórica en un conjunto de números que un algoritmo pueda utilizar. Ya hablé de esto mismo en el post codificación de variables categóricas I Básicamente, la codificación parcia lo que hace es crearse tantas variables indicadoras como niveles tengo en mi variable menos 1. Ejemplo. Construimos un conjunto de datos simple, con 3 variables

Malditas proporciones pequeñas III

Volviendo al ejemplo de lo de las proporciones pequeñas, se trataba básicamente de que se tenía una población con una prevalencia de cierto evento del 4 x 1000 más o menos y en post anteriores veíamos cómo calcular tamaños de muestra y tal para ver cómo detectar un incremento de un 15% en esa proporción. Ahora vamos a suponer que tenemos una población de 1.5 millones, pero que hay 5 grupos diferenciados, con prevalencias del 6, 5, 4, 3 y 2 por mil respectivamente y todos del mismo tamaño.

El randomforest no nos deja ver el árbol

En primer lugar, el título de este post se lo debo a Mario Passani y no va sobre estadística. En realidad va sobre que últimamente me da la sensación de que la profesión del científico de datos se está centrado más en las formas que en el fondo. Os cuento un par de ejemplos. Hace un tiempo en una empresa en la que trabajé se estaban implementando temas de análisis exploratorios usando pyspark de forma que se generaban unos bonitos htmls con info sobre las variables de un sparkdataframe.

Malditas proporciones pequeñas II

¿Cuál sería el tamaño muestral mínimo para estimar un incremento del 15% en una proporción de digamos 0.004? En realidad me gustaría hacer como cuenta mi amigo Carlos en este post, pero no puedo ir examinando unidades y actualizar los intervalos de credibilidad hasta que la anchura me convenza, porque ni siquiera conozco al tío de la furgoneta que ha de ir “examinando” cada unidad experimental, amén de que para conseguir 4 tiene que examinar cerca de 1000.

Malditas proporciones pequeñas I

Cuando uno está en esto de ganarse la vida mediante la ciencia de datos, se da cuenta de que la vida no es tan maravillosa como lo cuentan los libros de texto ni los cursos de los másters y ni siquiera los concursos de kaggle. Recientemente en un proyecto nos piden detectar un efecto de un incremento del 15% en una proporción entre dos grupos, digamos en forma canónica, grupo de control y tratamiento.

¿Agile?

Reconozco que no tengo mucha idea de lo que es esto del Agile, he leído el manifiesto y parecen cosas bastante lógicas, no obstante mi crítica no va tanto al agile sino más bien a cómo está implementado. En primer lugar, estoy más que harto de la mezcolanza de términos en inglés y en español, el sprint, la daily, la planning, la retro, el refinamiento, la tribu, el townhall, os juro que me entran ganas de matar a alguien cuando me dicen -tengo una call para hablar del kickoff de la próxima semana-.

Agua con gas

O mejor dicho Sparkling Water , que es una librería de la buena gente de h2o que permite aunar el mundo spark con el mundo de h2o. En un post anterior ya comentaba cómo poner modelos de h2o en producción en un cluster de spark, pero tengo que rectificar el punto en el que decía que con sparkling water había un cuello de botella al pasar de sparkdataframe a h2oframe, ese cuello ya no es tal, puesto que la conversión se hace en distribuido.

Jornadas de usuarios de R (y ya van 11)

Quién nos los iba a decir, allá por 2009 cuándo recién creada la lista de correo r-help-es nos llegó el mensaje de que iban a celebrarse las primeras jornadas.Creo que soy, salvo que me corrija Emilio o Carlos, el que a más jornadas ha ido (sólo falté a las míticas de Mieres), jejejeje. Hoy en día hay muchos eventos relacionados con software libre, analítica, big data, machine learning etcétera. Sin quitar méritos a ninguno de ellos, en mi humilde (y sesgada) opinión las jornadas de R-Hispano son uno de los mejores eventos.