Explotación de los datos del Censo de 2011 con R


Ana Belén Castillo Belmonte, Diego Ramiro Fariñas. Departamento de Población, CSIC

El Departamento de Población del CSIC tiene entre sus estrategias la de facilitar la tarea a todos aquellos que trabajan en el análisis y explotación de datos sociodemográficos. Para ello pone a disposición de usuarios potenciales, bien directamente, o a través de enlaces, la información sobre las herramientas o servicios apropiados para su tratamiento.

Para los que utilizan R como herramienta de trabajo, el paquete MicroDatosEs facilita la automatización de la explotación y el análisis de datos, por ejemplo, para todos aquellos que trabajan habitualmente con ficheros procedentes del Instituto Nacional de Estadística (INE).

La librería MicroDatosES ha sido desarrollada por Carlos Gil Bellosta (presidente de la Comunidad R-Hispano) y cuenta con la colaboración de Carlos Neira y José Luis Cañadas Reche. Desde el Blog del autor se puede descargar el paquete y ver un ejemplo de uso con datos de la Encuesta de Población Activa (EPA); post llamado “El paquete MicroDatosEs para microdatos públicos”. También se puede acceder a la librería y al manual de uso desde CRAN en esta dirección.

Un buen ejemplo de uso de esta librería, que ha sido desarrollada por Daniel Peña Pascual, se encuentra en el repositorio de github (repositorio colaborativo en internet). El autor pone a disposición de aquellos que deseen utilizarlo el código para analizar la proporción de divorcios por tramo de edad y provincia a partir de los datos del Censo de Población y Viviendas de 2011 y la rutina para la representación gráfica de estos datos. Un ejemplo lo proporciona la Figura 1.

Figura 1.- Proporción de divorcios por tramo de edad (20-70 años) y provincia. España, 2011

plotprov

Fuente: Elaborado por Daniel Peña Pascual a partir del Censo de Población y Viviendas 2011 (INE).

Cambiando las variables a aquellas que interese analizar, se puede adaptar el código para realizar cualquier otro tipo de estudio.

En este ejemplo, además de la explotación de datos con el paquete MicroDatosEs, se realiza un examen de las librerías plyr, dplyr y data.table para que se pueda conocer el rendimiento que tiene cada una de ellas a la hora de procesar esta información.

Desde la carpeta principal en el repositorio también podemos acceder a otros ejemplos de uso de R en la explotación de diversos tipos de datos como XML , JSON o shapefiles (utilizados para realizar mapas).

Por último, conviene recordar que el fichero de microdatos del Censo de Población y Vivienda 2011 se puede descargar desde el INE. El Departamento de Población del CSIC elaboró en enero de 2014 unos ficheros de sintaxis (SPSS) para facilitar la lectura de los microdatos de los Censos de Población y Vivienda 2011 (INE). El fichero de sintaxis de personas residentes en viviendas principales se ofrece gratuitamente a los profesionales interesados desde el Portal Envejecimiento En-Red.

arbol-enred.jpgPara citar este documento: Casillo Belmonte, A.B.; Ramiro Fariñas, D. Explotación de los datos del Censo de 2011 con R. Blog Envejecimiento [en-red], 21 de enero, 2015. ISSN 2387-1512. Disponible en: https://envejecimientoenred.wordpress.com/2015/01/21/explotacion-de-los-datos-del-censo-de-2011-con-r/

Consulta en Digital CSIC

Anuncios


Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s