Paquete Ggplot2 .- Bases de la Gramática de los Gráficos

El libro “The Grammar of Graphics” Wilkinson (2005) hace un profundo análisis de los elementos de un gráfico estadístico, con esta base Wickham (2009) construye una gramática/estructura en la cual se construye un gráfico a través de capas, donde cada capa indica que se va a mostrar en el gráfico; para ilustrar la idea de las capas, pensemos en el típico gráfico de dispersión en el cual además de los puntos se muestra una línea de tendencia (como el que se construye en MS Excel), entonces, en este gráfico interactúan dos capas, una para los puntos, y otra para la línea de tendencia.

Estos autores dividen un gráfico en las siguientes componentes:

Datos que es lo que se desea visualizar.

Características estéticas como el color, tamaño, etc., cabe indicar que las características estéticas nos permiten visualizar más de una variable, por ejemplo, en un grafico bivariado donde se comparen la “altura” versus “peso” de un grupo de personas, se puede visualizar también la variable “genero” asignando un símbolo o color diferente a los puntos que corresponden a cada género.

Objetos geométricos, que son los que realmente se ven en el grafico, por ejemplo, puntos, líneas, polígonos, áreas, etc.

Transformaciones estadísticas que permiten resumir los datos de diversas maneras, por ejemplo, para crear un histograma se debe contar las observaciones, o aplicar una regresión lineal para tener una línea de tendencia, etc.

Escalas las cuales transforman un valor de la variable a un valor de una característica estética relacionada con dicha variable, por ejemplo, en el grafico “altura” versus “peso” se puede representar la variable edad con diferentes tonalidades de grises, entonces la componente escala del paquete ggplot asignara la correspondiente tonalidad de gris a la edad relacionada con la observación.

Otro ejemplo de escala es el hecho de visualizar la variable “genero” asignando un color diferente a cada género, de esta asignación de colores se encarga la componente escala.

El sistema de coordenadas, el cual describe como los datos son ubicados en el plano del grafico, además de mostrar los ejes y grillas que hacen posible leer el grafico. Generalmente se usa el sistema de coordenadas cartesianas, pero se puede cambiar a sistema de coordenadas polares, etc.

El Condicionamiento que consiste en dividir los datos en subconjuntos y como mostrarlos en múltiples gráficos más pequeños, por ejemplo, si se quiere saber si existe alguna diferencia en la relación “altura” versus “peso” entre el “genero” de los individuos, entonces usamos el condicionamiento para generar un grafico dividido en dos partes donde cada parte es un gráfico en sí mismo, así por ejemplo en el primer gráfico se muestra la relación “altura” versus “peso” para las personas de género femenino, y en la segunda parte se muestra el gráfico para el género masculino.

A continuación se muestra un gráfico de dispersión Altura vs Peso, aquí se puede ver que el objeto geométrico es el punto, además se puede ver que la característica estética color esta relacionada con la variable género, de tal manera que cada genero es diferenciado con dos colores distintos, creándose para ello una escala en donde a las personas de género masculino les corresponde un color azulado, mientras que las de género femenino, un rojo; finalmente el gráfico esta dividido en 3 partes (alto, bajo, medio), es decir, se ha hecho un condicionamiento del gráfico utilizando la variable nivel socio-económico, así, al final este gráfico es útil para ver si la relación altura vs peso esta influenciada por el género y/o el nivel socio-económico.

Esto es en resumen las ideas básicas para entender la gramática de los gráficos en la cual se basa el paquete ggplot, en las próximas entradas se irá trabajando ta con la sintaxis que se necesita para crear gráficos con este fabuloso paquete.

2 comentarios

5 pings

    • roberto en 3 abril, 2016 a las 20:29
    • Responder

    Hola, tengo una consulta… como puedo cambiar el color de los niveles genero?? espero me puedas ayudar.

    muchas gracias

    1. Prueba con las funciones scale_fill_manual, scale_fill_brewer, scale_fill_gradient o scale_fill_gradient2.

      Saludos

    • Burb en 23 enero, 2011 a las 0:37

    Hola… espero que ya tengas listo nueva info sobre este paquete, he estado aprendiendo con tus explicaciones.. Cuidate…

  1. […] solución es dividir el gráfico en dos sub-gráficos (uno por cada género) usando la componente condicionamiento del paquete […]

  2. […] vamos a explorar otra carácterística estética útil al crear gráficos estadísticos, la transparencia de las formas geométricas mostradas […]

  3. […] de tener una primera impresión de Ggplot2, de conocer sus conceptos básicos, y de haberlo instalado y cargado vamos a usarlo, empezaremos con los famosos gráficos de […]

  4. […] Néstor Montaño Que la aleatoriedad les juegue a su favor « ¿Que hace un estadístico? Paquete Ggplot .- Bases de la Gramática de los Gráficos […]

Deja un comentario

Tu email nunca se publicará.


Ir a la barra de herramientas