¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
  1. Libros
  2. Data Scientist y lenguaje R
  3. Primeros pasos con R
Extrait - Data Scientist y lenguaje R Autoformación en los aspectos básicos de la inteligencia artificial en el universo... (2a edición)
Extractos del libro
Data Scientist y lenguaje R Autoformación en los aspectos básicos de la inteligencia artificial en el universo... (2a edición) Volver a la página de compra del libro

Primeros pasos con R

Instalación de los componentes

La instalación e invocación de componentes básicos es sencilla. Veamos cómo se hace.

1. Instalación y ejecución de R

En primer lugar, debe instalar R en función de su plataforma de trabajo.

R está disponible en la siguiente URL : https://cran.r-project.org/

Si está trabajando en Unix, Linux o uno de sus sistemas operativos derivados, sería más conveniente utilizar su administrador de paquetes habitual en lugar de instalar desde el sitio CRAN (Ubuntu [Synaptic], dpkg [Debian], pkg [Mac OS X], RPM [Red Hat], etc.).

Con respecto a Windows, cuando se le pida que elija entre la versión de 64 bits (lo más habitual en la actualidad) y la de 32 bits, pruebe con 64 bits si su máquina lo permite. En nuestra opinión, debe evitar instalar ambos al mismo tiempo, ya que algunas veces crea pequeños problemas técnicos, especialmente para los paquetes R que usan Java en segundo plano.

Después de la instalación, para iniciar la interfaz hombre-máquina de R, es suficiente con hacer clic en su icono.

Para probar su instalación, es recomendable crear un nuevo script R. Para hacer esto, presione las teclas [Ctrl] N simultáneamente, lo que abrirá una segunda ventana.

En esta ventana, escriba un cálculo simple como 1+1. Luego escriba [Ctrl] R en la línea del cálculo que se debe realizar (o en una selección de líneas). El resultado aparece en la primera ventana, llamada console.

Para guardar este script, escriba [Ctrl] S, explore su sistema de archivos, elija un lugar para guardar el archivo y dele el nombre miscript.R, teniendo cuidado de asignarle la extensión .R en mayúsculas. Para abrir un script existente, simplemente escriba [Ctrl] O y busque el script en su máquina.

Todas estas operaciones se pueden realizar utilizando los menús e iconos disponibles en la interfaz hombre-máquina de R.

Hay interfaces hombre-máquina más agradables para trabajar con R. A nosotros nos gusta usar RStudio.

2. Instalación y ejecución de RStudio

Encontrará RStudio en la siguiente URL: https://www.rstudio.com/

Instálelo después de instalar R.

Hay varias versiones. Probablemente preferirá instalar la versión «Desktop - open source - community edition», gratuita pero...

Empezando con R

Dependiendo de sus necesidades y conocimiento, el usuario puede utlizar R en niveles muy variables de abstracción y potencia. Por lo tanto, R puede servir como una calculadora sofisticada, un universo de introducción a la estadística, a las data sciences y a la programación o como una herramienta potente para investigadores o data scientists consumados, incluso en entornos de Big Data.

Las siguientes secciones le permiten usar de manera eficiente R en el contexto de las data sciences, no como desarrollador de paquetes R, sino como data scientist, que desarrolla prototipos bien hechos. Nuestra elección de sintaxis y estilo de programación es, ante todo, didáctica, priorizando la legibilidad e ilustración de varias ideas importantes en nuestras prácticas. Nuestro objetivo no es realizar un recorrido sistemático de R ni describirlo como podría aprenderlo un informático o incluso un profesional de la estadística.

No obstante, es importante asimilar correctamente este capítulo porque debería abrirle el camino a una eficiencia operativa real del uso de R como data scientist. La eficiencia operativa de la que estamos hablando aquí no significa un control de R, una ortodoxia a la filosofía de este lenguaje o la garantía de un buen desempeño. Por el contrario, imaginamos que este dominio le permitirá expresar todas sus ideas, comprender el código de sus colegas y los ejemplos disponibles en la literatura científica con la ayuda de los paquetes R a su disposición.

1. R, una calculadora eficaz

Los comandos que se describen a continuación se pueden ejecutar directamente en la consola de RStudio, pero le recomendamos que introduzca este código en un script R en RStudio y luego lo ejecute línea a línea para empaparse de la sintaxis.

Después de cada línea, observe atentamente la evolución de las variables en la ventana Environment (en la parte superior derecha de RStudio, por ejemplo). Para progresar en el dominio del lenguaje, es imperativo plantearse pequeños desafíos personales y, al menos, modificar el código que se le ofrece para comprender mejor lo que puede esperar de dicho código.

Algunos cálculos sencillos:

10*(1+1+1.5)  # = 35         # cálculos  
  
10**2...

Manipulación de los datos

1. Lectura de los datos: aspectos fundamentales

Los archivos que podrá manejar con mayor frecuencia durante sus operaciones básicas son archivos .csv (se trata de un formato de exportación común a muchas aplicaciones, incluida Excel).

Para cargar dichos archivos, debe definir los separadores de campo, el símbolo que codifica el punto decimal, si hay o no títulos en las columnas, los caracteres correspondientes a los datos ausentes y el tipo de codificación del archivo (normalmente, UTF8). Si no dispone de esta información, puede hacer varias pruebas hasta conseguir rápidamente una lectura eficaz de su archivo. A menudo, es suficiente con abrir el archivo con un editor como Emacs o Notepad ++ para saber de qué se trata.

A continuación, se muestra un código típico que va a leer un archivo del sitio web complementario de este libro. Compruebe inicialmente que ha colocado su archivo .csv en su directorio de trabajo de RStudio (panel Files).

Si no es el caso, especifique su nueva ubicación de trabajo con el comando setwd().

## Leer los datos                                              ##  
  
data <- read.csv("datatest1.csv",   
               sep=";",   
               dec=",",   
               na.strings=c(".", "NA", "", "?","#DIV/0!"),   
               strip.white=TRUE,   
               encoding="UTF-8") 

Si hace doble clic en data, en la parte superior derecha de la ventana de RStudio, obtendrá una tabla con las primeras filas.

images/C0207.PNG

Visualización de data en RStudio

La última columna se corresponde con una clase que vamos a transformar en factors

data$clase=as.factor(data$clase) # es prudente transformar  
                                   # los valores discretos   
            ...