Machine Learning Implementar en Python con Scikit-learn

Virginie MATHIVET

Impreso~~38 €~~36,10 €

Información adicional

5% de descuento en todos los libros
Envío gratis a partir de 25 € de compra
Versión online gratis por un año

Características

Encuadernación rústica - 17 x 21 cm
ISBN: 978-2-409-04728-2
EAN: 9782409047282
Ref. ENI: EIT2MLPYTSL

Online~~26,60 €~~25,27 €

Información adicional

5% de descuento en todos los libros
Versión online digital, no descargable
Consultable en línea durante 10 años inmediatamente después de la validación del pago.

Características

HTML
ISBN: 978-2-409-04729-9
EAN: 9782409047299
Ref. ENI: LNEIT2MLPYTSL

Este libro introduce a aquellos que no son Data Scientists (científicos de datos), ni tienen conocimientos particulares de matemáticas, en la metodología de Machine Learning (Aprendizaje Automático), sus conceptos, sus principales algoritmos y la implementación de estos en Python usando Scikit-learn. Comienza con una presentación del Machine Learning y, a continuación, del método CRISP, sobre el que se aborda cada fase y sus diversas etapas. Los primeros capítulos tratan sobre el Business...

Consultar extractos del libro Extracto del libro

Nivel Medio a Experto
Número de páginas 338 páginas
Publicación noviembre 2024

Nivel Medio a Experto
Publicación noviembre 2024

Presentación

Este libro introduce a aquellos que no son Data Scientists (científicos de datos), ni tienen conocimientos particulares de matemáticas, en la metodología de Machine Learning (Aprendizaje Automático), sus conceptos, sus principales algoritmos y la implementación de estos en Python usando Scikit-learn.

Comienza con una presentación del Machine Learning y, a continuación, del método CRISP, sobre el que se aborda cada fase y sus diversas etapas. Los primeros capítulos tratan sobre el Business Understanding (conocimiento del negocio), la Data Understanding (compresión de los datos) y la Data Preparation (preparación de los datos). Estos capítulos presentan los análisis estadísticos de los conjuntos de datos (datasets) tanto en forma numérica como gráfica, así como las principales técnicas utilizadas para preparar los datos, su función y consejos sobre cómo utilizarlas.

A continuación, se dedican varios capítulos a cada tarea de Machine Learning: la clasificación, la regresión (con el caso especial de la predicción), el clustering (agrupación) y, de forma más general, el aprendizaje no supervisado. Para cada tarea presentada, se detallan sucesivamente los criterios de evaluación, los conceptos en los que se basan los principales algoritmos y su implementación usando Scikit-learn.

Para ilustrar los distintos capítulos, las técnicas y algoritmos presentados se aplican a conjuntos de datos de uso frecuente: Iris (clasificar flores), Boston (prever el precio de venta de pisos) y Titanic (definir la probabilidad de supervivencia de los pasajeros de un barco). El código Python está comentado y puede descargarse (en forma de cuadernos Jupyter) a partir del sitio web www.ediciones-eni.com.

Descargas

Descargar los ejemplos del libro (13 779 Ko)

Índice

Introducción

¿Por qué un libro sobre aprendizaje automático?
Python y Scikit-learn: razones para elegirlos
¿A quién va dirigido este libro?
Organización del libro y elementos que se pueden descargar
Datasets utilizados en este libro
1. 1. Iris de Fisher, 1936
2. 2. Titanic, 1994
3. 3. Boston, 1978

Machine Learning: visión general

Un poco de vocabulario
Las profesiones de los datos
El crecimiento del Machine Learning
Formas de aprendizaje y tareas de ML
1. 1. Aprendizaje supervisado
  1. a. Clasificación
  2. b. Clasificación: el caso de las imágenes
  3. c. Regresión
  4. d. Previsión
2. 2. Aprendizaje no supervisado
  1. a. Clustering (Agrupación)
  2. b. Reducción de dimensiones
  3. c. Sistema de recomendaciones
  4. d. Asociaciones
3. 3. Aprendizaje por refuerzo
  1. a. Comportamientos
  2. b. Juegos y estrategias
4. 4. Aprendizaje semisupervisado
5. 5. IA Generativa
6. 6. Resumen de las distintas formas de aprendizaje y tareas
Metodología CRISP-DM
1. 1. Visión general
2. 2. Business Understanding
3. 3. Data Understanding
  1. a. Identificar el conjunto de datos
  2. b. Describir los campos
  3. c. Estadísticas descriptivas
4. 4. Data Preparation
5. 5. Modeling
6. 6. Evaluación
7. 7. Deployment

La pila tecnológica en Python

Herramientas de la Data Science
1. 1. Herramientas integradas
2. 2. El auto ML
3. 3. Herramientas de desarrollo
Lenguaje Python
1. 1. Presentación
2. 2. Breve presentación de R
3. 3. ¿Python o R?
4. 4. Python 2 frente a Python 3
Jupyter
1. 1. Características de Jupyter
2. 2. Ventajas de Jupyter para la Data Science
3. 3. Instalar y usar Jupyter
Bibliotecas de Machine Learning
1. 1. NumPy
2. 2. Pandas
3. 3. Matplotlib
4. 4. Scikit-learn
Bibliotecas de Deep Learning

Carga y análisis de datos

La fase de Data Understanding
Cargar los datos
Crear la ficha de identificación del dataset
Describir el campo
1. 1. Gestionar tipos
2. 2. Detectar datos faltantes
Estadísticas descriptivas de los campos
1. 1. Tipos de datos
2. 2. Analizar datos numéricos
3. 3. Graficar datos numéricos
  1. a. Histograma
  2. b. Nube de puntos
  3. c. Gráfico de cajas y bigotes
4. 4. Analizar datos categoriales
5. 5. Graficar datos categoriales
6. 6. Otros datos
7. 7. Análisis cruzado de datos
  1. a. Entre variables numéricas
  2. b. Entre variables numéricas y una variablecategorial
  3. c. Entre variables categoriales
Preparar la siguiente fase

Preparar datos

Fase de Data Preparation
Suprimir datos
1. 1. Suprimir columnas
2. 2. Suprimir registros
Separar datasets
1. 1. Proporción Entrenamiento/Prueba
2. 2. Separar aleatoriamente
3. 3. Separar estratificando
Tratar los datos faltantes
Preparar atributos numéricos
1. 1. Validar datos
  1. a. Validar semánticamente los datos
  2. b. Validar estadísticamente los datos
2. 2. Feature Engineering
3. 3. Discretizar
  1. a. Intervalos iguales
  2. b. Desglosar por cuartiles
  3. c. Distribuir manualmente
4. 4. Normalizar
  1. a. Normalización mínimo-máximo
  2. b. Normalización estándar
  3. c. Normalización robusta
  4. d. Comparación
Preparar variables categoriales
1. 1. Validar datos
2. 2. Modificar categorías
  1. a. Ordenar o reordenar categorías
  2. b. Modificar la lista de categorías
3. 3. Cuantificar
Datos particulares
1. 1. Preparar las fechas
  1. a. El formato datetime64
  2. b. Extraer componentes
  3. c. Gestionar diferencias
2. 2. Preparar cadenas de caracteres
  1. a. Preparar las cadenas
  2. b. Buscar en cadenas
  3. c. Extraer subcadenas
  4. d. Otros métodos
Automatizar la preparación
1. 1. Crear pipelines de tratamiento
2. 2. Parámetros de las operaciones y códigoPandas
3. 3. Pipelines usando Scikit-learn
  1. a. Crear un transformer
  2. b. Uso de transformer
  3. c. Desventajas de Scikit-learn
4. 4. Otras posibilidades

Modelizar y evaluar

Fase de modeling
Crear un conjunto de validación
Preparar el dataset
1. 1. Dataset Iris
2. 2. Dataset Titanic
3. 3. Dataset Boston
Crear modelos
1. 1. Proceso iterativo
2. 2. Crear un modelo en Scikit-learn
3. 3. Evaluar un modelo
4. 4. Validación cruzada
5. 5. Guardar y cargar un modelo
Puesta a punto de los modelos (fine-tuning)
1. 1. Optimizar los hiperparámetros
2. 2. Aplicar en Scikit-learn
3. 3. Sobreajuste y subajuste
Métodos de ensamble
1. 1. Bagging
2. 2. Boosting
3. 3. Stacking

Algoritmos de clasificación

La tarea de clasificar
1. 1. Definición
2. 2. Ejemplos de casos prácticos
3. 3. Preparar específicamente los datos
Evaluar los modelos
1. 1. Matrices de confusión
  1. a. EL caso de la Clasificación binaria
  2. b. Clasificación multiclase
2. 2. Indicadores derivados de la matriz de confusión
  1. a. Accuracy
  2. b. Sensibilidad y precisión
  3. c. F1-score
  4. d. Sensibilidad y especificidad
3. 3. Curva ROC y AUC
  1. a. Predicción y probabilidad
  2. b. Tasas de verdaderos y falsos positivos
  3. c. Curva ROC
  4. d. Área Bajo la Curva (AUC)
4. 4. Elegir los indicadores de evaluación
Árboles de decisión y algoritmos derivados
1. 1. Árboles de decisión
  1. a. Salir del árbol
  2. b. Elegir el punto de corte
  3. c. Criterios de parada
  4. d. Usar el árbol
2. 2. Random Forests
3. 3. XGBoost (eXtreme Gradient Boosting)
K-Nearest Neighbors
Logistic Regression
1. 1. Regresión logística binaria
2. 2. Regresión logística politómica
3. 3. Aplicar usando Scikit-learn
Naive Bayes
1. 1. Principio general
2. 2. Calcular diferentes probabilidades
3. 3. Aplicar usando Scikit-learn
Support Vector Machine
1. 1. Presentación general
  1. a. Margen y soporte vectorial
  2. b. Kernels
  3. c. Ventajas
2. 2. Aplicar usando Scikit-learn

Algoritmos de regresión

La tarea de regresión
1. 1. Definición
2. 2. Ejemplos de casos prácticos
3. 3. Preparar específicamente los datos
Entrenar y evaluar modelos
1. 1. Noción de error
2. 2. Indicadores derivados de la medición de errores
  1. a. Error absoluto medio
  2. b. Error cuadrático medio
  3. c. Raíz del error cuadrático medio
  4. d. Coeficiente de determinación y varianza explicativa
  5. e. Otros indicadores
3. 3. Elegir los indicadores de evaluación
Usar algoritmos de clasificación
1. 1. Principio general
2. 2. Árboles de decisión y algoritmosderivados
  1. a. Árboles de decisión
  2. b. Random Forest
  3. c. XGBoost
3. 3. K-plus Nearest Neighbors (KNN)
4. 4. Support Vector Machine (SVM)
Regresión lineal y variantes
1. 1. Regresión lineal
2. 2. Aplicar en Scikit-learn
3. 3. El problema de la colinealidad
4. 4. Ridge Regression
5. 5. Lasso Regression
Regresión polinómica
1. 1. Principio
2. 2. Regresión polinómica y Scikit-learn
Caso especial de la predección
1. 1. Predección y series temporales
2. 2. Preparar datos
3. 3. Aplicar en Scikit-learn
4. 4. Usar modelos específicos
  1. a. Limitar el enfoque de la regresión lineal
  2. b. Algoritmos dedicados a las series temporales

Algoritmos de aprendizaje no supervisado

Tareas de aprendizaje no supervisado
Clustering
1. 1. Definición
2. 2. Ejemplos de casos prácticos
3. 3. Algoritmos basados en la distancia
  1. a. Principio del algoritmo K-Medias
  2. b. Implementar usando Scikit-learn
  3. c. Variantes del algoritmo K-Means
4. 4. Algoritmos basados en la densidad
  1. a. Principio general
  2. b. Implementar DBSCAN en Scikit-learn
  3. c. Variante de DBSCAN: OPTICS
Reducir dimensiones
1. 1. Definición
2. 2. Ejemplos de casos prácticos
3. 3. Detectar los ejes principales
4. 4. Crear nuevos ejes
  1. a. Principal Component Analysis (PCA)
  2. b. Linear Discriminant Analysis (LDA)
Sistema de recomendación
1. 1. Definición
2. 2. Principales enfoques
  1. a. Modelos basados en la popularidad (Popularity-basedFiltering)
  2. b. Modelos basados en el contenido (Content-based Filtering))
  3. c. Modelos basados en otros usuarios (Collaborative Filtering)
  4. d. Métodos híbridos
Association
1. 1. Definición
2. 2. Evaluar algoritmos
  1. a. Soporte
  2. b. Índice de confianza
  3. c. Lift
3. 3. Algoritmo «APriori»
  1. a. Paso 1: Realizar recuento de los grupos
  2. b. Paso 2: Crear y probar reglas

Evaluación y despliegue

Fase de evaluación
1. 1. Principio general
2. 2. Evaluación empresarial de los resultados
3. 3. Revisar el proceso
4. 4. Próximos pasos
Fase de despliegue
1. 1. Planificar el despliegue
2. 2. Supervisión y mantenimiento
3. 3. Informe final y documentación
Despliegue y MLOps
1. 1. Comentarios sobre DevOps
2. 2. Aparición de MLOps
3. 3. Tareas cubiertas por MLOps
4. 4. Criterios de selección

Conclusión

Machine Learning, una habilidad clave
Llevar un proyecto hasta el final
Más allá de la metodología
Experimentar y la experiencia
Más información

Autor

Virginie MATHIVET

Virginie MATHIVET cursó un doctorado en Inteligencia Artificial, más concretamente en algoritmos genéticos y redes neuronales. Tras impartir clases de inteligencia artificial, robótica y materias relacionadas con el desarrollo durante más de 10 años, creó un departamento de Datos en una ESN (IA, Ingeniería de Datos, Big Data). En 2023 creó su propia empresa, Hemelopse, para centrarse en la consultoría estratégica de IA, al mismo tiempo que sigue formando y entrenando a Científicos de Datos. También es conferencista.

Más información