Curso online de big data

250,00

El curso Big Data – Data Scientist y Lenguaje R contempla la trilogía de almacenamiento, procesamiento y análisis de los macro datos que no pueden ser procesados con las aplicaciones informáticas convencionales.

Es un hecho que las empresas evalúan su rentabilidad basándose en datos matemáticos, información que al ser analizada puede hacer que se conviertan en una de las compañías más lucrativas o llevarlas al fracaso.

Con la intención de mejorar su rendimiento, las empresas deben manejar un gran volumen de datos en su web, que es lo que se conoce como Big Data, los cuales tienen que analizarse a través de una ciencia interdisciplinaria, que hace referencia a la Data Scientist, mediante la utilización de un lenguaje de programación adecuado; en este caso, el Lenguaje R.

Descripción

Titulación que recibirás

Titulación que recibirás al finalizar el Curso online Big data:

Diploma Aula 10

A la finalización del Curso online Big data, el alumno recibe el título de “Big data”, de Aula 10.

Aula 10 es Centro de Formación, acreditado para la impartación de formación profesional no formal en formación presencial (SERVEF) y teleformación (SEPE). Aula 10 tiene implantado en sistema de calidad ISO 9001:2008 en la gestión de calidad de su formación.

Aula 10 es centro asociado a International Commission on Distance Education, estatuto consultivo, categoría especial, del consejo económico y social de Naciones Unidas.
Certificados acreditados con carácter privado en base al cumplimiento del Real Decreto 1004/1991, de 14 de Junio, de carácter profesional y Real Decreto 395/2007.

Los cursos de Aula 10 cumplen con los requisitos de contenido, temario y horas de diferentes oposiciones, bolsas de trabajo y ofertas de empleo de las administraciones públicas (ayuntamientos, comunidades autónomas, provincias, etcétera) por lo tanto estos cursos podrían ser baremables según las bases que se publiquen.

¿En qué consiste?

¿En qué consiste el curso de Big data?

El curso Big Data y Lenguaje R proporciona el conocimiento necesario para el análisis, captación y procesamiento de datos masivos, a través del entendimiento de sus tres aspectos fundamentales:

  • l Lenguaje R: En el curso online se abordan los fundamentos básicos del lenguaje de programación, para la implementación de algoritmos que permitan desarrollar los valores de control para dominar un software específico.
  • La programación en R orientado a Big Data: Se profundiza en las soluciones a los problemas organizacionales que son consecuencia de la mala manipulación de los datos masivos.
  • Establecer un curso de análisis estadísticos con R: La data science no es más que la aplicación de métodos analíticos de datos provenientes de distintas fuentes, tanto estructurados como no estructurados.

Las herramientas habitualmente disponibles no tienen la capacidad de manipular el volumen de datos registrados en las operaciones que suelen realizar las compañías.

Procedimientos como el uso de las redes sociales, sistemas biométricos y posicionamiento por satélite requieren sistemas no convencionales, como los equipos para medir temperatura, humedad y otros parámetros.

Estas transacciones de datos a gran escala involucran en muchos casos a más de una sucursal, pero en el intento de operar de manera centralizada establecen líneas de comunicación entre ellas a través de la red.

El curso online de Big Data, además de otorgar herramientas de cálculo, tiene la ventaja de ser compatible con múltiples dispositivos y aplicaciones (hardware y software), además de ser de fácil integración en amplias bases de datos. Los resultados de estos análisis se pueden mostrar en gráficos, lo que sirve de apoyo para la toma de decisiones empresariales y mejora el servicio comercial.

Metodología y duración

Metodología y Duración del Curso online  de Big data

Duración: 300 Horas

Plazo máximo: 12 Meses

Metodología: Online

  • FÁCIL DE UTILIZAR: No se necesitan conocimientos específicos de informática para realizar los cursos. Nuestro sistema guía “Paso a paso” en todo el proceso de formación.
  • FORMACIÓN PRÁCTICA: Al propio ritmo de aprendizaje, sin condicionantes de grupo y atendido personalmente por un profesorado especializado.
  • DESDE CUALQUIER PC: En el trabajo, en el domicilio, sin desplazamientos, sin gastos adicionales,… con las claves de acceso que facilitamos se podrá entrar en los cursos desde cualquier PC.
  • DISPONIBLE 24 HORAS: Una formación adaptada a cualquier horario y que permite conectarse en cualquier momento del día.
  • TUTOR PERSONAL: Las dudas, consultas ¡SE RESUELVEN CON TU PROPIO TUTOR! mediante correo electrónico y otras herramientas de comunicación.
  • No lo dudes y fórmate con Aula 10. Más de 100000 alumnos confían en Aula 10 su formación, con los cursos online al mejor precio.
  • Este curso es Bonificable a través de los créditos de formación de FUNDAE (antigua Fundación Tripartita, bonificación)
  • Formas de pago, podrás pagar tu curso por medio de tarjeta, paypal, pago fraccionado o transferencia bancaria.

temario del curso

Temario curso de Big data

  1. Introducción
    1. 1. Data scientist, una disciplina de moda
    2. 2. Las data sciences
    3. 3. El Big Data
    4. 4. La dinámica de este libro
      1. 4.1 Nuestros objetivos
      2. 4.2 La estructura del libro
        1. 4.2.1 Los dos recorridos complementarios
        2. 4.2.2 Recursos complementarios
    5. 5. Pequeño bestiario de las data sciences
      1. 5.1 Los fundamentos
        1. 5.1.1 Aprendizaje y clasificación
        2. 5.1.2 Pequeño vocabulario gráfico del machine learning
        3. 5.1.3 Regresión
        4. 5.1.4 Regresión lineal generalizada
        5. 5.1.5 Árboles de decisión, poda, tala
        6. 5.1.6 Clustering, k-means
        7. 5.1.7 k-NN
        8. 5.1.8 Modelos paramétricos
        9. 5.1.9 Lazy algorithm (algoritmo perezoso)
        10. 5.1.10 Overfitting: sobredeterminación, sobreaprendizaje
        11. 5.1.11 Validación cruzada, regularización, bagging
        12. 5.1.12 Optimización, descenso por gradiente
        13. 5.1.13 Algoritmo voraz (greedy algorithm)
        14. 5.1.14 Programación lineal, símplex, punto interior
        15. 5.1.15 Estimación mediante el método de Monte-Carlo
        16. 5.1.16 Entropía, independencia e información mutua
        17. 5.1.17 Discretización
      2. 5.2 Métodos «conjunto»
        1. 5.2.1 Random forest
        2. 5.2.2 AdaBoost (adaptative boosting)
      3. 5.3 Leyes de probabilidad y de distribución
        1. 5.3.1 Generalidades
        2. 5.3.2 Pequeño bestiario de leyes de probabilidad
      4. 5.4 Los grafos
        1. 5.4.1 Vocabulario básico
        2. 5.4.2 Conversión de una tabla de observaciones en un grafo, semejanza
    6. 6. Informática profesional y datasciences
      1. 6.1 La tecnología
      2. 6.2 Business Intelligence versus Big Data
        1. 6.2.1 Diferencias en términos de arquitectura
        2. 6.2.2 Diferencias en términos de uso
        3. 6.2.3 En resumen
    7. 7. Notación
      1. 7.1 Notación de los parámetros
      2. 7.2 Otras notaciones
        1. 7.2.1 Funciones y aplicaciones … f(x), d(x,y) …
        2. 7.2.2 Algunas posibles confusiones
    8. 8. Ahora, ¡es su turno!
  2. Primeros pasos con R
    1. 1. Instalación de los componentes
      1. 1.1 Instalación y ejecución de R
      2. 1.2 Instalación y ejecución de RStudio
      3. 1.3 Instalación de nuevos paquetes
      4. 1.4 Instalación de paquetes: complementos
    2. 2. Toma de contacto con R
      1. 2.1 R, una calculadora eficaz
      2. 2.2 R, un lenguaje vectorial
      3. 2.3 Funciones que trabajan sobre vectores
        1. 2.3.1 Un primer análisis rápido de los datos
        2. 2.3.2 Algunas estadísticas sencillas sobre los vectores
        3. 2.3.3 Ordenar un vector
        4. 2.3.4 Diversas funciones con suma, producto, min y max
      4. 2.4 Tipos de datos simples
        1. 2.4.1 Los booleanos
        2. 2.4.2 Conjuntos
        3. 2.4.3 Listas
        4. 2.4.4 Factores
        5. 2.4.5 Tablas
      5. 2.5 Las funciones
        1. 2.5.1 Creación y uso de una función simple
        2. 2.5.2 Creación de un operador a partir de una función de dos variables
        3. 2.5.3 Uso de las funciones y alcance de las variables
        4. 2.5.4 Aplicación de las funciones sobre las matrices: apply
        5. 2.5.5 Las funciones: completamente útiles
      6. 2.6 Estructuras de control
        1. 2.6.1 Instrucciones comunes con otros lenguajes
        2. 2.6.2 Recorrer una matriz mediante bucles for
      7. 2.7 Las cadenas de caracteres
      8. 2.8 El formato de los números
      9. 2.9 Fechas y tiempos
      10. 2.10 Mediar la duración de un algoritmo
      11. 2.11 Los números complejos
        1. 2.11.1 Manipulación básica de los números complejos
        2. 2.11.2 Visualización de números complejos
      12. 2.12 Programación orientada a objetos
        1. 2.12.1 Clases y objetos, breve descripción
        2. 2.12.2 Constructores
        3. 2.12.3 Herencia
        4. 2.12.4 Objetos mutables
        5. 2.12.5 Gestión de la pila: implementación Orientada a Objetos con RC
    3. 3. Manipulación de los datos
      1. 3.1 Lectura de los datos: fundamentos
      2. 3.2 Manipulación de las columnas de un data.frame
      3. 3.3 Cálculos simples sobre un data.frame
        1. 3.3.1 Cálculos sobre las columnas y las filas
        2. 3.3.2 Manipulación de las filas
        3. 3.3.3 Aplicación: comparación de elementos de clases y Khi-2
        4. 3.3.4 Creación de columnas calculadas
        5. 3.3.5 Ordenar un data.frame mediante order()
      4. 3.4 Análisis visual de los datos
        1. 3.4.1 Visualización simple de los datos
        2. 3.4.2 Visualización de variables numéricas 2 a 2 con mención de las clases
        3. 3.4.3 Correlación entre variables numéricas
        4. 3.4.4 Separación por clase, ggplot2, qplot
        5. 3.4.5 Visualización 3D, relación entre tres variables numéricas
        6. 3.4.6 Gráficos por pares
        7. 3.4.7 Diagramas de caja y eliminación de outliers
        8. 3.4.8 Creación de un modelo por árbol de decisión
  3. Dominar los fundamentos
    1. 1. Ponerse en armonía con los datos
      1. 1.1 Algunas nociones fundacionales
        1. 1.1.1 Fenómeno aleatorio
        2. 1.1.2 Probabilidad, variable aleatoria y distribución
        3. 1.1.3 Un poco de matemáticas: notaciones y definiciones útiles
        4. 1.1.4 Momentos de una variable aleatoria discreta X
        5. 1.1.5 Primeras consideraciones sobre los errores y estimaciones
      2. 1.2 Familiarizarse con los datos
        1. 1.2.1 R Commander
        2. 1.2.2 Rattle
    2. 2. Matrices y vectores
      1. 2.1 Convenciones, notaciones, usos básicos
      2. 2.2 Matrices, vectores: una introducción a la noción de aprendizaje supervisado
      3. 2.3 Ir más lejos en la manipulación de matrices con R
      4. 2.3.1 Operaciones básicas
      5. 2.3.2 Algunos trucos útiles sobre las matrices de R
      6. 2.3.3 Normas de vectores y normas de matrices
      7. 2.3.4 Matrices y vectores: diversas sintaxis útiles
    3. 3. Estimaciones
      1. 3.1 Planteamiento del problema de estimación
        1. 3.1.1 Formulación general del problema
        2. 3.1.2 Aplicación y reformulación del problema de estimación
      2. 3.2 Indicadores de desviación utilizados en machine learning
        1. 3.2.1 MSE, RMSE, SSE, SST
        2. 3.2.2 MAE, ME
        3. 3.2.3 NRMSE/NRMSD, CV_MRSE
        4. 3.2.4 SDR
        5. 3.2.5 Accuracy, R2
    4. 4. Puesta en práctica: aprendizaje supervisado
      1. 4.1 Preparación
      2. 4.2 Comprobar las hipótesis, p_value
        1. 4.2.1 Análisis gráfico interactivo con iplots
        2. 4.2.2 Test de Breush-Pagan y zoom sobre p_value
      3. 4.3 Creación de un modelo (regresión lineal múltiple)
      4. 4.4 Establecer una predicción
      5. 4.5 Estudio de los resultados y representación gráfica
      6. 4.6 Indicadores habituales – cálculos
      7. 4.7 Estudio del modelo lineal generado
      8. 4.8 Conclusión sobre el modelo lineal
      9. 4.9 Uso de un modelo «Random Forest»
  4. Técnicas y algoritmos imprescindibles
    1. 1. Construir la caja de herramientas
    2. 2. Representación gráfica de los datos
      1. 2.1 Un gráfico «simple»
      2. 2.2 Histogramas avanzados
        1. 2.2.1 Distribución multiclase
        2. 2.2.2 Mezcla de varias distribuciones por clase
        3. 2.2.3 Visualización de la densidad de una distribución
        4. 2.2.4 Otra mezcla por clase
        5. 2.2.5 Una variable, pero un histograma para cada clase
        6. 2.2.6 Gráfico con una densidad por clase
      3. 2.3 Diagrama de pares y de facetas
        1. 2.3.1 Diagrama por pares, versión simple
        2. 2.3.2 Clases en configuración XOR
        3. 2.3.3 Diagrama por pares con «factores»
        4. 2.3.4 Facetas y escala logarítmica
    3. 3. Machine learning: prácticas corrientes
      1. 3.1 Recorrido teórico acelerado
        1. 3.1.1 Linealidad
        2. 3.1.2 Errores in y out, noción de dimensión VC
        3. 3.1.3 Hiperplanos, separabilidad con márgenes
        4. 3.1.4 Kernel Trick, núcleos, transformaciones, feature space
        5. 3.1.5 Problemas de la regresión: introducción a la regularización
      2. 3.2 Práctica por práctica
        1. 3.2.1 Cross validation: k-fold CV
        2. 3.2.2 Naive Bayes
        3. 3.2.3 C4.5 y C5.0
        4. 3.2.4 Support Vector Machines (SVM)
        5. 3.2.5 Clusterización, k-means
    4. 4. ¿ Dónde nos encontramos en nuestro aprendizaje ?
      1. 4.1 Sus conocimientos operacionales
      2. 4.2 Las posibles lagunas que es preciso cubrir ahora
  5. Marco metodológico del data scientist
    1. 1. El problema metodológico a nivel del proyecto
      1. 1.1 La expresión de una necesidad
      2. 1.2 La gestión del proyecto
    2. 2. El ciclo interno de data sciences
      1. 2.1 Revisión detallada del problema planteado
      2. 2.2 Trabajos previos sobre los datos
        1. 2.2.1 Exigencias sobre los datos
        2. 2.2.2 Recogida, limpieza y comprensión de los datos
      3. 2.3 El ciclo de modelado
        1. 2.3.1 Feature engineering
        2. 2.3.2 Modelado y evaluación
        3. 2.3.3 Escoger el mejor modelo
        4. 2.3.4 Test, interpretación y confrontación con negocio
      4. 2.4 Preparación de la industrialización y despliegue
      5. 2.5 Preparación de las siguientes iteraciones
        1. 2.5.1 Elementos que es preciso tener en cuenta
        2. 2.5.2 Documentación gestionada por los data scientists
    3. 3. Complementos metodológicos
      1. 3.1 Clasificar sus objetivos
      2. 3.2 Trucos y argucias
  6. Procesamiento del lenguaje natural
    1. 1. Definición del problema
    2. 2. Análisis semántico latente y SVD
      1. 2.1 Aspectos teóricos
      2. 2.1.1 SVD: generalidades
      3. 2.1.2 Una justificación de la descomposición SVD
      4. 2.1.3 SVD en el contexto LSA
      5. 2.1.4 Interpretación
      6. 2.1.5 Alternativa no lineal, Isomap (MDS, geodésico, variedad, manifold)
    3. 2.2 Puesta en práctica
      1. 2.2.1 Inicialización
      2. 2.2.2 En el núcleo de LSA
      3. 2.2.3 Resultados
      4. 2.2.4 Manipulaciones, interpretaciones recreativas y no fundadas
  7. Grafos y redes
    1. 1. Introducción
    2. 2. Primeros pasos
      1. 2.1 Algunas nociones y notaciones complementarias básicas
      2. 2.2 Manipulaciones simples de grafos con R
      3. 2.3 Estructura de los grafos
    3. 3. Grafos y redes (sociales)
      1. 3.1 Análisis de las redes sociales: conceptos básicos
      2. 3.2 Puesta en práctica
      3. 3.3 Detección de comunidades
  8. Otros problemas, otras soluciones
    1. 1. Series temporales
      1. 1.1 Introducción
      2. 1.2 Modelo estacionario
        1. 1.2.1 Proceso estacionario: los fundamentos
        2. 1.2.2 Proceso autorregresivo AR: ir más lejos
        3. 1.2.3 Consideraciones (muy) útiles
      3. 1.3 Procesos no estacionarios
        1. 1.3.1 El modelo ARIMA
        2. 1.3.2 Procesos estacionales: SARIMA
        3. 1.3.3 Modelos ARCH y GARCH
        4. 1.3.4 Convolución y filtros lineales
      4. 1.4 Puesta en práctica
        1. 1.4.1 Los fundamentos de la manipulación de las series temporales en R
        2. 1.4.2 Estudio de las series temporales
        3. 1.4.3 Predicciones sobre ARIMA (AR MA SARIMA)
      5. 1.5 Minibestiario ARIMA
    2. 2. Sistemas difusos
    3. 3. Enjambre (swarm)
      1. 3.1 Swarm y optimización: el algoritmo PSO
        1. 3.1.1 Presentación de PSO
        2. 3.1.2 Descripción de PSO
      2. 3.2 Puesta en práctica de PSO
  9. Feature Engineering
    1. 1. Feature Engineering, los fundamentos
      1. 1.1 Definición del problema
      2. 1.2 Sobre qué hay que estar muy atento
        1. 1.2.1 La calidad de la distribución
        2. 1.2.2 La naturaleza de las features
      3. 1.3 Dominar la dimensionalidad
      4. 1.4 Una solución práctica: el PCA
      5. 1.5 Un ejemplo simple del uso del PCA
      6. 1.6 Los valores desconocidos y las features mal condicionadas
      7. 1.7 Creación de nuevas features
      8. 1.8 A modo de conclusión
    2. 2. PCA clásico, elementos matemáticos
    3. 3. Reducción de los datos (data reduction)
    4. 4. Reducción de la dimensionalidad y entropía
      1. 4.1 Descripción teórica del problema
      2. 4.2 Implementación en R y discusión
  10. Complementos útiles
    1. 1. GAM: generalización de LM/GLM
    2. 2. Manipulación de imágenes
      1. 2.1 Creación, visualización, lectura y escritura de imágenes
      2. 2.2 Transformaciones de imágenes
      3. 2.2.1 Ejemplos de manipulación del color y de las intensidades
      4. 2.2.2 Ejemplos de manipulación de la geometría de la imagen
      5. 2.2.3 Aplicación de filtros sobre las imágenes
    3. 3. Cómo crear una muestra: LHS (hipercubo latino)
    4. 4. Trabajar sobre datos espaciales
      1. 4.1 Variograma
        1. 4.1.1 Campo y variable regionalizada
        2. 4.1.2 Determinación del variograma
      2. 4.2 Krigeage (kriging)
        1. 4.2.1 La teoría, brevemente
        2. 4.2.2 Implementación en R
    5. 5. Buenas prácticas útiles
      1. 5.1 Trazar una curva ROC
      2. 5.2 Una red neuronal (primeros pasos hacia el deeplearning)
    6. 6. Gradient Boosting y Generalized Boosted Regression
      1. 6.1 Los grandes principios
      2. 6.2 Los parámetros y los usos (paquete GBM)
        1. 6.2.1 Covarianza
        2. 6.2.2 Loss
        3. 6.2.3 Optimización del algoritmo
      3. 6.3 Puesta en práctica
  11. Anexos
    1. 1. Acerca de la utilidad de estos anexos
    2. 2. Fórmulas
    3. 3. Estrategias según la naturaleza de los datos
      1. 3.1 Recuentos
      2. 3.2 Proporciones
      3. 3.3 Variable de respuesta binaria
      4. 3.4 Datos que inducen un modelo mixto (mixed effect)
      5. 3.5 Datos espaciales
      6. 3.6 Grafos
      7. 3.7 Análisis de supervivencia (survival analysis)
    4. 4. Filtros (sobre imágenes)
    5. 5. Distancias
    6. 6. Trucos y pequeños consejos
      1. 6.1 Acerca de los tests
      2. 6.2 Gestión de las variables
      3. 6.3 Análisis y manipulación de resultados
        1. 6.3.1 Residuos
        2. 6.3.2 Manipulación de los modelos
    7. 7. Paquetes y temas para estudiar
      1. 7.1 Creación de gráficos JavaScript con R
      2. 7.2 Crear uniones como en SQL
      3. 7.3 Reglas de asociación
      4. 7.4 Exportar un modelo
      5. 7.5 Tensores
      6. 7.6 SVM para la detección de novedades (novelty detection)
    8. 8. Vocabulario y «tricks of the trade»
      1. 8.1 Complementos sobre las bases del machine learning
      2. 8.2 Complementos sobre los aspectos bayesianos
      3. 8.3 Vocabulario (en inglés) de los modelos gaussianos
    9. 9. Algoritmos para estudiar
    10. 10. Algunas formulaciones de álgebra lineal
  12. Conclusión
  13. índice

Salidas profesionales

¿Qué salidas profesionales tiene un especialista en Big Data y Lenguaje R?

El especialista en Big Data – Data Scientist y Lenguaje R es un profesional muy cotizado en las empresas que manejan un volumen elevado de parámetros variables en sus operaciones, las cuales necesitan agrupar para mantener la interacción interdepartamental, ya sea interna o entre sucursales, así como con clientes y proveedores.

Los departamentos de corporaciones como bancas, telecomunicaciones y grupos de investigación utilizan el lenguaje de programación en R, del mismo modo que las empresas de seguridad informática y las cadenas farmacéuticas. Esto se debe a la necesidad de compilar elementos para ejecutar la estadística y programación de sus operaciones, trabajo que debe realizar un experto en Big Data.

Cada vez es más frecuente que las empresas soliciten especialistas en el análisis y tratamiento de datos, debido al incremento de la información que debe ser controlada. Esto da a los participantes del Big Data curso una ventaja competitiva en el campo laboral, pues están capacitados para diseñar y ejecutar estrategias en data science, lo que también es útil para los equipos de marketing.

Información adicional

Duración y Modalidad

Duración: 300 Horas
Plazo máximo: 12 Meses
Metodología: Online

Precio

250€
El precio incluye:
Matrícula
Formación
Materiales didácticos descargables.
Titulación
Tutorías

Formas de pago

Tarjeta
Paypal
Pago Aplazado (Hasta 12 meses sin intereses)
Transferencia Bancaria

Matrícula

Matrícula libre