Tarea online BDA03.

Título de la tarea: Almacenamiento y procesamiento en Hadoop.

Curso de especialización y módulo: Especialización en Inteligencia Artificial y Big Data - Big Data Aplicado

RA5.Valida las técnicas de Big Data para transformar una gran cantidad de datos en información significativa, facilitando la toma de decisiones de negocios.

Introducción al ecosistema Hadoop.
Componentes de acceso y procesamiento de datos.
1. Apache Pig.
2. Apache Hive.
  1. Conceptos generales.
  2. Arquitectura.
  3. HQL.
3. Apache Impala.
4. Apache HBase.
5. Apache Phoenix.
6. Apache Spark.
  1. Arquitectura y componentes.
  2. Detalle de los componentes de Apache Spark.
  3. Ventajas y desventajas.
Componentes de ingesta de datos y flujos de trabajo.
1. Apache Sqoop.
2. Apache Flume.
3. Apache Oozie.
Interfaces y herramientas de trabajo.
1. Hue.
2. Apache Zeppelin.
3. Apache Ambari y Cloudera Manager.
Procesamiento en streaming: Apache Spark (Structured Streaming), Apache Flink y Apache Storm.