Descripción

El presente curso aborda los algoritmos y herramientas computacionales básicas para búsqueda y análisis en conjuntos de datos masivos.

Temario

  1. Conceptos básicos
    1. Definición y características
    2. Generación, procedencia y preparación de datos
    3. El principio de Bonferroni
    4. Privacidad y riesgo
    5. Modelos de computación para datos masivos
  2. Modelo de mapeo y reducción
    1. Sistema de almacenamiento y procesamiento distribuido
    2. Modelo de programación
    3. Algoritmos con el modelo de mapeo y reducción
    4. Extensiones
    5. El modelo costo-comunicación
    6. Teoría de la complejidad para el modelo de mapeo y reducción
  3. Búsqueda de elementos similares
    1. Medidas de similitud y distancia
    2. Resúmenes de conjuntos con preservación de similitud
    3. Funciones hash sensibles a la localidad
    4. Métodos para altos grados de similitud
    5. Aplicaciones
  4. Algoritmos para flujos de datos
    1. Modelos de flujo de datos
    2. Muestreo
    3. Filtrado
    4. Conteo
    5. Estimación de momentos
  5. Algoritmos de memoria externa
    1. Modelo de memoria externa
    2. Modelo de caché inconsciente
    3. Cotas fundamentales de operaciones de entrada y salida
    4. Escaneo
    5. Ordenamiento
    6. Búsqueda
    7. Estructuras de datos estáticos y dinámicos

Horario

Mártes 10:00 a 11:30. [Teoría]
Miércoles 14:00 a 16:00. [Pŕactica]
Jueve 10:00 a 11:30. [Teoría]

Lugar

Salón 201, segundo piso del anexo del IIMAS

Criterios de evaluación

Repositorio del curso

Los ejercicios de programación, datos, diapositivas y demás material del curso se alojarán en el siguiente repositorio de GitHub: https://github.com/blancavazquez/CursoDatosMasivos.

Profesores