Redução de Dimensionalidade: Comparação entre t-SNE e UMAP

Aluno: Felipe Pereira Ramos Barboza

Orientadora: Profa. Dra. Nina Sumiko Tomita Hirata

Universidade de São Paulo - Instituto de Matemática e Estatística

Bacharelado em Ciência da Computação

📑 Introdução

A redução de dimensionalidade é uma técnica fundamental em aprendizado de máquina e análise de dados, permitindo a visualização e interpretação de conjuntos de dados complexos e de alta dimensionalidade. Entre os métodos mais populares atualmente estão o t-SNE (t-Distributed Stochastic Neighbor Embedding) e o UMAP (Uniform Manifold Approximation and Projection), ambos amplamente utilizados para visualização de dados.

🎯 Objetivos

Este trabalho tem como objetivo principal realizar um estudo comparativo detalhado entre os métodos t-SNE e UMAP, avaliando não apenas suas características algorítmicas, mas também a qualidade perceptiva das projeções geradas por cada método. Os objetivos específicos incluem:

🔬 Metodologia

A metodologia do trabalho consistirá em:

  1. Revisão teórica dos algoritmos t-SNE e UMAP, incluindo suas formulações matemáticas e parâmetros principais
  2. Implementação dos métodos (ou utilização de bibliotecas estabelecidas como scikit-learn e umap-learn)
  3. Seleção de conjuntos de dados de referência com diferentes características (tamanho, dimensionalidade, número de classes)
  4. Aplicação dos métodos e avaliação utilizando métricas quantitativas de qualidade de projeção
  5. Análise qualitativa das visualizações geradas
  6. Comparação sistemática dos resultados

📊 Métricas de Avaliação

Para avaliar a qualidade das projeções, serão consideradas métricas como:

📈 Resultados Esperados

Espera-se que este trabalho contribua com:

⏳ Cronograma

Período Atividades
Mês 1-2 Revisão bibliográfica e estudo teórico dos métodos
Mês 3-4 Implementação e testes preliminares
Mês 5-6 Experimentos e coleta de resultados
Mês 7-8 Análise dos resultados e redação do trabalho

📚 Referências