Redução de Dimensionalidade: Comparação entre t-SNE e UMAP
Aluno: Felipe Pereira Ramos Barboza
Orientadora: Profa. Dra. Nina Sumiko Tomita Hirata
Universidade de São Paulo - Instituto de Matemática e Estatística
Bacharelado em Ciência da Computação
📑 Introdução
A redução de dimensionalidade é uma técnica fundamental em aprendizado de máquina e análise de dados, permitindo a visualização e interpretação de conjuntos de dados complexos e de alta dimensionalidade. Entre os métodos mais populares atualmente estão o t-SNE (t-Distributed Stochastic Neighbor Embedding) e o UMAP (Uniform Manifold Approximation and Projection), ambos amplamente utilizados para visualização de dados.
🎯 Objetivos
Este trabalho tem como objetivo principal realizar um estudo comparativo detalhado entre os métodos t-SNE e UMAP, avaliando não apenas suas características algorítmicas, mas também a qualidade perceptiva das projeções geradas por cada método. Os objetivos específicos incluem:
- Estudo teórico detalhado dos algoritmos t-SNE e UMAP
- Implementação e aplicação dos métodos em conjuntos de dados de referência
- Análise comparativa utilizando métricas de qualidade visual para quantificar a percepção das projeções
- Avaliação da separação de classes em problemas supervisionados
- Estudo da preservação de estruturas locais e globais nos dados
- Análise de sensibilidade aos parâmetros de cada algoritmo
🔬 Metodologia
A metodologia do trabalho consistirá em:
- Revisão teórica dos algoritmos t-SNE e UMAP, incluindo suas formulações matemáticas e parâmetros principais
- Implementação dos métodos (ou utilização de bibliotecas estabelecidas como scikit-learn e umap-learn)
- Seleção de conjuntos de dados de referência com diferentes características (tamanho, dimensionalidade, número de classes)
- Aplicação dos métodos e avaliação utilizando métricas quantitativas de qualidade de projeção
- Análise qualitativa das visualizações geradas
- Comparação sistemática dos resultados
📊 Métricas de Avaliação
Para avaliar a qualidade das projeções, serão consideradas métricas como:
- Trustworthiness e Continuity (medidas de preservação de vizinhança)
- Diferença média entre as distâncias de cada ponto para seu vizinho mais próximo de outra classe e para o seu vizinho mais próximo da mesma classe (HM)
- Proporção de pontos x cujo centro de massa de classe mais próximo pertença à mesma classe de x (DSC)
- Separabilidade de classes (Class Separation Metric)
- Métricas baseadas em distâncias (como a correlação entre distâncias originais e projetadas)
📈 Resultados Esperados
Espera-se que este trabalho contribua com:
- Uma análise comparativa abrangente entre t-SNE e UMAP
- Diretrizes para a escolha do método mais adequado para diferentes tipos de dados e objetivos
- Insights sobre a configuração ótima de parâmetros para cada método
- Possíveis melhorias ou combinações dos métodos
⏳ Cronograma
Período |
Atividades |
Mês 1-2 |
Revisão bibliográfica e estudo teórico dos métodos |
Mês 3-4 |
Implementação e testes preliminares |
Mês 5-6 |
Experimentos e coleta de resultados |
Mês 7-8 |
Análise dos resultados e redação do trabalho |
📚 Referências
- van der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research.
- McInnes, L., Healy, J., & Melville, J. (2018). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv preprint arXiv:1802.03426.
- BLELLOCH, Guy E. Lec #16: Dimension Reduction. Algorithms in the Real World (Fall 2015), Carnegie Mellon University. Notas de aula.
- ESPADOTO, Mateus; MARTINS, Rafael M.; KERREN, Andreas; HIRATA, Nina S. T.; TELEA, Alexandru C. Toward a Quantitative Survey of Dimension Reduction Techniques. IEEE Transactions on Visualization and Computer Graphics.
- Venna, J., et al. (2010). Information retrieval perspective to nonlinear dimensionality reduction for data visualization. Journal of Machine Learning Research.
- SEDLMAIR, Michael; AUPETIT, Michaël. Data-driven Evaluation of Visual Quality Measures. In: EUROGRAPHICS CONFERENCE ON VISUALIZATION (EUROVIS), 2015.