Ciência de Dados
Acreditações

Consulte aqui o plano de estudos detalhado
Nota: Para as 4 Unidades Curriculares obrigatórias do 1º semestre (Gestão de Big Data, Metodologias e Tecnologias para Ciência de Dados, Modelos de Previsão, e Reconhecimento de Padrões), há a possibilidade de recebermos alunos internacionais, o que significa que é possível que estas Unidades Curriculares possam ser ensinadas em língua Inglesa.
Plano de Estudos para 2025/2026
Unidades curriculares | Créditos | |
---|---|---|
1º Ano | ||
Modelação Bayesiana
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
Text Mining para Ciência de Dados
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
Seminário Interdisciplinar em Ciência de Dados
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
Fundamentos de Business Analytics
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
Análise de Séries Temporais e Previsão
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
2º Ano | ||
Desenho de Projeto para Ciência de Dados
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
Aprendizagem Profunda para Visão por Computador
6.0 ECTS
|
Parte Escolar > Unidades Curriculares Obrigatórias | 6.0 |
Trabalho de Projecto em Ciência de Dados
48.0 ECTS
|
Trabalho Final | 48.0 |
Dissertação em Ciência de Dados
48.0 ECTS
|
Trabalho Final | 48.0 |
Modelação Bayesiana
OA1. Characterizar os conceitos básicos da modelação Bayesiana
OA2. Aplicar modelos de regressão, classificação e optimização Bayesiana no apoio à tomada de decisão
OA3. Aplicar a abordagem Bayesiana na aprendizagem estatística
CP1. Teorema de Bayes e paradigma Bayesiano
CP2. Modelação gráfica e hierárquica
CP3. Inferência Bayesiana
CP4. Optimização Bayesiana
CP5. Regressão linear e classificação Bayesianas
CP6. Modelos Bayesianos com factores latentes
Os estudantes podem optar por Avaliação ao longo do semestre ou Exame Final.
AVALIAÇÃO AO LONGO DO SEMESTRE:
- trabalho de grupo com nota mínima de 8 valores (50%)
- teste individual com nota mínima 8 valores (50%)
A aprovação requer uma nota mínima de 10.
EXAME:
O Exame Final corresponde a um exame escrito. Os alunos devem obter uma nota mínima de 10 para passar.
Reich, B. J., S. K. Ghosh (2019), Bayesian Statistical Methods, Boca Raton: Chapman and Hall/CRC
McElreath, R. (2020), Statistical Rethinking: A Bayesian Course with Examples in R and Stan, CRC Press.
Levy, R., Mislevy, R. J. (2016), Bayesian Psychometric Modeling, 1st Edition. Boca Raton: Chapman and Hall/CRC
Kruschke, J. K. (2015), Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan. Academic Press / Elsevier.
Durr, O., B. Sick (2020), Probabilistic deep Learning, Manning Publications Co.
Theodoridis, S. (2020),Machine Learning: A Bayesian and Optimization Perspective, Elsevier Ltd.
Martin, O., R. Kumar, J. Lao (2022), Bayesian Modeling and Computation in Python, CRC Press.
Heard, N. (2021), An Introduction to Bayesian Inference, Methods and Computation, Berlin: Springer Cham.
Albert, J., H. Jingchen (2020), Probability and Bayesian Modeling, Boca Raton: CRC Press/Taylor & Francis Group.
Códigos R / python
Slides aulas
Text Mining para Ciência de Dados
OA1. Compreender os fundamentos e desafios de Text Mining
OA2. Conhecer técnicas de preparação, limpeza e representação de documentos
OA3. Aplicar métodos de Processamento de Linguagem Natural
OA4. Classificar de textos usando aprendizagem automática
OA5. Aplicação prática de técnicas em Text Mining
Os objetivos de aprendizagem estão alinhados com um método de ensino que combina teoria e prática. Os estudantes adquirirão uma base teórica sólida sobre Text Mining, seus desafios e técnicas principais. Através de atividades práticas e projetos, desenvolverão habilidades em pré-processamento, modelação, classificação e extração de informação de textos. No final da UC, os estudantes estarão capacitados a aplicar métodos de Text Mining em contextos reais, utilizando ferramentas e recursos atuais, preparando-os para enfrentar problemas complexos no campo da análise de texto.
Introdução
CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais
CP2: Informação não estruturada vs. (semi-)estruturada
CP3: Obtenção e filtragem de informação, extração de informação e Data Mining
Representação de documentos
CP4: Preparação e limpeza de documentos
CP5: Extração de propriedades
CP6: Estratégias de pesagem de termos
CP7: Modelos de espaços vectoriais
CP8: Medidas de similaridade
Processamento Computacional da Língua
CP9: Modelos de língua
CP10: Morfologia e análise morfossintática
CP11: Estruturas complexas: análise sintáctica
CP12: Extração de informação
Classificação de Texto
CP13: Introdução à aprendizagem automática estatística
CP14: Medidas de avaliação
CP15: Classificadores generativos
CP16: Classificadores discriminativos
CP17: Aprendizagem não supervisionada
CP18: Recursos para Text Mining
Casos de Estudo
CP19: Análise de sentimento
CP20: Identificação de tópicos
Esta UC é feita apenas por avaliação ao longo do semestre, não contemplando a modalidade de avaliação por exame.
Componentes de avaliação:
a) TESTES (2 mini-testes: 5% cada, teste final: 40%), realizados durante o período letivo;
b) TRABALHO (50%).
A nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial (Artº 14 do RGACC).
A nota de TRABALHO está limitada à nota de TESTES + 6 valores.
Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação ao longo do semestre.
* Machine Learning for Text (2018). Charu C. Aggarwal. https://doi.org/10.1007/978-3-319-73531- 3
* An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (October 11, 2017). Gabe Ignatow, Rada F. Mihalcea. SAGE Publications. https://methods.sagepub.com/book/an-introduction-to-text-mining
* Speech and Language Processing (3rd ed. draft, 2024), Dan Jurafsky and James H. Martin. Conteúdo disponível em: https://web.stanford.edu/~jurafsky/slp3/
* Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies. Morgan & Claypool, 2017. Atefeh Farzindar and Diana Inkpen. https://link.springer.com/book/10.1007/978-3-031-02167-1
* Jacob Eisenstein. Introduction to Natural Language Processing. Adaptive Computation and Machine Learning. The MIT Press, 2019. https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/
Seminário Interdisciplinar em Ciência de Dados
No final desta UC o estudante deverá ser capaz de:
OA1. Explicar o desenvolvimento da Ciência de Dados ao longo do tempo.
OA2. Diferenciar entre desenvolvimento aplicado (solução de aplicação) e desenvolvimento fundamental (investigação).
OA3. Explicar a interrelaçao entre cada temática interdisciplinar abordada e a Ciência de Dados.
OA4. Criticar a utilização indiscriminada de dados, quer pessoais ou não, sem respeito pelo princípio da minimização.
OA5. Justificar a vantagem de utilizar processos e métodos da Ciência de Dados em problemas societais e ambientais.
Os conteúdos programáticos (CP) específicos podem sofrer evoluções ou ajustamentos em função da disponilibilidade de seminários convidados. No entanto, existem conteúdos em abstracto que terão de ser abordados à luz do conhecimento atual, como sejam:
CP1. História da Ciência de Dados.
CP2. Informação e Perceção Visuais e Narrativas.
CP3. Ciberdireito em Ciência de Dados.
CP4. Inteligência Artificial eticamente responsável.
CP5. Ciência de Dados na Economia e Gestão.
CP6. Ciência de Dados na Saúde.
CP7. Ciência de Dados nas Ciências Humanas.
CP8. Ciência de Dados na Sociedade.
CP9. Ciência de Dados para o Futuro.
Sendo uma Unidade curricular de Seminário, não deverá existir a figura de exame escrito.
A avaliação decorrerá ao longo do semestre, com a participação dos estudantes em pequenos grupos de trabalho colaborativos (E1), elaboração de fichas de seminário individuais (E2), e realização de pesquisa relativa a um problema relacionado com uma das temáticas abordadas nos diferentes seminários com (i) apresentação oral final e (ii) elemento infográfico digital (E3).
Os elementos E1 e E2 são avaliados pela Coordenadora, enquanto o E3 será avaliado pelos pares, com moderação da coordenadora.
A nota final será calculada por: 0,3 E1 + 0,3 E2 + 0,4 E3.
Dependente dos temas específicos abordados pelo responsável do seminário semanal.
Voeneky, S., Kellmeyer, P., Mueller, O., & Burgard, W. (Eds.). 2022. The Cambridge Handbook of Responsible Artificial Intelligence: Interdisciplinary Perspectives. Cambridge: Cambridge University Press. Dignum, V. 2019. Responsible Artificial Intelligence: How to Develop and Use AI in a Responsible Way. Springer Publishing Company, Incorporated, 1st edition,. ISBN 3030303705. Conitzer, V., Sinnott-Armstrong, W., Schaich Borg, J., Deng, Y., & Kramer,M. Moral decision making frameworks for artificial intelligence. Proceedings of the AAAI Conference on Artificial Intelligence, 31(1), Feb. 2017. doi: 10.1609/aaai.v31i1.11140. URL https://ojs.aaai.org/index.php/AAAI/ article/view/11140. Domingos, P. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books, 2015. ISBN 978-0465065707. Karachalios, K., Stern, N. & Havens,J. C. White paper - measuring what matters in the era of global warming and the age of algorithmic promises. Measuring What Matters in the Era of Global Warming and the Age of Algorithmic Promises, pages 1–17, 2020 van den Hoven, J. 2019. Design for values and values for design. Information Age, Journal of the Australian Computer Society, pages 4 – 7.
Fundamentos de Business Analytics
OA1. No final da UC, cada estudante deverá ter adquirido as competências necessárias a entender como usar big data e efetuar análise de dados para superar a concorrência das empresas tradicionais nos seus setores.
OA2. Deve ainda ser capaz de definir e implementar relatórios analíticos e dashboards, considerando processos básicos de ETL, modelação analítica avançada e visualização eficaz de dados.
OA3. Por fim, cada estudante deverá desenvolver aptidões sociais (soft skills), nomeadamente trabalho de equipa e colaboração, comunicação, pensamento crítico e ágil.
P1. Tomada de decisão baseada em dados.
P2. Tipos de Analytics.
P3. Tratamento, modelação e visualização de dados.
P4. Apresentação / comunicação eficaz; capacidade de explicar modelos analíticos complexos e resultados.
P5. Plataforma de Analytics Power BI.
1ª Época:
Trabalho escrito, em grupo (25%, classificação mínima de 10 valores).
(OA 1, 2, 3)
Projeto laboratorial individual com apresentação digital e discussão (75%, classificação mínima de 10 valores).
(OA 1, 2)
2ª Época:
Exame (100%, classificação mínima de 10 valores).
(OA 1, 2, 3)
Escala: 0-20 valores.
Aspin, A., Pro Power BI Desktop: Self-Service Analytics and Data Visualization for the Power User, 2020, 3rd ed. Edition, Apress.,
Microsoft, Microsoft Learn Power BI, n.a., Microsoft, https://learn.microsoft.com/en-us/training/powerplatform/power-bi
Albright, S. & Winston, W., Business Analytics: Data Analysis & Decision Making, 2019, 7th Edition, South-Western College Pub,
Berthold, M.R., Borgelt, C., Höppner, F., Klawonn, F. & Silipo, R., Guide to Intelligent Data Science: How to Intelligently Make Use of Real Data, 2020, 2nd Edition, Springer International Publishing,
Knaflic, C. N., Storytelling com dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios, 2019, Alta Books,
McCandless, D., Knowledge is Beautiful, 2014, William Collins,
Bahga, A. & Madisetti, V., Big Data Science & Analytics: A Hands-On Approach, 2016, VPT,
Meier, M., Baldwin, D., & Strachnyi, K., Mastering Tableau 2021: Implement advanced business intelligence techniques and analytics with Tableau, 2021, 3rd Edition, Packt.
Análise de Séries Temporais e Previsão
No final do período curricular desta UC, o aluno deverá:
OA1. Conhecer e aplicar os modelos clássicos de séries temporais;
OA2. Conhecer e aplicar os modelos ARIMA e GARCH;
OA3. Familiarizar-se com os modelos multi-variados de séries cronológicas;
OA4. Familiarizar-se com algoritmos de Machine Learning (redes neuronais) para previsão de séries temporais;
OA5. Ser capaz de trabalhar com os packages informáticos mais importantes (Python);
OA6. Aplicação dos conceitos estudados; extracção de informação e valor para dados do mundo real.
P1. Séries temporais (2 aulas)
P1.1. Conceitos básicos
P1.2. Tendências e sazonalidade
P2. Introdução aos modelos estocásticos de séries temporais uni-variados (4 aulas)
P2.1. Estacionaridade, testes de raiz unitária
P2.2. Modelos ARMA/ARIMA/SARIMAX
P2.3. Pressupostos dos resíduos, testes de diagnóstico
P2.4. Volatilidade, risco, Modelos ARCH/GARCH
P2.5. Previsão, medição do erro de previsão
P3. Introdução aos modelos estocásticos de séries temporais multivariados (2 aulas)
P3.1. Modelos VAR/VECM
P3.2. Análise de Cointegração e aplicações
P3.3. Previsão
P4. Machine (Deep) Learning (6 aulas)
P4.1. Redes neuronais para séries temporais
P4.2. RNN e LSTM, forecasting
P5. Programação/computação com Python
P6. Aplicação dos conceitos estudados; extração de informação e valor para dados do mundo real (2 aulas)
Serão utilizadas as seguintes metodologias de ensino-aprendizagem (ME):
ME1. Expositivas, para apresentação dos quadros teóricos de referência
ME2. Participativas, com análise de artigos científicos
ME3. Ativas, com realização de trabalho de grupo
ME4. Experimentais, em laboratório de informática, realizando análises sobre dados reais
ME5. Auto-estudo, relacionado com o trabalho autónomo (TA) do aluno, tal como consta no Planeamento das Aulas
|
A avaliação periódica inclui a realização de:
a) Teste individual com ponderação de 60%.
b) Trabalho de grupo com ponderação de 40%.
A avaliação periódica exige a presença em, pelo menos, 80% das aulas e abarca toda a matéria leccionada.
Os alunos em avaliação periódica que não obtenham a nota mínima de 8,5 valores no teste individual e de 10 valores no trabalho, deverão realizar um exame final (nota mínima de aprovação: 10 valores).
Ficheiros (slides e scripts) da UC a disponibilizar no e-learning/Fenix
Yves Hilpisch (2018), Python for Finance, 2nd Edition, O.Reilly Media, Inc.
Tarek A. Atwan, (2022), Time Series Analysis with Python Cookbook, Packt Publishing.
Mills, T.C. (2019), Applied Time Series Analysis: A Practical Guide to Modeling and Forecasting, Academic Press, Elsevier Inc.
Brooks, C., (2019), Introductory econometrics for finance, 4nd ed., Cambridge University Press.
Edward Raff, (2022), Inside Deep Learning: Math, Algorithms, Models, Manning Publications Co.
Louis Owen, (2022), Hyperparameter Tuning with Python, Packt Publishing.
James Ma Weiming, (2019), Mastering Python for Finance: Implement advanced state-of-the-art financial statistical applications using Python, 2nd Edition, Packt Publishing.
Juselius, K., (2006), The Cointegrated VAR Model: Methodology and Applications, Oxford University Press.
Desenho de Projeto para Ciência de Dados
OA1. Capacidade de definir um problema de investigação concreto
OA2. Capacidade de identificar um conjunto de dados que responda ao objetivo definido
OA3. Capacidade de avaliação e discussão crítica dos resultados obtidos à luz do problema de investigação definido
OA4. Capacidade de efetuar um levantamento da literatura que permita posicionar o problema de investigação e a sua relevância
OA5. Capacidade de escrita científica.
CP1. Delimitação da temática e do campo de pesquisa
CP2. Definição do objecto de estudo, problemática e objectivos
CP3. Realização da revisão da literatura
CP4. Definição do corpus documental
CP5. Identificação e análise de fonte de dados relevante ao problema de investigação
CP6. Análise crítica de resultados em Data Science
CP7. Desenvolvimento de escrita científica
Processo de avaliação (500 caracteres):
Avaliação 1ª e 2ª época: Escrita individual de 1 artigo e sua apresentação (100%)
Gregor, S., & Hevner, A. R. (2013). Positioning and presenting design science research for maximum impact. MIS quarterly, 37(2)
Gastel, B., & Day, R. A. (2016). How to write and publish a scientific paper. ABC-CLIO.
Agarwal, R., & Dhar, V. (2014). Big data, data science, and analytics: The opportunity and challenge for IS research.
Hall, S. (2017, June). Practise makes perfect: developing critical thinking and writing skills in undergraduate science students. In Proceedings of the 3rd International Conference on Higher Education Advances (pp. 1044-1051). Editorial Universitat Politècnica de València.
Aprendizagem Profunda para Visão por Computador
O1: Conhecer o processo básico de formação de uma imagem digital
O2: Representar uma imagem em diferentes espaços de cor
O3: Realizar operações típicas de processamento de imagens
O4: Extrair características de baixo nível de uma imagem
O5: Implementar algoritmos clássicos de aprendizagem automática para classificar o conteúdo de imagens
O6: Conhecer a arquitetura típica de uma rede neuronal convolucional (CNN) e perceber o seu funcionamento interno
O7: Resolver um problema de classificação de imagens com complexidade média recorrendo a CNNs
O8: Aplicar metodologias de transferência de conhecimento e fine-tuning usando CNNs pré-treinadas
O9: Usar algoritmos de aprendizagem profunda para identificar objetos numa imagem
O10: Conhecer algoritmos de aprendizagem profunda para geração automática de conteúdos multimédia
O11: Manipular imagens usando a biblioteca OpenCV
O12: Utilizar a biblioteca Tensorflow para desenvolver aplicações de aprendizagem automática
C1 - Aquisição e representação de imagens
C2 - Operações com imagens
C3 - Extração de características de imagem
C4 - Introdução à aprendizagem automática
C5 - Redes neuronais clássicas
C6 - Redes neuronais convolucionais
C7 - Transferência de conhecimento
C8 - Arquiteturas de redes para deteção e identificação de objetos
C9 - Arquiteturas de redes para geração automática de conteúdos
Dado o caráter iminentemente prático da UC, só existem modalidades de avaliação ao longo do semestre, não estando prevista a avaliação por exame.
Modalidade A (requer presença em pelo menos 60% das aulas):
- Exercícios (30%) – em grupo, inclui atividades realizadas nas aulas (10%) e dois trabalhos (desafios) com entrega online (10% cada um);
- Teste (30%) - individual;
- Projeto (40%) – em grupo, mas com avaliação individual; inclui relatório e discussão oral.
Modalidade B
- Teste (45%) – individual;
- Projeto (55%) – individual ou em grupo, mas com avaliação individual; inclui relatório e discussão oral.
A componente "Projeto" tem uma nota mínima de 10 valores, independentemente da modalidade seguida.
O "Teste" é realizado no final do período letivo, após concluídas as aulas; caso o/a estudante falte ao teste mas apresente uma justificação válida para a falta, poderá realizar um novo teste em data a combinar durante a época de exames.
A nota da componente "Projeto" está sujeita a uma discussão oral. A discussão oral poderá impor um limite à nota do projeto caso o desempenho demonstrado pelo(a) estudante esteja abaixo da qualidade do projeto entregue, podendo inclusivamente reprovar caso o desempenho demonstrado não seja considerado suficiente.
Não existe processo de melhoria de nota.
O processo de avaliação em época especial é idêntico ao da modalidade B, mas neste caso o projeto terá obrigatoriamente de ser realizado individualmente.
J. Howse, J. Minichino, Learning OpenCV 4 with Python 3, 3rd Edition, Packt Publishing, 2020, -, -
M. Elgendy, Deep Learning for Vision Systems, Manning, 2020, -, -
Tomás Brandão, Materiais da UC disponibilizados na plataforma de e-learning, 2024, -, -
M. Nixon, A. Aguado, Feature Extraction and Image Processing for Computer Vision, 4th Edition, Academic Press, 2019, -, -
I. Goodsfellow, Y. Bengio, A. Courville, Deep Learning, MIT Press, 2016, -, -
Vários, Tutoriais e documentação da bibliotecas OpenCV, -, -, https://opencv.org/
Vários, Tutoriais e documentação da biblioteca Tensorflow, -, -, https://www.tensorflow.org/
R. Szeliski, Computer Vision: Algorithms and Applications, 2nd Edition, Springer, 2021, -, https://szeliski.org/Book/
F. Chollet, Deep Learning with Python, 2nd Edition, Manning, 2021, -, -
Trabalho de Projecto em Ciência de Dados
Objetivos de aprendizagem (OA):
OA1- Pensamento científico independente e originalidade
OA2- Competências científicas
OA3- Coerência lógica, argumentação científica
OA4- Qualidade da apresentação
Conteúdos programáticos (CP):
CP1-Formular a questão de partida
CP2-Identificar literatura relevante, e elaborar uma revisão teórica e empírica
CP3- Formular o problema de investigação e as hipóteses
CP4- Desenhar um estudo que teste as hipóteses
CP5- Conduzir o estudo
CP6- Analisar e interpretar resultados
CP7- Elaborar o plano da Trabalho de Projecto
CP8- Escrever a Trabalho de Projecto
O Trabalho de Projecto será avaliada por um júri em provas públicas, após a confirmação por parte do orientador de que esta está concluída e se encontra em condições de ser apresentada em provas públicas. A avaliação será baseada no mérito científico do estudo e na sua adequação teórica e metodológica.
BibliografiaG. Garson (2001), Guide to Writing Empirical Papers, Theses, and Dissertations, Marcel Dekker Inc N. Bui, Yvonne (2014). How to write a Master's Thesis, Sage Publications, Inc.
Punch, F. Keith (2016), Developing effective research proposals, Sage Publications.
Dissertação em Ciência de Dados
Objetivos
Fornecer uma formação abrangente em Ciência de Dados, alinhada com as tendências atuais e necessidades do mercado e das linhas de investigação emergentes.
Fornecer conhecimentos e competências em análise avançada de dados, especialmente para lidar com big data e para a extração de conhecimento de dados não estruturados (texto e imagem).
Fornecer formação aplicada destinada a desenvolver capacidades e competências no manuseamento das ferramentas tecnológicas mais recentes para ciência de dados.
Formar profissionais competentes no estado da arte atual relativamente à data governance, seleção e engenharia de atributos e à construção e utilização de modelos de aprendizagem adequados a diferentes regimes e formatos de dados.
Acreditações
