Introdução à Ciência de Dados / Introduction to Data Science

Docente responsável
Manuel Marques Pita

Objetivos de aprendizagem (conhecimentos, aptidões e competências a desenvolver pelos estudantes)
Esta unidade disciplinar tem como objetivo central apoiar os estudantes na construção de um repertório de conhecimentos teóricos e práticos na ciência dos dados. Estes conhecimentos permitem desenhar soluções para analise de dados complexos. O foco específico está na transformação de dados, e extração de características informativas:
OA1. Compreensão da diversidade de formatos nativos em media: texto, imagens, som, bio-sinais, sensores etc.
OA2. Adquirir capacidades para transformar dados em formato nativo em outros tipos que permitam por exemplo o seu pre-processamento, limpeza e caraterização.
OA3. Adquirir capacidades para extrair características informativas a partir de dados pre-processados. Para este objetivo o foco central será a factorização de matrizes.
OA4. Adquirir capacidades para a interpretação, e representação de características informativas extraídas dos dados, e ligação com sistemas de aprendizagem automática que beneficiam das mesmas.

Intended learning outcomes (knowledge, skills and competences to be developed by the students)
Data Science is an exciting new area of practical knowledge that integrates theory and skills from a number of different fields. This module’s key objective is to support students in building a repertoire of theoretical knowledge and practical skills that allows them to think about data science problems in general, as well as dealing with raw data and extracting informative features. Specific learning outcomes:
LG1. Learning about the diversity of raw data formats for e.g. text, images, bio-signals and so on.
LG2. Acquiring the skills to pre-process, clean up and transform raw data and cast them into specific representations e.g. matrices. LG3. Acquiring the skills to perform feature extraction from pre processed raw data, particularly in matrix representations via factorization methods such as Principal Component Analysis. LG4. Acquiring the skills to interpret features extracted from data, as well as basic knowledge to link features to Machine Learning algorithms that benefit from them.

Conteúdos programáticos
CP1. Introdução à natureza interdisciplinar da Ciência dos Dados. CP2. Ferramentas teóricas e práticas de um Cientista de Dados. CP3. Formatos nativos de dados, métodos de transformação (foco em texto, imagem, medições de variáveis e som).
CP4. Abordagens para analisar texto.
CP5. ‘Bag of Words’: corpus e pre-processamento de texto. CP6. Representação de textos via matriz TF-IDF.
CP7. Técnicas de factorização matricial e redução de dimensionalidade para extração de características a partir de matrizes.
CP8. Extração, interpretação e validação de tópicos a partir de matrices TF-IDF.
CP9. Extração de características em imagens.
CP10. Introdução à utilização de características no contexto de aprendizagem automática.
CP11. Discussão do estado da arte.

Syllabus
PC1. Introduction to Data Science’s interdisciplinary nature.
PC2. The Data Scientist’s Toolbox
PC3. Raw data, and data transformation methods (focus on text, image, sound, and tables of measurements).
PC4. The different approaches to the analysis of text.
PC5. Text preprocessing in the ‘Bag of Words’ approach.
PC6. Text representation as TF-IDF matrices.
PC7. Matrix factorisation techniques for dimensionality reduction and feature extraction.
PC8. Topic extraction, interpretation and validation from TF-IDF matrices.
PC9. Feature extraction from images.
PC10. Introduction to the use of features in Machine Learning. PC11. State of the art discussion.

Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da unidade curricular
Os primeiros três temas no conteúdo da cadeira (CP1-CP3) preparam os estudantes para abordar problemas clássicos na Ciência dos Dados de forma geral. Estes temas são a base necessária para cumprir o objetivo central da cadeira. O tema (CP3) fornece conhecimentos e técnicas para lidar com dados de natureza heterogénea, o seu pre-processamento e limpeza (objectivos OA1-OA2). A partir do tema (CP4) a cadeira foca-se na análise profunda de texto e imagens, contribuindo para os objetivos específicos
(OA2-OA3). Exemplos paradigmáticos deste processo são usados nos temas CP4-CP9. Nomeadamente, a extração de tópicos em grandes volumes de texto, ou a extração de características em imagens que permita a sua classificação dentro de um conjunto de categorias. Finalmente, os temas (CP7,CP10,CP11) contribuem diretamente para o objetivo especifico (OA4), onde a intuito é saber interpretar características retiradas dos dados.

Evidence of the syllabus coherence with the curricular unit’s intended learning outcomes
The first three topics (PC1-PC3) in the syllabus prepare students to deal with the general problems of dealing with data. They provide the foundation to accomplish the key goal of this module. The topic (PC3) deals with the problem of heterogeneous data, and data that is not informative in its raw format. Furthermore, it deals with data cleaning and pre-processing typically the first step to perform feature extraction. This is linked specific learning outcomes (LG1-LG2). From topic (PC4) onwards the module becomes more specific in the analysis of text and images (supporting learning outcomes LG2-LG3). These paradigmatic examples are the subject of topics (PC4-PC9), where students learn how to extract topics from text, and represent features in images that allow e.g. their classification contributing to the central goal and learning outcomes LG2-LG3. Finally topics (PC7-PC10-PC11) directly support specific learning outcome LG4, where the key idea is to learn how to interpret features.

Metodologias de ensino (avaliação incluída)
Esta unidade curricular consiste em aulas presenciais de natureza teórico-pratica (Expositiva-Experimental):
ME1: Expositiva/ Experimental: Esta unidade curricular consiste em aulas presenciais de natureza apresentação teórica/prática de acordo com o plano curricular, nas quais existe um problema claramente definido para resolver. Esta metodologia evita aulas de natureza unidirecional e favorece a co-construção do conhecimento nos estudantes facilitada pelo professor.
ME2: Ativa: realização de dois trabalhos de projeto em grupo e sua apresentação oral (20%+20% = 40%).
ME3: Auto-estudo: trabalho individual do aluno demonstrado em dois testes de avaliação (30%+30%=60%).
Notas importantes da avaliação:
– Classificação mínima de 8 valores nos trabalhos de grupo e de 8 valores no trabalho autónomo do aluno.
– Os grupos dos trabalhos de projeto podem ser entre 2 e 3 alunos.

Teaching methodologies (including students’ assessment):

This module consists of lectures aiming at putting knowledge into practice (Expositional/Experimental).
TM1: Expositional/Experimental: Lectures revolve around real-world problems that are clearly defined. This correspondence typically has a theoretical and practical component. This methodology avoids unidirectional lectures, and favors the co-construction of knowledge by students facilitated by the lecturer.
TM2: teamwork in two working projects and its oral presentation (20%+20%= 40%).
TM3: Self-Study: Evaluation is done via two tests (30% + 30% = 60%).
Important assessment notes:
– Teamwork (working project) minimum grade 8 and individual weekly working problems minimum grade 8.
– The teamwork is with teams of 2 or 3 students.

Demonstração da coerência das metodologias de ensino com os objetivos de aprendizagem da unidade curricular
A natureza teórico-pratica das aulas (ME1) procura simular o ambiente de trabalho de um cientista de dados. Durante as aulas o estudante tem acesso direto a referencias teóricas, e documentação de pacotes para programar, etc. Um dos aspetos mais importantes que depende da metodologia de ensino consiste em evitar que os estudantes apliquem técnicas e algoritmos a um conjunto de dados sem terem previamente pensado na natureza desses dados (objetivo específico OA1), assim como as técnicas que devem ser usadas para preparar os dados de forma que possam ser posteriormente processados (objetivo específico OA2). Os testes (ME3) tem a função de solidificar este processo de assimilação de novos conhecimentos e técnicas (OA1-OA4). Os projetos práticos (ME2) são desenvolvidos quase na sua totalidade nas próprias aulas o que permite aos estudantes ganhar experiência mais aprofundada na resolução de problemas centrais na ciência dos dados, nomeadamente os relacionados a processamento de texto e imagens que são tão abundantes por exemplo na Web (objetivos específicos OA3-OA4).

Evidence of the teaching methodologies and the intended learning outcomes

The theoretical and practical focus of this module (TM1) seeks to simulate the environment in which data scientists work in the real world. Students have access to all types of resource during the lectures, including bibliographical references, software packages and their documentation, etc. One of the most important aspects associated with the chosen teaching methodology is to avoid that students apply different techniques to their problems blindly. Instead, the methodology encourages thinking about the data before doing anything with it and devising a justified plan of action (specific learning outcome LG1). This is followed by the directed and specific pre-processing and cleaning of the available data (specific learning outcome LG2). The tests (TM3) have the goal of solidifying the assimilation process of new concepts and techniques (LG1-LG4). The practical projects (TM3) are developed in the classroom for the most part, which allows students to gain a more in depth experience in the resolution of problems that are central to data science, namely dealing with images and text that are e.g. so pervasive in the web (specific learning outcomes LG3-LG4)

Bibliografia de consulta/existência obrigatória/ Main bibliography

Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. ” O’Reilly Media, Inc.”.
Grus, J. (2015). Data science from scratch: first principles with python. ” O’Reilly Media, Inc.”.
Foreman, J. W., Jennings, G., & Miller, E. (2014). Data smart: Using data science to transform information into insight. Wiley.
In addition a number of curated recent scientific articles covering course topics will be added throughout the fifteen weeks of lectures.

Universidade Lusófona


ECATI Escola de Comunicação, Arquitetura, Artes e Tecnologias da Informação

Departamento de Engenharia Informática e Sistemas de Informação
Edifício F, sala F.1.3
Direção — 217 515 500 (ext: 683)
Serviço de Apoio Tecnico-Admistrativo (SATA) — 17 515 500 (ext: 764)


Lisboa
Avenida do Campo Grande,
376 1749-024 Lisboa, Portugal
Tel.: 217 515 500 | email: info.cul@ulusofona.pt
Porto
Rua Augusto Rosa,
Nº 24, 4000-098 Porto - Portugal
Tel.: 222 073 230 | email: info.cup@ulusofona.pt

Gestão de conteúdos por Lucio Studer Ferreira © 2022 COFAC.