Ciência de Dados Avançada / Advanced Data Science

Docente responsável
Manuel Marques Pita

Objetivos de aprendizagem (conhecimentos, aptidões e competências a desenvolver pelos estudantes)
Esta cadeira tem como objetivo central proporcionar os conhecimentos básicos necessários para trabalhar com representações construídas a partir de características informativas nos dados, considerando ao mesmo tempo que estes dados podem estar inseridos no contexto ‘big data’. Os objectivos específicos são os seguintes:
OA1. Aprendizagem de técnicas e estratégias para lidar com situações onde existem grandes volumes de dados, e dados de fontes heterogéneas. OA2. Saber integrar características informativas provenientes de varias fontes diferentes dentro de um modelo coerente de dados. OA3. Implementar sistemas que fazem classificação binaria. OA4. Aprendizagem de técnicas de validação de classificadores e outros sistemas de aprendizagem automática.

Intended learning outcomes (knowledge, skills and competences to be developed by the students)
The key objective of this module is to provide the basic knowledge needed to work with representations based on features extracted from data, while considering that these data may be exist in the context of ‘big data’. The specific objectives are as follows:
LG1. Learning techniques and strategies to deal with situations where there are large volumes of data, and data from heterogeneous sources. LG2. Knowing how to integrate features extracted from several different sources into a coherent data model representation.
LG3. Implementing systems that do binary classification. LG4. Learning the techniques use for validation of binary classifiers and other Machine Learning systems.

Conteúdos programáticos
CP1. Modelamento de dados. Abordagem relacional vs dimensional. CP2. Introdução a Data warehousing: OLAP/OLPT.
CP3. Extract Transform Load vs Discover Access Distill.
CP4. Representação de conhecimento a partir de fontes heterogéneas de dados.
CP5. Classificadores Binários.
CP6. Regressão Simbólica.
CP7. Técnicas de validação.
CP8. Análise do estado da arte.

Syllabus
PC1. Data modelling: Relational vs Dimensional.
PC2. Data Warehousing introduction: OLAP/OLTP.
PC3. Extract Transform Load vs. Discover Access Distill. PC4. Integration of knowledge from heterogeneous data sources. PC5. Binary Classifiers and Symbolic Regression.
PC6. Validation techniques.
PC7. State of the art analysis

Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da unidade curricular
Temas (CP1-CP4) são o suporte da primeira parte do objetivo central da cadeira, o qual procura que os estudantes saibam como lidar com grandes volumes de dados, assim como integrar dados heterogéneos. Especificamente, a cadeira começa por discutir o modelamento de dados, tipicamente baseado em modelos de entidade-relação, em contraste com os modelos dimensionais usados em data warehouses. Isto leva naturalmente ao tema de Online Analytical Processing, seguido do paradigma Extract Transform and Load. Neste ponto é feita a ligação com o paradigma Discover Access and Distill e com isto concretizamos o objetivo de aprendizagem (OA2). O resto dos temas estão em correspondência direta com os objetivos de aprendizagem: o tema (CP5) está ligado diretamente ao objectivo específico (OA3); e tema CP7 a objetivo específico (OA4).

Evidence of the syllabus coherence with the curricular unit’s intended learning outcomes
Topics (PC1-PC4) support the accomplishment of the central objective’s first part, which seeks that students learn how to deal with large volumes of data, as well as integrate heterogeneous datasets. More concretely, this module begins with a discussion of data models based on entities and relationships and contrasts them with dimensional models typically used in dimensional modelling. This leads naturally to discussing Online Analytical Processing (OLAP), and the Extract, Transform, Load paradigm. At this point we make a bridge with a counterpart paradigm in the data science community, namely Discover, Access, Distill. With this we achieve specific learning outcome (LG2). The rest of the topics in the program are linked directly to specific learning outcomes: Topic (PC5) supports learning outcome (LG3); and topic PC7 leads to the accomplishment of learning outcome (LG4).

Metodologias de ensino (avaliação incluída)
Esta unidade curricular consiste em aulas presenciais de natureza teórico-pratica (Expositiva-Experimental):
ME1: Expositiva/ Experimental: Esta unidade curricular consiste em aulas presenciais de natureza apresentação teórica/prática de acordo com o plano curricular, nas quais existe um problema claramente definido para resolver. Esta metodologia evita aulas de natureza unidirecional e favorece a co-construção do conhecimento nos estudantes facilitada pelo professor.
ME2: Ativa: realização de dois trabalhos de projeto em grupo e sua apresentação oral (20%+20% = 40%).
ME4: Auto-estudo: trabalho individual do aluno demonstrado em dois testes de avaliação (30%+30%=60%).
Notas importantes da avaliação:
– Classificação mínima de 8 valores nos trabalhos de grupo e de 8 valores no trabalho autónomo do aluno.
– Os grupos dos trabalhos de projeto podem ser entre 2 e 3 alunos.

Teaching methodologies (including students’ assessment):

This module consists of lectures aiming at putting knowledge into practice (Expositional/Experimental).
TM1: Expositional/Experimental: Lectures revolve around real-world problems that are clearly defined. This correspondence typically has a theoretical and practical component. This methodology avoids unidirectional lectures and favors the co-construction of knowledge by students facilitated by the lecturer.
TM2: teamwork in two working projects and its oral presentation (20%+20%= 40%).
TM3: Self-Study: Evaluation is done via two tests (30% + 30% = 60%).
Important assessment notes:
– Teamwork (working project) minimum grade 8 and individual weekly working problems minimum grade 8.
– The teamwork is with teams of 2 or 3 students.

Demonstração da coerência das metodologias de ensino com os objetivos de aprendizagem da unidade curricular
A natureza teórico-pratica das aulas procura simular o ambiente de trabalho de um cientista de dados, num contexto alargado que inclui por exemplo organizações com grandes volumes de dados heterogéneos (objetivo OA1). Durante as aulas o estudante tem acesso direto a referencias teóricas, documentação de pacotes para programar, etc. Um dos aspetos mais importantes que depende da metodologia de ensino consiste em garantir que os estudantes conseguem trabalhar com um conjunto extenso de ferramentas teóricas e computacionais para resolver problemas que precisam de (a) integração de fontes heterogéneas (objetivo OA2); (b) implementação se sistemas que aproveitam características extraídas dos dados usando aprendizagem automática (objetivos OA3-OA3); e (c) validação de resultados (objetivo OA4).
Os testes tem a função de solidificar este processo de assimilação de novos conhecimentos e técnicas computacionais. Os projetos práticos são desenvolvidos quase na sua totalidade nas próprias aulas o que permite aos estudantes ganhar experiência mais aprofundada na resolução de problemas centrais na ciência dos dados.

Evidence of the teaching methodologies and the intended learning outcomes

The theoretical and practical focus of this module seeks to simulate the environment in which data scientists work in the real world, considering the context in which the volume and heterogeneity of datasets may be
large (learning outcome LG1). Students have access to all types of resource during the lectures, including bibliographical references, software packages and their documentation, etc. One of the most important aspects associated with the chosen teaching methodology is to guarantee that students can manage a growing toolbox containing increasingly more complex concepts, techniques and code. Furthermore, this methodology seeks to validate in the classroom that students can (a) integrate heterogeneous data sources (learning outcome LG2); (b) implement machine learning systems that exploit features extracted from data (learning outcomes LG3-LG3); and (c) successfully validate results (learning outcome LG4).
The tests have the goal of solidifying the assimilation process of new concepts and techniques. The practical projects are developed in the classroom for the most part, which allows students to gain a more in depth experience in the resolution of problems that are central to data science.

Bibliografia de consulta/existência obrigatória/ Main bibliography

Géron, Aurelien (2019) Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems “O’Reilly Media, Inc.”.
Zheng, A., & Casari, A. (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. ” O’Reilly Media, Inc.”.
Grus, J. (2015). Data science from scratch: first principles with python. ” O’Reilly Media, Inc.”.
Foreman, J. W., Jennings, G., & Miller, E. (2014). Data smart: Using data science to transform information into insight. Wiley.
In addition a number of curated recent scientific articles covering course topics will be added throughout the fifteen weeks of lectures.

Universidade Lusófona


ECATI Escola de Comunicação, Arquitetura, Artes e Tecnologias da Informação

Departamento de Engenharia Informática e Sistemas de Informação
Edifício F, sala F.1.3
Direção — 217 515 500 (ext: 683)
Serviço de Apoio Tecnico-Admistrativo (SATA) — 17 515 500 (ext: 764)


Lisboa
Avenida do Campo Grande,
376 1749-024 Lisboa, Portugal
Tel.: 217 515 500 | email: info.cul@ulusofona.pt
Porto
Rua Augusto Rosa,
Nº 24, 4000-098 Porto - Portugal
Tel.: 222 073 230 | email: info.cup@ulusofona.pt

Gestão de conteúdos por Lucio Studer Ferreira © 2022 COFAC.