Tópicos em Engenharia de Dados para Ciência de Dados / Topics on Data Engineering for Data Science

Docente responsável
Pedro Hugo Queirós Alves (20h)

Outros docentes e respetivas cargas letivas na unidade curricular:
Paulo Jorge Tavares Guedes (10h)

Objetivos de aprendizagem (conhecimentos, aptidões e competências a desenvolver pelos estudantes):
Esta unidade curricular tem como objetivos:
OA1. Conhecer a diferença entre um cientista de dados e um engenheiro de dados.
OA2. O que o cientista de dados necessita de saber de engenharia de dados.
OA3. O aluno deve adquirir as competências básicas e introdutórias de: github, python packaging, unit testing, docker, sistemas operativos, bases de dados SQL e NoSQL, Haddop, MapReduce, HIVE, PIG, Apache Spark, airflow e Kafka.

Intended learning outcomes (knowledge, skills and competences to be developed by the students):
The key objective of this module is to provide the basic knowledge needed to a data scientist to work with representations based on features extracted from data, while considering that these data may be exist in the context of ‘big data’. The specific objectives are as follows:
LG1. Know the difference between a data scientist and a data engineering.
LG2. What a data scientist needs to know about data engineering.
LG3. The student must aquire the following competences at the very basic level: github, python packaging, unit testing,
docker, operating systems basics, data bases (SQL and NoSQL), Haddop, MapReduce, Hive, PIG, Apache Spark, airflow and Ksfka.

Conteúdos programáticos:
CP1. O que é um Engenheiro de Dados? e a diferença com um Cientista de Dados.
CP2. O que é que um cientista de dados necessita de saber de engenharia de dados.
CP3. Os papéis diferentes de um Engenheiro de Dados.
CP4. Quais as aptidões e recursos básicos que um cientista de dados necessita de saber de engenharia de dados. CP5. Github, Python packaging, Unit testing and docker.
CP6. Base de dados (SQL e NoSQL).
CP7. Apache Spark.
CP8. Airflow.
CP9. Tópicos em Data Warehousing: Hadoop, MapReduce, Hive, PIG, e Kafka.

Syllabus:
PC1. What is a Data Engineering? And its difference with a Data Scientist.
PC2. What a Data Scientist needs to know about Data Engineering.
PC3. What are the roles of a Data Engineer?
PC4. Basic skills and resources to be a data scientist with some data engineer skills
PC5. Github, Python packaging, Unit testing and docker.
PC6. Base de dados (SQL e NoSQL).
PC7. Apache Spark.
PC8. Airflow.
PC9. Topics in: Data Warehousing: Hadoop, MapReduce, Hive, PIG, e Kafka.

Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da unidade curricular:

OA1 – CP1
OA2 – CP2, CP3, CP4 e CP5
OA3 – CP5, CP6, CP7, CP8 e CP9
4.4.6. Evidence of the syllabus coherence with the curricular unit’s intended learning outcomes: LG1 – PC1
LG2 – PC2, PC3, PC4 and PC5
LG3 – PC5, PC6, PC7, PC8 and PC9

Metodologias de ensino (avaliação incluída):
A metodologia de ensino (ME) e avaliação:
ME1: Expositiva: apresentação teórica de acordo com o plano curricular.
ME2: Experimental: realização de análises de dados em laboratório informático com software apropriado ao plano curricular.
ME3: Ativa: realização de um trabalho de projeto em grupo e sua apresentação oral (40%).
ME4: Auto-estudo: trabalho individual do aluno em trabalhos semanais a atribuir (60%).
Notas importantes da avaliação:
– Classificação mínima de 8 valores no trabalho de grupo e de 8 valores no trabalho autónomo do aluno. – Os grupos do trabalho de projeto podem ser entre 2 e 3 alunos.

Teaching methodologies (including students’ assessment):
Teaching methodologies (TM) including assessment:
TM1: Expositional: Theoretical exposition according to the syllabus.
TM2: Experimental: data analysis in informatics laboratory with appropriate software according to the syllabus. TM3: Active: teamwork in a working project and its oral presentation (40%).
TM4: Self-study: individual work on a weekly basis working problems (60%).
Important assessment notes:
Teamwork (working project) minimum grade 8 and individual weekly working problems minimum grade 8.

Demonstração da coerência das metodologias de ensino com os objetivos de aprendizagem da unidade curricular:
ME1 – Todos os OA
ME2 – OA2 e OA3
ME3 – OA3
ME4 – Todos os OA

Evidence of the coherence between the teaching methodologies and the intended learning outcomes:

TM1 – all LG
TM2 – LG2 e LG3
TM3 – LG3
TM4 – all LG

Bibliografia de consulta/existência obrigatória:
Karau, H., Konwinski, A., Wendell, P., Zaharia, M. (2015). Learning Spark. O’Reilly Media.
Zaharia, M. (2018). Spark, The Definitive Guide. O’Reilly Media.
Kleppmann, M. (2017). Designing Data-Intensive Applications. O’Reilly Media.
Kimball, R., Ross Margy (2013). The Data Warehouse Toolkit. 3th edition. John Wiley & Sons, Inc. Indianapolis.
Shields, W. (2019). SQL QuickStart Guide: The Simplified Beginner’s Guide to Managing, Analyzing, and Manipulating Data With SQL. ClydeBank Media LLC; Illustrated Edition.
Sadalage, P., Fowler, M. (2013). NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence. Addison Wesley Professional. Crawfordsville, Indiana.

Tópicos em Engenharia de Dados para Ciência de Dados / Topics on Data Engineering for Data Science

Assista às apresentações de Trabalhos Finais de Curso do DEISI

Bolsas para Mestrado no DEISI

Convívio DEISI, 5 jun’25

ECATI Escola de Comunicação, Arquitetura, Artes e Tecnologias da Informação