Mestrado em Ciência de Dados / Data Science

Data Science é uma disciplina científica multidisciplinar recente que vem dar resposta há necessidade de interpretação do grande volume de dados (big-data) que o avanço tecnológico veio trazer à sociedade. Existe assim, uma necessidade pela sociedade de interpretar estas coleções de dados massivo, em geral não estruturados, em prol do bem social.

Data Science é definida por profissionais no domínio científico como uma ciência essencialmente experimental. Devido à diversidade de dados torna-se assim também uma ciência multidisciplinar. Como ciência experimental e multidisciplinar não se pode restringir a uma única definição de ferramentas de análise e de background do data scientist. Assim, não se pode focar numa só disciplina, mas sim em várias, assim como o background do data scientist. Como consequência, existe a necessidade de formar data scientists de diversos backgrounds de preferência equipas multidisciplinares em data science.

Neste momento as ofertas desta especialização são diversas: vêm de Harvard University, MIT, Oxford University, University of Cambridge, e muitas nacionais como IST, FCUL, ISCTE, NOVA, entre outras. Todas tentam uma abordagem específica que as procura diferenciar, seja pelas disciplinas lecionadas ou background dos alunos a formar. No entanto existe uma certa concordância em certas disciplinas e suas ferramentas como tronco comum em data science e sempre a possibilidade da diferenciação devido à multidisciplinaridade desta área científica. Podemos dizer que este tronco comum se pode dividir em quatro áreas principais: Research ou data analysis, Data Engineering, Privacy, Security and Ethics e Team Management. Sendo a de Research a de maior foco na disciplina de Data Science, não se podendo descartar na formação do data scientist, a Data Engineering (tratamento informático de dados massivos – big data), Privacy, Security e ética (devido às leis de privacidade como por exemplo o GDPR), e finalmente devido à multidisciplinaridade e diversidade da equipa de data scientists um bom Team Management.

Há que adicionar ao acima descrito o ambiente que o data scientist vai encontrar no mercado de trabalho. A grande maioria de oferta de emprego em data science reside em grandes tecnológicas, governos, start-ups entre outras, que por sua natureza sofrem de grande pressão pela competitividade acionando em geral mecanismos internos de uma fluidez de resultados que seja rápida, e.g. para a ajuda na tomada de decisão o desenvolvimento de produtos, vendas, etc. Assim, como consequência natural, em geral, o data scientist é sujeito à pressão de lhe ser exigido ser rápido e ao mesmo tempo rigoroso nos resultados, duas aptidões difíceis de conciliar. Deverá existir assim, nas componentes metodológicas dos programas oferecidos pelas respetivas instituições, uma metodologia que adicionalmente incorpore esta habilidade na fluidez e qualidade de resultados, a adquirir pelo data scientist no final do programa.

Este ciclo proporciona:

Uma introdução às ciências de dados com uma sólida formação em técnicas de vanguarda para análise de dados, engenharia de dados fundamentais para a fase de protótipos e manuseamento de dados e os conhecimentos necessários em privacidade, segurança e ética fundamentais para tratar dados de acordo com as leis que regem os dados.

Desenvolver competências de trabalho em equipe e a preparação para a competitividade que o aluno vai encontrar no trabalho. Assim, temos por objetivos:

  1. garantir que numa metodologia de interação de grupo o aluno adquira a aptidão de trabalho em equipe.
  2. garantir uma formação técnica introdutória diversa e consistente em técnicas de vanguarda e que adicionalmente lhe garanta uma maior fluidez na aquisição e desenvolvimento de novas técnicas que vai encontrar no futuro.
  3. desenvolver a capacidade e habilidade de uma metodologia de trabalho que façam face à exigência de apresentar resultados rápidos e rigorosos na sua qualidade.

Objetivos de aprendizagem (conhecimentos, aptidões e competências) a desenvolver pelos estudantes:

O aluno deverá:
Adquirir conhecimentos em: fundamentos teóricos, metodológicos e práticos nas áreas de análise de dados em particular de estatística, análise exploratória de dados, aprendizagem automatizada, análise relacional, Estrutura de dados e algoritmos, sistemas de recomendação e privacidade, segurança e ética.

Aptidões em:

  1. criar ambientes de trabalho computacionais, e.g. Python em plataformas de AWS,
  2. aceder e tratar os dados em conformidade com as leis de proteção de dados,
  3. criar estruturas de dados para análise,
  4. fazer análises exploratórias de dados
  5. usar técnicas de deteção de padrões,
  6. formular hipóteses e desenhar experimentos com base nos conhecimentos adquiridos, e repetir ciclos de análise até à conclusão.

As competências:

  1. completar os ciclos de análise experimental;
  2. obter resultados de qualidade científica com fluidez;
  3. saber integrar-se e trabalhar em equipas multidisciplinares,
  4. boa capacidade de síntese a apresentar resultados.

Destinatários
Este ciclo de estudos destina-se a candidatos com bases em áreas de Informática, Estatística, Física, Matemática, Gestão, Ciências Economias e Financeiras ou afins, que queiram adquirir competências na área de Ciência de Dados.

Saídas Profissionais
Através de um ciclo de estudos contando com a colaboração de empresas e instituições de I&D, o Mestrado em Ciência de Dados implementa um programa destinado a garantir aos seus candidatos um alto grau de empregabilidade, com destaque para os seguintes perfis:

  • Data Scientist / Cientista de Dados
  • Applied Data Scientist / Cientista de dados Aplicado
  • Applied Data Researcher / Investigador de Dados Aplicado
  • Applied Machine Learning Researcher / Investigador de Aprendizagem Automatizada Aplicada
  • Business Intelligence Analyst / Analista de Inteligência de Negócio

Outros Planos

English

Data Science is a recent multidisciplinar discipline that is introduced as a reply to the high demand to analyse and interpret big-data, which resulted from the technological advance brought into society. Nowadays, there is the need by society for the interpretation of these massive data collections, in general not structured, in prol for the good of society.

Science experts classify data science as an experimental scientific discipline. Given the data diversity it also becomes a multidisciplinary scientific discipline. As an experimental and multidisciplinar scientific domain we can not resume data science to its tools and techniques of data analysis, we must consider as well as a diversity of backgrounds in data scientists. Therefore, data science as a discipline must not just focus on a single discipline and background, but it must focus on a multidisciplinary set of data analysis techniques and backgrounds.

As today, institutions that provide such specialization in data science are diverse in their programs: coming from Harvard University, MIT, Oxford University, University of Cambridge, and many national institutions such as: IST, FCUL, ISCTE, NOVA, among many. All have their specific program that differentiates them, either by their program or student backgrounds or both. However, there is a certain convergence, which we divide in four main areas of focus: “Research” or data analysis, “Data Engineering”, “Privacy, Security and Ethics” and Team Management. Probably Research as main focus but we can not disregard in a data scientist profile, Data Engineering (which deals with the treatment of massive data collections – big data), Privacy, Security and Ethics (because of the individual privacy in society, for example: have GDPR compliance in its data analysis), and finally given the multidisciplinary set of data analysis techniques and backgrounds a good team management.

Moreover, besides the above, we must also consider the environment that the data scientist will have to deal once in the employment market. In its majority the employment offered in data science comes from technological companies, governments, start-ups, which have to work daily at high competitiveness pressure, either to help on decision making or product development, sales, etc. This triggers internal mechanisms of a permanent fast demand of results and its scientific quality to the data scientist. As a consequence the data scientist is subject to these mechanisms, and in general has to be fast in the results and guarantee its scientific quality, two skills difficult to consolidate. Saying the above, a data science program should also consider in their programs the development of all the mentioned skills: Technical, Background and employment environment.

This program in data science provides: an introduction to data science by selecting a set of technical tools for (1) data analysis, (2) data engineering, which are fundamental for the phases of prototyping and data management and (3) the knowledge that a data scientist must have about privacy, security and ethics.

Development of competences:

  1. team working and
  2. prepare the student to the competitiveness that he/she will find in the working environment.

Therefore, the objectives of this program are:

  1. guaranty a methodology that promotes the team working,
  2. guaranty a consistent and diverse set of technical tools that will promote the future development of the technical skills that the student will find in the future.
  3. guaranty the development of the competences on a way of working that will promote the student to be able to be fast in achieving results with scientific quality.

The intended learning outcomes (knowledge, skills and competences) to be developed by the students:

The student must:
Acquire knowledge: theoretical fundaments, methodologies and practice in the following areas of data analysis: statistics, exploratory data analysis, machine learning, relational data analysis, data structures and algorithms, recommender systems and privacy, security and ethics.

Skills:

  1. be able to set an computational work environment, e.g. Python on platforms such as AWS,
  2. get access and data management in conformity with the current data protection laws,
  3. build data structure for data analysis,
  4. perform exploratory data analysis,
  5. use pattern recognition tools,
  6. formulate hypothesis and plan experiments to test hypothesis, and repeat cycles of experimentation until final conclusion.

Competences:

  1. provide fast results with scientific quality,
  2. team working in multidisciplinary teams,
  3. good capabilities of communication results.

Candidate Requirements

This cycle of studies is aimed to candidates with bases in the areas of Informatics, Statistics, Physics, Mathematics, Management, Economics and Financial Sciences or similar, who want to acquire skills in the field of Data Science.

Professional Opportunities

This cycle of studies allows the graduated students to apply to jobs such as:

  • Data Scientist
  • Applied Data Scientist
  • Applied Data Researcher
  • Applied Machine Learning
  • Business Intelligence Analyst