Expressões Regulares para Análise de Dados Textuais – 2º semestre 2024/2025 (candidaturas: Janeiro 2025)
Este curso vai ser lecionado na modalidade de ensino a distância
Objetivos
____
As expressões regulares (RegExp) são uma ferramenta poderosa para a pesquisa, filtragem, validação e gestão de dados de texto. Usando combinações de símbolos e operadores, as expressões regulares permitem a utilização de padrões sobre sequências de texto e grandes conjuntos de dados, sendo uma ferramenta essencial em áreas como a programação, cibersegurança, ciência de dados, marketing digital ou humanidades digitais.
No final do curso, os estudantes deverão ser capazes de:
- construir expressões regulares para expressar padrões simples e complexos;
- usar expressões regulares para extrair dados úteis de grandes conjuntos de dados, localizar e manipular casos específicos em sequências de texto e validar informação textual;
- integrar expressões regulares em outras linguagens e ambientes de programação;
- identificar situações práticas em que a utilização de expressões regulares possa automatizar e/ou eliminar tarefas monótonas e morosas.
Programa
____
- Expressões Regulares
1.1 Enquadramento, conceitos-chave e aplicações
1.2 Estrutura e funcionamento
1.2.1 Classes de caracteres
1.2.2 Grupos e posições
1.2.3 Operadores e quantificadores
- Aplicações e prática
2.1 Padrões simples e complexos para pesquisa e extração de texto
2.2 Definição e validação de inputs
2.3 Utilizações específicas e integração em outras linguagens de programação (PHP, JavaScript, Python)
Bibliografia
____
Quando relevante, a bibliografia e a webografia será disponibilizada na Moodle, a par das atividades.
docente
____
Raquel Amaro é Professora Auxiliar na NOVA FCSH e Investigadora no Centro de Investigação Linguística da Universidade NOVA de Lisboa, desde 2015. Tem doutoramento em Linguística Computacional pela Universidade de Lisboa (UL) e foi investigadora no Centro de Linguística da UL de 1999 a 2015. Participou em mais de 27 projetos nas áreas da Linguística de Corpus, Semântica Lexical Computacional, Lexicografia e Tecnologias da Linguagem, e em redes internacionais como as Ações COST Keystone, Distant Reading e UniDive. Atualmente, é a Coordenadora do projeto europeu iRead4Skills (https://iread4skills.com/). Leciona Linguística Computacional nos cursos de Ciências da Linguagem da NOVA FCSH. Foi professora convidada em várias universidades (Maputo, Macau, República Checa) e colaborou com a Lionbridge em projetos de desenvolvimento de software.