Métodos e Ferramentas Computacionais para a Exploração de Textos – 2º semestre 2024/2025 (candidaturas: Janeiro 2025)
Este curso vai ser lecionado na modalidade de ensino presencial e a distância
Objetivos
____
- Conhecer, compreender e avaliar os métodos e ferramentas de análise e de extração de informação de grandes conjuntos de dados linguísticos;
- Saber como organizar e utilizar dados linguísticos para extração de informação direcionada e útil para questões de investigação específicas da área das Artes e Humanidades;
- Conhecer métodos de análise e deteção de pistas e traços linguísticos e determinar qual a sua relevância para a extração de informação específica ou para tarefas de mineração de texto para fins não-linguísticos;
- Desenvolver competências para construir e usar corpora textuais de modo analítico e crítico de acordo com metodologias testadas e através de ferramentas de tratamento e análise de corpus;
- Desenvolver competências e estratégias de deteção e utilização de pistas e traços linguísticos para fins de investigação em Artes e Humanidades.
Programa
____
1. Linguística de Corpus
1.1. Introdução e enquadramento teóricos
1.2. Constituição de corpus: critérios, parâmetros e representatividade
1.3. Ferramentas e procedimentos para tratamento de corpus
2. De dados linguísticos à extração de informação específica
2.1. Unidades, traços e pistas linguísticas
2.2. Análise de textos: nível macro vs. micro; análise sintagmática vs. paradigmática
2.3. Estatística lexical, concordâncias e colocações
3. Aplicação de estratégias da Linguística de Corpus e de mineraçãod e textos
3.1. Objetivos de investigação, seleção de dados e compliação do corpus
3.2. Determinação de pistas e traços linguísticos relevantes 3.3. Extração e análise de resultados
Bibliografia
____
- Beloso, B. S. (2015). Designing, Describing and Compiling a Corpus for English Architecture. In Procedia – Social and Behavioral Sciences 198. Elsevier. 459-464.
- Ebensgaard Jensen, K. (2014). Linguistics and the digital humanities: (Computational) corpus linguistics. MedieKultur: Journal of Media and Communication Research, 30, pp. 117-136.
- McEnery, T. & A. Hardie (2012). Corpus Linguistics: Method, theory and practice. Cambridge University Press.
- Odebrecht, C., Belz, M., Zeldes, A., Lüdeling, A. & Krause, T. (2017). RIDGES Herbology: Designing a Diachronic Multi-Layer Corpus. In: Language Resources.
docente
____
Raquel Amaro é Professora Auxiliar na NOVA FCSH e Investigadora no Centro de Investigação Linguística da Universidade NOVA de Lisboa, desde 2015. Tem doutoramento em Linguística Computacional pela Universidade de Lisboa (UL) e foi investigadora no Centro de Linguística da UL de 1999 a 2015. Participou em mais de 27 projetos nas áreas da Linguística de Corpus, Semântica Lexical Computacional, Lexicografia e Tecnologias da Linguagem, e em redes internacionais como as Ações COST Keystone, Distant Reading e UniDive. Atualmente, é a Coordenadora do projeto europeu iRead4Skills (https://iread4skills.com/). Leciona Linguística Computacional nos cursos de Ciências da Linguagem da NOVA FCSH. Foi professora convidada em várias universidades (Maputo, Macau, República Checa) e colaborou com a Lionbridge em projetos de desenvolvimento de software.