O corpus parlamentar ParlaMint-PT

José Aires, Aida Cardoso, Rui Pereira, Amália Mendes

Research output: Contribution to conferencePosterpeer-review

Abstract

Apresentamos o ParlaMint-PT, um novo corpus de Diários da Assembleia da República, que cobre o período de 2015 a 2022. O corpus está integrado no projeto ParlaMint, que permitiu constituir um conjunto de corpora comparáveis de transcrições de sessões parlamentares de 29 países e regiões autónomas, disponibilizado como recurso aberto.

1. Introdução
O acesso às sessões parlamentares é um aspeto fundamental nas democracias, ao permitir o acompanhamento e o escrutínio dos deputados eleitos pela população. Essa transparência tem sido assegurada pela disponibilização em linha pela Assembleia da República (AR) do Diário da Assembleia da República (DAR). No entanto, o formato HTML e PDF em que estão acessíveis não facilita a sua análise pela comunidade interessada, por exemplo, nas áreas de ciência política, história ou análise do discurso. Algumas iniciativas no sentido da disponibilização desses materiais (por exemplo, Giorgi & Dias, 2019; Almeida et al., 2021) nem sempre usam ferramentas de processamento automático da linguagem ou concordanciadores, nem são comparáveis com corpora parlamentares de outras línguas europeias. O corpus ParlaMint-PT constitui um dos corpora no recurso multilingue comparável ParlaMint (Erjavec et al. 2023a), que abrange na versão mais recente sessões parlamentares de 29 países e regiões autónomas, com dados do mesmo período e com o mesmo tipo de anotação (Erjavec et al. 2023b).

2. As sessões parlamentares
O corpus ParlaMint-PT inclui as transcrições das sessões de 1.01.2015 a 22.03.2022. Cobre, assim, o final da XII Legislatura e as XIII e XIV Legislaturas. O corpus está dividido em duas secções: o subcorpus de referência inclui as sessões de 2015 a final de outubro 2019; o subcorpus COVID inclui as sessões de Novembro 2019 até 2022. Pretende-se assim permitir comparar o período antes e após o início da cobertura mediática da COVID-19. O corpus total tem 17,5 milhões de palavras.

3. Codificação e anotação
As transcrições foram descarregadas do site da AR, em formato TXT, tendo sido necessária uma revisão destas versões confrontando-as com as versões em PDF. Para a codificação dos DAR em XML foram (i) identificadas secções principais, marcadas no texto por títulos ou outras expressões linguísticas regulares e codificadas com os elementos head, summary, main e final; (ii) codificados os enunciados (utterances); (iii) identificada a fonte enunciativa de cada enunciado (speaker); codificados comentários e elementos extralinguísticos (p. e., clapping, protests). Os metadados sobre os deputados, os partidos políticos e as sessões foram obtidos a partir do site da AR e completados quando necessário. Para cada membro da AR existe informação como género, idade, filiação política e papéis desempenhados nas diferentes legislaturas. O corpus foi lematizado e anotado com informação de classe morfossintática (PoS) seguindo o processo descrito em Généreux et al. (2012), e anotado sintaticamente com relações de dependências universais (ferramenta LX-UD).

4. Comentários finais
O corpus está acessível em acesso aberto no repositório CLARIN.SI, e pode ser pesquisado com os concordanciadores NoSketch Engine (clarin.si/ske) e KonText. Tal como os restantes, o corpus português foi automaticamente traduzido para inglês, permitindo ter acesso aos termos equivalentes, e seus contextos, nos corpora dos diferentes países. Na XIV Legislatura, passaram a ter representação parlamentar dois partidos recentemente fundados, a Iniciativa Liberal e o CHEGA, e o corpus permite uma análise dessa mudança na AR. Por exemplo, um estudo preliminar do uso de palavras relacionadas com o tema da imigração mostra uma maior frequência relativa
de ocorrência nas intervenções de membros femininos da AR, e de partidos com orientação política à esquerda/extrema-esquerda e extrema-direita, sendo o CHEGA o partido com mais frequência relativa de uso de termos sobre o tema.
Original languagePortuguese
Pages1
Number of pages1
Publication statusPublished - 2024
EventEncontro Nacional da Associação Portuguesa de Linguística - Universidade dos Açores, Ponta Delgada
Duration: 23 Oct 202425 Oct 2024
Conference number: 40

Conference

ConferenceEncontro Nacional da Associação Portuguesa de Linguística
CityPonta Delgada
Period23/10/2425/10/24

Keywords

  • Corpora comparáveis
  • Discurso parlamentar
  • Análise do discurso

Cite this