O comentário: da linguística do texto ao text mining

Research output: ThesisDoctoral Thesis

Abstract

A presente tese desenvolve-se no quadro teórico do Interacionismo Sociodiscursivo (ISD) (Bronckart, 1997/2008) e propõe-se investigar o género textual Comentário, partindo das noções de parâmetros de género, mecanismos de realização textual e marcadores de género (Miranda, 2010), tal como foram definidos por Coutinho & Miranda (2009), como instrumentos de análise dos textos e de caracterização do comentário. O objetivo principal da investigação é compreender se a prática textual do comentário constitui um género relativamente estabilizado, com características próprias e fronteiras delimitadas em relação a outros géneros textuais, ou se se trata de um conjunto de textos sem fronteiras nítidas. Como objetivo secundário, a investigação visa identificar e sistematizar as marcas que caracterizam o género comentário Para tal, recorre-se a uma metodologia que alia a análise textual qualitativa ao uso de ferramentas de text e data mining, o que permite validar empiricamente os resultados obtidos. A investigação desenvolve-se em três fases, cada uma dedicada a um corpus textual específico: 1. Análise das unidades linguísticas com o objetivo de caracterizar o comentário e avaliar se uma abordagem quantitativa é suficiente para identificar padrões que definam o género. 2. Análise dos tipos discursivos presentes nos corpora, introduzindo esta noção como uma das varáveis no contexto do text e data mining. 3. Desenvolvimento de um modelo de classificação, utilizando variáveis de nível meso (tipos discursivos) e macro (tema e atividade), sendo a variável-alvo o género textual. A metodologia adotada privilegia a abordagem multivariada, permitindo a articulação entre os níveis micro, meso e macro de análise. A constituição e anotação de diversos corpora - incluindo textos do corpus G&T Comenta, Cetem Público e comentários jurídicos Comjur - forneceu a base empírica para a aplicação das técnicas de data mining. O modelo de classificação desenvolvido avalia a relevância de diferentes variáveis, demonstrando que a Atividade apresenta o maior peso na identificação do género textual, seguida pelos Tipos Discursivos (TD) e pelo Tema. Este resultado reforça a importância das práticas sociais e comunicativas no processo de análise textual, conforme sublinhado por teóricos como Bronckart (1997, na esteira de Volochinov (1929). A análise das métricas do modelo, como a accuracy (91,5%), e as métricas de precision (94,4%) e recall (88,9%), evidencia a robustez e o equilíbrio do modelo desenvolvido. O uso de marcadores de género como ferramenta de anotação e análise permitiu identificar padrões que sustentam a hipótese de que o comentário pode ser considerado um género textual relativamente estabilizado, apesar das múltiplas formas que pode assumir. Além disso, a análise das previsões e dos custos associados às classificações demonstrou que o modelo é eficaz na distinção entre “Notícia” e “Comentário”, ainda que sejam necessários futuros ajustamentos para lidar com a incerteza em algumas instâncias, particularmente relacionadas com a variável Tema.Esta investigação contribui para o avanço dos estudos sobre géneros textuais ao integrar metodologias tradicionais de análise textual com técnicas inovadoras de text mining, oferecendo uma abordagem experimental que visa tanto caracterizar o género comentário quanto explorar o potencial das ferramentas de data mining no campo da linguística do texto. Assim, este trabalho preenche uma dupla lacuna: a compreensão dos padrões associados ao género textual do comentário e a criação de uma interface entre a análise textual e as metodologias de data mining, propondo uma via metodológica interdisciplinar que pode ser aplicada em estudos futuros.
Original languagePortuguese
QualificationDoctor of Philosophy
Awarding Institution
  • Universidade NOVA de Lisboa
Supervisors/Advisors
  • Gonçalves, Matilde, Supervisor
Award date12 May 2025
Publication statusPublished - 2025

Keywords

  • Linguistica do texto
  • Text mining
  • Interacionismo Sociodiscursivo
  • Parâmetros de Género
  • Marcadores de Género
  • Tipos Discursivos
  • Análise Multivariada

Cite this