Como a gramática se relaciona com a inteligência artificial e o processamento de linguagem natural na programação?

Como a gramática se relaciona com a inteligência artificial e o processamento de linguagem natural na programação?

A arte da gramática grega pode ser associada ao processamento de linguagem natural e à capacidade da máquina compreender a língua humana 

 

Redator: Heitor Augusto Colli Trebien

 

Imagem de PDPics por Pixabay

 

O presente texto tomou como uma de suas principais bases a obra A gramática: história, teoria e análise, ensino de Maria Helena de Moura Neves (2002) sobre o desenvolvimento da gramática no ocidente e o usou de modo genérico, com o intuito de correlacioná-la com a obra de Martins, Lenz e Silva et. al (2020) Processamentos de linguagem natural para ampliar as concepções de inteligência artificial, programação e processamento de linguagem natural. 

 

A gramática grega

 

Imagem de Gordon Johnson por Pixabay

Em Platão, a linguagem e a gramática já eram discutidas em diferentes obras, como Crátilo, Teeteto, Carta VII, entre outros, sendo a linguagem um meio pelo qual se atinge a verdade. Mesmo em Sócrates já existiam aspectos de estudo da linguagem, se considerarmos os estudos de philología – filologia – que correspondia ao amor ao discurso, um amor que além de expressar a fala produzia interpretações e comentários sobre determinado tema. 

Para Platão, a linguagem era dividida em cinco etapas, sendo a primeira o nome (ónoma). O segundo degrau era o lógos, que pode ser compreendido como “definição” e “proposição” do nome. Em seguida, chega-se à imagem (eídolon) da coisa para alcançar a ciência (epistéme) e a inteligência (noûs), que se configuram como o quarto degrau na escala do conhecimento. Após essas quatro etapas, atinge-se a opinião verdadeira (alethés dóxa) da coisa em si (autó). 

Em Crátilo, Platão coloca em discussão a naturalidade versus a convencionalidade do nome, por meio do diálogo entre os personagens reais Crátilo (naturalista), Hermógenes (convencionalista) e Sócrates (meio-termo). De modo geral, Crátilo defendia que as coisas já tinham um nome e esse nome representava a coisa em si, sendo a essência daquele objeto. Hermógenes contra-argumentava afirmando que a cultura produz nomes diferentes para cada objeto, sendo o nome uma característica variável e flexível. Sócrates realizava a mediação entre esse debate, tentando ponderar e questionar os dois pontos de vista. 

Além de Platão, Aristóteles também fez considerações acerca da linguagem, como na obra Da interpretação, na qual sugere que os sons da voz indicam, como representantes simbólicos, estados da alma. Todos temos os mesmos estados da alma, como angústia, ansiedade, alegria, mas a forma de nos referirmos a eles muda para cada pessoa. A relação entre linguagem e objeto é simbólica, assim o nome não é natural, mas recebe significado convencional a partir do momento em que o espírito lhe impõem sentido. 

Em a Retórica, Aristóteles discute (1) a propriedade, (2) a utilidade, (3) a eficácia e duplo sentido e (4) a justeza dos nomes, considerando assim: (1) substantivo e verbos; (2) sinônimos e homônimos; (3) metáforas; (4) diminutivos. Na Poética, discute a diversidade dos nomes e os objetivos aos quais querem atingir, além da elocução e do estilo com que algo é dito, isto é, ele realça a arte de como dizer alguma coisa. 

Os elementos da elocução se referem aos sons articulados em níveis elementares (como a letra); os sons articuláveis mas não significativos (divisão silábica e conjunção); os elementos do discurso com sons significativos mas quando separados não apresentam significado, como nome e verbo (rhema); e o enunciado: sons significativos com partes significativas, integrados no todo do contexto do discurso.

 

 

 

Os estóicos também trouxeram contribuições para o estudo da língua, ao considerarem significante (semaínon) – que indica a voz, o referente ou objeto (a coisa a qual se refere) e o significado, que representa o conteúdo do estado mental. Ou seja, existe um conteúdo mental (significado) expresso pela voz (significante) sobre alguma coisa (objeto/referente). O Lektón é o que se diz sobre algo por meio da linguagem, que pode se modificar de acordo com o estado mental e as palavras usadas, por ser uma representação simbólica do referente (daquilo ou de quem se refere). Podemos pensar na relação entre predicado e sujeito. 

Os estóicos, por se preocuparem com a relação das palavras no enunciado, trouxeram a ideia de árthra, ou seja, os artigos. Eles apresentam uma força articuladora que não determina a definição dos eventos narrados, porém tem o potencial de articular os juízos e os conteúdos entre os eventos verbais (prestem atenção nesse parágrafo, ele será retomado). 

 

Dionísio e a Arte da gramática

 

Partimos agora para as contribuições de Dionísio, o Trácio ou Dionísio da Trácia, autor que viveu aproximadamente entre 170 a. C. – 90 a. C. e um dos precursores da gramática moderna. Até o momento, seu manual Tecnhé grammatiké é considerado a primeira gramática do ocidente. Techné significa arte, ou seja, antigamente estudava-se a arte da gramática, sendo uma das finalidades o falar e escrever bem. 

Nessa obra, Dionísio elenca sete categorias gramaticais para classificar os componentes do discurso, a saber: (1) a categoria de número, (2) a categoria de caso, (3) a categoria de tempo, (4) a categoria de modo, (5) a categoria de voz, (6) a categoria de pessoa e (7) categoria de gênero. Para quem tiver interesse, Gissele Chapanski, em 2003, produziu uma dissertação na qual traduziu e analisou o Tékhne grammatiké para o português, na obra – Uma tradução da Tékhne Grammatiké, de Dionísio Trácio, para o português

 

  1. Categoria de número

 

Indica a concordância entre verbo e nome (sujeito). Número real e categoria gramatical de número não necessariamente são correspondentes. Por exemplo, existem palavras que indicam um conjunto de coisas, porém são escritas e ditas no singular, como “todo”. Ainda temos também palavras no plural que indicam uma coisa só, como “Atenas”, atual capital da Grécia. Dionísio dividiu a categoria de número em três partes: singular, dual e plural, que atualmente, no português, unimos o dual com o plural. 

 

  1. Categoria de caso (ptôsis)

 

Indica as flexões verbais e derivados. Na gramática tradicional, se refere a “casos”, flexões que também foram discutidas por Aristóteles e os estóicos. Caso, nas palavras de Neves (2002, n. p.), “é o modo como algo ‘cai’, ocorre, acontece, chega a uma situação”. Isto é, casos corresponde às flexões verbais, nominais, que indicam as derivações que uma palavra pode ter. 

Por exemplo, o substantivo programação deriva do verbo programar. Dionísio elencou cinco casos na forma como o nome cai: o caso (1) reto e nominativo; (2) o genitivo, possessivo ou pátrico; (3) dativo ou destinativo; (4) causativo; (5) vocativo e de saudação. 

 

  1. Categoria de tempo

 

Dionísio considerou, de modo geral, o passado, o presente e o futuro. Os estóicos subdividiram o tempo em presente durativo (imperfeito), presente completado (perfeito), passado durativo (imperfeito) e passado completado (mais-que-perfeito). O durativo indica um tempo que ainda não acabou, enquanto o completado sugere o tempo verbal já encerrado. 

Dionísio ampliou a categoria do passado e o dividiu em quatro subclasses: o durativo (imperfeito), o completado (perfeito), o completado no passado (mais-que-perfeito) e o indeterminado (que para os gregos correspondia ao aoristo – flexão verbal que indica uma ação sem limite/especificação de tempo), além do presente e do futuro.

 

  1. Categoria de modo

 

Sugere cinco modos verbais, como o indicativo, imperativo, optativo, subjuntivo e infinitivo. Para saber mais sobre como os modos verbais são explorados no português, veja a matéria de Márcia Fernandes no site TodaMatéria – Modos Verbais

 

  1. Categoria de voz 

 

A quinta categoria, a de voz, considera a divisão entre voz ativa, passiva e neutra para os estóicos, e para Dionísio é ativa, passiva e média. Atualmente, a classificação é praticamente a mesma, porém no português usamos, mais frequentemente, voz ativa, passiva e reflexiva e em alguns casos podemos considerar a voz neutra. O professor Rodrigo Sales fala um pouco mais sobre isso no vídeo – Vozes Verbais: ativa, passiva, reflexiva; voz neutra

 

  1. Categoria de pessoa 

 

Indica as pessoas do discurso, sendo três pessoas a serem examinadas: a que fala, aquela a quem se fala e aquela de quem se fala. 

 

  1. Categoria de gênero 

 

Dionísio a dividiu, de modo geral, em masculino, feminino e neutro. Também descobriu que gênero não necessariamente corresponde ao sexo real, sendo a função do artigo apontar qual é o gênero e o número do nome ou do pronome. 

Vale ressaltar que Dionísio também considerou os epicenos, isto é, palavras de um gênero que representam na prática o masculino e o feminino. O gênero verbal não necessariamente corresponde ao sexo biológico, por exemplo: “gavião” é uma palavra masculina que designa a fêmea e o macho, o mesmo vale para o exemplo de Neves (2002) para a palavra feminina “andorinha”, que na prática também se refere ao macho e à fêmea. No texto, o que poderá diferenciar o gênero do animal é o artigo ou os adjetivos já citados “macho” e “fêmea”.  

 

Mas como toda essa gramática, que gerou a análise sintática, pode se relacionar com o processamento de linguagem natural? 

 

Possíveis correlações com o processamento de linguagem natural

 

A divisão em partes, em classes do discurso, trouxe contribuições para a capacidade de compreensão da linguagem humana pela máquina. Ela precisa compreender essas categorias gramaticais e realizar a análise sintática do texto para se comunicar de forma natural. 

 

Fonte: Data extraction, de Bro, compartilhado por Storyset

 

Retomando-se a discussão gramatical no contexto da linguagem artificial, principalmente a desenvolvida no diálogo de Crátilo, de Platão, podemos interpretar que o homem é um ser produtor de linguagem, então como consequência, ele poderia criar uma linguagem específica para ser reproduzida no contexto de programação. Cada código representa uma sintaxe (regras que regem a formulação de frases, como concordância e subordinação) própria com uma função específica, determinada por instruções textuais que serão analisadas gramaticalmente e sintaticamente pela máquina. 

Para que o dispositivo faça a análise, Martins, Lenz e Silva et. al (2020) comentam sobre algumas etapas necessárias, como: recebimento do texto – pré-processamento – análise léxica – análise sintática – análise semântica – análise pragmática e significado intencional. De modo geral, esses estágios acontecem mais ou menos juntos, mas nesse texto iremos realçar a etapa do pré-processamento e discutir brevemente suas sub etapas que contribuem no processo de análise textual como um todo. As sub etapas são: a fase de tokenização de palavras, normalização do formato das palavras e a segmentação de sentenças.

 

Tokenização de palavras

 

A tokenização busca dividir o texto em palavras, em tokens, isto é, em unidades simbólicas. As unidades ou elementos que não contribuem para o sentido do excerto são removidos. Por exemplo: “O Heitor saiu de casa” é separado em [“O; Heitor; saiu; de; casa”] ou [‘O’, ‘Heitor’, ‘saiu’, ‘de’, ‘casa’]. Separa-se as palavras em elementos, metodologia usada por Dionísio para classificar gramaticalmente as palavras gregas e usadas no Ocidente para classificar outras línguas, como o português e o inglês. 

 

Normalização do formato das palavras

 

A normalização de palavras envolve padronizar cada palavra para sua forma original, por exemplo, de “oiee”, “amooo”, “nosssaa” para “oi”, “amo” e “nossa”. Essa função, mais atual, exige a identificação de gírias, abreviaturas ou textos informais de redes sociais e procura padronizar a palavra para o seu modo oficial de acordo com a norma padrão. Entende-se “9vidades” como “novidades”, “vlw” como “valeu”, entre outras possibilidades, o que a classificação em elementos e seus derivados também contribui para o funcionamento de análise da máquina.   

 

Segmentação de sentenças

 

Durante o processo de segmentação, divide-se o texto em frases ou palavras, tendo em vista os morfemas, que correspondem às unidades significativas que formam as palavras. Morfema, de modo geral, indica as formas que as palavras tem e como elas são formadas. Destacam-se dois tipos de morfemas: os livres, com significado próprio e os presos, que isolados não expressam significado, mas aplicados à palavra oferecem um sentido a ela. Cada palavra sofre algum tipo de flexão, que pode relembrar os modos verbais e os numerais classificados por Dionísio. 

Por exemplo, na palavra “sair” o sufixo “ir coloca o verbo no modo infinitivo. Se o colocarmos em outro contexto, como: “O Heitor saiu de casa”, a terminação “iu” indica pretérito perfeito na terceira pessoa do singular. Ao realizarmos a segmentação, a frase fica: [“O; Heitor; saiu; de; casa”]. A partir da flexão verbal, a máquina pode compreender o momento (presente ou passado) em que tal ação ocorreu, classificação também organizada por Dionísio. 

Quando realizamos a segmentação de sentenças, a pontuação que usamos naturalmente contribui para o processo de separação de cada sentença, como no caso: “A gramática, procurando examinar fatos de língua, empreende uma marca histórica: trata as partes do discurso como classes de palavras.” (NEVES, 2002, n.p.). 

 

Sentença 1 – “Procurando examinar fatos de língua”;

Sentença 2 – “a gramática empreende uma marca histórica”;

Sentença 3 – “trata as partes do discurso como classes de palavras”.

 

Contemplamos, nesta divisão, a separação por vírgulas, os dois pontos e o ponto final, além de colocarmos a frase na ordem direta, para facilitar a compreensão. Existem muitos excertos que podem gerar ambiguidade, pois o ponto final, por exemplo, pode tanto representar o final de uma frase como uma abreviatura.

 

Os stop-words e a ‘limpeza’ gramatical

 

Uma das formas de limpar os textos para deixar a compreensão mais rápida é remover os stop-words, que em muitos casos correspondem aos artigos e às preposições no português brasileiro.

 

Fonte: o redator

 

 

Para conhecerem uma lista mais completa das possíveis stop-words, acesse o github do usuário a lopes/stopwords.txt

 

O árthra grego e os artigos

 

Podemos integrar as reflexões dos estóicos sobre os artigos como elementos de força articuladora entre as palavras mas que não necessariamente as definem. Por exemplo: [‘O’; ‘Heitor’; ‘saiu’; ‘de’; ‘casa’], nesse caso, pode-se limpar o artigo “o” e a preposição “de”, por não serem elementos que definem a ação. Desse modo, o processo fica mais automático e facilitado. 

Hoje, existem programas e bibliotecas eletrônicas que ajudam a desfazer essas ambiguidades, como o Python e o Natural Language Toolkit (NLTK). A partir de um grande corpora (vasta quantidade de textos) o programa consegue realizar a desambiguação a partir da atuação do programador. Como podemos observar, existiam várias classificações e métodos que os gregos utilizavam que podem contribuir para o processamento da linguagem natural humana pela máquina. 

Existem ainda outros aspectos que não foram contemplados neste texto, mas que poderão ser retomados nos próximos, em que poderemos correlacionar tradução automática, fonética e fonologia, além de aprofundar outros conteúdos como morfologia, stemming e lematização, entre outras conceitos das áreas de programação e linguística. 

 

REFERÊNCIAS

 

TEXTOS ACADÊMICOS

 

DIETZSCH, Mary Julia Martins. Crátilo e a Origem dos Nomes. Revista Internacional d´Humanitats 12, CEMOrOC-Feusp, Núcleo Humanidades-ESDC, Univ. Autônoma de Barcelona, 2007. 

MARTINS, Júlio S.; LENZ, Maikon. L.; SILVA, Michel Bernard Fernandes D. et. al. Processamentos de Linguagem Natural. Porto Alegre: Grupo A, 2020.

NEVES, Maria Helena de Moura. A gramática: história, teoria e análise, ensino. Edição do Kindle. São Paulo: Editora UNESP, 2002. 

REIS, Aline Abade dos; DALLILA, Deyse; ALMEIDA, Lucélia Brandão Santos et al. A Obra de Platão “Crátilo – Diálogo Sobre a Justeza dos Nomes” Na História da Lingüística. Universidade Presbiteriana Mackenzie, São Paulo, 2008.   

 

BLOGS

 

FERNANDES, Márcia. Modos Verbais. TodaMatéria. Disponível em: <https://www.todamateria.com.br/modos-verbais/>. Acesso em: 28 dez. 2021.

 

VÍDEOS

PORTUGUÊS Sensacional. Vozes Verbais: ativa, passiva, reflexiva; voz neutra. YouTube. Disponível em: <https://www.youtube.com/watch?v=pyhPu_pkvrM>. Acesso em: 27 dez. 2021.