sexta, 26 de julho de 2024
Cidade

Desenvolvido em São Carlos: sistema "inteligente" identifica autoria de obras literárias

15 Mai 2017 - 05h06Por Redação
Foto: Divulgação - Foto: Divulgação -

Com uma taxa de 88,7% de acerto, a autoria de 71 obras literárias foi identificada por um sistema de inteligência artificial desenvolvido por pesquisadores do Instituto de Física de São Carlos (IFSC/USP) e do Instituto de Ciências Matemáticas e de Computação (ICMC/USP). No total, o sistema avaliou oitenta livros (em inglês) escritos por oito autores, como Charles Dickens, entre outros. O conceito do sistema é baseado em duas metodologias de física estatística: redes complexas e a a nálise de séries temporais.

As redes complexas têm auxiliado cientistas que trabalham com aprendizado de máquina - que consiste em treinar um sistema computacional a partir de dados, que podem ser de imagens, vídeos e textos para identificar padrões; no caso dotrabalho em questão, as redes complexastêm características não triviais em sua topologia.

Já a segunda metodologiaajuda a entender fenômenos e sistemas cuja variação ao longo do tempo não pode ser prevista com modelos simples. Hoje, a análise de séries temporais é bastante útil no sistema financeiro, permitindo, por exemplo, prever a evolução de taxas de câmbio e ações de empresas nas bolsas de valores.

O sistema inteligente realiza vários passos. Cada livro é dividido em parcelas cujas redes de co-ocorrência tenham o mesmo número de palavras, transformando-se assim em uma série de redes. Em uma rede de co-ocorrência, as palavras de um texto são os nós, e cada vez que duas palavras aparecem juntas, uma aresta (ou seja, um link) é estabelecida entre elas. Se essas palavras co-ocorrentes se repetem, aumenta-se o peso das arestas. De cada rede extraem-se medidas de sua topologia. Tais medidas denotam, por exemplo, qual é o padrão de conexão na rede, se há nós muito mais conectados que outros, ou se os nós mais conectados se relacionam com aqueles que têm poucas conexões. 

A série temporal é então formada pelas métricas de cada rede (parcela do texto) até o fim do livro analisado. Através das séries temporais relacionadas a esse trabalho, observou-se que há um padrão característico para cada autor, ou seja, as estruturas textuais dos escritores se assemelham às suas digitais. Isso foi aprendido pelo sistema inteligente a partir de algoritmos de aprendizado de máquina - a máquina acertou quais eram os autores de 71 livros analisados, a partir do algoritmo de melhor desempenho.

Foto: Divulgação"As características de um texto se revelam na maneira como o texto é estruturado", explica o coordenador da pesquisa, Prof. Dr. Osvaldo Novais de Oliveira Junior, do IFSC/USP.Segundo ele, o ato de dividir os livros em redes que evoluem no tempo - ao "ler" cada livro - é a principal inovação desse trabalho, pois em outros estudos encontrados na literatura sobresistemas inteligentes para verificação de autoria textual, cada texto avaliado geralmente corresponde a uma única grande rede de co-ocorrência. Com a divisão dos trechos foi possível incluir metodologias de física estatística de séries temporais, melhorando a capacidade de análise.

Esse sistema "inteligente" poderá ser utilizado, por exemplo, na verificação de eventuais plágios equalidade de texto, independentemente do tamanho do conteúdoa ser analisado. Odocente do IFSC afirma ainda que o objetivo final desse tipo de pesquisa é ensinar o computador a interpretar texto.

Mas, será queos sistemas computacionais poderão compreender um texto? A resposta de Novais para essa pergunta é positiva, já que nos últimos anos tem havido um enorme progresso nessa área de estudo.Aliás, já se sabe que uma máquina pode, por exemplo, aprender a reconhecerobjetos tal como uma criança faz -através de exemplos e, portanto, a partir de padrões! Com o aumento na capacidade de memória e processamento das máquinas, consegue-se antever que tarefas ainda mais complexas possam ser executadas.

Para ter uma máquina que, além de identificar autoria, compreenda o que está escrito em um texto, é preciso treiná-la com o maior número possível de exemplos. Atualmente, o sucesso desse tipo de estratégia é ilustrado pela considerável melhora nos tradutores automáticos, que agora já introduzem aprendizado de máquina. Os projetos do Núcleo Interinstitucional de Linguística Computacional , do qual Novais é membro fundador, em parceria com o Grupo de Computação Interdisciplinar (IFSC/USP), visam desenvolver métodos e criar conceitos inovadores que também possam ser usados em grandes volumes de dados (o que se chama de Big Data). "Podemos prever que o trabalho que estamos discutindo sirva de inspiração para projetos nos quais grandes volumes de dados serão processados e que, provavelmente, terão desempenho superior ao que tivemos", diz o docente.  (Rui Sintra & Thierry Santos - Assessoria de Comunicação - IFSC/USP)

Leia Também

Últimas Notícias