
"Na vida real, é mais fácil proteger uma criança, porque se está ao lado dela. Mas, na internet, um descuido e um mal pode ter acontecido”, afirma, ao Jornal da USP, Daniela F. Milón Flores, autora de um estudo realizado no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, que levou ao desenvolvimento do protótipo de uma ferramenta capaz de analisar bate-papos virtuais de crianças e adolescentes e identificar casos de assédio sexual.How to take advantage of behavioral features for the early detection of grooming in online conversations, publicado em 29 de dezembro de 2021, na plataforma ScienceDirect. A pesquisa do Grupo de Bases de Dados e de Imagens (GBdI) do ICMC da USP contou com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) e do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq). A cada ano, crianças são introduzidas mais cedo ao mundo virtual, e, com essa realidade, maior é a exposição aos riscos das redes sociais. “O objetivo da pesquisa é proteger as crianças, porque elas mesmas não sabem com quem estão conversando por trás do notebook. Elas acreditam que seja um amigo, porque é isso que faz o pedófilo, cria uma relação baseada na confiança para depois abusar dela”, conta Daniela. De acordo com os pesquisadores, um dos maiores desafios de estudar assédio sexual infantil na internet é a carência de dados para o desenvolvimento de ferramentas preventivas. Por conta da necessidade de sigilo de informação para assegurar a privacidade de menores de idade, há uma quantidade restrita de datasets, como são chamados os conjuntos de informações digitais, disponíveis para estudo. Como o algoritmo funciona - A pesquisa se baseou em um dataset de mensagens de texto em que adultos se passaram por crianças para interagir com pedófilos, e analisou os dados para identificar características da conversa que possam ser ensinadas à máquina para reconhecer interações de risco. As análises mostraram que, em geral, conversas com alto número de participantes dificilmente apresentavam contexto de pedofilia. “Isso acontece porque o pedófilo quer privacidade, falar apenas com a criança”, explica o orientador da pesquisa e professor do ICMC, Robson L. F. Cordeiro. A maioria das conversas suspeitas envolvia apenas duas pessoas, quando não, tratava-se de monólogos — casos em que o pedófilo manda várias mensagens, como tentativas de contato, mesmo sem retorno da criança, explica o professor. Os horários das interações também guiam o algoritmo. Na maior parte dos casos de abuso, as conversas aconteciam no período vespertino, das 18h às 21h, horário em que as crianças não estão nas escolas e têm acesso a celulares e computadores privados. Mensagens curtas e longas também ajudam a indicar a suspeita. Além disso, a detecção das palavras de cunho sexual colabora para o julgamento da máquina. Daniela fez uma análise detalhada dos termos sexuais que apareciam nas conversas com abusadores e criou um dicionário, incluindo variações usadas na tentativa de enganar o algoritmo. Isto é, “sex” pode ser reconhecido mesmo se escrito como “$ex” ou “s3x”, formas alternativas chamadas de typos — o que faz a ferramenta mais sofisticada. Através desses e outros parâmetros, o código monitora as conversas, desde as primeiras mensagens até a sua conclusão. Assim que o conjunto de informações detecta um chat suspeito, um alerta pode ser gerado aos pais, para que a interação passe por uma análise humana e, se necessário, que haja uma intervenção. “A ideia foi desenvolver uma ferramenta em que bate-papos on-line sejam monitorados em tempo real; sem aguardar o final da conversa, já há uma análise parcial para identificar algo suspeito”, afirma o professor. Como se trata de um protótipo, ainda que capaz de gerar uma reação à detecção de abuso, a ferramenta ainda não é capaz de se comunicar com outros sistemas e gerar alertas para aplicativos ou por e-mail, por exemplo — aperfeiçoamento que pode ser atingido ao integrá-la a outros recursos tecnológicos. Em teste comparativo com os únicos outros três protótipos para essa tarefa, a ferramenta da USP se mostrou mais inteligente. No começo da conversa, obteve-se resultados 40% melhores em relação aos demais, ou seja, ela acerta 40% a mais na detecção de abuso. Para bate-papos já concluídos, a qualidade da detecção aumenta em 30%, em comparação com os outros códigos. “Nós desenvolvemos um protótipo e demonstramos por meio de uma extensa avaliação experimental que ele é melhor que os que já existem na literatura científica”, completa Cordeiro. Segundo os autores, a maior acurácia do algoritmo é devida à análise de comportamento do usuário, que não acontece nos demais códigos. A pesquisa ainda criou dois novos datasets, que podem ser usados em trabalhos futuros. A ferramenta está disponível para qualquer um que busque conferir os dados da pesquisa, para estudo de outros desenvolvedores e, inclusive, para empresas que busquem aprimorá-la e aderi-la a seus sistemas. Desafios a serem superados - O professor destaca os desafios que ainda precisam ser superados dentro do desenvolvimento desses programas de combate ao assédio sexual de crianças no meio digital. Entre eles está o idioma utilizado pelo algoritmo. “Nosso protótipo é voltado somente à linguagem inglesa, que é a língua que pode ter maior impacto, atingir o maior número de crianças, mas também porque só temos dados deste idioma”. Sem dataset em português, não é possível desenvolver ferramentas para crianças no Brasil. “Enquanto não aparecerem dados nesse contexto, estamos de mãos atadas”, lamenta. Outro desafio está na atualização do algoritmo, ao passo que é programado para um comportamento que está em constante mudança. A ferramenta pode se tornar obsoleta na medida em que a língua muda e novas expressões surjam. “Ainda há, e sempre haverá, muita coisa a ser feita”, completa.
Em análises comparativas, a ferramenta se mostrou melhor do que outros algoritmos, principalmente na tarefa de identificar e alertar os responsáveis já no início da conversa, em casos de abuso. O algoritmo utiliza um conjunto de informações sobre o comportamento do usuário e o conteúdo das mensagens para detectar conversas suspeitas e, assim, notificar os pais — recurso ainda a ser aperfeiçoado. O código avança na criação de dados para pesquisas na área, mas encontra como desafio a constante mudança na forma como nos expressamos e o fato de estar disponível apenas em língua inglesa. Os resultados estão descritos no artigo intitulado