Através da biblioteca online Project Gutenberg, foram selecionadas três traduções do livro Pinóquio, em inglês, italiano e finlandês. O objetivo do projeto foi aplicar e comparar diferentes algoritmos de contagem de palavras para identificar as palavras mais frequentes em cada versão, e analisar semelhanças e diferenças entre os textos.

Foram utilizados três tipos de algoritmos:

  • contadores exatos,
  • contadores probabilísticos (como os baseados em hashing),
  • contadores space-saving (com otimização de memória).

A análise consistiu em:

  • identificação das palavras mais frequentes por livro,
  • comparação entre os diferentes tipos de contadores (precisão vs. eficiência de memória),
  • análise cruzada entre os livros, para detetar padrões linguísticos comuns ou distintos nas traduções.

Além de avaliar o desempenho dos algoritmos em termos de precisão e uso de memória, o projeto procurou entender se determinadas palavras ocorrem com frequência semelhante nas diferentes línguas, fornecendo também uma perspetiva linguística interessante sobre traduções de obras literárias.