Através da biblioteca online Project Gutenberg, foram selecionadas três traduções do livro Pinóquio, em inglês, italiano e finlandês. O objetivo do projeto foi aplicar e comparar diferentes algoritmos de contagem de palavras para identificar as palavras mais frequentes em cada versão, e analisar semelhanças e diferenças entre os textos.
Foram utilizados três tipos de algoritmos:
- contadores exatos,
- contadores probabilísticos (como os baseados em hashing),
- contadores space-saving (com otimização de memória).
A análise consistiu em:
- identificação das palavras mais frequentes por livro,
- comparação entre os diferentes tipos de contadores (precisão vs. eficiência de memória),
- análise cruzada entre os livros, para detetar padrões linguísticos comuns ou distintos nas traduções.
Além de avaliar o desempenho dos algoritmos em termos de precisão e uso de memória, o projeto procurou entender se determinadas palavras ocorrem com frequência semelhante nas diferentes línguas, fornecendo também uma perspetiva linguística interessante sobre traduções de obras literárias.