Recuperação de informação (RI) é uma área de pesquisa que lida com o armazenamento de documentos e, principalmente, a recuperação da informação associada a eles a partir de uma necessidade de informação do usuário, por meio de um grupo de tarefas como a busca ad-hoc, a filtragem, o roteamento e possivelmente outra. Actualmente, a maior parte da pesquisa está relacionada ao uso do computador para realizar essas tarefas, sendo importantes as contribuições de pesquisadores da Computação, porém suas origens estão na área de Ciência da Informação e Biblioteconomia, onde também são feitas contribuições de relevo.
Seus efeitos, antes restritos a um público mais restrito, os usuários de bibliotecas ou pesquisadores em colecções de documentos, tornaram-se essencial o dia-a-dia com o aparecimento da World Wide Web e a Internet comercial e a necessidade de mecanismos de busca. Grande parte da pesquisa é sobre como retornar a melhor resposta para uma busca por informações em documentos, busca pelos documentos propriamente ditos ou busca por metade dos que descrevem documentos. A mídia pode estar disponível sob forma de textos, de sons, de imagens, vídeos ou filmes ou de dados. O maior desafio está na questão de bases muito grandes e infinitas na prática, como a World Wide Web
Um das características que definem a recuperação da informação e a separa do acesso tradicional aos bancos de dados é que não há uma resposta definitivamente correta a uma consulta, pois tudo depende da necessidade de informação do usuário naquele instante, assim a teoria básica de Bando de Dados e linguagens como SQL não atendem seus requisitos. Os modelos de recuperação de informação: Para calcular uma classificação, o sistema de RI usualmente adopta um modelo para representar os documentos e a consulta do usuário.
Muitos modelos ou abordagens para a computação da classificação tem sido propostos ao longo dos anos, sendo três modelos considerados clássicos: O modelo booleano, O modelo vetorial e O modelo probabilístico. Esses modelos servem de base para construção de muitos outros modelos, como o modelo booleano fuzzy, a Indexação por Semântica Latente, Modelos de Linguagem e modelos baseados em redes neurais. Um modelo de recuperação de informação necessita de: Um conjunto de representações de documento Um conjunto de representações de consulta Um arcabouço que modela documentos, consultas e seus relacionamentos, e Uma função de ordenação que associa um número real para cada documento dada uma consulta.