TF-IDF: Term Frequency - Inverse Document Frequency: calcula a importância de um termo em um texto.
- Tokenizacão: no PHP seria um explode, guarda um array
- Normalizacao: correcão portugues, maiúsculas e minúsculas, ...
- Stop-words: e, de, mas, o, a .... tirar palavras que não interessam
- Aprendizado: % das palavras positivas vs negativas
#Hashtags: semântica
N-GRAM: Conjuntos de termos, tokens. Bigram, Trigram, ...
- Análise: Filtro Bayesiano, Coef. Dice, Qui-quadrado, Coeficiente de Jaccard, coef. Relacão Pearson, Distância Euclidiana...
Last.fm e Grooveshark usam algumas dessas fórmulas matemáticas como Pearson e Dist. Euclidiana para identificar as pessoas semelhantes e sugerir as músicas que elas gostaram uma para outra.
Problemas! Homógrafos, como: Quem casa quer casa... A mesma palavra com sentidos diferentes.
Ele sugeriu o PIP, Python em PHP caso queira usar PHP com o NLTK, também ficou de levantar os slides no slideshare.net/ivonascimento, vamos aguardar.
Nenhum comentário:
Postar um comentário