Seleção de recursos de texto

1. Ganho Information Act

método de Ganho de Informação com base em toda uma classificação de recurso ti pode fornecer informações para medir quanto o grau de importância dos itens de recurso, que determina a escolha do recurso.

Medido pela quantidade de entropia da informação, portanto, obter informações que não é considerada pobre entropia e após a consideração das características do documento, qualquer artigo de Entropia

 

 

 2. A estatística qui-quadrado

Qui-quadrado medidas estatísticas a categoria e t característica está directamente relacionado com o grau de C, e C e t correspondem directamente assumindo uma distribuição do Qui-quadrado com um grau de liberdade, a fim.

Se assim for N representa o número total de formação corpus de documentos, o símbolo A representa uma classe C e contendo frequência documento t, B não representa pertencem à classe C, mas o documento contém t de frequência, C indica a classe C, mas não inclui frequência documento t,

D representa nem C nem frequência t documento.

 

 3. Informação Mútua

A idéia básica da informação mútua é: quanto maior a informação mútua, t maior o grau de características e categorias de co-ocorrência C

 

Acho que você gosta

Origin www.cnblogs.com/yangyang12138/p/12602598.html
Recomendado
Clasificación