摘要:針對相近農業科研領域文獻的文本特征信息高度重合的特點,以及傳統的文本特征抽取方法存在的不足,對TF-IDF算法進行優化并加以應用驗證。通過引入卡方檢驗值與特征詞頻修正因子等方式,對特征詞加權函數進行重構,形成改進的ImpTF-IDF-CHI方法。將該方法與文檔頻率法、信息增益法及TF-IDF3種傳統的文本特征抽取結果應用于樸素貝葉斯分類實驗,根據實驗結果判定方法的優劣性。通過4種方法的58組特征抽取與文本分類實驗,發現與前述的3種特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征詞,應用于文本分類的正確率最高,平均準確率達94%,F1值為0.844,證明該方法在對相近農業科研領域文本進行特征抽取方面,具有準確率高、穩定性好、主題詞代表性強等優點,可以有效地應用于此類文獻文本分類、特征表達、主題抽取等場景。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社