- testdata:包含实验所用的数据,其中包括:
cndata.csv:用于中文自动文本摘要的数据集,包含24500条数据,大小为149.3mb。
stopwords.txt:中文停用词表。来源为:https://gitee.com/UsingStuding/stopwords/blob/master/哈工大停用词表.txt#。
Revies.csv:用于英文自动文本摘要的数据集,大小为300.9mb。
train.txt:用于情感分析的训练集。
word_freq.txt:出现频率大于25的词存入该文件。
wiki_word2vec_50.bin:word2vec。 - abstract.py:英文自动文本摘要。
- cnAbstract.py:中文自动文本摘要。
- creatDataset.py:创建中文数据集脚本。
- drawPic.py:绘制自动文本摘要的损失值变化图脚本。
- sentiment1.py:情感分析。
-
Notifications
You must be signed in to change notification settings - Fork 0
NLP Study Code
License
slliland/NLPStudy
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
NLP Study Code
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published