Linux课程作业-新浪新闻爬虫+分词分析

项目结构

方法一（无语料）
- 更改爬虫中要爬的起始日期和结束日期
- 运行爬虫脚本
- 修改nGram.py中处理的起始日期和结束日期
- 修改nGram.py中处理的参数（频数要求、凝固程度、自由程度的要求）
- 运行nGram.py
- 等待nGram.py运行，运行结束后会出现1Gram.txt-5Gram.txt
方法二（已有语料）
- 修改nGram.py中处理的参数（频数要求、凝固程度、自由程度的要求）
- 运行时给予nGram.py一个参数，代表语料文件，暂时只支持单语料文件
- 等待nGram.py运行，运行结束后会出现1Gram.txt-5Gram.txt

爬虫部分考虑了多种干扰因素，如：
- gzip压缩
- 中其他标签的干扰（有的甚至有嵌套一千多次的情况。。。正则表达式直接卡死。。。）
- 应要求没有使用HTTPParser，纯正则表达式解析
n-gram分词分析部分
- 参考文献
- 采用了三种指标判定是否为词
  - 词频
  - 凝固程度（即“电影院”不是“电”+“影院”或“电影”+“院“）
  - 自由程度（即“伊拉克”不是“伊拉”，也不是”拉客“）
注释齐全
- 基本每一行代码都有注释解释
二字词、三字词效果很好

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.idea		.idea
result		result
20160426作业.pdf		20160426作业.pdf
FileOperator.py		FileOperator.py
README.md		README.md
nGram.py		nGram.py
reptile.py		reptile.py