一些基本的NLP相关算法
基本的分词算法:
- 正向最大匹配算法
从前面开始匹配词
- 逆向最大匹配算法
从后面往前开始匹配词
# 第一个结果为正向的结果,第二个为逆向的结果
我们 / 在野 / 生动 / 物 / 园 / 玩 /
我们 / 在 / 野生动物园 / 玩 /
长春 / 药店 /
长 / 春药店 /
- 双向最大匹配法: 正向最大匹配法和逆向最大匹配法,都有其局限性,因此有人又提出了双向最大匹配法,双向最大匹配法。即,两种算法都切一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取其中一种分词结果输出。
-
包含了基于隐马尔科夫模型(HMM)拼写纠错
-
基于双数组的分词