wordSegement

王小捷老师自然语言课堂练习，基于2-gram实现的一个最大概率路径分词

使用

1.基本使用

NGram模块的Segement类为主 64AC 要分词模块。

代码示例：

# -*- coding:utf-8 -*-
from NGram import Segment
seg = Segment()
print seg.cut(u"我爱北京天安门。")
# output : 我 爱 北京 天安门 。

2.指定词典

代码默认读取原始字典文件计算一元词和二元词，data文件夹中添加了json文件，其中包含了已统计好的词频等信息，时间更快，可在初始化Segment时进行指定

代码示例：

# -*- coding:utf-8 -*-
from NGram import Segment
seg = Segment(jsonData="data/DicData.json")
print seg.cut(u"我爱北京天安门。")
# output : 我 爱 北京 天安门 。

3.未登录词识别

对未登录词，指定HMM分词

# -*- coding:utf-8 -*-
from NGram import Segment
seg = Segment(jsonData="data/DicData.json")
print seg.cut(u"北邮距离北交很近。")
# output ： 北 邮 距离 北 交 很 近 。
print seg.cut(u"北邮距离北交很近。",HMM=True)
# output ： 北邮 距离 北交 很 近 。

致谢

感谢jieba分词原作者fxsjy，在完成这个作业的过程中收到了很多启发。HMM相关部分本来使用的是自己训练出的模型，但识别精度很低，后续也会针对这部分进行修改。

感谢北京邮电大学王小捷教授，在他的计算语言学的课堂上，我学到了很多知识，虽然也经常翘课睡懒觉……（希望老师不要看到）

结巴分词

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
HMMmodule		HMMmodule
data		data
Hmm.py		Hmm.py
Main.py		Main.py
NGram.py		NGram.py
README.md		README.md
dictionary.py		dictionary.py
trie.py		trie.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

wordSegement

使用

1.基本使用

2.指定词典

3.未登录词识别

相关说明

致谢

About

Uh oh!

Releases

Packages

Languages

zzx-zev/wordSegement

Folders and files

Latest commit

History

Repository files navigation

wordSegement

使用

1.基本使用

2.指定词典

3.未登录词识别

相关说明

致谢

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages