投稿
APP
微信扫一扫获取更多

自然语言处理之中文分词详解

Coco智能

2022-07-20 09:41:05

图灵汇官网

中文分词是中文文本处理的基础步骤，也是人机自然语言交互的重要组成部分。在进行中文自然语言处理时，通常需要先进行分词。"结巴"分词是一个强大的Python中文分词工具，具备分词、词性标注和关键词抽取等功能，并且支持自定义词典。

特点

分词模式

"结巴"分词支持多种模式，包括： - 精确模式：力求精准切分，适用于文本分析。 - 全模式：扫描出所有可能的词语，速度快但无法解决歧义问题。 - 搜索引擎模式：在精确模式基础上进一步优化长词切分，提高召回率，适合搜索引擎。 - Paddle模式：利用PaddlePaddle深度学习框架进行分词，支持词性标注。使用此模式前需安装paddlepaddle-tiny。

支持繁体分词

"结巴"分词还支持繁体字分词，提高了其应用范围。

自定义词典

用户可以根据需求添加自定义词典，提高分词准确性。

开源授权

"结巴"分词采用MIT授权协议，允许自由使用和修改。

安装说明

"结巴"分词在Python 2.x和Python 3.x环境下均兼容，可通过以下方式进行安装： - 全自动安装：easy_install jieba 或 pip install jieba - 半自动安装：下载源码并运行python setup.py install - 手动安装：将jieba目录放置在适当位置

若需使用Paddle模式，则需额外安装paddlepaddle-tiny。

主要功能

分词方法

"结巴"分词提供了多种分词方法： - jieba.cut：接收字符串，可选择是否使用全模式和HMM模型。 - jieba.cutforsearch：适用于搜索引擎的分词方法。 - jieba.lcut：直接返回列表。 - jieba.Tokenizer：用于自定义分词器。

示例代码

```python import jieba

启用Paddle模式

jieba.enable_paddle()

测试数据

strs = ["我来到北京清华大学", "乒乓球拍卖完了", "中国科学技术大学"]

分词示例

for s in strs: seglist = jieba.cut(s, usepaddle=True) print("Paddle Mode: " + '/'.join(list(seg_list)))

seglist = jieba.cut("我来到北京清华大学", cutall=True) print("Full Mode: " + "/ ".join(seg_list))

seglist = jieba.cut("我来到北京清华大学", cutall=False) print("Default Mode: " + "/ ".join(seg_list))

seglist = jieba.cut("他来到了网易杭研大厦") print(", ".join(seglist))

seglist = jieba.cutforsearch("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") print(", ".join(seglist)) ```

自定义词典

"结巴"分词支持自定义词典，以提高分词精度。使用方法如下： ```python import jieba

加载自定义词典

jieba.load_userdict("userdict.txt")

添加或删除词汇

jieba.addword('石墨烯') jieba.delword('自定义词')

测试分词效果

test_sent = ("李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿n" "例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类n" "「台中」正確應該不會被切開。mac上可分出「石墨烯」；此时又可以分出来凱特琳了。")

words = jieba.cut(test_sent) print('/'.join(words)) ```

关键词抽取

"结巴"分词支持基于TF-IDF和TextRank算法的关键词抽取，便于后续文本分析。

词性标注

"结巴"分词还可进行词性标注，支持多种标注模式，包括默认模式和Paddle模式。

并行分词

"结巴"分词支持并行分词，通过多进程加速分词速度，适用于大规模文本处理。

Tokenize

"结巴"分词还提供了Tokenize功能，可以返回词语在原文中的起止位置，方便进一步处理。

其他词典

"结巴"分词支持多种自定义词典，可根据需要选择适合的词典文件。

自然语言分词中文详解处理

本文来源：图灵汇文章作者： Coco智能

: 免费Google账号共享2021有效谷歌账号密码大全
图灵汇

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 家友专享春节观影福利：最会买真补贴，每单立省约 10 元
图灵汇

: 欧莱雅业内首创化妆品 AI 基础模型，与 IBM 合作开发
图灵汇

: 行业首个：“中国石化 AI 数字员工”上岗，指导车主自助加油付款
图灵汇

: 安井食品向港交所递交上市申请
图灵汇

: AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
图灵汇

下一篇

PCB行业，四项基础知识，你知道几项？

Coco智能

2022-07-20

10