博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用python调用ICTCLAS50进行中文分词
阅读量:5858 次
发布时间:2019-06-19

本文共 1164 字,大约阅读时间需要 3 分钟。

直接上源码吧

tokenizer类:

#_*_encoding:utf-8_*_

from ctypes import *

class tokenizer:

   
        def __init__(self):
            self._stext=['、','“','”',',','。','《','》',':',';','!','‘','’','?','?','!','·',' ',''] #枚举标点符号包括空格
            self._stopword_list=[line for line in file('stopword.txt')]
            self._stopword_list=map(lambda x: x.strip(),self._stopword_list) # 去掉行尾的空格

        def parse(self,text):       
            atext_list=[]#存放要分词的文档
            rtext=[]#存放去标点符号和分词后的词
            participle = cdll.LoadLibrary('X:\\API\\ICTCLAS50.dll')
            participle.ICTCLAS_Init(c_char_p('X:\\API'))
            strlen = len(c_char_p(text).value)
            t = c_buffer(strlen*6)
            a =participle.ICTCLAS_ParagraphProcess(c_char_p(text),c_int(strlen),t,c_int(3),0)
            atext_list=t.value.split(' ')
            participle.ICTCLAS_Exit()
            rtext=[item for item in atext_list if item not in self._stext]
            result_list=[iword for iword in rtext if iword not in self._stopword_list]

            return result_list

调用tokenizer类,test_tokenizer类:

#_*_encoding:utf-8_*_

import tokenizer

text="文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。"

list=tokenizer.tokenizer().parse(text)

for item in list:

    print item

转载于:https://www.cnblogs.com/fengjianhit/archive/2013/06/08/tokenization.html

你可能感兴趣的文章
浏览器的兼容性
查看>>
Android Retrofit 实现文字(参数)和多张图片一起上传
查看>>
Compare Version Numbers LC解题记录
查看>>
Mysql 中创建索引和索引的使用问题
查看>>
UIAlertController 介绍
查看>>
为Android开发者整理的Google I/O开发者大会第一弹
查看>>
(cons '(〇 . 前言) 《为自己写本-Guile-书》)
查看>>
JQuery tokeninput输入提示插件获取JSON数据
查看>>
一天一点linux(11):如何用U盘装Linux系统?
查看>>
Android动态设置控件长宽比的几种常见方法
查看>>
博客引入漂亮字体二三事
查看>>
ajax与jquery-pagination实现异步翻页功能
查看>>
SegmentFault 高效改版,快来内测啦!
查看>>
[LintCode] Valid Sudoku [数独]
查看>>
微信Android资源混淆打包工具,如何让应用安装包立减1M
查看>>
Druid 1.1.14 发布,阿里开源连接池
查看>>
史上最全的Java进阶书籍推荐
查看>>
docker学习系列13 实现 基于pxc 的mysql 多节点主主同步 ...
查看>>
2017-12-01 中英文代码对比之ZLOGO 4 & LOGO
查看>>
Javascript操作DOM常用API总结
查看>>