在此以Ubuntu操作系统为例,介绍如何安装和使用isan的基本功能。
首先,需要安装必要的软件包,在命令行下安装
sudo apt-get install gcc make python3 python3-dev git python3-numpy
Note
本工具包使用的是python3,与最常用的python版本python2不完全兼容。
为了提高速度,解码核心算法使用c++编写,因此还需要gcc进行编译。
然后选好路径,下载isan源代码,编译:
git clone https://github.com/zhangkaixu/isan.git
cd isan
make
编译正确后,就可以使用了。
以中文分词为例, 下载一个训练好的模型文件:
wget http://t.cn/zQxy95O -O ctb.seg.gz
See also
在这里有一份已经训练好的模型参数的列表 已训练模型列表
这是一个在中文树库5上训练的分词模型参数文件,试试分词:
echo '厦门大学' | ./isan.sh seg ctb.seg.gz
其中 isan.sh 是用来启动isan及其常用任务的脚本。 用 seg 来指明一个基于字标注的模型。 ctb.seg.gz 是刚才下载的对应的参数文件。 运行后将会得到这样的输出:
厦门 大学
程序从标准输入流读入输入数据,将结果输出到标准输出流。一般地,可以这样执行:
./isan.sh seg ctb.seg.gz < input_file > output_file