上手¶

在此以Ubuntu操作系统为例，介绍如何安装和使用isan的基本功能。

下载与编译¶

首先，需要安装必要的软件包，在命令行下安装

sudo apt-get install gcc make python3 python3-dev git python3-numpy

Note

本工具包使用的是python3，与最常用的python版本python2不完全兼容。

为了提高速度，解码核心算法使用c++编写，因此还需要gcc进行编译。

然后选好路径，下载isan源代码，编译:

git clone https://github.com/zhangkaixu/isan.git
cd isan
make

编译正确后，就可以使用了。

以中文分词为例, 下载一个训练好的模型文件:

wget http://t.cn/zQxy95O -O ctb.seg.gz

See also

在这里有一份已经训练好的模型参数的列表 已训练模型列表

这是一个在中文树库5上训练的分词模型参数文件，试试分词:

echo '厦门大学' | ./isan.sh seg ctb.seg.gz

其中 isan.sh 是用来启动isan及其常用任务的脚本。用 seg 来指明一个基于字标注的模型。 ctb.seg.gz 是刚才下载的对应的参数文件。运行后将会得到这样的输出:

厦门 大学

程序从标准输入流读入输入数据，将结果输出到标准输出流。一般地，可以这样执行:

./isan.sh seg ctb.seg.gz < input_file > output_file