上手

在此以Ubuntu操作系统为例,介绍如何安装和使用isan的基本功能。

下载与编译

首先,需要安装必要的软件包,在命令行下安装

sudo apt-get install gcc make python3 python3-dev git python3-numpy

Note

本工具包使用的是python3,与最常用的python版本python2不完全兼容。

为了提高速度,解码核心算法使用c++编写,因此还需要gcc进行编译。

然后选好路径,下载isan源代码,编译:

git clone https://github.com/zhangkaixu/isan.git
cd isan
make

编译正确后,就可以使用了。

使用训练好的模型

以中文分词为例, 下载一个训练好的模型文件:

wget http://t.cn/zQxy95O -O ctb.seg.gz

See also

在这里有一份已经训练好的模型参数的列表 已训练模型列表

这是一个在中文树库5上训练的分词模型参数文件,试试分词:

echo '厦门大学' | ./isan.sh seg ctb.seg.gz

其中 isan.sh 是用来启动isan及其常用任务的脚本。 用 seg 来指明一个基于字标注的模型。 ctb.seg.gz 是刚才下载的对应的参数文件。 运行后将会得到这样的输出:

厦门 大学

程序从标准输入流读入输入数据,将结果输出到标准输出流。一般地,可以这样执行:

./isan.sh seg ctb.seg.gz < input_file > output_file

Table Of Contents

Previous topic

Isan 一三

Next topic

基本操作

This Page