Chasen

最終更新日時:2011-04-14 18:28:26
その他UNIX系

Chasen とは


Chasen(茶筌)は自然文を解析して「それ以上分割できない最小の文字列(形態素)」に分割する、いわゆる形態素解析のためのツールです。

インストール


Chasen のインストールする前に、まず Darts と libiconv をインストールします。

Darts


darts-0.2 の例です。
Chasen と Darts とはバージョンの相性があるようなので、注意してからインストールしましょう。
配布サイトからアーカイブをダウンロードし、展開します。

 % gzip -dc darts-0.2.tar.gz |tar xvf -
 % cd darts-0.2


あとはおきまりの手順。

 % ./configure
 % make
 % make check
 % su
 # make install


libiconv


システムに iconv が入っていなければ、libiconv をインストールします。
配布サイトからアーカイブをダウンロードし、展開します。
以下、libiconv-1.12 の例です。

 % gzip -dc libiconv-1.12.tar.gz |tar xvf -
 % cd libiconv-1.12


あとはおきまりの手順。

 % ./configure
 % make
 % make check
 % su
 # make install


Chasen


必要なものがインストールできたら Chasen をインストールします。
Chasen-2.3.3 の例です。

公式サイトからアーカイブをダウンロードし、展開します。

 % gzip -dc chasen-2.3.3.tar.gz |tar xvf -
 % cd chasen-2.3.3


私の環境ではコンパイルでエラーが出たため、以下の修正を行いました。
lib/dartsdic.cpp を以下のように修正

 180c180,181
 <       (const char*)keys[size] = key.data();
 ---
 > //    (const char*)keys[size] = key.data();
 >         keys[size] = const_cast<char*>(key.data());


あとはおきまりの手順。

 % ./configure
 % make
 % make check
 % su
 # make install


形態素解析に使う辞書を別途インストールする必要があります。
通常は IPAdic legacy を使います。

IPAdic legacy


公式サイトからアーカイブをダウンロードし、展開します。

 % gzip -dc ipadic-2.6.3.tar.gz |tar xvf -
 % cd ipadic-2.6.3


あとはおきまりの手順です。

 % ./configure
 % make
 % su
 # make install


設定


Chasen の設定ファイルは通常 /usr/local/etc/chasenrc となります。
これを編集することで Chasen の設定が可能です。


お問い合わせは 掲示板 にて。