Chasen
最終更新日時:2011-04-14 18:28:26
その他UNIX系
その他UNIX系
Chasen とは
Chasen(茶筌)は自然文を解析して「それ以上分割できない最小の文字列(形態素)」に分割する、いわゆる形態素解析のためのツールです。
インストール
Chasen のインストールする前に、まず Darts と libiconv をインストールします。
Darts
darts-0.2 の例です。
Chasen と Darts とはバージョンの相性があるようなので、注意してからインストールしましょう。
配布サイトからアーカイブをダウンロードし、展開します。
% gzip -dc darts-0.2.tar.gz |tar xvf - % cd darts-0.2
あとはおきまりの手順。
% ./configure % make % make check % su # make install
libiconv
システムに iconv が入っていなければ、libiconv をインストールします。
配布サイトからアーカイブをダウンロードし、展開します。
以下、libiconv-1.12 の例です。
% gzip -dc libiconv-1.12.tar.gz |tar xvf - % cd libiconv-1.12
あとはおきまりの手順。
% ./configure % make % make check % su # make install
Chasen
必要なものがインストールできたら Chasen をインストールします。
Chasen-2.3.3 の例です。
公式サイトからアーカイブをダウンロードし、展開します。
% gzip -dc chasen-2.3.3.tar.gz |tar xvf - % cd chasen-2.3.3
私の環境ではコンパイルでエラーが出たため、以下の修正を行いました。
lib/dartsdic.cpp を以下のように修正
180c180,181 < (const char*)keys[size] = key.data(); --- > // (const char*)keys[size] = key.data(); > keys[size] = const_cast<char*>(key.data());
あとはおきまりの手順。
% ./configure % make % make check % su # make install
形態素解析に使う辞書を別途インストールする必要があります。
通常は IPAdic legacy を使います。
IPAdic legacy
公式サイトからアーカイブをダウンロードし、展開します。
% gzip -dc ipadic-2.6.3.tar.gz |tar xvf - % cd ipadic-2.6.3
あとはおきまりの手順です。
% ./configure % make % su # make install
設定
Chasen の設定ファイルは通常 /usr/local/etc/chasenrc となります。
これを編集することで Chasen の設定が可能です。