MeCabのインストール方法
MeCabについて
MeCab 以外でもフリーで入手可能なものに、ChaSen、Juman、KAKASI などがあるらしい。有償のものだと Basis Technology の Rosette 形態素解析システムなど。
MeCab の紹介ページや、wikipedia:MeCab の情報をまとめると、
- 開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている
- 平均的に ChaSen, Juman, KAKASIより高速に動作する
- パラメータの推定に CRF (Conditional Random Fields) を用いており, ChaSenが採用している隠れマルコフモデル (Hidden Markov Model) に比べ性能が向上している
- 品詞情報を利用した解析・推定を行うことができる
- いくつかの辞書が利用できるが、ChaSenと同様にIPA品詞体系で構築されたIPADICが一般的に用いられている
- 和布蕪(めかぶ)は、開発者の好物
事前準備
ビルドに必要なパッケージのインストール
sudo aptitude install build-essential sudo aptitude install libc6-dev
MeCabのダウンロード
MeCab 本体
$ wget http://mecab.googlecode.com/files/mecab-0.993.tar.gz
$ wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
インストール
本体のインストール
$ tar zxfv mecab-0.993.tar.gz $ cd mecab-0.993 $ ./configure $ make $ make check $ sudo make install
※こんな感じのエラーが出た場合、
configure: error: Your compiler is not powerful enough to compile MeCab. If it should be, see config.log for more information of why it failed.
C++コンパイラがうまく入っていない可能性があるので sudo aptitude install build-essential をリトライするか、もしくは sudo aptitude install g++ でインストールしてみる。
辞書のインストール
$ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz $ mecab-ipadic-2.7.0-20070801 $ ./configure --with-charset=utf8 $ make $ sudo make install
※辞書のインストール時に以下のようなエラーがでることがある。
/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directory
これは共有ライブラリがシステムに認識されていないことが原因なので、sudo ldconfig を実行してリトライする。
実行例
$ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS