読者です 読者をやめる 読者になる 読者になる

MecabでUTF-8に対応した辞書の利用

UTF-8の文字列を対象としてMecabを利用するために、以前は辞書のUTF-8化をしていました。最近はUTF-8に対応した辞書があるようで、最初からそれを利用すればよさそうです。

$ sudo apt-get install mecab-naist-jdic
$ sudo update-alternatives --config mecab-dictionary

alternative mecab-dictionary (/var/lib/mecab/dic/debian を提供) には 3 個の選択肢があります。

  選択肢    パス                               優先度  状態
------------------------------------------------------------
* 0            /var/lib/mecab/dic/naist-jdic         100       自動モード
  1            /var/lib/mecab/dic/ipadic             70        手動モード
  2            /var/lib/mecab/dic/naist-jdic         100       手動モード
  3            /var/lib/mecab/dic/naist-jdic-eucjp   90        手動モード

参考:MeCabのインストール