Amazon LinuxにMeCabとPython3バインディングをインストールする手順

時間がかかったので手順を残す。

公式サイト

http://taku910.github.io/mecab/

インストール手順

MeCab本体

wget -O mecab-0.996.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE"
tar zxvf mecab-0.996.tar.gz
cd mecab-0.996
./configure
make
make check
sudo make install

辞書

wget -O mecab-ipadic-2.7.0-20070801.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM"
tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
sudo make install

Pythonバインディング

pip-3.5 install mecab-python3 --user
echo "/usr/local/lib" | sudo tee -a /etc/ld.so.conf
sudo ldconfig

サンプルコード

import sys
import MeCab


mecab = MeCab.Tagger('')

text = 'すもももももももものうち'
mecab.parse('') #これがないと文字列がGCされてしまう?
node = mecab.parseToNode(text)
while node:
    word = node.surface
    pos = node.feature
    print('{0} , {1}'.format(word, pos))
    node = node.next

MeCab以外の選択肢

Janomeという形態素解析器はpip install janomeでインストールできるので手軽に利用できる。

Welcome to janome’s documentation! (Japanese) — Janome v0.3 documentation (ja)

参考にしたページ

http://qiita.com/grachro/items/4fbc9bf8174c5abb7bdd