以前にPython3を利用したRakutenMAでの形態素解析の記事を上げました
次にMeCabを利用した形態素解析のついての残しておきます
MeCabとは
MeCabは京都大学情報学研究科と日本電信電話株式会社コミュニケーション化学基礎研究所が共同して開発されたオープンソース形態素解析です。
様々な言語(perl/ruby/python/java/C#)で書くことが可能です。
また、学習も可能です。
ネットで調べると「形態素解析をやるならMeCabを使おう」ってぐらい主流らいしいです
インストール
はじめに動作確認環境
- windows10 64bit
- python 3.5.2
- bashで構築しました
- bashを使用しない方法もありますが、環境構築が面倒くさそうなのでbashで作りました
bashを起動し、以下のものをインストール
sudo apt-get install libmecab-dev sudo apt-get install mecab mecab-ipadic-utf8 pip install mecab-python3
サンプルプログラム
#!/usr/bin/python # -*- Coding: utf-8 -*- import MeCab mecab = MeCab.Tagger ("-Owakati") print(mecab.parse("これからAmazonで買い物をします"))
結果
これから Amazon で 買い物 を し ます
MeCab.Tagger を色々変えると詳しい単語情報がでてきます(名詞だとか助詞だとか)
このサイトがわかりやすくまとめてありました http://d.hatena.ne.jp/r_e10/20110418/1303102340
まとめ
pythonでRakutenMAとMeCabを使ってみました
デフォルトで使用した感じはMeCabのほうが精度が良さげです
しかし、RakutenMAはJavaScriptで記述されています
Web系で作るときはRakutenMAに軍配が上がりそうです(MeCabはRubyが起動するためどっちがよいかわかりません)
参考文献
- MeCab, http://taku910.github.io/mecab/
- Subspace at Life, http://d.hatena.ne.jp/r_e10/20110418/1303102340
コメント