Python3で形態素解析[MeCab]

以前にPython3を利用したRakutenMAでの形態素解析の記事を上げました

次にMeCabを利用した形態素解析のついての残しておきます

MeCabとは

MeCabは京都大学情報学研究科と日本電信電話株式会社コミュニケーション化学基礎研究所が共同して開発されたオープンソース形態素解析です。

様々な言語(perl/ruby/python/java/C#)で書くことが可能です。

また、学習も可能です。

ネットで調べると「形態素解析をやるならMeCabを使おう」ってぐらい主流らいしいです

インストール

はじめに動作確認環境

  • windows10 64bit
  • python 3.5.2
  • bashで構築しました
    • bashを使用しない方法もありますが、環境構築が面倒くさそうなのでbashで作りました

bashを起動し、以下のものをインストール

サンプルプログラム

結果

MeCab.Tagger を色々変えると詳しい単語情報がでてきます(名詞だとか助詞だとか)

このサイトがわかりやすくまとめてありました http://d.hatena.ne.jp/r_e10/20110418/1303102340

まとめ

pythonでRakutenMAとMeCabを使ってみました

デフォルトで使用した感じはMeCabのほうが精度が良さげです

しかし、RakutenMAはJavaScriptで記述されています

Web系で作るときはRakutenMAに軍配が上がりそうです(MeCabはRubyが起動するためどっちがよいかわかりません)

参考文献

スポンサーリンク