Playground

Python3で形態素解析[MeCab]

Playground
この記事は約2分で読めます。
スポンサーリンク

以前にPython3を利用したRakutenMAでの形態素解析の記事を上げました

次にMeCabを利用した形態素解析のついての残しておきます

MeCabとは

MeCabは京都大学情報学研究科と日本電信電話株式会社コミュニケーション化学基礎研究所が共同して開発されたオープンソース形態素解析です。

様々な言語(perl/ruby/python/java/C#)で書くことが可能です。

また、学習も可能です。

 

ネットで調べると「形態素解析をやるならMeCabを使おう」ってぐらい主流らいしいです

 

インストール

はじめに動作確認環境

  • windows10 64bit
  • python 3.5.2
  • bashで構築しました
    • bashを使用しない方法もありますが、環境構築が面倒くさそうなのでbashで作りました

bashを起動し、以下のものをインストール

sudo apt-get install libmecab-dev
sudo apt-get install mecab mecab-ipadic-utf8
pip install mecab-python3

 

サンプルプログラム

#!/usr/bin/python
# -*- Coding: utf-8 -*-
import MeCab

mecab = MeCab.Tagger ("-Owakati")
print(mecab.parse("これからAmazonで買い物をします"))

 

結果

これから Amazon で 買い物 を し ます

 

MeCab.Tagger を色々変えると詳しい単語情報がでてきます(名詞だとか助詞だとか)

このサイトがわかりやすくまとめてありました http://d.hatena.ne.jp/r_e10/20110418/1303102340

 

まとめ

pythonでRakutenMAとMeCabを使ってみました

デフォルトで使用した感じはMeCabのほうが精度が良さげです

しかし、RakutenMAはJavaScriptで記述されています

Web系で作るときはRakutenMAに軍配が上がりそうです(MeCabはRubyが起動するためどっちがよいかわかりません)

 

参考文献

コメント

タイトルとURLをコピーしました