MeCabさんが記号を「サ変接続」と認識してしまう
2014-03-02 追記
サ変接続の意味についてはで、サ変接続とは何なのか。を御覧ください。
MeCabに記号を食わせた時に
+ 名詞,サ変接続,*,*,*,*,* EOS
みたいになってしまう。
これは困る。凄く困る。 なんやねん、サ変接続て。「+する」とか言うんかい。
これじゃ困るので、対処。
まず、ipadicがある場所を探します。
MeCabのインストールディレクトリ内のdic/ipadic
とかにある、かな?
で、そこにあるunk.def
ってファイルを開きます。unknown word。未知語の分類を定義してるらしい。
SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*
って書いてある行を
SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*
に変更。
それが出来たら、あとはコンパイルして終了。
先ほど編集したipadicがあるディレクトリで
$ mecab-dict-index -f CSVファイルの文字コード -c 出力する辞書の文字コード
とすればおっけー。
ちなみに文字コード2つは省略可能なようです。
MeCabが起動してる時に編集しようとすると「permission denied」って言われるので注意ね。
ここまで無事できたら、
+ 記号,一般,*,*,*,*,* EOS
こんな感じで、出力が正しい感じになってるはずです。
参考: