MacにChasenをインストールする
研究に使うChasenを6時間かけてインストールしたので、備忘録としてメモ。
茶筌本体の用意
アップル - ダウンロード - ユーティリティ - Chasen
Appleからパッケージが配布されているので、これをダウンロード、インストール。/usr/local/bin/chasen にインストールされます。
茶筌自体のインストールはこれで完了。コマンドで"chasen"と打てば動きます。
ただ、初期状態ではutf-8に対応していないので大体の変換がうまくいきません。utf-8に対応させるために、辞書ファイルを用意します。
辞書のセットアップ
茶筌から、日本語辞書ipadic-2.7.0をダウンロード。
ターミナルで、解凍したディレクトリ「ipadic-2.7.0」へ移動し作業します。
インストール作業はroot権限で行わないと完了できないので、まずrootでログイン
$ cd ipadic-2.7.0 $ su root Password: #パスワード入力
ログインできない場合はrootユーザーが存在してない(と思う)ので、以下のコマンドから作成・再度ログイン。
$ sudo passwd root Changing password for root. New password: #新しいパスワードの設定 Retype new password:
ここからインストール作業に入ります。
$ ./configure
ここで、*.dicと*.chaファイルをutf-8に変換するため、以下のソースをconvert.shとして同ディレクトリに作成します。
#!/bin/sh for file in *.dic *.cha do if [ -f $file ]; then echo $file iconv -f euc-jp -t utf-8 $file > tmpfile mv tmpfile $file fi done exit
実行します
$ chmod 755 convert.sh #実行権限を与える $ ./convert.sh Adj.dic Adnominal.dic Adverb.dic Suffix.dic --- 中略 --- Symbol.dic Verb.dic grammar.cha version.cha
変換後、以下のコマンドで辞書を生成します。
$ `chasen-config --mkchadic`/makemat -i w $ `chasen-config --mkchadic`/makeda -i w chadic *.dic $ make install #root権限じゃないとエラーになる
これ以降rootでなくておkなので、exitでログアウトして通常ユーザーに戻ります。
最後に、/usr/local/etcの設定ファイルchasenrcをutf-8に変換します。
$ cd /usr/local/etc $ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp $ mv chasenrc.tmp chasenrc
以上で完了です!!
使ってみよう!
さあ使ってみよう、どきどき
使う時は、
$ chasen -i w ファイル名
と指定することで、明示的にutf-8を指定します。
$ echo "僕の名前は天野です。苦労して茶筌をインストールしました。" | chasen -i w 僕 ボク 僕 名詞-代名詞-一般 の ノ の 助詞-連体化 名前 ナマエ 名前 名詞-一般 は ハ は 助詞-係助詞 天野 アマノ 天野 名詞-固有名詞-人名-姓 です デス です 助動詞 特殊・デス 基本形 。 。 。 記号-句点 苦労 クロウ 苦労 名詞-サ変接続 し シ する 動詞-自立 サ変・スル 連用形 て テ て 助詞-接続助詞 茶筌 チャセン 茶筌 名詞-一般 を ヲ を 助詞-格助詞-一般 インストール インストール インストール 名詞-一般 し シ する 動詞-自立 サ変・スル 連用形 まし マシ ます 助動詞 特殊・マス 連用形 た タ た 助動詞 特殊・タ 基本形 。 。 。 記号-句点 EOS
すげえええええ
これは面白い道具を手に入れたぞ!
参考にさせて頂いたページ
chasen legacy -- an old morphological analyzer
ChaSen's Wiki - FAQ: (たぶん) よくある質問
公式?ページ。基本的な情報はこの辺から
UTF8対応のChaSenインストール : blog.nomadscafe.jp
もろもろメモ : chasen のインストール、詳細
【コラム】Yet Another 仕事のツール (45) 日本語形態素解析ツール「ChaSen」 | エンタープライズ | マイコミジャーナル
わかりやすい解説でお世話になりました。
Apribase - 形態素解析システム茶筌 - ipadic のインストール
nkfが使えなくて困っていたら、iconvで変換しているのを発見!euc-jpからutf-8へ変換。