rio's recommend

※諸事情により公開を停止しました。

ニュースを全部見て回るのが面倒くさくなってきたので、新しいコンテンツ・rio’s recommendを追加しました。といっても、ニュースの一覧に追加しただけなんですが、バックグラウンドでは面白いことをやってます。

まず、rio.stのエントリーを全て書き出して、chasenにかけます。rio.stではIT関係のテクニカルタームや固有名詞が頻出するので、chasenの結果から「未知語」「記号-アルファベット」「名詞-サ変接続」を書き出します。それを、e-wordsに問い合わせて読み仮名が得られた場合はその読み仮名を、そうでない場合はchasenが付けた読み仮名で、ATOKの辞書ユーティリティが書き出すファイルと同じ形式で書き出しておきます。この辞書はかなりいい加減なので、自分で全部チェック・品詞分類します。これがかなり大変(^^ゞ 1,500語ぐらいありました。これとATOKのIT関係辞書をマージしたファイルを作っておいて、chasenが読み込めるipadicの形式に変換します。

ここまでやると、そこそこ、りおが使う単語が登録された状態になるので、再度、rio.stの全エントリーをchasenにかけて、「名詞」の「一般」「サ変」「固有名詞」だけを抜き出して、頻度をカウントしてファイルに書き出します。後は、ニュースを収集するスクリプトで、タイトルをchasenにかけて頻出する単語ほどスコアが高くなるように評価してデータベースに登録しておきます。

今のところ辞書がまだ弱いので、頻度の高い単語が1つ入っているだけで上位30位に入ってきちゃうのが問題なんですが、辞書を少しずつ鍛えて、recommendどころか、rio’s eyeになってくれると楽で良いなぁ(笑)。