日本語も?

次期マックOSX『Tiger』の新ツール:ハードディスク内の全情報を検索する「Spotlight」で何でも検索するというのは、英語はともかく日本語では結構難しいのでは?
まず日本語の場合、形態素解析が大変。「まず」「日本語」「の」「場合」「形態素」「解析」「が」「大変」と分かち書く必要があるわけで、ここが単語毎にスペースを入れる英語との最大の違い。もちろん、口語や方言といった問題も考えると、分かち書きはもっと難しいわけで。
次にある多バイト文字列が何という文字セットになっているかの判定が大変。判定するのに十分な長さがあれば良いけれど、例えばファイル中に全角で2文字しか無く、しかもそれがEUC-JPなどのすぐに判定出来る1バイト目を持つ文字(文字によっては簡単に判別出来る)で無かった時には目も当てられない。
最後に。全然データを分類しないというのは「検索する」という視点のみで言えることで、バックアップする局面で必要性の低いデータも含めて数十GBもあった日には困っちゃうわけで。スナップショット的にバックアップを取る場合、やはりHDではちょっと厳しいよね。Blue-rayとか普及すれば、コスト面でバックアップの主役に名乗り出るかもしれないけどね。

タイトルとURLをコピーしました