文字列を日本語の単語で切り分けたい

1997.3.17


 
質問

 日本語の文字列を日本語の単語単位で切り分けられませんか?

 例えば「ブラウン系暖かさ」というwordを「ブラウン系, 暖かさ」といった具合にカンマで区切りたいのですが、仮名と漢字の間でも区切ってしまいます。その結果、ブラウン、系、暖、かさの4語として認識されてしまいます。なにかいい方法はないでしょうか。


回答

 これはAppleScriptの仕様だと考えるしかありませんね (^ ^;) AppleScriptに限らず、Macintoshのエディタやワープロの類は、ほとんどこのような単語区切りを行っています。その法則は「平仮名」「片仮名」「漢字」「記号」の連続部分を1単語とみなすということで、上の例でも片仮名と漢字と平仮名の組み合わせになっているのが分かるはずです。

 よく考えてみれば、エディタなどで日本語の文節を判別しろというのは酷ですよね。日本語の辞書を積んでいない限り正確な分解は出来ないわけですから。

 というわけで、あまりお役にたてませんが (^ ^;) スクリプト上で日本語の単語や文節を扱うのは困難だと思います。

#もしかしたらMSWord等のワープロで文節の分解などをサポートしているかもしれません。もちろん未確認ですが…


Q & Aのページに戻る
トップページに戻る
お問い合わせは、karino@drycarbon.comまで。