2013-02-17

　個人的には気持ち悪いんですよねー。例えば中国っぽいタイトルでアレですがUEIのこのタイトルなんかもそう。

URLのアプリ名部分：「jue-zhan!-zhan-guovs-san-guo」（一部文字数オーバー）

になっちゃうわけです。読めねえよ！と中国語を知らない自分は思ってしまうのですが、、、巷を探してみるとこういうライブラリがあるようです。

なるほど、中国語のローマ字読み（pinyin）は比較的簡単に機械的に処理できるわけですね。同様に韓国語も比較的シンプルにローマ字変換できるようです。

日本語の場合は、音読み訓読みはもとより、同じ漢字でも複数の読み方が可能なものもあります。（じゅうふく、ちょうふく）

また、書かれた文章が何語なのかという部分でも、unicodeの仕様上CJK（chinese/japanese/korian）を機械的に完璧に識別するのは不可能だそうです。（漢字コードの割り当て領域が一部同じだから）

しかしながら、実用レベルではmecab+辞書ファイルによるふりがなサービスは多々あるので、アップルにBugReportを署名活動のように送って圧力をかけるか、超使いやすい世界中の言語をローマ字に変換するオープンソースライブラリを開発してあげる事がいいんじゃないかと思います。

単に日本語のローマ字変換ライブラリがあるからそれ送りつければいいじゃねーかと思われるかもしれませんが、現行の処理を推定するに、

『utf-8の文字列単位で「１文字」を切り出して、特定のルールで粛々と変換する』

という方式ではないかと思うのです。さすがに１文字だけ切りだされても、そいつをmecabに渡しても解析できないし、渡された言葉が何語かわからないのに日本語の読みを当てはめるわけにも行きません。

なので、包括的に「言語認識＋各国語の最適化なASCII化処理」をやってくれるライブラリとかがあれば各社が採用するメリットは有ると思うのですが、現状はそこまで日本のために頑張るための労力が大変だからやらないんじゃないかなーと。

SpeakerDeckでもこのようなURL変換が採用されていますので、今後このまま進まれるとやだなーと感じていたりします。なにかいい解決策はないものか。

そもそも論としてGoogleさんが「URL内のむやみなcjkのローマ字化やめろ」って言ってくれれば各社のWebmasterさんが従ってくれるような気がしてます。

ku-sukeのブログ