[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

Articleとcharcodeに関するbleu-bleutのブックマーク (3)

  • Unicode ~ユニコードエスケープ形式とは~(文字コード関連) | 読み物 | ウナのIT資格一問一答

    Unicode ~UTF-8、UTF-16との違い~では、Unicodeが世界中で使用される文字を集めた文字集合であり、実際の符号化にはUTF-8やUTF-16といった文字符号化方式(エンコーディング)を使用するというお話をしました。 当然、UTF-8やUTF-16といったエンコーディングが使用できる場合であれば、Unicodeで定義されている文字は問題なく使えるわけですが、それ以外のエンコーディングを使用しなければならない場合はどうでしょう? 例えば、Javaにおけるプロパティファイル(設定情報などを「キー=値」の形式で保存する拡張子が「properties」のファイル)の文字エンコーディングはISO 8859-1を使わなければいけないことになっています。 ISO 8859-1の符号表からもわかるように、ISO 8859-1で扱える文字の種類はごくわずかで、世界中の文字を定義するUnic

  • 漢数字が数字順にソートされない理由を調べてみた - give IT a try

    はじめに:「なぜ漢数字は数字順に並ばない!?」 先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。(執筆時点で50件以上) 「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日 「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。 いや、もちろんそれはわかってるんです。 問題は「そもそもなんで数字順に文字コードを振らなかったの!?」ということです。 感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」

    漢数字が数字順にソートされない理由を調べてみた - give IT a try
    bleu-bleut
    bleu-bleut 2015/02/09
    UTF-8は部首画数順で並んでいるから。
  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

  • 1