[B! Article][charcode] bleu-bleutのブックマーク

bleu-bleut id:bleu-bleut

Articleとcharcodeに関するbleu-bleutのブックマーク (3)

Unicode ～ユニコードエスケープ形式とは～（文字コード関連） | 読み物 | ウナのIT資格一問一答
Unicode ～UTF-8、UTF-16との違い～では、Unicodeが世界中で使用される文字を集めた文字集合であり、実際の符号化にはUTF-8やUTF-16といった文字符号化方式（エンコーディング）を使用するというお話をしました。当然、UTF-8やUTF-16といったエンコーディングが使用できる場合であれば、Unicodeで定義されている文字は問題なく使えるわけですが、それ以外のエンコーディングを使用しなければならない場合はどうでしょう？例えば、Javaにおけるプロパティファイル（設定情報などを「キー＝値」の形式で保存する拡張子が「properties」のファイル）の文字エンコーディングはISO 8859-1を使わなければいけないことになっています。 ISO 8859-1の符号表からもわかるように、ISO 8859-1で扱える文字の種類はごくわずかで、世界中の文字を定義するUnic
bleu-bleut 2016/09/26
Article

charcode
リンク
漢数字が数字順にソートされない理由を調べてみた - give IT a try
はじめに：「なぜ漢数字は数字順に並ばない！？」先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。（執筆時点で50件以上）「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。いや、もちろんそれはわかってるんです。問題は「そもそもなんで数字順に文字コードを振らなかったの！？」ということです。感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」
bleu-bleut 2015/02/09
UTF-8は部首画数順で並んでいるから。

Article

programming

charcode
リンク
Twitter時代の文字の数え方 | 配電盤
入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」（任意の文字からなる0から3文字）のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記：javascript – でBMP以外のUnicode文字をきちんと扱う（404 Blog Not Found） JavaScriptでは、文字列strの長さをst
bleu-bleut 2013/03/31
Article

charcode

js

_lib
リンク
1