ASCII範囲内の文字はASCIIコードと完全に一致する 第2バイト〜第4バイトは必ず10…ではじまり,第1バイトのビットパターンとは重ならないようにしてある. この工夫により,もしも伝送誤りが起こったりした場合でも,その誤りの影響が1文字の中に収まるようになっている. ストリームを読み進めると数バイト先には10以外ののパターンがきているはずで,底が次の文字の先頭バイトだとわかる. 1バイトだけ覗いてみてもいろいろわかる 0ではじまっていたら→ASCII範囲内の文字で1バイトで表される文字 10ではじまっていたら→マルチバイト文字の第2バイト〜第4バイトのどれか 110ではじまってたら→2バイトの先頭文字 1110ではじまってたら→3バイトの文字の先頭文字 11110ではじまってたら→サロゲートペアで4バイトの文字 サロゲートペアはUTF-16でエンコードする場合, サロゲートペアの参照す