ユニコード【unicode】
Unicode
Unicodeとは、プラットフォームやプログラム、言語などに依存しないように、世界中の文字に一意な数値を与える文字コードである。
Unicodeは、大手のコンピュータメーカーが参加して設立された非営利団体のUnicodeコンソーシアムによって策定された。
現在では、XMLやJavaのような技術で標準として採用されている。また、より洗練されてISO/IEC 10646で標準化された。
Unicodeでは、それぞれの文字をコードポイントと呼ばれる値で定義する。この値は、当初は16ビットで納めることを目標に開発されていたが、それでは足りないことがはっきりしたために、現在では、サロゲートと言われる手法を導入し、16進数値で10FFFFまでが使用可能になっている。
参照リンク
Unicode Home Page - (英文)
Unicode 関数
導入
Unicode をサポートします。警告 |
この拡張モジュールは現在開発中のものであり、まだ一般には公開されていません。 |
要件
» ICU 3.4 あるいはそれ以降のバージョンが必要です。インストール手順
まずはじめに ICU をダウンロードしてインストールします。 例 2382. Unix での ICU のインストール./configure --disable-threads --enable-extras --enable-icuio --enable-layout make && make install
それから、最新の PHP をチェックアウトして、 --with-icu-dir=<dir> オプション付きで configure します。<dir> には ICU をインストールしたディレクトリを指定します。 ICU を標準的な場所にインストールした場合は、 ディレクトリを明示的に指定する必要はありません。
実行時設定
php.ini の設定により動作が変化します。表 314. Unicode 設定オプション
名前 | デフォルト | 変更の可否 | 変更履歴 |
---|---|---|---|
unicode.fallback_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.from_error_mode | "2" | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.from_error_subst_char | "3f" | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.http_input_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.output_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.runtime_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.script_encoding | NULL | PHP_INI_ALL | PHP 6.0.0 以降で使用可能です。 |
unicode.semantics | off | PHP_INI_PERDIR | PHP 6.0.0 以降で使用可能です。 |
PHP_INI_* 定数の詳細および定義については 付録 G. php.ini ディレクティブ を参照してください。
以下に設定ディレクティブに関する 簡単な説明を示します。
- unicode.output_encoding string
- 出力用のデフォルトエンコーディング。
定義済み定数
以下の定数が定義されています。 この関数の拡張モジュールが PHP 組み込みでコンパイルされているか、 実行時に動的にロードされている場合のみ使用可能です。表 315.
定数 | 値 | 説明 |
---|---|---|
U_INVALID_STOP | 0 | 無効な文字が現れた時点で停止します。 |
U_INVALID_SKIP | 1 | 無効な文字は読み飛ばします。 |
U_INVALID_SUBSTITUTE | 2 | 無効な文字を置き換えます。 |
U_INVALID_ESCAPE | 3 | 無効な文字をエスケープします。 |
目次
- i18n_loc_get_default — デフォルトのロケールを取得する
- i18n_loc_set_default — デフォルトのロケールを設定する
- unicode_encode — unicode 文字列のエンコーディングを設定する
- unicode_semantics — unicode 機能が使用可能かどうかを調べる
Unicode
Unicode (ユニコード)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/08/01 16:13 UTC 版)
「ジャワ文字」の記事における「Unicode (ユニコード)」の解説
2010年のUnicodeバージョン5.2で、基本多言語面のU+A980-A9DFに追加された。文字の並び順はhanacarakaではなく、インドの伝統的な順序になっている。 Javanese 0 1 2 3 4 5 6 7 8 9 A B C D E F U+A98x ꦀ ꦁ ꦂ ꦃ ꦄ ꦅ ꦆ ꦇ ꦈ ꦉ ꦊ ꦋ ꦌ ꦍ ꦎ ꦏ U+A99x ꦐ ꦑ ꦒ ꦓ ꦔ ꦕ ꦖ ꦗ ꦘ ꦙ ꦚ ꦛ ꦜ ꦝ ꦞ ꦟ U+A9Ax ꦠ ꦡ ꦢ ꦣ ꦤ ꦥ ꦦ ꦧ ꦨ ꦩ ꦪ ꦫ ꦬ ꦭ ꦮ ꦯ U+A9Bx ꦰ ꦱ ꦲ ꦳ ꦴ ꦵ ꦶ ꦷ ꦸ ꦹ ꦺ ꦻ ꦼ ꦽ ꦾ ꦿ U+A9Cx ꧀ ꧁ ꧂ ꧃ ꧄ ꧅ ꧆ ꧇ ꧈ ꧉ ꧊ ꧋ ꧌ ꧍ ꧏ U+A9Dx ꧐ ꧑ ꧒ ꧓ ꧔ ꧕ ꧖ ꧗ ꧘ ꧙ ꧞ ꧟
※この「Unicode (ユニコード)」の解説は、「ジャワ文字」の解説の一部です。
「Unicode (ユニコード)」を含む「ジャワ文字」の記事については、「ジャワ文字」の概要を参照ください。
- Unicodeのページへのリンク