[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

unicodeに関するtakunamaのブックマーク (12)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • 「絵文字に平等をサポートしてください」人種差別の指摘にゆれるUnicode 

    takunama
    takunama 2014/10/07
    難しいねぇ。
  • 「Unicode 6.0」が策定、絵文字が国際標準に

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
    takunama
    takunama 2010/01/30
    "IVSは、漢字を表すUnicodeの直後に、Variation Selectorと呼ばれるコードを付加し、漢字の異体字を表現する方法である" "Unicode側は、これらの異体字を表現する手法として、IVSの拡張を逆提案している"
  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
    takunama
    takunama 2009/12/11
    "新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ"
  • 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係

    絵文字の収録をめぐって、国際規格で大論争--「Google提案」を振り返る 皆さんこんにちは、面白くてタメになる(?)文字コード漫談の時間がやってまいりました。2月からとびとびで書いてきた絵文字の報告も、いよいよ今回が最終回。どうかよろしくお付き合いください。 さて、前回はどこまでお話ししたのでしたっけ。日絵文字をUnicodeに収録しようとするGoogleAppleによる提案(以下、主導者の名をとりGoogle提案と略)ですが、去年の12月にパブリックレビューが開始されると、Unicode-MLで時ならぬ非難の嵐が吹き荒れたこと。そこでの反発を一言で言い表すなら、日文化に強く依存する絵文字を単純に国際規格に収録しようとした点にあったこと。 なぜなら国際規格の審議は参加各国の総意で成り立っており、特定の国しか便利に使えない文字を収録することは、当然強い反対をうけるからです。さらに

    絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
    takunama
    takunama 2009/08/12
    "文字にある程度の汎用性があることは確かだけれど、時として特定の文化(コンテキスト)に依存せざるを得なくなるのも、(中略) 文字そのものの性質であるということです" "汎用性を追い求めても、おのずから限界が"
  • State of Text Rendering

    State of Text Rendering By Behdad Esfahbod <behdad behdad org> Last major update: January 18, 2010 Last minor update: December 18, 2012 Disclaimer At the time of writing the initial version of this paper, the author was working for Red Hat's Desktop team and has been involved with GNOME and Fedora for a long time. He has been a developer and/or maintainer of many modules discussed in this paper at

  • 絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

    普通では考えられない優遇策--「Google提案」を振り返る 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

    絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”
  • Moving to Unicode 5.1

    Hey—we've moved. Visit The Keyword for all the latest news and stories from Google

    Moving to Unicode 5.1
    takunama
    takunama 2008/05/07
    "Just last December there was an interesting milestone on the web. For the first time, we found that Unicode was the most frequent encoding found on web pages, overtaking both ASCII and Western European encodings—and by coincidence, within 10 days of one another."
  • Winnyネットワークに広がるRLO利用の拡張子偽装手法 | スラド

    4月13日の日経ITpro記事によると、Winnyネットワークにおいて、Unicodeの制御文字 U+202E(Right-to-Left Override;RLO)を用いて拡張子を偽装したファイルが広まっているそうだ。来はアラビア文字など右から左に記述する文字のために書字方向を変更するための制御文字だが、ファイル名の途中に挿入することで、画面に表示されるファイル名の右端に来る文字列を".txt"など無害な拡張子に見せ掛け、これにアイコン偽装などを組み合わせてexeファイルであることを偽装するようだ。この手法では、もはや単純なファイル名の目視だけでは、exeファイルかどうかの判別ができない。 ファイル名にUnicodeを許容するファイルシステムであれば、実行可能ファイルとならないまでも、同様の問題が発生するものと思われる。(例:奥村先生によるMac OS X上での実験) さらに記事中で紹

  • Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro

    ボットネット研究で知られるNTTコミュニケーションズの小山覚氏。小山氏の新しい研究対象は「Winnyネットワークの実態」だ。小山氏は「悪意のある人物がワームを撒き散らしているWinnyネットワークは『真っ黒』としか言いようがない」と指摘する。小山氏にWinnyネットワークに関する最新事情を聞いた(聞き手は中田 敦=ITpro)。 小山さんは最近,Winnyネットワークの調査を始められているそうですね。 これは,4月25日の「RSA Conference 2007」で話そうと思っていた内容なのですが,私が出るセッションは,ラックの新井悠さん,JPCERTの伊藤友里恵さん,マイクロソフトの奥天陽司さんというセキュリティ界の論客が揃ったパネル・ディスカッションなので(モデレータは日経パソコン副編集長の勝村幸博),私だけが長い時間発表するのは無理そうです(笑)。そこで,今回のインタビューで全部お話

    Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro
  • Unicode 5.0:言語の分裂に挑み続けるUnicodeの新バージョン | OSDN Magazine

    Unicode Consortiumの究極的な目的は、人間界で用いられているすべての言語をコンピュータ上で再現するための標準を定めることだ。こうした目的を完全に達成するのはしばらく先のことになりそうだが、およそ3年をかけた作業の成果としてリリースされるUnicodeバージョン5.0の登場は、目標達成に向けて更なる一歩を前進させることになるだろう。こう説明するのは、同標準の創設者の1人でありUnicode委員会の代表を務めるMark Davis氏である。最終的な公開日が至近に迫った先日、Davis氏は多忙な中時間を割き、Unicodeの開発過程と克服すべき課題について語ってくれた。 Unicodeによるエンコードは、キャラクタとそのプロパティおよび文書による説明という3つの要素で構成されていると、Davis氏は説明する。ただし誤解されがちだが、ここで言うキャラクタとは特定のフォントセット内で

    Unicode 5.0:言語の分裂に挑み続けるUnicodeの新バージョン | OSDN Magazine
  • 1