HTML文書を読み込んでパースするときに、今までは正規表現でやっていたんですが、 処理がどうしても面倒な感じになるし改変にも弱いので、DOMでやることにしてみたらば見事に嵌るなど。 読み込む文書がXMLだと問題ないんですが、HTML、特にShift-JISで書かれた文書だとなぜか文字化け。 色々と検索した結果、多分これで行けると言うのにたどり着いたのでメモ。 参考 DOM拡張モジュールでHTMLをパースする【PHP】 – Programming Magic 文字化けさせないためのポイント 読み込む文書をUTF-8に変換しておく あらかじめ日本語文字列を数値文字参照に変換しておく 1. 読み込む文書をUTF-8に変換しておく PHPのデフォルト文字コードに合わせる、と言う意味です。 2. あらかじめ日本語文字列を数値文字参照に変換しておく よく解らなかったんですがこれが文字化けの直接できな原