LivedoorBlog との AtomPP のやりとりで Not Well-Formed な XML が含まれる件について
LivedoorBlog に存在する特定のエントリに対して設定された service.edit のエンドポイントに対し GET を投げて XML ドキュメントを取得すると時々 Not Well-Formed な XML が返ってきます。
具体的には当該ポイントでの LivedoorBlog が発行するフィードには必ず
<dc:subject/>
という要素が含まれているのですが時々 namespace 宣言が抜け落ちます。
<entry xmlns="http://purl.org/atom/ns#" xmlns:dc="http://purl.org/dc/elements/1.1/">
と通常はこうなのですが時々これが
<entry xmlns="http://purl.org/atom/ns#">
となります。
むぅ。
また参った事にライブラリ内部での XML の取り回しに DomDocument を使ってしまったため, この手の Not Well-Formed なドキュメントに対して打つ手が無かったり。DomDocument オブジェクトに変換する前に回避コードを入れて逃げていますが, LivedoorBlog に限らず非整形な XML が行き交う可能性はある訳でこの問題は結構アタマが痛い。
出口は厳格に作って入り口はルーズに作るのが対応策かと思うのですが, ルーズに受ける有効な手段というのは力技以外だと少ないような気がします pq
まー PHP で XML を吐かせる場合は出来るだけ整形式が保証されるよう何らかのライブラリなりを通しましょう。
DomDocument がいいですよー 読むには辛いけど作るには便利。