You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
各種ブログのRSSのようなWeb上のXMLリソースをdom4jやJDOMなどで読み込むと、パースに失敗するケースがとても多いです。というのも、こういうXMLは基本的に、validであることをあまり期待できないからです(エスケープ漏れがあったり、"<!--"で始まったコメントの直後に"-"が来たりする[追記: これはinvalidな例じゃなく非well-formedな例でした])。ひどいときはwell-formedですらないこともあります。 こういう問題がある場合、HTMLであれば、MayaaやS2JSFでも採用されているNekoHTMLというライブラリを使って、エラーを出さずにルーズにパースできます。このNekoHTMLを、HTMLではなくXMLに適用する方法を調べたので、メモしておきます。 パーサを以下のような構成にすると、XMLの解析に適した状態になります。 NekoHTML側ではなく
21日(米国時間)、Java Mozilla Html Parserの最新版となるJava Mozilla Html Parser 0.2.0が公開された。Java Mozilla Html ParserはHTMLデータをパースしてJavaドキュメントオブジェクトに変換するためのパッケージ。Mozillaで採用されているHTML Parserに対するラッパパッケージになっており、Webブラウザと同じクオリティレベルでのパースが可能という特徴がある。 0.2.0はパフォーマンスの改善が実施されているほか、エンコーディング関連のバグが修正されている。Java Mozilla Html ParserはもともとDapperにおける開発の一部として取り組まれたもの。ラッパライブラリでありすべてJavaで開発されたわけではないのでビルドやデプロイは若干手間だが、WindowsやLinux、Mac OS
[いがぴょんの日記v2,diary,igapyon,HTML,Parser,Java,パーサ] Javaで実装された HTML Parser について オープンソースのもの限定で幾つか調べてみました。 広告: BlancoEclipseDistribution 最新安定版 (3.4-20080626) リリース 07/04 最新版の Eclipse である Eclipse Classic (SDK) 3.4 一式 (日本語化済み) が Windowsインストーラを用いてインストールできます。 BlancoEclipseDistribution は Eclipseディストリビューションのひとつに該当します。
HTMLParserプロジェクトは14日(現地時間)、Java用のHTMLパーサ・ライブラリであるHTMLParserのバージョン1.5を公開した。HTMLParserは、Javaを用いてHTMLの構文解析プログラムを作成するためのライブラリで、高速でシンプルな実装を提供する。 今回公開されたバージョン1.5では、1.4から以下の点が変更された。 SAXパーサの追加 HTTP接続のためのhttpパッケージの追加 CDATAを取り出すためのparseCDATAメソッドをLexerクラスへ追加 Translateクラスをhtmllexer.jarから分離 Windows用バッチファイルの修正 build.xmlファイルの修正 LinkProcessorを非推奨にし、Pageクラスへ移行 lexer.nodesパッケージを廃止し、ノード関連の実装クラスはnodesパッケージへ追加 tags.Ta
The ShaniXmlParser projectは8日(米国時間)、ShaniXmlParserの最新版となるShaniXmlParser version 1.4を公開した。ShaniXmlParserはJavaで開発されたXML/HTML DOM/SAXパーサ。不正なフォーマットであってもパースできる点に特徴がある。 ShaniXmlParserはGNU GENERAL PUBLIC LICENSE Version 2のもとで公開されているオープンソースソフトウェア。ShaniXmlParser 1.4における主な変更点は次のとおり。 メモリ使用の改善 SoftReferenceキャッシュに関するドキュメントを削除 DOM 3 Core Test Validation suite試験パス数: 649(722のうち) DOM 2 Core Test Validation suite試験
Mozilla Java Html Parser is a Java package that enables you to parse html pages into a Java Document object. The parser is a wrapper around Mozilla's Html Parser , thus giving the user a browser-quality html parser. This project is hosted at sourceforge.net This parser was development as part of Dapper . please visit us at http://www.dapper.net The HTML parser is now being used in a full scale pr
The Jericho HTML Parser projectは11日(米国時間)、Jericho HTML Parserの最新版となるJericho HTML Parser 2.3を公開した。Jericho HTML Parser(以降、JHP)はJavaで実装されたHTMLパーサライブラリ。不正なフォーマットのHTMLファイルであってもパースが可能なほか、HTMLフォームの高度な操作機能などが提供されている。 JHPはGNU LESSER GENERAL PUBLIC LICENSE Version 2.1のもとで公開されているオープンソースソフトウェア。2.3における主な変更点は次のとおり。 Source.fullSequentialParse()においてキャッシュが空でなかった場合にIllegalStateException例外をスルーせず、自動的にキャッシュをクリアするように処理
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く