第67回Ruby関西の勉強会です。 RubyからAWSを使おうということでSDKの紹介や、2Tier-Architectureなどの紹介をしています。Read less
--この記事は約 4 分で読めます。--こんにちは、きるいっとです。 いま話題のKindle IT技術書の人気本セール情報です! 本日は、ただいまセール中の「Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 」を紹介します。 『Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 』 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 05/10 現在、お値段、¥3,218 → ¥2,980(7%OFF) となっています。 本書の概要 この本のおおまかな説明 Webクローラーの作り方をディープに解説! Webから目的の情報を収集するクローラープログラムの作り方を解説。 Rubyライブラ リを駆使して、巡回・解析機能を作成します。TwitterやFacebookのデータ収集や、株価や企業情報の収集など、さまざまな処理に対応したサンプ
Rubyでつくるクローラー 1. Rubyでつくるクローラー 2. 自己紹介 山下 弥香(やました みか) 休日は、Co-Edoで趣味の iOSアプリ開発をしていま す。 Facebook https:// www.facebook.com/ mika.yamashita.357 好きなもの:スープカレー 3. 一日レジ 1/10に初めてつくった iPhoneアプリがリリースさ れました。 無料なので、もしよかっ たら、ダウンロードして みてください。 https:// itunes.apple.com/jp/ app/yi-rireji/ id951282820?mt=8 4. 参考図書 「たのしいRuby」第4版 高橋 征義 (著), 後藤 裕 蔵 (著), まつもと ゆきひ ろ (監修) ! 出版日: 2013/06/04 出版社: SBクリエイティブ ! http://www.a
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: 佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2015/03/02メディア: Kindle版この商品を含むブログを見る 昨年の8月末に出版された「Rubyによるクローラー開発技法」ですが、ついに電子書籍化されました。Kindleや楽天のkobo、紀伊國屋書店のKinoppyと主要なところは押さえている模様です。達人出版会さんからも出ないものですかねぇ。 今まで、何度も電子書籍化されないのと聞かれましたが、その度に解りませんと答えていました。電子書籍化や書名などは、ほぼ出版社側の意向によって決まるので著者としては、ほぼ決定権がない事項になります。そんな中で、ようやく電子書籍化して嬉しい限りです。願わくば、紙の本の発売日と同時に電子書籍化されているのが標準になってものですね。 また、紙の方の本も依然好調
Exhibiの内部的な話を書こう書こうと思って忘れてた。とりあえずMechanizeについて。 Mechanizeはスクレイピングを楽にしてくれるRubygemsです。ExhibiではMechanizeを使ったスクレイピングのRakeタスクを作成し、それを日次で実行することで、各美術館のサイトから展覧会情報を抽出しています。抽出した情報がDB内に存在していれば無視。存在しないのならDBに追加。こういうクローリングに関しては、ちょうど時同じくしてRubyのクロール入門本が去年出たんですけど未読です。技術的な話のみならず、人様のサイトへ機械的にアクセスする際のお作法的なことも載っているらしく、いつかは読みたいところ。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例posted with amazlet at 15.02.07るびきち 佐々木 拓郎 SBクリエイティブ 売り
はじめに これは クローラー/スクレイピング Advent Calendar 2014 - Qiita の9日目です 8日目 id:dkfj さんの クローラー/スクレイピングのWebサービス 「Kimono」のユースケース - プログラマになりたい でした 9日目:ccc_privacy_bot を支える技術 先日書いたエントリがめでたく580はてブいきました。 気づいたらGIGAZINEさんにも取り上げてもらえました。 ファッ!? / “Tカードが個人情報を提供する企業を通知してくれる「Tカード個人情報提供先新着bot」 - GIGAZINE” http://t.co/8j0JNPylod— sue445 (@sue445) 2014, 11月 20 このボットで使ってるスクレイピングとクローリングのTipについて解説します ソースコード ソースコードはgithubに公開しています。
クローラー/スクレイピング Advent Calendar 2014の5日目です。あと、全部俺Advent Calendarも開催中です。 Webからデータを取るためにスクレイピングする際は、Rubyを使うことが多いです。理由としては、Nokogiriが手軽で簡単だからの一点です。Rubyによるクローラー開発技法でも随所に紹介しています。随所というレベルではなく、手を変え品を変えNokogiriでデータ取っているだけじゃねぇかと批判を受けるのではと、懸念するレベルかもしれません。Nokogiriは手軽で便利なので、ちょっと使い方を覚えておくだけで楽できるケースが一杯あります。ということで、Nokogiri入門編です。 Nokogiriの使い方 Nokogiriは、Rubyで実装されたHTML/XMLの構文解析器(パーサー)です。Rubyの中では、デファクト・スタンダードと言っても差し支えが
Rubyによるクローラー開発技法の発売から2ヶ月くらいが経ちました。ニッチすぎるとの予想を覆し、かなり好調な売れ行きです。既に2回目の増刷を迎えております。筆者としては、ありがたい限りです。最近、いろいろな方が書評を書いてくれています。自分用の整理を兼ねて、ピックアップしてみました。是非、ご覧ください。 書評 沢山の書評ブログを頂いています。どれも参考になります。抜けているものも多数あると思うので、指摘して頂ければ幸いです。 書評:Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 - Togetterまとめ @k5okadaさんによるTweetのToggeterまとめ。学ぶべきことの定義がきっちりとされていて、それに沿って行くと効率が良いとのお言葉頂きました。執筆の際に編集者さんに、何に対しての説明なのか常に意識して書けと、繰り返し指摘されていました。この書評を読んで、
なんだか胸がいっぱいで放心状態なのですが、 とりあえず体調崩さずに終われてほっとしています。 私にとって2回めのRubyKaigiでした。 前回のRubyKaigi2013は、RailsGirls割引があったので、 「どれどれどんなもんだろう?」という気持ちで参加しましたところ、 ほとんどのセッションを理解できずに終わったので、 「来年はも少しわかるようになりたいなぁ」などと思っていたのですが、 いざRubyKaigi2014のearly birdチケットが発売される段になり、 登壇者の皆さまのプロフィールなどを拝見したりしてイメトレしてみたりしたのですが、 これがどうにも18,000yen分、理解できる自信がない。なさけない。 でもRubyistの皆さんにお会いしたい。。 そんなときに、スタッフと言う選択肢があることを教わり、 一晩(だったと思う)考えて、翌朝応募しました。 スタッフとい
Rubyを使ってWebサイトから情報を取得する、いわゆる「クローラー」の開発方法を解説する専門書「Rubyによるクローラー開発技法」が発売されるそうで、話題となっています。現在予約受け付け中で発売日は8月25日。 本の内容は、内容紹介によると「汎用的なクローラーの作成から、ブログ・Twitter・Facebookなどターゲットごとの活用法までを解説。クチコミの取得や、企業・株価情報、為替情報・金融指標の取得といったものまで、さまざまな情報を収集する自分なりのクローラーが作成ができます。」という興味深い内容。 まだ目次などはありませんが、作者の一人である佐々木拓郎氏は、「Rubyで始めるWebスクレイピング」というスライドを公開していることでもお馴染み。 はてブ見てたら、アマゾンに掲載されててビビった。発売日決まったんだ。 / “http://t.co/GFzFpNuEte: Rubyによる
るびきちさんとの共著である「Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例」が今週末(8/23,24)くらいから、本屋さんの店頭に並ぶようです。経緯や執筆スタイルなどは別途まとめたいと思いますが、ようやくここまで辿り着けたというところです。 AmazonとSBクリエイティブさんのページを見ても、8/21現在では詳細の目次が無いようです。手元にあったデータを貼り付けておきますので、参考にしていただければと思います。 Rubyによるクローラー開発技法 目次 Chapter 1 10分クローラーの作成 1-1 イントロダクション 2 1-1-1 クローラーとは 2 1-1-2 Rubyとは 2 1-2 クローラー 「GNU Wget」3 1-2-1 Wgetとは 3 1-2-2 インストール 4 1-2-3 Wget の簡単な使い方 7 1-2-4 クローラーとしての Wg
前回に引き続き、第2回Webスクレイピング勉強会@東京に参加し、発表もしてきました。今回は、ブログやサイトから本文部分をどうやって抽出するのかというテーマです。ブログの本文抽出とは、ヘッダーやフッダー、サイドメニューなど情報として不要な部分を排除して、本文部分だけを抜き出す手法です。HTMLのタグを解析するルールベースと、自然言語処理を利用して本文らしさを抽出するヒューリスティックな方法の2つについて、簡単に説明しています。 発表資料 サイト/ブログから本文抽出する方法 from Takuro Sasaki 解説と質疑応答 そもそもブログやサイトの本文を抽出する目的としては、2つくらいあるのではと思います。1つは、その記事そのものを読みたい場合。もう1つは、記事を統計解析などの元データとして利用したい場合があると思います。前者の場合は記事全文がないと意味がないし、後者は必ずしも記事全文は必
勉強会やスライドで紹介していましたが、Ruby×クローラーという題材で、『Rubyによるクローラー開発技法』という本を書かせて頂きました。RubyとEmacsの鬼であるるびきちさんとの共著です。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型本この商品を含むブログ (1件) を見る この本を書いた理由 そもそものキッカケは、るびきちさんのエントリーにある通り、SBクリエイティブの編集者さんが、クローラーの作成経験のある人を探していて、私の書いた「オープンソースのRubyのWebクローラー"Anemone"を使ってみる」を読んで打診してくださったというのが始まりです。 私自身も、Webからデータを収集して分析するということは、趣味として長年やってきました。一
ここ半年ほど、Rubyでクローラーを作る本を書いていました。そんなこともあり、前回JAWSUG三都物語に参加した時に、アジャイルウェアの川端さんにRuby関西で話さないかとお誘いを受けました。もともとRubyのコミュニティに興味あったので、参加させて貰いました。 http://rubykansai.doorkeeper.jp/events/1316062nd Ruby/Rails勉強会@関西 #rubykansai - Ruby関西 | Doorkeeper 発表資料 Rubyで作るクローラー Ruby crawler from Takuro Sasaki 他の方の発表 RailsGirlsOsakaに参加して思ったこと RailsGirlsにスタッフとして参加した@to_uedaさんの感想。RailsGirls面白そうです。次は京都の企画があるので、興味がある人はチェック。 Rails
久々に@sferikによるTwitterのAPIを使ってみると、いつの間にかTwitter Streaming APIも取得できるようになっていました。Twitter Streaming APIは、APIの中でも異色のもので、ひたすらパブリック・タイムラインを取得するといったものです。4年ほど前に出た当初は、かなり話題になって色々な人がタイムラインを取得して分析していました。かく言う私も、AWSのEC2上で動かして、1年ほどTwitterの呟きを取得して遊んでいました。ちょうど4年前はワールドカップがあり、日本の試合がある度にTweet量が爆発して、プログラムも爆発していました。細かい数字は忘れましたが、無料で使える数%に絞ったAPIのうち日本語だけに絞っても、月数千万件レベルでデータがあったと思います。 そんなこんなのTwitter Streaming APIですが、当時はサードパーティ
Mac OSのバージョンアップする度に出しているような気がするのが、RubyのHTTPS通信でのエラー。ルート証明書が見つからなくてエラーがでます。 /.rvm/rubies/ruby-2.0.0-p353/lib/ruby/2.0.0/net/http.rb:918:in `connect': SSL_connect returned=1 errno=0 state=SSLv3 read server certificate B: certificate verify failed (OpenSSL::SSL::SSLError) そんな場合は、まずはRubyの慌てず騒がずNet::HTTPがどこに証明書を探しにいっているかを確認します。 $ ruby -ropenssl -e "p OpenSSL::X509::DEFAULT_CERT_FILE" "/etc/openssl/cert
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く