'save(保存する)' + 'blog(ブログ)' の造語。
乃木坂46のメンバーのブログを1から保存したかったのですが、人力でやるのは明らかに非効率であるため、自分のために作りました。
メンバーが卒業してしまうため過去のブログのアーカイブを取りたい際にでもご使用ください。
在籍メンバーの整理をしました(2018.12.6)
python main.py -n 好きなメンバーのフルネーム(ex. 西野七瀬)
で実行するだけ。
memberフォルダの中に好きなメンバーのフォルダが作成され、日付ごとのブログをtxt形式で、そのブログで登場した画像もまとめて保存します。
- 収集漏れ
- 1日に複数回ブログを更新している時に、最初のブログの文章が保存できていませんでした。
- また、それに際して画像の保存も一部うまくいっていないようです。取得はできているので、保存処理に該当するコードを修正すればうまくいく…はず。
- 2ヶ月以上ブログの更新を行なっていないメンバーのブログ収集ができません。
- 画像ファイルの選別
- 昔の記事で絵文字を多用するメンバーがいます。基本的にgif形式のファイルを画像として貼らないことから、絵文字を排除するため、gifは全て除きました(例外は無視ですがおそらくありません)。
- 絵文字はgifだけではなくjpegも存在しますが、本来取得したい画像もjpegが多く、それらとの選別は面倒なため割愛しました(あなたの推しが絵文字を多用していないことを願います)。
- HTTPのアクセスエラー
- メンバーによって頻度は異なりますが、一定の収集の後にHTTPのアクセスエラーを起こすことがあります。