この記事は約1分で読めます。
本文は約660文字です
FANZAのajax読み込みページのスクレイピング

FANZAのランキングページは100位まであります。
しかし、表示されるのは1位~20位までで、ページの一番下に行くとjavascriptのajaxを使って20位ごとに動的にランキングが追加されるようになっています。
ajaxを使った動的サイトの場合、1ページ目を表示しても20位分しかデータが取得できないので、スクレイピングするのが一気に面倒になります。
この記事の内容
ajaxで読み込むページのURLを調べる
調べ方は、javascriptを直接見てもいいですが、検証ツールを使って読み込み先のURLを確認するのが簡単です。
検証ツールは、chromeの場合はF12で起動できます。
Networkタブを表示して、追加読み込み時にアクセスしているページを確認できます。
ajaxで読み込む先のページのURLがわかればそれを直接読み込むことでスクレイピングすることができます。
javascriptで生成された動的サイトは意外と少ない
javascriptで生成されたページの場合は、javascriptを動かさないとコンテンツを取得することは出来ないので、ヘッドレスブラウザが必要になります。
しかし、javascriptで作られたアダルトサイトは意外と少ないです。
既にあるサイトを完全に作り直すのも大変だからだと思います。
まとめ
付加価値を与えられる情報をスクレイピングをすることで得られるのであれば、積極的に取り入れた方がよいです。