小説家になろうへのクローリングについて

えー、小説家になろうからいろんな人の小説を集めてきて形態素解析して遊ぼうと計画しています。

しかしそのためにはデータを集めてこないといけなくて、その際にWEBサーバに負担をかけたらいろいろまずいわけです。

・道義的な問題

・訴えられる可能性

・アクセス遮断される

 

運営が不可能というほどのあきらかに攻撃的なアクセスを浴びせないかぎり訴訟はないでしょうが、遮断されるおそれがあります。

それに、なろうのサーバーに負担をかけるのも本意ではありません。

かといって、あまりにのんびりすると巨大なサイトゆえ一生かかってもデータが収集できません。

どの程度のアクセスなら負担にならないかを考えてみよう。

 

http://doda.jp/DodaFront/View/JobSearchDetail/j_jid__3001209434/-tab__jd/

 

ほら、ここでなろうで求人してるじゃろ?

ここに月間14億PVって書いてあるじゃろ。

ってか、全然関係ないけど平均年齢若いな…すげ~本当にベンチャーって感じ。

運営者が若いだろうと思っていたけど、まさかこんなに若いとは。

楽しそうだな~

 

っと、本題に戻ろう。

 

単純に平均してみよう。

月間14億PV。

一日あたり約4666万PV。

一時間あたり約194万PV。

1秒辺り約540PV。

 

なろうのサーバーは秒間540PVに耐えているということになる。

ピークではもっと来るだろうから、たぶん1000PV以上いけるんだろう。

とりあえず安全サイドでみて、540PV/secとする。

ここから考えよう。

 

秒間540アクセスしたらもちろんアウト。

かといって、絶対に大丈夫であろう秒間0.01アクセス(100秒に一回アクセス)なんて絶対終わらない。

どのくらいならいいだろうか・・・

こういうのは明らかな基準がないから困る。

実際サーバー管理者も酷いクローラーで苦労しているところはあるようだ。

 

一旦、自分がサーバー管理者になったと仮定してどれくらいの負荷に目くじらを立てるか考えてみよう。

100%:ログを見た瞬間ブチ切れて怒声を上げるレベル

50%:「マジでふざけんな」とやっぱり切れるレベル

20%:「なんか邪魔だな、こいつ・・・」と切れないけど気になるレベル

10%:「気になるなぁ」

5%:「あ、なんかアクセス頻度高い人がいる。なんだろう」

1%:(埋もれて気がつかない)

 

1%なら大丈夫かな・・・

秒間5アクセスぐらいなら負担にもならないだろうか・・・

なにか弊害があったらやめるけど。

SNSでもご購読できます。

コメントを残す