小説家になろうのテキストデータを全部さらってみた

WordPressに書いたところで反響がないのはわかっているので、いずれなろうに記事を立てようか。

まぁ、とりあえずここに書いておこうぜ。

 

まず、なろうからのテキスト集めについて書こうと思う。

 

ncode(小説ID)が数字なら連番アクセスするだけなのだけれど、ncodeは変な文字列でできているためそういうことができない。

まずはncodeのリストを作り、それから実際の小説を集めないといけない。

 

1,ユーザ1から順番に各ユーザの作品リストのアクセスしncodeを収集していく。ユーザIDは番号なので機械的にアクセス可能

2,収集したncodeすべてに対してアクセスして本文を収集する。前文や後書きは対象外。

 

収集は全部rubyで書いたプログラムで実施。

ただ、理屈は簡単だけど量が膨大なため数週間ぐらいかかっています。

アクセスにもwaitいれないといけないので。

 

しかし集めてみると、ゴミが多い次第。

冗談抜きで一文字という作品があります。(「あ」しかない作品がほんとうにある)

200文字以上という制限があるけど、一回投稿後に消したのだと思わる。

全データを対象に解析したと入っても、あきらかなゴミは消したほうがいい。

ということで、本文が100文字以下の作品は削除しました。

たしか140かそこらありました。

 

それを除いた作品数は、393,736作品。

文字数は総計11,720,660,192文字。

 

なお、この文字数には「改行タグ」「ルビタグ」などが入ってしまっているので、なろうの小説情報ページに表示される文字数より少し多めです。

SNSでもご購読できます。

コメントを残す