WordPressに書いたところで反響がないのはわかっているので、いずれなろうに記事を立てようか。
まぁ、とりあえずここに書いておこうぜ。
まず、なろうからのテキスト集めについて書こうと思う。
ncode(小説ID)が数字なら連番アクセスするだけなのだけれど、ncodeは変な文字列でできているためそういうことができない。
まずはncodeのリストを作り、それから実際の小説を集めないといけない。
1,ユーザ1から順番に各ユーザの作品リストのアクセスしncodeを収集していく。ユーザIDは番号なので機械的にアクセス可能
2,収集したncodeすべてに対してアクセスして本文を収集する。前文や後書きは対象外。
収集は全部rubyで書いたプログラムで実施。
ただ、理屈は簡単だけど量が膨大なため数週間ぐらいかかっています。
アクセスにもwaitいれないといけないので。
しかし集めてみると、ゴミが多い次第。
冗談抜きで一文字という作品があります。(「あ」しかない作品がほんとうにある)
200文字以上という制限があるけど、一回投稿後に消したのだと思わる。
全データを対象に解析したと入っても、あきらかなゴミは消したほうがいい。
ということで、本文が100文字以下の作品は削除しました。
たしか140かそこらありました。
それを除いた作品数は、393,736作品。
文字数は総計11,720,660,192文字。
なお、この文字数には「改行タグ」「ルビタグ」などが入ってしまっているので、なろうの小説情報ページに表示される文字数より少し多めです。