小説家になろう解析

「小説家になろう」の頻出名詞を調べてみた

なろうのデータに対してmecabで形態素解析して名詞をカウントしてみた。

ただ40万ぐらいの小説があって全部やっているとそうとう時間がかかるので、

一旦は1万の小説に対してやってみた。

では、よく使われている名詞を発表!

1290874    の:名詞,非自立,一般,*,*,*,の,ノ,ノ
727450    こと:名詞,非自立,一般,*,*,*,こと,コト,コト
630247    ん:名詞,非自立,一般,*,*,*,ん,ン,ン
569707    よう:名詞,非自立,助動詞語幹,*,*,*,よう,ヨウ,ヨー
490601    それ:名詞,代名詞,一般,*,*,*,それ,ソレ,ソレ
468914    俺:名詞,代名詞,一般,*,*,*,俺,オレ,オレ
436160    私:名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
327227    何:名詞,代名詞,一般,*,*,*,何,ナニ,ナニ
281474    さん:名詞,接尾,人名,*,*,*,さん,サン,サン
279706    人:名詞,接尾,助数詞,*,*,*,人,ニン,ニン
259885    事:名詞,非自立,一般,*,*,*,事,コト,コト
243834    一:名詞,数,*,*,*,*,一,イチ,イチ
213703    もの:名詞,非自立,一般,*,*,*,もの,モノ,モノ
210656    僕:名詞,代名詞,一般,*,*,*,僕,ボク,ボク
207987    自分:名詞,一般,*,*,*,*,自分,ジブン,ジブン
205860    これ:名詞,代名詞,一般,*,*,*,これ,コレ,コレ
197576    目:名詞,一般,*,*,*,*,目,メ,メ
191228    今:名詞,副詞可能,*,*,*,*,今,イマ,イマ
187076    人:名詞,一般,*,*,*,*,人,ヒト,ヒト
186752    二:名詞,数,*,*,*,*,二,ニ,ニ
183198    そう:名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソー
183020    顔:名詞,一般,*,*,*,*,顔,カオ,カオ

左が出現回数で、右が単語の情報。

「の」とか「こと」とか「俺」みたいなものが上に来てしまって、全く面白くない。

あれ~

 

ということで、今度は固有名詞だけに絞って解析してみた。

これも全てではなく1万の小説に対してのみ。

22441    日本:名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
12308    太:名詞,固有名詞,人名,名,*,*,太,フトシ,フトシ
10224    王:名詞,固有名詞,人名,姓,*,*,王,オウ,オー
9924    勇:名詞,固有名詞,人名,姓,*,*,勇,イサム,イサム
9623    アリス:名詞,固有名詞,人名,名,*,*,アリス,アリス,アリス
9250    ー:名詞,固有名詞,一般,*,*,*,*
8641    エルフ:名詞,固有名詞,組織,*,*,*,エルフ,エルフ,エルフ
8526    井坂:名詞,固有名詞,人名,姓,*,*,井坂,イサカ,イサカ
8389    マリア:名詞,固有名詞,一般,*,*,*,マリア,マリア,マリア
8242    リナ:名詞,固有名詞,人名,名,*,*,リナ,リナ,リナ
7384    聖:名詞,固有名詞,人名,名,*,*,聖,キヨシ,キヨシ
7192    悠:名詞,固有名詞,人名,名,*,*,悠,ユウ,ユー
7184    翔:名詞,固有名詞,人名,名,*,*,翔,ショウ,ショー
7107    アル:名詞,固有名詞,人名,名,*,*,アル,アル,アル
7076    亜:名詞,固有名詞,地域,一般,*,*,亜,ア,ア
6650    姫:名詞,固有名詞,人名,姓,*,*,姫,ヒメ,ヒメ
6568    ユーリ:名詞,固有名詞,人名,名,*,*,ユーリ,ユーリ,ユーリ
6008    ユウ:名詞,固有名詞,人名,名,*,*,ユウ,ユウ,ユー
5989    ハル:名詞,固有名詞,人名,名,*,*,ハル,ハル,ハル
5792    アレン:名詞,固有名詞,人名,姓,*,*,アレン,アレン,アレン
5568    美:名詞,固有名詞,人名,名,*,*,美,ヨシ,ヨシ
5512    健:名詞,固有名詞,人名,名,*,*,健,ケン,ケン
5368    詩織:名詞,固有名詞,人名,名,*,*,詩織,シオリ,シオリ
5352    龍人:名詞,固有名詞,人名,名,*,*,龍人,タツト,タツト
5083    羅:名詞,固有名詞,人名,姓,*,*,羅,ラ,ラ
4887    ヒロ:名詞,固有名詞,人名,名,*,*,ヒロ,ヒロ,ヒロ
4747    智:名詞,固有名詞,人名,名,*,*,智,サトシ,サトシ
4669    玲:名詞,固有名詞,人名,名,*,*,玲,レイ,レイ
4634    拓:名詞,固有名詞,地域,一般,*,*,拓,ツブセ,ツブセ
4587    未佳:名詞,固有名詞,人名,名,*,*,未佳,ミカ,ミカ
4515    森:名詞,固有名詞,人名,姓,*,*,森,モリ,モリ
4492    慎吾:名詞,固有名詞,人名,名,*,*,慎吾,シンゴ,シンゴ
4481    咲:名詞,固有名詞,人名,名,*,*,咲,サキ,サキ
4451    ー:名詞,固有名詞,組織,*,*,*,*
4371    アルフレッド:名詞,固有名詞,人名,名,*,*,アルフレッド,アルフレッド,アルフレッド
4365    藤堂:名詞,固有名詞,人名,姓,*,*,藤堂,トウドウ,トードー
4352    アメリカ:名詞,固有名詞,地域,国,*,*,アメリカ,アメリカ,アメリカ
4348    エル:名詞,固有名詞,人名,名,*,*,エル,エル,エル
4344    レイラ:名詞,固有名詞,人名,名,*,*,レイラ,レイラ,レイラ
4279    都:名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ
4186    ラウル:名詞,固有名詞,人名,名,*,*,ラウル,ラウル,ラウル

おおお、なんかなろうっぽい感じのイメージが出来た!

異世界転生モノだと「日本での生活は~」とか日本のことがよく引き合いに出されるので、「日本」という単語が頻出するのはとても納得できる。

「太」はなんだろうか……

名前が上手く認識されず分解されて認識されちゃったように思えるけど。

「勇」はそのまま人名?それとも勇者のことだろうか。

でもmecabで「魔王と勇者は戦った」を解析するときちんと「勇者」は認識されるんだよね。なんだろうか。

その他のカタカナはとても納得。

「アリス」「エルフ」「マリア」「リナ」……

メジャーな名前とファンタジー用語ですね。

 

今回の解析結果を↓からDLできるようにしておきます。

名詞リストDownload

固有名詞リストDownload

 

ただ、今回の解析方法だと極端な話一つの小説で100万回使っていれば、他の小説で一回も使われない単語であっても上位になってしまうという問題がある。

そのワードが使用されている「回数」ではなく「作品数」をカウントしたほうがおもしろい結果が出そう。

またプログラムをいじって試してみよう。

「小説家になろう」の文字数分布

収集したデータから100文字以下のゴミを取り除いたデータで、文字数分布を調べてみよう。

本当は200文字以上無いといけないはずだから、200文字以下は投稿後に消した作品の可能性が高い。

 

このデータを見る際には以下に注意。

1,文字数には改行タグやルビタグもカウントされてしまうので、小説家になろうの小説情報ページに出る文字数とは微妙に異なります。

例:拙作「親戚の小学生の算数の文章題がおかしい」 なろうの小説情報:5427文字 この計算の文字数:5811文字

このように1割弱ですが文字数が違います。

なので大体の目安として考えて下さい。

 

2,100文字未満の作品は取り除いでいます。

 

3,2016/5辺りに収集したデータです。もしあなたが遙かなる未来にこの記事を読んでいると、だいぶ傾向が違っている可能性があります。

 

■集計結果

まずは荒く

文字数 作品数
100-200 311
201-1,000 80,765
1001-10,000 187,878
10,001-100,000 96,532
100,001-1,000,000 27468
1,000,001-10,000,000 781
10,000,001- 1

 

なるほど、1万文字以下に結構集まっている。

短編はそれなりに多いので妥当な結果。

 

・・・ん、なんか一千万文字を超える作品が一つだけある。

え!? 一千万文字!?

ncodeは「n4908bv」、タイトルは「サモナーさんが行く」。

実際になろうに行って探してみると、本当に一千万文字超えている。

どんだけ~~~

作者はバケモノすぎる。

 

ええっと、ラノベが一冊10万~15万文字と言われる。

10万文字以上はラノベ一冊分と仮定すると、28250作品あることになる。

それだけの文章量の作品がこんなに投稿されているなんて・・・すごいな。

 

以下、1000-10000文字の詳細な分布。

 

文字数 作品数
1001-2000 56747
2001-3000 36661
3001-4000 25797
4000-5000 18940
5000-6000 14279
6000-7000 11490
7001-8000 9303
8001-9000 7937
9001-10000 6724

 

とりあえず、文字数の分布はこんな感じで。

気になることあったらコメント下さい。

小説家になろうのテキストデータを全部さらってみた

WordPressに書いたところで反響がないのはわかっているので、いずれなろうに記事を立てようか。

まぁ、とりあえずここに書いておこうぜ。

 

まず、なろうからのテキスト集めについて書こうと思う。

 

ncode(小説ID)が数字なら連番アクセスするだけなのだけれど、ncodeは変な文字列でできているためそういうことができない。

まずはncodeのリストを作り、それから実際の小説を集めないといけない。

 

1,ユーザ1から順番に各ユーザの作品リストのアクセスしncodeを収集していく。ユーザIDは番号なので機械的にアクセス可能

2,収集したncodeすべてに対してアクセスして本文を収集する。前文や後書きは対象外。

 

収集は全部rubyで書いたプログラムで実施。

ただ、理屈は簡単だけど量が膨大なため数週間ぐらいかかっています。

アクセスにもwaitいれないといけないので。

 

しかし集めてみると、ゴミが多い次第。

冗談抜きで一文字という作品があります。(「あ」しかない作品がほんとうにある)

200文字以上という制限があるけど、一回投稿後に消したのだと思わる。

全データを対象に解析したと入っても、あきらかなゴミは消したほうがいい。

ということで、本文が100文字以下の作品は削除しました。

たしか140かそこらありました。

 

それを除いた作品数は、393,736作品。

文字数は総計11,720,660,192文字。

 

なお、この文字数には「改行タグ」「ルビタグ」などが入ってしまっているので、なろうの小説情報ページに表示される文字数より少し多めです。