なろうのデータに対してmecabで形態素解析して名詞をカウントしてみた。
ただ40万ぐらいの小説があって全部やっているとそうとう時間がかかるので、
一旦は1万の小説に対してやってみた。
では、よく使われている名詞を発表!
1290874 の:名詞,非自立,一般,*,*,*,の,ノ,ノ
727450 こと:名詞,非自立,一般,*,*,*,こと,コト,コト
630247 ん:名詞,非自立,一般,*,*,*,ん,ン,ン
569707 よう:名詞,非自立,助動詞語幹,*,*,*,よう,ヨウ,ヨー
490601 それ:名詞,代名詞,一般,*,*,*,それ,ソレ,ソレ
468914 俺:名詞,代名詞,一般,*,*,*,俺,オレ,オレ
436160 私:名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
327227 何:名詞,代名詞,一般,*,*,*,何,ナニ,ナニ
281474 さん:名詞,接尾,人名,*,*,*,さん,サン,サン
279706 人:名詞,接尾,助数詞,*,*,*,人,ニン,ニン
259885 事:名詞,非自立,一般,*,*,*,事,コト,コト
243834 一:名詞,数,*,*,*,*,一,イチ,イチ
213703 もの:名詞,非自立,一般,*,*,*,もの,モノ,モノ
210656 僕:名詞,代名詞,一般,*,*,*,僕,ボク,ボク
207987 自分:名詞,一般,*,*,*,*,自分,ジブン,ジブン
205860 これ:名詞,代名詞,一般,*,*,*,これ,コレ,コレ
197576 目:名詞,一般,*,*,*,*,目,メ,メ
191228 今:名詞,副詞可能,*,*,*,*,今,イマ,イマ
187076 人:名詞,一般,*,*,*,*,人,ヒト,ヒト
186752 二:名詞,数,*,*,*,*,二,ニ,ニ
183198 そう:名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソー
183020 顔:名詞,一般,*,*,*,*,顔,カオ,カオ
左が出現回数で、右が単語の情報。
「の」とか「こと」とか「俺」みたいなものが上に来てしまって、全く面白くない。
あれ~
ということで、今度は固有名詞だけに絞って解析してみた。
これも全てではなく1万の小説に対してのみ。
22441 日本:名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
12308 太:名詞,固有名詞,人名,名,*,*,太,フトシ,フトシ
10224 王:名詞,固有名詞,人名,姓,*,*,王,オウ,オー
9924 勇:名詞,固有名詞,人名,姓,*,*,勇,イサム,イサム
9623 アリス:名詞,固有名詞,人名,名,*,*,アリス,アリス,アリス
9250 ー:名詞,固有名詞,一般,*,*,*,*
8641 エルフ:名詞,固有名詞,組織,*,*,*,エルフ,エルフ,エルフ
8526 井坂:名詞,固有名詞,人名,姓,*,*,井坂,イサカ,イサカ
8389 マリア:名詞,固有名詞,一般,*,*,*,マリア,マリア,マリア
8242 リナ:名詞,固有名詞,人名,名,*,*,リナ,リナ,リナ
7384 聖:名詞,固有名詞,人名,名,*,*,聖,キヨシ,キヨシ
7192 悠:名詞,固有名詞,人名,名,*,*,悠,ユウ,ユー
7184 翔:名詞,固有名詞,人名,名,*,*,翔,ショウ,ショー
7107 アル:名詞,固有名詞,人名,名,*,*,アル,アル,アル
7076 亜:名詞,固有名詞,地域,一般,*,*,亜,ア,ア
6650 姫:名詞,固有名詞,人名,姓,*,*,姫,ヒメ,ヒメ
6568 ユーリ:名詞,固有名詞,人名,名,*,*,ユーリ,ユーリ,ユーリ
6008 ユウ:名詞,固有名詞,人名,名,*,*,ユウ,ユウ,ユー
5989 ハル:名詞,固有名詞,人名,名,*,*,ハル,ハル,ハル
5792 アレン:名詞,固有名詞,人名,姓,*,*,アレン,アレン,アレン
5568 美:名詞,固有名詞,人名,名,*,*,美,ヨシ,ヨシ
5512 健:名詞,固有名詞,人名,名,*,*,健,ケン,ケン
5368 詩織:名詞,固有名詞,人名,名,*,*,詩織,シオリ,シオリ
5352 龍人:名詞,固有名詞,人名,名,*,*,龍人,タツト,タツト
5083 羅:名詞,固有名詞,人名,姓,*,*,羅,ラ,ラ
4887 ヒロ:名詞,固有名詞,人名,名,*,*,ヒロ,ヒロ,ヒロ
4747 智:名詞,固有名詞,人名,名,*,*,智,サトシ,サトシ
4669 玲:名詞,固有名詞,人名,名,*,*,玲,レイ,レイ
4634 拓:名詞,固有名詞,地域,一般,*,*,拓,ツブセ,ツブセ
4587 未佳:名詞,固有名詞,人名,名,*,*,未佳,ミカ,ミカ
4515 森:名詞,固有名詞,人名,姓,*,*,森,モリ,モリ
4492 慎吾:名詞,固有名詞,人名,名,*,*,慎吾,シンゴ,シンゴ
4481 咲:名詞,固有名詞,人名,名,*,*,咲,サキ,サキ
4451 ー:名詞,固有名詞,組織,*,*,*,*
4371 アルフレッド:名詞,固有名詞,人名,名,*,*,アルフレッド,アルフレッド,アルフレッド
4365 藤堂:名詞,固有名詞,人名,姓,*,*,藤堂,トウドウ,トードー
4352 アメリカ:名詞,固有名詞,地域,国,*,*,アメリカ,アメリカ,アメリカ
4348 エル:名詞,固有名詞,人名,名,*,*,エル,エル,エル
4344 レイラ:名詞,固有名詞,人名,名,*,*,レイラ,レイラ,レイラ
4279 都:名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ
4186 ラウル:名詞,固有名詞,人名,名,*,*,ラウル,ラウル,ラウル
おおお、なんかなろうっぽい感じのイメージが出来た!
異世界転生モノだと「日本での生活は~」とか日本のことがよく引き合いに出されるので、「日本」という単語が頻出するのはとても納得できる。
「太」はなんだろうか……
名前が上手く認識されず分解されて認識されちゃったように思えるけど。
「勇」はそのまま人名?それとも勇者のことだろうか。
でもmecabで「魔王と勇者は戦った」を解析するときちんと「勇者」は認識されるんだよね。なんだろうか。
その他のカタカナはとても納得。
「アリス」「エルフ」「マリア」「リナ」……
メジャーな名前とファンタジー用語ですね。
今回の解析結果を↓からDLできるようにしておきます。
ただ、今回の解析方法だと極端な話一つの小説で100万回使っていれば、他の小説で一回も使われない単語であっても上位になってしまうという問題がある。
そのワードが使用されている「回数」ではなく「作品数」をカウントしたほうがおもしろい結果が出そう。
またプログラムをいじって試してみよう。