word2vecについてちょっと勉強してみた

ネットでword2vecというものを見つけた。

単語をいい感じに意味を表現するベクトルに変換してくれる魔法のツールだという。

なんじゃそりゃ!?

そして、それが流行りまくっているらしい……

ということで調べてみたんだけど、数式とか理屈をだーっと文章で書かれてもまっっったく頭に入ってこない。

そんななか、解説している動画を見つけたのでそれを見てみた。

 

【スライド公開☆】「ディープラーニングチュートリアル 応用編:言葉の『意味』表現〜word2vec〜」

 

これで全てが分かるかというと大変自信がないけど、それでも概要は見えてきた。

なるほど~

単語の共起を予測するモデルを作ったら、なんか単語の意味をいい感じに表現するベクトルができちゃった。

なんでかよくわからないけど、実用上そうなっちゃったんだから仕方ない、みたいな。

研究者も説明できないけどなぜかうまくいくという……どうやら機械学習界隈はそういう不可思議なことが多いらしい。

なんだか知能に近づいている感じがあるよね。

人間の脳みそも確固たる理屈で動いているというより、進化の結果「なんでうまくいくのかよくわからないけど、実用上なんとなかなっちゃう」みたいな変な構造で動いている気がしてならない。

目からうろこでなんだか楽しい気分になった。

 

それにしても驚くべきはその学習次元数。

1単語を1000次元で表現したら、一つの単語で2ベクトルあるので2000次元。

単語が10万個あったら、2億次元。

昔遺伝的アルゴリズムで音声フィルタっぽいものを作ろうとして、次元が広すぎてどうにもならなかった経験がある身としては、数百次元のあたりでもう学習きついんじゃないかと思うのだけれど。

それがその億の単位の次元を実用的に学習できるなんてどんなわけだい。

近似式でだいぶ高速化しているようだけど、それにしても凄い。

次元数が多いモデルなんて実用にならないと思ってたけど……全然そんなことないのね。

ニューラルネットワークもディープラーニングもそういう次元の問題はあるはずなのに実用的になっているし。

うーん、感覚が古いのだろうか。

 

今日の体重は65.0kg

名前忘れたけどチーズ買ったよ

最近チーズにハマっている自分。

今日も帰りにベイシアによってチーズを購入。

買ったことがないチーズだったんだけど、名前がいいにくくて忘れてしまった・・・

癖があって結構好きな味なんだけど、うすぎるタイプなのが残念。

どうも自分には噛みごたえが大事なようで、薄いといまいち。

ハードとかセミハードタイプで塊のほうがいいようだ。

そろそろネット通販に手を出すか・・・

ネット通販だと金銭感覚がずれるので無駄に大量買してしまいそうで怖い。

でも買うと思う。

 

体重は65.0kg。

まぁ風邪治すために多めに食べてるし。

マザーボードのチップセットにヒートシンクを追加してみた

ちょい風邪っぽくてだるいけど、秋月で頼んでいた熱伝導接着剤が来たので、マザーボードのチップセットのヒートシンクに接着剤で他のヒートシンクをとっつけてみた。

結果、意味なし。

熱自体は相当逃げていっているようで、追加のヒートシンクに意味があるようだけど、CPUのクロックダウンは変わらず。

さらにいじってみたところ、VRMがめちゃくちゃ熱くてそこに風を当てておくとクロックダウンが少し増しになることから、VRMが原因だったと思われる。

 

VRM・・・

インダクタの数を見るに5フェーズしかない。

そしてFETにはヒートシンクも何もない。

ハイエンドのマザーボードだと8フェーズもあって、ヒートシンクも付いている。

要は、このやすいマザーボードじゃ力不足ということだろう。

使っているCPUはTDP95Wなので、多分もう少し上のクラスのVRMが載っているマザーボードじゃないと安定動作しないんだろう。

Asrockさんよー、対応CPUにi7 2600って書いてるけど、フルスピードで動かないじゃないかよ……

起動して動くから「対応」じゃなくて、最大負荷でも安定して動作しないと「対応」って謳っちゃいけないと思うんだけど。

もー……

 

そんなこんなで今のマシンでは2600が最大速度で動かないことが発覚した。

ビデオカードもクロックダウンしないと動かないし、CPUも最大負荷でまとも運用できない。

もうボロボロだ。

いっそのこと全部組み直すか……?

中途半端に動いている感じがとても気持ち悪い。

はぁ……

 

今日の体重は64.9kg

普段寄らない店で買物

通勤の道の途中にあるのだけれど全然寄らない小さな店で買物。

というか、そこがメロン二玉300円!と書いてあったからなんだけど。

よってみたら二玉300円は見当たらないけど、一玉199円のメロンが売っていた。

小さいけど安いから買った!

でも、帰ってきてみたら固くてもうちょっと待ったほうが良さそうな模様。

食べたくて買ったんだけどなぁ・・・明日食べよう。

多分熟れるだろう。

 

毎日捨てるのは厳しくて段々気疲れするようになってきたのでお休み。

まぁ、捨てやすいものはだいたい捨てたということでしょう。

体重は65.3kg。

え、なんでこんな増えた!?

クリーミーウォッシュチーズを食べてみた

最近なんかチーズが好きになったので、また新しいチーズを買ってみた。

いつもはスーパーで売っている中でも200円、300円位のものを買っているが、今日は思い切って500円位のをかってみた。

クリーミーウォッシュ

たべてみると食べやすくてそれなりに旨い。

ただ、改めて自分の好みがわかったのだけれど、なめらかで食べやすいのより、もっとパサパサつぶつぶしていて癖がある方が好きらしい。

カマンベールとか食べやすすぎてパンチがないと感じる。

これもいまいちパンチが薄い。

もっと感じからしてパサパサしていそうなものを買ってみることにしようか。

それにしてもチーズって高い。

ちょこちょこ買っているだけであっという間に1万円とか行っちゃうんじゃないだろう。

 

捨てたものは講義資料。

体重は64.6kg

あれいきなりふえた。

合唱の写真を撮ってきた

父親が合唱団に入っていて今日ホールで歌うので写真をとってくれと頼まれて、

実際の所大変気乗りしないのだけれど、デジイチ持っていって写真を撮ってきた。

写真を取るのはまぁいいんだけど、なにしろデジイチなものだからシャッター音が響いてとても気になる。

しかしたぶん団員に配るっぽいので、シャッター押してもどう映るかわからないので何枚も撮らないといけない。

そんなわけで変な気疲れした一件でした。

 

しかし合唱は多人数でやることなので、一人でも音痴な人がいると台無し。

実際そんな状態になっていて「あぁ・・・」と思った次第。

個人の創作や趣味はいいけど、集団の趣味となるとクオリティを出すのが大変に難しい。

 

それにしてもPCの調子が悪い。

core i7にしたのに、定期的に数秒クロックが落ちる・・・

症状的にオーバーヒートだけど、CPUはそこまで温度高くない。

まぁ、60度ぐらいにはなっているけど、世の中80度とかで動いている人もいるわけで、この程度でサーマルスロッティングがかかるだろうか。

マザボをいろいろさわってみるとチップセットがすごく暑くなっている模様で、非常に怪しい。

凄いチンケなヒートシンクなのででかいのつければなにか変わるかと思ったけど、さすがにちょうどいいヒートシンクなって持っていない。

亀の子に無理やりつけてみたけど、熱伝導あんまりし無さそうだし根本的な対策ができなくてはがゆい・・・

なんにせよ、CPUが原因でこんな挙動しないと個人的には思うのでマザボを疑っている。

celeronには十分だったにしろ、i7には不足な設計なんじゃないだろうか。

やっぱり安物のマザボはダメですかね・・・

かといって、ここでマザボまで買い直すとお金が・・・

そもそもそこまでするならsandybridgeのCPUなんてかわないで最新のCPUを買ったほうが・・・

いろいろ悩ましい。

とりあえずごまかしつつしばらくはこのままで行くと思う。

 

今日捨てたのものは講義資料。

体重は64.2kg

なろうのデータ解析中……

前の記事で書いたように、なろうのデータを解析中。

小説ごとに単語を数えて、単語が出てくる小説の数をカウントしようという作戦。

しかしなにしろ時間がかかるので、マルチスレッドに改造したのだけれど、いかんせん速度が出ない。

2スレッドぐらいまでは速度が上がるけど、それ以降速度が上がらない。

4コアだからもうちょっとあがるはずなのに。

CPUも全然使い切っていないので、どこかがネックになっている模様。

複数のインスタンスを作ってもcmecab-javaがmecabのプロセスを一つしかつくらないとか?

javaのネイティブプログラムの扱いを知らないのでなんとも言えない。

まぁ、気長にやるしかないようです。

 

捨てたものはちょっといい箱。

使うかもと言ってとっておいてやっぱりごみになるんだ。

体重は64.0kg

「小説家になろう」の頻出名詞を調べてみた

なろうのデータに対してmecabで形態素解析して名詞をカウントしてみた。

ただ40万ぐらいの小説があって全部やっているとそうとう時間がかかるので、

一旦は1万の小説に対してやってみた。

では、よく使われている名詞を発表!

1290874    の:名詞,非自立,一般,*,*,*,の,ノ,ノ
727450    こと:名詞,非自立,一般,*,*,*,こと,コト,コト
630247    ん:名詞,非自立,一般,*,*,*,ん,ン,ン
569707    よう:名詞,非自立,助動詞語幹,*,*,*,よう,ヨウ,ヨー
490601    それ:名詞,代名詞,一般,*,*,*,それ,ソレ,ソレ
468914    俺:名詞,代名詞,一般,*,*,*,俺,オレ,オレ
436160    私:名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
327227    何:名詞,代名詞,一般,*,*,*,何,ナニ,ナニ
281474    さん:名詞,接尾,人名,*,*,*,さん,サン,サン
279706    人:名詞,接尾,助数詞,*,*,*,人,ニン,ニン
259885    事:名詞,非自立,一般,*,*,*,事,コト,コト
243834    一:名詞,数,*,*,*,*,一,イチ,イチ
213703    もの:名詞,非自立,一般,*,*,*,もの,モノ,モノ
210656    僕:名詞,代名詞,一般,*,*,*,僕,ボク,ボク
207987    自分:名詞,一般,*,*,*,*,自分,ジブン,ジブン
205860    これ:名詞,代名詞,一般,*,*,*,これ,コレ,コレ
197576    目:名詞,一般,*,*,*,*,目,メ,メ
191228    今:名詞,副詞可能,*,*,*,*,今,イマ,イマ
187076    人:名詞,一般,*,*,*,*,人,ヒト,ヒト
186752    二:名詞,数,*,*,*,*,二,ニ,ニ
183198    そう:名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソー
183020    顔:名詞,一般,*,*,*,*,顔,カオ,カオ

左が出現回数で、右が単語の情報。

「の」とか「こと」とか「俺」みたいなものが上に来てしまって、全く面白くない。

あれ~

 

ということで、今度は固有名詞だけに絞って解析してみた。

これも全てではなく1万の小説に対してのみ。

22441    日本:名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
12308    太:名詞,固有名詞,人名,名,*,*,太,フトシ,フトシ
10224    王:名詞,固有名詞,人名,姓,*,*,王,オウ,オー
9924    勇:名詞,固有名詞,人名,姓,*,*,勇,イサム,イサム
9623    アリス:名詞,固有名詞,人名,名,*,*,アリス,アリス,アリス
9250    ー:名詞,固有名詞,一般,*,*,*,*
8641    エルフ:名詞,固有名詞,組織,*,*,*,エルフ,エルフ,エルフ
8526    井坂:名詞,固有名詞,人名,姓,*,*,井坂,イサカ,イサカ
8389    マリア:名詞,固有名詞,一般,*,*,*,マリア,マリア,マリア
8242    リナ:名詞,固有名詞,人名,名,*,*,リナ,リナ,リナ
7384    聖:名詞,固有名詞,人名,名,*,*,聖,キヨシ,キヨシ
7192    悠:名詞,固有名詞,人名,名,*,*,悠,ユウ,ユー
7184    翔:名詞,固有名詞,人名,名,*,*,翔,ショウ,ショー
7107    アル:名詞,固有名詞,人名,名,*,*,アル,アル,アル
7076    亜:名詞,固有名詞,地域,一般,*,*,亜,ア,ア
6650    姫:名詞,固有名詞,人名,姓,*,*,姫,ヒメ,ヒメ
6568    ユーリ:名詞,固有名詞,人名,名,*,*,ユーリ,ユーリ,ユーリ
6008    ユウ:名詞,固有名詞,人名,名,*,*,ユウ,ユウ,ユー
5989    ハル:名詞,固有名詞,人名,名,*,*,ハル,ハル,ハル
5792    アレン:名詞,固有名詞,人名,姓,*,*,アレン,アレン,アレン
5568    美:名詞,固有名詞,人名,名,*,*,美,ヨシ,ヨシ
5512    健:名詞,固有名詞,人名,名,*,*,健,ケン,ケン
5368    詩織:名詞,固有名詞,人名,名,*,*,詩織,シオリ,シオリ
5352    龍人:名詞,固有名詞,人名,名,*,*,龍人,タツト,タツト
5083    羅:名詞,固有名詞,人名,姓,*,*,羅,ラ,ラ
4887    ヒロ:名詞,固有名詞,人名,名,*,*,ヒロ,ヒロ,ヒロ
4747    智:名詞,固有名詞,人名,名,*,*,智,サトシ,サトシ
4669    玲:名詞,固有名詞,人名,名,*,*,玲,レイ,レイ
4634    拓:名詞,固有名詞,地域,一般,*,*,拓,ツブセ,ツブセ
4587    未佳:名詞,固有名詞,人名,名,*,*,未佳,ミカ,ミカ
4515    森:名詞,固有名詞,人名,姓,*,*,森,モリ,モリ
4492    慎吾:名詞,固有名詞,人名,名,*,*,慎吾,シンゴ,シンゴ
4481    咲:名詞,固有名詞,人名,名,*,*,咲,サキ,サキ
4451    ー:名詞,固有名詞,組織,*,*,*,*
4371    アルフレッド:名詞,固有名詞,人名,名,*,*,アルフレッド,アルフレッド,アルフレッド
4365    藤堂:名詞,固有名詞,人名,姓,*,*,藤堂,トウドウ,トードー
4352    アメリカ:名詞,固有名詞,地域,国,*,*,アメリカ,アメリカ,アメリカ
4348    エル:名詞,固有名詞,人名,名,*,*,エル,エル,エル
4344    レイラ:名詞,固有名詞,人名,名,*,*,レイラ,レイラ,レイラ
4279    都:名詞,固有名詞,人名,名,*,*,都,ミヤコ,ミヤコ
4186    ラウル:名詞,固有名詞,人名,名,*,*,ラウル,ラウル,ラウル

おおお、なんかなろうっぽい感じのイメージが出来た!

異世界転生モノだと「日本での生活は~」とか日本のことがよく引き合いに出されるので、「日本」という単語が頻出するのはとても納得できる。

「太」はなんだろうか……

名前が上手く認識されず分解されて認識されちゃったように思えるけど。

「勇」はそのまま人名?それとも勇者のことだろうか。

でもmecabで「魔王と勇者は戦った」を解析するときちんと「勇者」は認識されるんだよね。なんだろうか。

その他のカタカナはとても納得。

「アリス」「エルフ」「マリア」「リナ」……

メジャーな名前とファンタジー用語ですね。

 

今回の解析結果を↓からDLできるようにしておきます。

名詞リストDownload

固有名詞リストDownload

 

ただ、今回の解析方法だと極端な話一つの小説で100万回使っていれば、他の小説で一回も使われない単語であっても上位になってしまうという問題がある。

そのワードが使用されている「回数」ではなく「作品数」をカウントしたほうがおもしろい結果が出そう。

またプログラムをいじって試してみよう。

一日一新できず

というのも、遅すぎだ。

仕事が。

もう!!

なんでこんなに遅くまで!!

何だよこの仕事!

こんな仕事うけんじゃねぇよ!ざけんなこんちくしょーーーーーーーーーーーーーー!!!!

 

・・・・

・・・・

・・・・

あーもー。

愚痴しか出ないから今日はもうブログはやめよう。

と思う。

 

捨てたものは講義資料。

体重は63.9kg