勝手に日記の構文解析をしてみようぜ!


え、今日は何月何日ですか?
そうですね、2009年の2月22日でございます。
5年前の今日、ウチのサイトが始動した。
ということはつまり・・・・・そうですね、深夜執筆中は今日5周年を迎えるわけですね!
5周年特別企画!ということで今年は何をしようかといろいろと思案しておりましたが、やはりおととしの日本一周に勝るインパクトを持つ企画を思いつくことができないのです。「日本一周の次は世界一周だろJK」とか思われる方もいらっしゃるかもしれませんが、

まぁ落ち着けよ。僕は死にましぇん!
そんでもって、あまり今の俺に負担がかからないような企画・・・ということで、今回は今までの全日記の構文解析をしようと思います。「構文解析なんてやって何がわかるの?」って話なんですが、とりあえず「どんな言葉が何回ぐらい使われているのかがわかるよ!」ってことにしておいてください。
では、早速行ってみましょう!

まずは日記の全文章をテキストデータにします。
昔の日記は全ページを巡ってコピペ、ブログに移行してからは管理画面から日記データをエクスポートして貼り付け。いやぁ、はてなって便利だねー。
メモ帳に貼り付けたんですが、保存したらファイルサイズが3MBとかになりました。何コレ。



今回分析するのに使うソフトは、KH Coderというフリーソフトです。
詳しくはこちらから。フリーでダウンロードできます。
大学の課題で使ったソフトだなんて、言ってないんだからね!

早速、実行してみようと思います!
プロジェクトを作って、さっき作った3MBというマジキチなテキストデータを読み込みます。
そして、前処理の開始!


・・・・・・・・・・・・・・・・


・・・・・・・・・・・・・・・・・・・・・・・・・・・


・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・


あれ?カーソルが砂時計になったまま動かない・・・・
見事にフリーズしました!やったね!
・・・・いやぁぁん、冗談じゃないっ!ひどいよこれっ!


仕方ないので、2分割することにしました。
こんな感じに分けた。HTMLファイルに日記を書き連ねていた時代のものと、ブログに移行してからの時代のものです。



で、それぞれのファイルについて分析をしてみたぜ!
結果がcsvファイルで吐き出されるので、それをオープンオフィスで開いてみました。
まず、最初のほう(2004年3月〜2007年3月)の日記の結果です。



いろんな品詞ごとに出現回数リストが載っています。
例えば一番左の名詞の欄を見ると、どうも「先生」という名詞が790回登場してトップだそうです。
ついで「日記」「数学」「学校」・・・・と続いています。
隣に「サ変名詞」も載っていますが、こちらはトップが「授業」で、以下「テスト」「勉強」「話」「レポート」と続いています。
これを見ると、俺の日記が学校に関することばっかり書いてあるっていうことがわかりますね。
下のほうを見てみると、「ゲーム」「パソコン」「鼻水」「麻雀」などなど、「あーそういえばよく使ったなー」みたいな言葉が並んでおり、俺の日記がワンパターンであったという悲しい事実も浮かび上がってきます。

次はブログに移行したあとの日記の分析結果を載せちゃいます!その前に・・・・
今回は「てへりん★」や「にゃー」など、特徴的な流行語(?)が多発している模様です。模様ですっつーか、実際に乱用した。でもそういった造語のようなものはKH Coderで認識してくれない可能性があります。そこで、「語の取捨選択」を選択します。
強制的に抽出する語句を選択できるんですね!
特徴的な、それでいてよく使われると思われる語を並べておいた。最後のは・・・知らん
逆に、無視する語句も選択できる。日記のデータをエクスポートするときに出てきた「?」がいらないので、無視するように設定しました。



じゃ、今度は次のほう(2007年4月〜2009年2月)の日記の結果を載せます。



やった!
やっちまった!
バイト(1342回)とか、どう考えてもダメダメだろ!
そして課題(625回)というのも終わっている。
お前は、大学2年生になってから課題とバイトしかやってないというのか!?ま、そうだけど。
以下「委員」(535回)、「大学」(429回)、「日記」(406回)、「友人」(312回)と続いていますが、やっぱり高校時代を含めた前半部に比べて出てくる単語が違ってきていますね。生活スタイルも変わったし、俺の文章が変わってきている、というのが原因として挙げられそうです。
サ変名詞のほうには「授業」(647回)、「テスト」(382回)、「レポート」(365回)、「提出」(305回)、「プログラミング」(188回)、「実験」(187回)などなど、見るだけでどういう大学生活を送っているかがわかったりします。個人的には「合宿」(183回)という言葉がそんなに出てくるっけ?って感じなんですけど。

左のほうを見ると、「副詞可能」の欄に「今日」(1501回)、「明日」(862回)という結果が出ています。「今日は〜〜でした」って書いて、たま〜に「明日は〜〜します」みたいなことを書いてるんですね、わかります。これは前半の日記においても言えることです。

タグの欄には、文字通りHTMLのタグが認識されているものと、先ほど「語の取捨選択」で強制的に抽出するように設定したものが並んでいます。
「てへりん」(115回)、「にゃー」(50回)、「あははーうけるー」(31回)という結果になってました。とりあえず、てへりん言い過ぎ。でもまぁ「てへりん」が一番登場早かったから、ある意味当然の結果だったのかもしれません。
ちなみに「タン」は「名詞」の欄にいました。58回だって。意外と多い・・・?ってかそれ以前に「強制的に抽出する」ように設定したのになんでこんなところにいるの!?もうわけわかんない!!

というわけで、分析は以上です。
「分析結果欲しいんだけど・・・・」という奇特な方は、以下にダウンロードリンクを貼っておくので好き勝手に落としてください。無断掲載・無断転載大歓迎!!・・・・いや、嘘です。

ダウンロード

みなさんもおヒマでしたら、自分の書いた文章について構文解析をしてみてはいかがでしょうか。
きっと新たな発見、そして「あっ、やっぱこうなんだ」という残念な気持ちを同時に味わえるかもだよ!

トップへ戻る
雑文集へ戻る