テキストマイニングをしたいなら無料のKH Coderを使ってみよう
KH Coderって知ってます?
僕もついこの間まで知らなかったのですが、KH Coderとは無料で「テキストマイニング」ができるツールのことです。
もうビッグデータやデータサイエンスがバズワードになって久しく、いろいろな種類のデータを分析するニーズが多くなってきました。
その中の一つにテキスト分析もあり、大量のテキストデータを扱うような「テキストマイニング」という言葉もよく聞かれます。
テキストマイニングを一言でいうと、「文章(テキスト)データから意味のある有益な情報を抽出すること」です。
WEBページやアンケートのフリーコメント、コールセンターのやりとり、問合せ、SNSなど、テキストデータが世の中には溢れていますから、その中から有益な情報を抽出したいというニーズはどんどん増えています。
ニーズは増えていますが、なにせこのテキストマイニングは普通にやると難しいのです。
背景にある理論はもちろん大変ですが、基本的にプログラミングができないといけないので、データ分析に疎い方はかなりしんどいというのが正直なところです。
しかし最近は便利なツールがあるもので、GUIでポチポチするだけでなにかしらのテキストマイニングができてしまいます。
そのうちのツールの一つがKH Coderです。
&nbnp;
&nbnp;
KH Coderは立命館大学の樋口先生が開発したテキストマイニングツールで、フリーソフトウェアとして公開されています。
このツールのすごいところは、プログラミング を一切せずにかなり高度なテキスト分析を行うことができるところです。
文章のファイルをインプットにGUIをポチポチすれば、どのような単語が何回出現していたか、どのような単語同士が同じ文章中に多く出現していたか、などを形態素解析と多変量解析によって求めることができます。
形態素解析とは文章を品詞ごとの単語に区切る自然言語処理という分野の技術のことです。
この形態素解析はテキストを分析する際のはじめの一歩となるので、とても重要な概念になります。
そして多変量解析は数学の一分野のことで、具体的に実装されているのはクラスター分析、多次元尺度構成法、自己組織化マップ、ナイーブベイズなどです。
多変量解析と聞くとちょっと・・・と思うかもしれませんが、それ以外にも共起ネットワークや単語頻度集計など比較的わかりやすい出力もあるので、初心者でも十分使うことができます。
&nbnp;
&nbnp;
たとえば、文系でプログラミングも数学も全然できない人がマーケティング職についていて、新商品のアンケート(フリーコメント)結果を分析しないといけないとします。
もしアンケートが数十件程度であれば、全部目を通せばある程度わかるかもしれませんが、1,000件とか2,000件とかになってくると人力では厳しいでしょう。
もし仮にざっと全体を眺めることはできても、それを定量的に分析して結果を出すということは不可能です。
こういう状況になると、もう絶望して、アンケートをそっと置き、寝るしかないですよね。
でもKH Coderを使えば、なんとかなるかもしれません。
データがエクセルなどの1つのファイルにまとまっていれば、KH Coderに読み込ませて、どんな単語が多く出現しているのかや共起ネットワークを出力することができます。
あとはその結果を解釈すれば、定量的な分析に加え、その結果の考察をすることで立派なテキスト分析になってしまいます(まぁ考察がどのくらいできるかはデータ次第、技量次第となってしまいますが)。
&nbnp;
&nbnp;
KH Coderを使ってみようと思うとまずはインストールですね。
この記事では詳しい説明はしませんが、公式ページ(https://khcoder.net/dl3.html)からexeファイルをダウンロードして、それを実行するだけという簡単なものです。
ただし、注意点としてWindowsで使うことが想定されています。
Macでも使えるようですが、結構インストールが面倒らしいのでえ公式でもWindowsを使うことが推奨されています。
もしMacを使いたい場合は有料で自動設定のソフトウェアを購入できるみたいです。
コード自体はPerlをベースに書かれており、分析部分ではRが使われています。
これらのコードはGitHubで公開されているので、内部で何をやっているのかみることもできますね。
さらにチュートリアルが充実していて、作者による夏目漱石「こころ」の分析例があります。
無料ですからこれだけでもやってみると感じがわかってとても良いと思います。
&nbnp;
&nbnp;
KH Coderは実際の学術研究などさまざまな場面で使われている実績のあるツールなので、ぜひ多くの人に使ってみてほしいです。
もちろん他にもテキストマイニングツールはあるのですが、有料だったりここまで機能がよくなかったりしますから、無料で使えるという点とこの機能性から、強くオススメします。
データ分析経験が豊富な人はもちろん、今まであまり分析をしたことがなかったような方にもオススメです。
僕自身もアンケートデータを扱う分析業務で使う機会があり、KH Coderには大変お世話になりました。
自然言語処理の大変さをある程度知っているために、このレベルのものをポチポチと簡単にできることにとても感銘を受けました。
なので、これから何回かKH Coderの記事を書いていきたいと思います。
こちらも読んでもらえるとうれしいです。