みなさんこんにちは!
イザナギです。最近コロナの影響でイベントや催し物が中止になってきてますよね。
ものすごく残念です。(泣)
なので、ブログでも書いて気持ちを落ち着かせましょう!
さて今回ですが、テキストマイニングに関することを書いていきたいと思います!
テキストマイニングについて、いろいろ検索してきたのですが、
その中に「WordCloud」という面白そうなものを発見しました。
現在、私が研究で利用しようとしている技術です。
テキストマイニングとは?
そもそも、「テキストマイニング」についてご存じない方もいらっしゃるのではないでしょうか?
「テキストマイニング」とは、自然言語処理を使いテキストデータを分析することです。
文章データを持ってきて、そのデータの単語の出現頻度や相関関係などを調べることができます。
実際にやってみる!
では、早速実際にやってみましょう!
今回、使用するツールをご紹介!
まずは、今回使用するツールをご紹介します!
- Python 3.7.4
- pip3
- WordCloud
- janome
- IPAフォント
言語はタイトル通りPythonを使用します。
WordCloudについて
WordCloudとは、単語の使用頻度を可視化できるPythonのライブラリです。
なんとこのツール、画像として出力されるんです!
上の写真のように、出力されます。
大きい文字ほど、使用頻度が高くなってきます。
とても見やすい!
janome
実は、WordCloudを日本語にも適用させるには他にもツールを使う必要があります。
私は「janome」を使いましたが、「Mecab」というツールもあるそうです。
ちなみに、上記のツールは何をしているのかというと、単語をバラしています(分かち書き)。
つまり、日本語の単語をわかりやすく作り替えているといったところでしょうか。
IPAフォント
どうやら、画像出力する際に、フォントを適用させないと出力できないみたいです。
なので、今回は「IPAフォント」ダウンロードします。
そして、ダウンロードしたファイルを同じフォルダに移動させます。
*今回は「IPAfont00303フォルダ」だけを移動して使いました。
実装!
では、実装していきましょう!
まずは、必要なライブラリ(ツール)をインストールします。
pip3 install janome
pip3 install wordcloud