Python「WordCloud」でテキストマイニングしてみた！


pip3 install janome
pip3 install wordcloud


import csv
import collections
from janome.tokenizer import Tokenizer
from wordcloud import WordCloud

list = []
with open('data/"csvファイルの名前".csv', 'r') as f:

    # カラムの値を抽出
    for row in csv.reader(f):
        list.append(row[1])

    # 先頭文字を削除
    del list[0]

    # 文字列をつなげる
    b = ""
    for a in reversed(list):
        b += a

    # 文字の整形（改行削除）
    text = "".join(b.splitlines())

    # 単語ごとに抽出
    docs=[]
    t = Tokenizer()
    tokens = t.tokenize(text)
    for token in tokens:
        if len(token.base_form) > 2:
            docs.append(token.surface)

    ## wordcloud の実行
    ## 日本語フォントを指定
    c_word = ' '.join(docs)
    wordcloud = WordCloud(background_color='white',
                        font_path='./IPAfont00303/ipag.ttf',
                        width=800, height=400).generate(c_word)

    ## 結果を画像に保存
    wordcloud.to_file('./wordcloud.png')

    # 単語を多い順に並べる
    c = collections.Counter(docs)
    print(c)

こちらで「WordCloud」を使用しています。
そうするとさっき紹介した画像が出てくると思います。

まとめ

さて、今回は「WordCloud」を使用した、テキストマイニングについてご紹介してきました！
初めて使用した時は、「めっちゃわかりやすじゃん！」と感動したものですwww
これからは、これを利用しながら研究を進めていきたいと思います！
それでは、今回はここで筆を置かせていただきます！
最後まで記事をご覧いただきありがとうございました！

ブログ一覧に戻る

Python「WordCloud」でテキストマイニングしてみた！

まとめ

関連記事

文章を比較できる！Word Mover's Distanceとは？

「Google Cloud natural Language」で感情分析してみる！

【Prophet】を使って、株価を予測してみる！