みなさんこんにちは!
イザナギです!
pip3 install janome
pip3 install wordcloud
import csv
import collections
from janome.tokenizer import Tokenizer
from wordcloud import WordCloud
list = []
with open('data/"csvファイルの名前".csv', 'r') as f:
# カラムの値を抽出
for row in csv.reader(f):
list.append(row[1])
# 先頭文字を削除
del list[0]
# 文字列をつなげる
b = ""
for a in reversed(list):
b += a
# 文字の整形(改行削除)
text = "".join(b.splitlines())
# 単語ごとに抽出
docs=[]
t = Tokenizer()
tokens = t.tokenize(text)
for token in tokens:
if len(token.base_form) > 2:
docs.append(token.surface)
## wordcloud の実行
## 日本語フォントを指定
c_word = ' '.join(docs)
wordcloud = WordCloud(background_color='white',
font_path='./IPAfont00303/ipag.ttf',
width=800, height=400).generate(c_word)
## 結果を画像に保存
wordcloud.to_file('./wordcloud.png')
# 単語を多い順に並べる
c = collections.Counter(docs)
print(c)
こちらで「WordCloud」を使用しています。
そうするとさっき紹介した画像が出てくると思います。
まとめ
さて、今回は「WordCloud」を使用した、テキストマイニングについてご紹介してきました!
初めて使用した時は、「めっちゃわかりやすじゃん!」と感動したものですwww
これからは、これを利用しながら研究を進めていきたいと思います!
それでは、今回はここで筆を置かせていただきます!
最後まで記事をご覧いただきありがとうございました!