WEBスクレイピングとクレンジング by Python パート2

今回は前回のスクレイピングに無駄な部分を取り除くクレンジングを付け加えて頻出語句を図示化するWORDCLOUDを追加しました。

開発実行環境: Windows10 +Python 3.6.5+ visual studio code

#Wordcloud 画像作成部分

def WordCheck(texts , num):
    #windowsの場合Utf-8 を変換しないとエラーになります。
    b= texts.encode(“CP932″,”ignore”)
    wc = WordCloud(background_color=”white” ,\
    font_path= r”d:\fonts\noto\NotoSansCJKjp-Regular.otf”,\
    width=800,height=600).generate(texts)
    wc.to_file(“d:\wordcloud_”+ str(num) +”.png”)

 

#ヘッダの偽装(これもしておかないと”urlOpen”でエラーになる)
ua = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) ‘\
‘AppleWebKit/537.36 (KHTML, like Gecko) ‘\
‘Chrome/55.0.2883.95 Safari/537.36 ‘

 

#リンクURLの取得部分

↓フッタ部分のリンク項目”<A href>”を削除する。

for script in soup([‘script’,’style’,’a’,’img’]):
script.decompose()

 

頻出文字の図形化

左(クレンジング前)=>右(クレンジング後)

フッタのリンク、”Art”,”Video”が消えた。