このアプリケーションは以下のことができます。
A. 欅坂、けやき坂のメンバーのブログを自動生成する
B. 各メンバーブログの最新更新日時を取得する
python3系のインストール
以下のライブラリのインストール
・mecab
・Matplotlib
・NumPy
ターミナル上で実行します。基本的には1, 2, 3の順で実行していってください。 ただし、1, 2は省略できる場合があります。datasets/params_corpus内に、ブログ生成したいメンバーのpklファイルがある場合は手順1を省略でき、datasets/params_betterRnnlm内に、メンバーのpklファイルがある場合は手順2を省略できます。
以下コマンドのピリオドは、zelkovaディレクトリをカレントディレクトリとします。
(小林由依のブログをスクレイピングしたいとき。他メンバーのスペルは./datasets/member_const.pyを参照):
$ python3 ./prepare/prep_all.py kobayashi
./gen_blog/train_rnnlm.py の18行目の変数nameを学習させたいメンバーのものに変更する。
(これも他メンバーのスペルは ./datasets/member_const.py参照)
実行時はgen_blogディレクトリへ移動
$ cd ./gen_blog
し、
$ python3 train_rnnlm.py
とコマンド。
注意として、この学習は時間がかかります。投稿数に応じて学習の所要時間も比例します。
私のPCの場合(2015年mac book pro、非NVIDIAのGPU)で、小林由依さんを指定時は30時間ほどかかりました。
./gen_blog/generate_text.py の14, 15, 16行目が生成時の変数となっており、それぞれ
name: メンバーを指定
start_word: 生成するブログの一単語目を指定(空文字""の場合、ランダムは一文字目になる)
sample_size: 生成するブログの文字数
です。これらを変更し、ディレクトリを移動
$ cd ./gen_blog
し
$ python3 generate_text.py
とコマンドすることで、ターミナル上に標準出力として自動生成したブログが表示されます。
ディレクトリzelkova/get_update_timeに移動
$ cd get_update_time
例えば平手友理奈のブログ最新更新日を表示したいとき
$ python3 ./getUpdateTime.py hirate
ディレクトリ ./dl-parts 内にあるすべてのファイルは私が生成したものではありません。
この中にディープラーニングの推論と学習に必要なツールが入っています。
「斎藤康毅著 ゼロから作る DeepLearning② ー自然言語処理編」のサンプルソースコードです。
以下のgithubリポジトリからダウンロードできます。
https://github.com/oreilly-japan/deep-learning-from-scratch-2