GPT3.5-Turboを使って長文整形するPythonアプリ
長時間の文字起こしテキストをGPT3.5-TurboのAPIで整形してもらうために作りました。
長文テキストを指定した文字数ごとに分割して整形してくれます。プロンプトはコンフィグファイルで変えられます。ご自身のOpenAIのAPIキーが必要となります。
Windows用バイナリもあります。
releasesからProcessText.zipをダウンロードしてください。
zipファイルを解凍して、中のconfig.txtを開いてapi_keyの項目にご自身のOpenAIのAPIキーを入力して保存してください。
入力したいテキストファイルをProcessText.exeにドラッグ&ドロップしてください。
処理が終わったら入力テキストファイルの場所にoutput.txtが出力されてるハズです。
入力テキストの文字コードはutf-8で保存しておいてください。
入力テキストには適宜改行が入ってる事を想定しています。改行無しの長文は動くはずですが未チェックです。
コンフィグファイルもutf-8で保存してください。
APIキーの管理には十分気を付けてください。使い過ぎで想定以上にAPI料金がかかってしまわないように気を付けてください。メチャクチャ長文を投げるとそれなりにお金がかかります。OpenAIのAPI設定で上限金額を設定しておくことをオススメします。
メチャ長文を投げるとAPIのRateLimitに引っかかる気がしますが、どうなるのかチェックしてません。エラーで止まるかも。
GPT3.5-Turboで文章整形させると、返答の頭に「以下が整形した文章になります」とか、あるいは最後の行に「以上が整形した文章です」とか余計な説明を付けがちです。うっとおしかったので、プログラム内でレスポンスの最初の行か最後の行に"整形"って含まれてたら削除する処理を入れてます。
コンフィグファイルでプロンプト(prompt)と最大文字数(max_chars)とtemperatureが設定できます。
入力テキストは最大文字数ごとに分割されます。入力と出力の量を考えると日本語だと1000文字ちょっとが限界みたいです。
ProcessText.exeは引数で出力ファイルパスとコンフィグファイル名を指定できます。
--output : 出力ファイルパス。相対パスまたは絶対パス
--config_file : コンフィグファイル名。コンフィグファイルはProcessText.exeと同じ場所においてください。パスでは無くファイル名だけ入力してください。