報告:セル内の超長文テキストへの改行挿入コード #1245
Katsumi1967
started this conversation in
1.3 General (in Japanese)
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
お使いのKH Coderのバージョン
3.Beta05b Mac
ご質問の内容をお書きください
■お使いのOS
→macOS 14.2.1
■分析しようとしているのは何語のテキストですか?
→韓国語
以前、こちらで韓国語の長文を扱う際にエラーが出たと報告し、制限字数についてご教授いただきました。別の研究を始めようとして同様の問題にぶつかり、今度はpythonで楽に処理できました。経験をシェアした方がいいかと思って報告させていただきます。それだけならgeneralかなと思ったのですが、関連した質問もあるのでQ&Aに書き込むことにしました。質問は別スレッドを立てます。
韓国語の長文では、700字程度を目安にセル内で見かけの改行を入れるよう教えていただきました。そのためセル内からいったんコピペしてエディタに移し、一括返還機能で改行を挿入してからセル内に戻すという作業をしていました。ただ今回は件数が多いためなんとかならないかと考え、pythonでExcelファイル内のセルをいじるコードを作ってみました。
対象のデータは韓国政府のサイトからスクレイピングで取得した歴代大統領の演説テキスト1245本です。大統領名や日付、タイトル、本文等をカンマで区切ったテキストとして取得はできたのですが、本文はすべて改行なしテキストになってしまいました。本文のそれぞれの字数は5000~2万字程度です。これをとりあえず大統領別に切り分けて作業しました。大統領によって差はありますが、40~200本といったところです。
第1段階では、データを収録したExcelファイルinput.xlsxを読み込ませ、本文の入っているG列から演説で多用される語尾(複数)を検索し、ヒットした場合にはその語尾の後ろに改行を挿入。その結果をoutput.xlsxに書き出します。
第2段階として、output.exslのG列に700字以上の段落が残っていないかチェック。残っている場合には該当箇所をリストアップしてresult.txtに書き出します。該当するものは少ないので、ここから先は手作業で対応しました。
スクレイピングについては新米SEである息子にコードを書いてもらい、その後のコード(python)はchatGPTを利用して試行錯誤して書きました。コーディングについては30年ほど前にHyperCardで遊んだことしかなかったのですが、なんとかなりました。
★第1段階のコードは以下の通りです。
★第2段階のコードは次の通りです。
以上、もしかしたらお役にたつかもしれないと思い、共有させていただきます。こちらでのコードの書き込み方がよくわからず、変な表示になってしまいました。すみません。
Beta Was this translation helpful? Give feedback.
All reactions