報告：セル内の超長文テキストへの改行挿入コード #1245

Katsumi1967 · 2024-03-26T04:11:07Z

Katsumi1967
Mar 26, 2024

お使いのKH Coderのバージョン

3.Beta05b Mac

ご質問の内容をお書きください

■お使いのOS
→macOS 14.2.1

■分析しようとしているのは何語のテキストですか？
→韓国語

以前、こちらで韓国語の長文を扱う際にエラーが出たと報告し、制限字数についてご教授いただきました。別の研究を始めようとして同様の問題にぶつかり、今度はpythonで楽に処理できました。経験をシェアした方がいいかと思って報告させていただきます。それだけならgeneralかなと思ったのですが、関連した質問もあるのでQ&Aに書き込むことにしました。質問は別スレッドを立てます。

韓国語の長文では、700字程度を目安にセル内で見かけの改行を入れるよう教えていただきました。そのためセル内からいったんコピペしてエディタに移し、一括返還機能で改行を挿入してからセル内に戻すという作業をしていました。ただ今回は件数が多いためなんとかならないかと考え、pythonでExcelファイル内のセルをいじるコードを作ってみました。

対象のデータは韓国政府のサイトからスクレイピングで取得した歴代大統領の演説テキスト1245本です。大統領名や日付、タイトル、本文等をカンマで区切ったテキストとして取得はできたのですが、本文はすべて改行なしテキストになってしまいました。本文のそれぞれの字数は5000～２万字程度です。これをとりあえず大統領別に切り分けて作業しました。大統領によって差はありますが、40～200本といったところです。

第1段階では、データを収録したExcelファイルinput.xlsxを読み込ませ、本文の入っているG列から演説で多用される語尾（複数）を検索し、ヒットした場合にはその語尾の後ろに改行を挿入。その結果をoutput.xlsxに書き出します。
第2段階として、output.exslのG列に700字以上の段落が残っていないかチェック。残っている場合には該当箇所をリストアップしてresult.txtに書き出します。該当するものは少ないので、ここから先は手作業で対応しました。

スクレイピングについては新米SEである息子にコードを書いてもらい、その後のコード（python）はchatGPTを利用して試行錯誤して書きました。コーディングについては30年ほど前にHyperCardで遊んだことしかなかったのですが、なんとかなりました。

★第１段階のコードは以下の通りです。

from openpyxl import load_workbook

# Excelファイルの読み込み
wb = load_workbook('input.xlsx')
ws = wb.active

# 特定の列のデータを処理する
column_index = 7  # G列のインデックス (1-indexed)
x = 2

# 繰り返し処理
while True:
    cell_value = ws.cell(row=x, column=column_index).value
    if cell_value is None:
        break  # データがない場合は終了

    # "니다."を検索し、改行を挿入
    updated_value = cell_value.replace("니다.", "니다.\n")

    # "이다."を検索し、改行を挿入
    updated_value = updated_value.replace("이다.", "이다.\n")

    # "이었다."を検索し、改行を挿入
    updated_value = updated_value.replace("이었다.", "이었다.\n")

    # "되었다."を検索し、改行を挿入
    updated_value = updated_value.replace("되었다.", "되었다.\n")

    # "이였다."を検索し、改行を挿入
    updated_value = updated_value.replace("이였다.", "이였다.\n")

    # "거시다."を検索し、改行を挿入
    updated_value = updated_value.replace("거시다.", "거시다.\n")

    # "하였다."を検索し、改行を挿入
    updated_value = updated_value.replace("하였다.", "하였다.\n")

    # セルの値を更新
    ws.cell(row=x, column=column_index).value = updated_value

    # xに1を加える
    x += 1

# Excelファイルの保存
[wb.save](http://wb.save/)('output.xlsx')

print("処理が完了しました。")

★第2段階のコードは次の通りです。

from openpyxl import load_workbook

# Excelファイルの読み込み
wb = load_workbook('output.xlsx')
ws = wb.active

# 結果を格納するリスト
results = []

# 列のインデックス
column_index = 7  # G列のインデックス (1-indexed)
x = 1

# 繰り返し処理
while True:
    cell_value = ws.cell(row=x, column=column_index).value
    if cell_value is None:
        break  # データがない場合は終了

    # 改行で分割して各行をチェック
    lines = cell_value.split("\n")
    for line in lines:
        # 700文字を超えるかチェック
        if len(line) > 700:
            results.append((x, line))  # 行番号と行の内容をタプルでリストに追加
            break  # 該当する行が見つかったらループを抜ける

    # xに1を加える
    x += 1

# 結果をファイルに出力
with open('result.txt', 'w') as f:
    if results:
        f.write("以下の行のG列セル内に700文字を超える行が含まれます:\n")
        for result in results:
            f.write(f"行{result[0]}: {result[1]}\n")
    else:
        f.write("行目のG列セル内に700文字を超える行はありませんでした。")

print("処理が完了しました。")

以上、もしかしたらお役にたつかもしれないと思い、共有させていただきます。こちらでのコードの書き込み方がよくわからず、変な表示になってしまいました。すみません。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

報告：セル内の超長文テキストへの改行挿入コード #1245

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

報告：セル内の超長文テキストへの改行挿入コード #1245

Katsumi1967 Mar 26, 2024

お使いのKH Coderのバージョン

ご質問の内容をお書きください

Replies: 0 comments

Katsumi1967
Mar 26, 2024