Python批量将html文件转换为txt文件

2023-05-29
#Python

来自用Python批量转换html为txt文件 - That Interpreter的代码:

import os
from bs4 import BeautifulSoup

# 源文件夹和目标文件夹。把所有文件放进源文件夹里
INPUT = "./html"
OUTPUT = "./txt"

# 遍历文件夹下的所有html文件
for file in os.listdir(INPUT):
    file_name = INPUT + "/" + file
    
    # 读取html内容
    html_content = open(file_name, "rb")
    text = BeautifulSoup(html_content).get_text()

    # 纯文本文件名,是去除html后缀名的部分
    text_name = file[: -5]

    # 将纯文本内容写入目标文件夹的纯文本文件
    with open(f"{OUTPUT}/{text_name}.txt".format(file), "a", encoding="utf-8") as file_handle:
        file_handle.write(text)
        file_handle.write('\n')
        # 显示进度
        print(f"Converting {text_name}.txt")

print("Done!")

注意⚠️:

  • 要转换的html文件放在html文件夹
  • txt文件夹为空

参考