перебирать и использовать HTML-файлы в каталоге - python

Мне нужно перебирать файлы .html в заданном каталоге и удалять данные из них. Пока это мой код, как я могу получить доступ к скрипту внутри?

import os
directory ='/Users/xxxxx/Documents/sample/'
for filename in os.listdir(directory):
    if filename.endswith('.html'):
        print(os.path.join(directory,filename))
    else:
        continue

(Система: Mac / Python3.x)

html,python-3.x,screen-scraping,

0

Ответов: 1


2

Вы могли бы сделать что-то вроде этого:

import os
from bs4 import BeautifulSoup

directory ='/Users/xxxxx/Documents/sample/'
for filename in os.listdir(directory):
    if filename.endswith('.html'):
        fname = os.path.join(directory,filename)
        with open(fname, 'r') as f:
            soup = BeautifulSoup(f.read(),'html.parser')
            # parse the html as you wish
HTML, питон-3.x, экран выскабливание,
Похожие вопросы