1) html 파일 읽기
from bs4 import BeautifulSoup
with open('testhtml.html','r', encoding='utf-8' ) as f :
txtHtml = f.read()
# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(txtHtml, 'html.parser')
# 태그를 제거하고 텍스트만 추출
text_content = soup.get_text()
# 공백 문자 제거 및 정리
cleaned_text = ' '.join(text_content.split())
BeautifulSoup 모듈 사용
Beautiful Soup은 HTML 및 XML 문서를 파싱하고 데이터를 추출하는 데 사용되는 라이브러리
Beautiful Soup은 웹 스크랩핑 (Web Scraping) 및 데이터 추출 작업을 단순화하는데 도움이 되며, 웹 페이지에서 데이터를 조작할 수있도록 한다.
* html 파싱 시 encoding을 명시해주어야 한다.
2) pdf 파일 읽기
PyPDF2 라이브러리에서 발생하는 DeprecationError 오류:
PyPDF2 3.0.0 버전에서 PdfFileReader 클래스가 사용되지 않도록 변경되었다. 따라서
from PyPDF2 import PdfReader 해당과 같이 사용한다.
pdf 파일은 이진파일 (binary file 바이너리 파일) 이다.
바이너리 파일은 텍스트파일이 아닌 컴퓨터 파일로 컴퓨터 저장과 처리목적을 위해 이진형식으로 인코딩된 데이터를 포함하며 , PDF 파일, 이미지 파일 ,바이너리 데이터 파일이 이에 해당한다.
따라서 파이썬에서 PDF파일은 'r'모드로는 열수가 없고 'rb' (read binary) 모드로 열어야한다.
# PDF 파일 열기
with open('test.pdf', 'rb') as text :