카테고리 없음

파이썬에서 파일 읽고 쓰기

sohhere 2023. 9. 22. 23:31

1) html 파일 읽기

 
   from bs4 import BeautifulSoup

   with open('testhtml.html','r', encoding='utf-8' ) as f :
       txtHtml = f.read()
       # BeautifulSoup을 사용하여 HTML 파싱
       soup = BeautifulSoup(txtHtml, 'html.parser')

       # 태그를 제거하고 텍스트만 추출
       text_content = soup.get_text()

       # 공백 문자 제거 및 정리
       cleaned_text = ' '.join(text_content.split())
 
 

BeautifulSoup 모듈 사용

Beautiful Soup은 HTML 및 XML 문서를 파싱하고 데이터를 추출하는 데 사용되는 라이브러리 

Beautiful Soup은 웹 스크랩핑 (Web Scraping) 및 데이터 추출 작업을 단순화하는데 도움이 되며, 웹 페이지에서 데이터를 조작할 수있도록 한다.
* html 파싱 시 encoding을 명시해주어야 한다.

 

2) pdf 파일 읽기

PyPDF2 라이브러리에서 발생하는 DeprecationError 오류:

PyPDF2 3.0.0 버전에서 PdfFileReader 클래스가 사용되지 않도록 변경되었다. 따라서 

    from PyPDF2 import PdfReader    해당과 같이 사용한다.

 

pdf 파일은 이진파일 (binary file 바이너리 파일) 이다.

바이너리 파일은 텍스트파일이 아닌 컴퓨터 파일로 컴퓨터 저장과 처리목적을 위해 이진형식으로 인코딩된 데이터를 포함하며 , PDF 파일, 이미지 파일 ,바이너리 데이터 파일이 이에 해당한다.

따라서 파이썬에서 PDF파일은  'r'모드로는 열수가 없고  'rb' (read binary) 모드로 열어야한다. 

 
  # PDF 파일 열기
  with open('test.pdf', 'rb') as text :