어디에 쓰면 좋은가?
위 내용은 pdf를 텍스트 파일로 만들어서 텍스트 마이닝을 돌리거나 ChatGPT, Copilot에게 요약해서 핵심 정보만 보는 용도로 활용할 수 있음.
라이브러리 설치
pip install PyMuPDF transformers
전체코드
def get_pdf_file_list():
"""
.pdf 확장자인 파일의 경로를 리스트로 반환
"""
import glob
return glob.glob('./**/*.pdf', recursive=True)
def extract_text_from_pdf(pdf_path):
"""
PDF에서 텍스트 추출 함수
"""
import fitz # PyMuPDF
doc = fitz.open(pdf_path) # PDF 파일 열기
text = ""
# 각 페이지에서 텍스트 추출
for page_num in range(doc.page_count):
page = doc.load_page(page_num) # 페이지 로드
text += page.get_text() # 페이지의 텍스트 추출
return text
# PDF 파일 경로
pdf_files = get_pdf_file_list()
pdf_text = ''
for i, file in enumerate(pdf_files):
# PDF 텍스트 추출
pdf_text = extract_text_from_pdf(file)
# 텍스트 출력
# print(pdf_text[-100:])
# 텍스트를 .txt 파일로 저장
file_name = pdf_files[0].split('\\')[-1].split(' - ')[0] + '_' + str(i) + '.txt'
with open(file_name, 'w') as f:
f.write(pdf_text)
'기타 (Other)' 카테고리의 다른 글
[Github] readme.md: 파일 트리 (1) | 2025.02.11 |
---|---|
[python] PC 최적화 모델 (0) | 2025.02.11 |
[python] Flask 커스텀 헤더를 이용한 인증 예제 (1) | 2025.02.11 |
아파치 카프카 (0) | 2025.01.21 |
[python] pandas (4) | 2025.01.09 |