기타 (Other)

[python] PDF 텍스트 추출해서 TXT 파일로 만들기

Kim MyeongOk 2025. 2. 11. 20:46

어디에 쓰면 좋은가?

위 내용은 pdf를 텍스트 파일로 만들어서 텍스트 마이닝을 돌리거나 ChatGPT, Copilot에게 요약해서 핵심 정보만 보는 용도로 활용할 수 있음.

 

라이브러리 설치

pip install PyMuPDF transformers

 

전체코드

def get_pdf_file_list():
    """
    .pdf 확장자인 파일의 경로를 리스트로 반환
    """
	import glob
	return glob.glob('./**/*.pdf', recursive=True)

def extract_text_from_pdf(pdf_path):
    """
    PDF에서 텍스트 추출 함수
    """
	import fitz  # PyMuPDF
    doc = fitz.open(pdf_path)  # PDF 파일 열기
    text = ""
    
    # 각 페이지에서 텍스트 추출
    for page_num in range(doc.page_count):
        page = doc.load_page(page_num)  # 페이지 로드
        text += page.get_text()  # 페이지의 텍스트 추출
    return text

# PDF 파일 경로
pdf_files = get_pdf_file_list()

pdf_text = ''
for i, file in enumerate(pdf_files):
    # PDF 텍스트 추출
    pdf_text = extract_text_from_pdf(file)

    # 텍스트 출력
    # print(pdf_text[-100:])
    
    # 텍스트를 .txt 파일로 저장
    file_name = pdf_files[0].split('\\')[-1].split(' - ')[0] + '_' + str(i) + '.txt'
    with open(file_name, 'w') as f:
        f.write(pdf_text)

'기타 (Other)' 카테고리의 다른 글

[Github] readme.md: 파일 트리  (1) 2025.02.11
[python] PC 최적화 모델  (0) 2025.02.11
[python] Flask 커스텀 헤더를 이용한 인증 예제  (1) 2025.02.11
아파치 카프카  (0) 2025.01.21
[python] pandas  (4) 2025.01.09