[python] PDF 텍스트 추출해서 TXT 파일로 만들기

기타 (Other)

[python] PDF 텍스트 추출해서 TXT 파일로 만들기

Kim MyeongOk 2025. 2. 11. 20:46

어디에 쓰면 좋은가?

위 내용은 pdf를 텍스트 파일로 만들어서 텍스트 마이닝을 돌리거나 ChatGPT, Copilot에게 요약해서 핵심 정보만 보는 용도로 활용할 수 있음.

라이브러리 설치

pip install PyMuPDF transformers

전체코드

def get_pdf_file_list():
    """
    .pdf 확장자인 파일의 경로를 리스트로 반환
    """
	import glob
	return glob.glob('./**/*.pdf', recursive=True)

def extract_text_from_pdf(pdf_path):
    """
    PDF에서 텍스트 추출 함수
    """
	import fitz  # PyMuPDF
    doc = fitz.open(pdf_path)  # PDF 파일 열기
    text = ""
    
    # 각 페이지에서 텍스트 추출
    for page_num in range(doc.page_count):
        page = doc.load_page(page_num)  # 페이지 로드
        text += page.get_text()  # 페이지의 텍스트 추출
    return text

# PDF 파일 경로
pdf_files = get_pdf_file_list()

pdf_text = ''
for i, file in enumerate(pdf_files):
    # PDF 텍스트 추출
    pdf_text = extract_text_from_pdf(file)

    # 텍스트 출력
    # print(pdf_text[-100:])
    
    # 텍스트를 .txt 파일로 저장
    file_name = pdf_files[0].split('\\')[-1].split(' - ')[0] + '_' + str(i) + '.txt'
    with open(file_name, 'w') as f:
        f.write(pdf_text)

'기타 (Other)' 카테고리의 다른 글

[Github] readme.md: 파일 트리 (1)	2025.02.11
[python] PC 최적화 모델 (0)	2025.02.11
[python] Flask 커스텀 헤더를 이용한 인증 예제 (1)	2025.02.11
아파치 카프카 (0)	2025.01.21
[python] pandas (4)	2025.01.09

현재글[python] PDF 텍스트 추출해서 TXT 파일로 만들기

머신러닝 딥러닝 개발

#현업 #데이터엔지니어

데이터프레임, pandas, 첫째마당, flask, 데이터분석, 결과물, Chapter 1, 머신러닝, 파이썬, example, 핸드온 머신러닝, seaborn, 둘째마당, Python, matplotlib, 넷째마당, Numpy, hands-on machine learning with scikit-learn keras & tensorflow, 예제, ML,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

머신러닝 딥러닝 개발

[python] PDF 텍스트 추출해서 TXT 파일로 만들기

어디에 쓰면 좋은가?

라이브러리 설치

전체코드

'기타 (Other)' 카테고리의 다른 글

'기타 (Other)'의 다른글

티스토리툴바

[python] PDF 텍스트 추출해서 TXT 파일로 만들기

어디에 쓰면 좋은가?

라이브러리 설치

전체코드

'기타 (Other)' 카테고리의 다른 글

'기타 (Other)'의 다른글

관련글

티스토리툴바