For at finde ordantallet i en PDF-fil, der har et indlejret tekstlag og ikke kræver OCR (Optical Character Recognition), kan du følge disse trin:
import PyPDF2 def count_words_in_pdf(pdf_path): pdf_file = open(pdf_path, 'rb') pdf_reader = PyPDF2.PdfFileReader(pdf_file) total_words = 0 for page_num in range(pdf_reader.numPages): page = pdf_reader.getPage(page_num) text = page.extractText() words = text.split() total_words += len(words) pdf_file.close() return total_words pdf_path = 'path/to/your/pdf/file.pdf' print(f'Total words: {count_words_in_pdf(pdf_path)}')
Ved at følge en af disse metoder kan du nemt finde ordantallet i en PDF-fil med et indlejret tekstlag uden at skulle bruge OCR.
Spar dig selv for besvær og kom igennem din to-do liste i dag
1
Beskriv din opgave
2
Modtag bud
3
Få løst din opgave
Møbelsamling
Hjælp med at samle Ikea klædeskab
Maler
Klargøring af lejlighed til flyttesyn
Flyttehjælp
Flytning af 150 kvm hus til Roskilde fra København
Havearbejde
Beskæring af 4 større træer
IT support
Geninstallering af windows + programmer
Elektriker
Installation af Sonos musikanlæg i hus
Rengøring
Ugentlig rengøring af lejlighed (114kvm)
Flyttehjælp
Flytning af 150 kvm hus til Roskilde fra København
Elektriker
Opsætning af lamper i stue og soveværelse
Catering
3-retters menu til 14 mennesker