Hvis du har en PDF-fil, hvor teksten er rigtig tekst og ikke et scannet billede, kan du udtrække teksten ved hjælp af forskellige værktøjer på Linux. Her er nogle metoder:
pdftotext
er et populært værktøj til at udtrække tekst fra PDF-filer. Det er en del af poppler-utils
pakken.
sudo apt-get install poppler-utils
For at udtrække tekst fra en PDF-fil:
pdftotext input.pdf output.txt
Dette vil gemme teksten fra input.pdf
i output.txt
.
pdfgrep
er et andet nyttigt værktøj, som kan bruges til at søge efter tekst i PDF-filer og udtrække den.
sudo apt-get install pdfgrep
For at udtrække tekst, der matcher et bestemt mønster:
pdfgrep 'søgetekst' input.pdf > output.txt
pdftohtml
konverterer PDF-filer til HTML, hvilket kan gøre det lettere at udtrække tekst.
sudo apt-get install poppler-utils
For at konvertere en PDF-fil til HTML:
pdftohtml -stdout input.pdf > output.html
Derefter kan du bruge værktøjer som lynx
eller w3m
til at udtrække tekst fra HTML-filen.
Hvis du foretrækker at bruge et script, kan du bruge Python og biblioteket PyPDF2
til at udtrække tekst.
pip install PyPDF2
Eksempel på et Python-script:
import PyPDF2
def extract_text(pdf_path):
with open(pdf_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
text = ''
for page_num in range(reader.numPages):
page = reader.getPage(page_num)
text += page.extract_text()
return text
pdf_path = 'input.pdf'
text = extract_text(pdf_path)
with open('output.txt', 'w') as output_file:
output_file.write(text)
Dette script åbner PDF-filen, læser hver side og udtrækker teksten, som derefter gemmes i en tekstfil.
Disse metoder giver dig fleksibilitet til at vælge den løsning, der passer bedst til dine behov for at udtrække tekst fra PDF-filer på Linux uden at bruge OCR.
Har du brug for hjælp til PDF-udtræk eller Linux-opgaver? Med Handyhand kan du nemt oprette din opgave gratis og få bud fra dygtige hjælpere på få minutter. Gør dine tekniske udfordringer lettere med professionel assistance!