At kopiere tekstuddrag fra PDF'er til et regneark kan være udfordrende, især når linjeskift skaber nye celler. Her er nogle metoder til at håndtere dette problem på både Linux og Windows:
Linux-brugere kan benytte sig af kommandolinjeværktøjer som pdftotext
og awk
for at fjerne linjeskift og formatere teksten korrekt.
# Installer pdftotext hvis det ikke allerede er installeret
sudo apt-get install poppler-utils
# Konverter PDF til tekstfil
pdftotext input.pdf output.txt
# Brug awk til at fjerne linjeskift og formatere teksten
awk '{printf "%s ", $0}' output.txt > formatted.txt
# Åbn formatted.txt i dit regnearksprogram og kopier indholdet til regnearket
Ctrl+H
for at åbne søg og erstat-dialogen. Søg efter ^p
og erstat med et mellemrum.Ctrl+H
for at åbne søg og erstat-dialogen. Søg efter $
og erstat med et mellemrum.For avancerede brugere kan scripts i Python eller Bash automatisere processen:
# Python script til at fjerne linjeskift og formatere tekst
import PyPDF2
def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
text = ''
for page_num in range(reader.numPages):
page = reader.getPage(page_num)
text += page.extract_text().replace('
', ' ')
return text
pdf_path = 'input.pdf'
formatted_text = extract_text_from_pdf(pdf_path)
with open('formatted.txt', 'w') as file:
file.write(formatted_text)
# Åbn formatted.txt i dit regnearksprogram og kopier indholdet til regnearket
Ved at bruge en af disse metoder kan du effektivt kopiere tekstuddrag fra PDF'er til et regneark uden at linjeskift skaber nye celler, og uden at skulle reparere det manuelt.
Har du brug for hjælp til at overføre tekst fra PDF til regneark? Med Handyhand kan du nemt oprette din opgave gratis og få bud fra dygtige hjælpere på få minutter. Gør din opgave lettere og få professionel assistance til at få arbejdet gjort.