Sådan Henter Du Alle Filer fra Archive.org: Effektive Metoder og Værktøjer

Hvordan kan alle filer for en given hjemmeside på archive.org hentes, når archive.org wayback machine bruger JavaScript til at opdatere links, og en metode som en rekursiv wget derfor ikke virker?

Når Archive.org's Wayback Machine bruger JavaScript til at opdatere links, kan du hente alle filer ved at bruge værktøjer som Wayback Machine Downloader, et Python script, Heritrix, eller ved manuelle downloads.

Sådan Henter Du Alle Filer for en Given Hjemmeside på Archive.org

Archive.org's Wayback Machine bruger JavaScript til at opdatere links, hvilket gør det udfordrende at hente alle filer med en simpel rekursiv wget. Her er nogle metoder, du kan bruge i stedet:

1. Brug af Wayback Machine Downloader

Wayback Machine Downloader er et værktøj, der kan hjælpe dig med at hente alle filer fra en given hjemmeside på Archive.org. Følg disse trin:

  • Installer Wayback Machine Downloader ved at bruge RubyGems:
    gem install wayback_machine_downloader
  • Kør værktøjet med følgende kommando:
    wayback_machine_downloader http://example.com

2. Brug af Python Script

Du kan også bruge et Python script til at hente filer. Her er et eksempel:

import requests
from bs4 import BeautifulSoup

def download_file(url, session):
    local_filename = url.split('/')[-1]
    with session.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'wb') as f:
            for chunk in r.iter_content(chunk_size=8192):
                f.write(chunk)
    return local_filename

def main():
    base_url = 'http://web.archive.org/web/20210101000000*/http://example.com'
    session = requests.Session()
    response = session.get(base_url)
    soup = BeautifulSoup(response.text, 'html.parser')
    for link in soup.find_all('a'):
        file_url = link.get('href')
        if file_url:
            download_file(file_url, session)

if __name__ == "__main__":
    main()

3. Brug af Heritrix

Heritrix er en web crawler udviklet af Internet Archive. Følg disse trin for at bruge Heritrix:

  • Download og installer Heritrix fra Heritrix User Manual.
  • Konfigurer en crawl job ved at følge manualen.
  • Start crawl jobbet for at hente alle filer fra den ønskede hjemmeside.

4. Manuelle Downloads

Hvis ovenstående metoder ikke virker, kan du overveje at downloade filer manuelt:

  • Gå til Archive.org og find den ønskede hjemmeside.
  • Brug browserens udviklerværktøjer til at finde og downloade individuelle filer.

Ved at bruge en af disse metoder kan du effektivt hente alle filer fra en given hjemmeside på Archive.org, selv når Wayback Machine bruger JavaScript til at opdatere links.

Opret din første opgave på få minutter

Spar dig selv for besvær og kom igennem din to-do liste i dag

1

Beskriv din opgave

2

Modtag bud

3

Få løst din opgave

opgaver platform services

Møbelsamling

Hjælp med at samle Ikea klædeskab

opgaver platform services

Maler

Klargøring af lejlighed til flyttesyn

opgaver platform services

Flyttehjælp

Flytning af 150 kvm hus til Roskilde fra København

opgaver platform services

Havearbejde

Beskæring af 4 større træer

opgaver platform services

IT support

Geninstallering af windows + programmer

opgaver platform services

Elektriker

Installation af Sonos musikanlæg i hus

opgaver platform services

Rengøring

Ugentlig rengøring af lejlighed (114kvm)

opgaver platform services

Flyttehjælp

Flytning af 150 kvm hus til Roskilde fra København

opgaver platform services

Elektriker

Opsætning af lamper i stue og soveværelse

opgaver platform services

Catering

3-retters menu til 14 mennesker