Sådan Henter Du Alle Filer fra Archive.org: Effektive Metoder og Værktøjer

Hvordan kan alle filer for en given hjemmeside på archive.org hentes, når archive.org wayback machine bruger JavaScript til at opdatere links, og en metode som en rekursiv wget derfor ikke virker?

Når Archive.org's Wayback Machine bruger JavaScript til at opdatere links, kan du hente alle filer ved at bruge værktøjer som Wayback Machine Downloader, et Python script, Heritrix, eller ved manuelle downloads.

Sådan Henter Du Alle Filer for en Given Hjemmeside på Archive.org

Archive.org's Wayback Machine bruger JavaScript til at opdatere links, hvilket gør det udfordrende at hente alle filer med en simpel rekursiv wget. Her er nogle metoder, du kan bruge i stedet:

1. Brug af Wayback Machine Downloader

Wayback Machine Downloader er et værktøj, der kan hjælpe dig med at hente alle filer fra en given hjemmeside på Archive.org. Følg disse trin:

  • Installer Wayback Machine Downloader ved at bruge RubyGems:
    gem install wayback_machine_downloader
  • Kør værktøjet med følgende kommando:
    wayback_machine_downloader http://example.com

2. Brug af Python Script

Du kan også bruge et Python script til at hente filer. Her er et eksempel:

import requests
from bs4 import BeautifulSoup

def download_file(url, session):
    local_filename = url.split('/')[-1]
    with session.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'wb') as f:
            for chunk in r.iter_content(chunk_size=8192):
                f.write(chunk)
    return local_filename

def main():
    base_url = 'http://web.archive.org/web/20210101000000*/http://example.com'
    session = requests.Session()
    response = session.get(base_url)
    soup = BeautifulSoup(response.text, 'html.parser')
    for link in soup.find_all('a'):
        file_url = link.get('href')
        if file_url:
            download_file(file_url, session)

if __name__ == "__main__":
    main()

3. Brug af Heritrix

Heritrix er en web crawler udviklet af Internet Archive. Følg disse trin for at bruge Heritrix:

  • Download og installer Heritrix fra Heritrix User Manual.
  • Konfigurer en crawl job ved at følge manualen.
  • Start crawl jobbet for at hente alle filer fra den ønskede hjemmeside.

4. Manuelle Downloads

Hvis ovenstående metoder ikke virker, kan du overveje at downloade filer manuelt:

  • Gå til Archive.org og find den ønskede hjemmeside.
  • Brug browserens udviklerværktøjer til at finde og downloade individuelle filer.

Ved at bruge en af disse metoder kan du effektivt hente alle filer fra en given hjemmeside på Archive.org, selv når Wayback Machine bruger JavaScript til at opdatere links.