Archive.org's Wayback Machine bruger JavaScript til at opdatere links, hvilket gør det udfordrende at hente alle filer med en simpel rekursiv wget. Her er nogle metoder, du kan bruge i stedet:
Wayback Machine Downloader er et værktøj, der kan hjælpe dig med at hente alle filer fra en given hjemmeside på Archive.org. Følg disse trin:
gem install wayback_machine_downloader
wayback_machine_downloader http://example.com
Du kan også bruge et Python script til at hente filer. Her er et eksempel:
import requests
from bs4 import BeautifulSoup
def download_file(url, session):
local_filename = url.split('/')[-1]
with session.get(url, stream=True) as r:
r.raise_for_status()
with open(local_filename, 'wb') as f:
for chunk in r.iter_content(chunk_size=8192):
f.write(chunk)
return local_filename
def main():
base_url = 'http://web.archive.org/web/20210101000000*/http://example.com'
session = requests.Session()
response = session.get(base_url)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all('a'):
file_url = link.get('href')
if file_url:
download_file(file_url, session)
if __name__ == "__main__":
main()
Heritrix er en web crawler udviklet af Internet Archive. Følg disse trin for at bruge Heritrix:
Hvis ovenstående metoder ikke virker, kan du overveje at downloade filer manuelt:
Ved at bruge en af disse metoder kan du effektivt hente alle filer fra en given hjemmeside på Archive.org, selv når Wayback Machine bruger JavaScript til at opdatere links.
Har du brug for hjælp til at hente filer fra Archive.org? Med Handyhand kan du nemt oprette din opgave helt gratis. På få minutter vil du modtage bud fra dygtige hjælpere, der står klar til at assistere dig med at finde og downloade de filer, du har brug for. Gør det nemt for dig selv og få den hjælp, du behøver!