Alle kategorier

Kategorier

Tilmeld

Sådan Henter Du Alle Filer fra Archive.org: Effektive Metoder og Værktøjer

Hvordan kan alle filer for en given hjemmeside på archive.org hentes, når archive.org wayback machine bruger JavaScript til at opdatere links, og en metode som en rekursiv wget derfor ikke virker?

Når Archive.org's Wayback Machine bruger JavaScript til at opdatere links, kan du hente alle filer ved at bruge værktøjer som Wayback Machine Downloader, et Python script, Heritrix, eller ved manuelle downloads.

Sådan Henter Du Alle Filer for en Given Hjemmeside på Archive.org

Archive.org's Wayback Machine bruger JavaScript til at opdatere links, hvilket gør det udfordrende at hente alle filer med en simpel rekursiv wget. Her er nogle metoder, du kan bruge i stedet:

1. Brug af Wayback Machine Downloader

Wayback Machine Downloader er et værktøj, der kan hjælpe dig med at hente alle filer fra en given hjemmeside på Archive.org. Følg disse trin:

Installer Wayback Machine Downloader ved at bruge RubyGems:
```
gem install wayback_machine_downloader
```

Kør værktøjet med følgende kommando:

wayback_machine_downloader http://example.com

2. Brug af Python Script

Du kan også bruge et Python script til at hente filer. Her er et eksempel:

import requests
from bs4 import BeautifulSoup

def download_file(url, session):
    local_filename = url.split('/')[-1]
    with session.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'wb') as f:
            for chunk in r.iter_content(chunk_size=8192):
                f.write(chunk)
    return local_filename

def main():
    base_url = 'http://web.archive.org/web/20210101000000*/http://example.com'
    session = requests.Session()
    response = session.get(base_url)
    soup = BeautifulSoup(response.text, 'html.parser')
    for link in soup.find_all('a'):
        file_url = link.get('href')
        if file_url:
            download_file(file_url, session)

if __name__ == "__main__":
    main()

3. Brug af Heritrix

Heritrix er en web crawler udviklet af Internet Archive. Følg disse trin for at bruge Heritrix:

Download og installer Heritrix fra Heritrix User Manual.
Konfigurer en crawl job ved at følge manualen.
Start crawl jobbet for at hente alle filer fra den ønskede hjemmeside.

4. Manuelle Downloads

Hvis ovenstående metoder ikke virker, kan du overveje at downloade filer manuelt:

Gå til Archive.org og find den ønskede hjemmeside.
Brug browserens udviklerværktøjer til at finde og downloade individuelle filer.

Ved at bruge en af disse metoder kan du effektivt hente alle filer fra en given hjemmeside på Archive.org, selv når Wayback Machine bruger JavaScript til at opdatere links.

Flere tips vedr. Hentning af Filer fra Online Arkiver

Sådan Henter Du Alle Filer fra Archive.org: Effektive Metoder og Værktøjer

Hvordan kan alle filer for en given hjemmeside på archive.org hentes, når archive.org wayback machine bruger JavaScript til at opdatere links, og en metode som en rekursiv wget derfor ikke virker?

Sådan Henter Du Alle Filer for en Given Hjemmeside på Archive.org

1. Brug af Wayback Machine Downloader

2. Brug af Python Script

3. Brug af Heritrix

4. Manuelle Downloads

Flere tips vedr. Hentning af Filer fra Online Arkiver

Sådan Downloader du Alle Sider fra en Hjemmeside: Guide til HTTrack, wget og Mere

Sådan downloader du alle filer og mapper fra en hjemmeside med Wget - Trin-for-trin guide

Download Filer Direkte fra Internettet Uden at Åbne Programmer som Acrobat Reader eller MS Word

Sådan downloader du alle filer i en mappe med CURL - Trin-for-trin guide

Gem Enkelt Webside Med Wget: Inkluder Baggrundsbilleder og Eksterne Ressourcer

Hvorfor Dropbox-filer kræver Chrome eller Firefox og hvordan man downloader med wget

Sådan Finder Du den Reelle URL til en Fil med wget: Trin-for-Trin Guide

Sådan downloader du sideindhold med wget uanset HTTP-kode - Guide og kommandoer

Sådan gemmer du websider uden styling, scripts og billeder: Effektive metoder og plugins

Gem HTML-filer lokalt i Google Chrome: De bedste udvidelser og metoder

"Sådan konverterer du links til relative med wget efter download uden -k option"

Sådan arbejder du med eksisterende arkiver og forskellige arkiveringsprogrammer - En guide

Sådan Downloader Du Alle YouTube-Videoer fra en URL-Liste med en Windows Batch-fil

Automatisering vs. Manuel Sortering af Links: Hvad er Bedst?

Bedste Chrome-udvidelser til bulk-downloads: DownThemAll-alternativer til filer med samme filtype eller mønster

Send en HTTP HEAD-anmodning med wget: Sådan gør du det nemt og hurtigt

Effektive Metoder til Filkopiering fra Windows XP til Windows Server 2008: Robocopy, SyncToy og Flere Alternativer

Deaktiver automatisk tilføjelse af "http://" ved kopiering i Chrome og Firefox - Sådan gør du!

Gentag wget-download af mappe: Hent kun nye eller ændrede filer

Sådan Finder Du Ud Af, Hvilken Webserver-Software en Hjemmeside Bruger | Guide 2023

Backup af filer fra netværksdrev til lokal disk: Løsning på lange filstier uden ændring af filstruktur

Nem Erstatning af Symbolske Links med Faktiske Filer: Metoder og Værktøjer

Find URL'er fra Tidligere Browser-Sessioner: Guide til Chrome, Firefox, Edge og Safari

Indbygget Alternativ til wget i Windows PowerShell: Invoke-WebRequest Guide

Få hjælp til at hente filer fra Archive.org med Handyhand