Behandling af Store .txt Filer: Python, Unix/Linux og R Metoder

Hvordan kan flere .txt filer med over 30 millioner linjer og 20-40 kolonner (nogle komma-separerede, nogle mellemrum-separerede) behandles for at fjerne unødvendige kolonner, omarrangere kolonnerne og gemme outputtet i en ny .txt fil med kolon-separerede kolonner, uden at bruge Excel?

Behandling af store .txt filer uden Excel kan gøres ved at bruge Python, Unix/Linux kommandoer eller R til at læse, manipulere og gemme data.

Behandling af Store .txt Filer uden Excel

For at behandle flere .txt filer med over 30 millioner linjer og 20-40 kolonner uden at bruge Excel, kan du følge disse trin:

1. Brug af Python

Python er et kraftfuldt værktøj til at håndtere store datasæt. Du kan bruge pandas biblioteket til at læse, manipulere og gemme data.

Trin-for-trin Guide:

  1. Installer nødvendige biblioteker:
    pip install pandas
  2. Læs filerne:
    
    import pandas as pd
    
    # Læs filen med passende separator
    df = pd.read_csv('input.txt', sep=',|\s+', engine='python')
        
  3. Fjern unødvendige kolonner:
    
    # Fjern kolonner ved at specificere deres navne
    df = df.drop(['kolonne1', 'kolonne2'], axis=1)
        
  4. Omarranger kolonnerne:
    
    # Omarranger kolonnerne ved at specificere rækkefølgen
    df = df[['kolonne3', 'kolonne4', 'kolonne5']]
        
  5. Gem outputtet i en ny .txt fil med kolon-separerede kolonner:
    
    # Gem den nye fil
    df.to_csv('output.txt', sep=':', index=False)
        

2. Brug af Unix/Linux Kommandoer

Hvis du arbejder i et Unix/Linux miljø, kan du bruge kommandoer som awk og sed til at manipulere filerne.

Trin-for-trin Guide:

  1. Fjern unødvendige kolonner:
    
    awk '{print $1, $3, $5}' input.txt > temp.txt
        
  2. Omarranger kolonnerne:
    
    awk '{print $3, $1, $2}' temp.txt > rearranged.txt
        
  3. Erstat mellemrum med kolon:
    
    sed 's/ /:/g' rearranged.txt > output.txt
        

3. Brug af R

R er et andet kraftfuldt værktøj til data manipulation. Du kan bruge dplyr og readr pakkerne.

Trin-for-trin Guide:

  1. Installer nødvendige pakker:
    
    install.packages("dplyr")
    install.packages("readr")
        
  2. Læs filerne:
    
    library(dplyr)
    library(readr)
    
    # Læs filen med passende separator
    df <- read_delim('input.txt', delim = ',|\\s+', col_names = TRUE)
        
  3. Fjern unødvendige kolonner:
    
    # Fjern kolonner ved at specificere deres navne
    df <- df %>% select(-kolonne1, -kolonne2)
        
  4. Omarranger kolonnerne:
    
    # Omarranger kolonnerne ved at specificere rækkefølgen
    df <- df %>% select(kolonne3, kolonne4, kolonne5)
        
  5. Gem outputtet i en ny .txt fil med kolon-separerede kolonner:
    
    # Gem den nye fil
    write_delim(df, 'output.txt', delim = ':')
        

Ved at følge disse trin kan du effektivt behandle store .txt filer uden at bruge Excel.

Opret din første opgave på få minutter

Spar dig selv for besvær og kom igennem din to-do liste i dag

1

Beskriv din opgave

2

Modtag bud

3

Få løst din opgave

opgaver platform services

Møbelsamling

Hjælp med at samle Ikea klædeskab

opgaver platform services

Maler

Klargøring af lejlighed til flyttesyn

opgaver platform services

Flyttehjælp

Flytning af 150 kvm hus til Roskilde fra København

opgaver platform services

Havearbejde

Beskæring af 4 større træer

opgaver platform services

IT support

Geninstallering af windows + programmer

opgaver platform services

Elektriker

Installation af Sonos musikanlæg i hus

opgaver platform services

Rengøring

Ugentlig rengøring af lejlighed (114kvm)

opgaver platform services

Flyttehjælp

Flytning af 150 kvm hus til Roskilde fra København

opgaver platform services

Elektriker

Opsætning af lamper i stue og soveværelse

opgaver platform services

Catering

3-retters menu til 14 mennesker