Behandling af Store .txt Filer: Python, Unix/Linux og R Metoder

Hvordan kan flere .txt filer med over 30 millioner linjer og 20-40 kolonner (nogle komma-separerede, nogle mellemrum-separerede) behandles for at fjerne unødvendige kolonner, omarrangere kolonnerne og gemme outputtet i en ny .txt fil med kolon-separerede kolonner, uden at bruge Excel?

Behandling af store .txt filer uden Excel kan gøres ved at bruge Python, Unix/Linux kommandoer eller R til at læse, manipulere og gemme data.

Behandling af Store .txt Filer uden Excel

For at behandle flere .txt filer med over 30 millioner linjer og 20-40 kolonner uden at bruge Excel, kan du følge disse trin:

1. Brug af Python

Python er et kraftfuldt værktøj til at håndtere store datasæt. Du kan bruge pandas biblioteket til at læse, manipulere og gemme data.

Trin-for-trin Guide:

  1. Installer nødvendige biblioteker:
    pip install pandas
  2. Læs filerne:
    
    import pandas as pd
    
    # Læs filen med passende separator
    df = pd.read_csv('input.txt', sep=',|\s+', engine='python')
        
  3. Fjern unødvendige kolonner:
    
    # Fjern kolonner ved at specificere deres navne
    df = df.drop(['kolonne1', 'kolonne2'], axis=1)
        
  4. Omarranger kolonnerne:
    
    # Omarranger kolonnerne ved at specificere rækkefølgen
    df = df[['kolonne3', 'kolonne4', 'kolonne5']]
        
  5. Gem outputtet i en ny .txt fil med kolon-separerede kolonner:
    
    # Gem den nye fil
    df.to_csv('output.txt', sep=':', index=False)
        

2. Brug af Unix/Linux Kommandoer

Hvis du arbejder i et Unix/Linux miljø, kan du bruge kommandoer som awk og sed til at manipulere filerne.

Trin-for-trin Guide:

  1. Fjern unødvendige kolonner:
    
    awk '{print $1, $3, $5}' input.txt > temp.txt
        
  2. Omarranger kolonnerne:
    
    awk '{print $3, $1, $2}' temp.txt > rearranged.txt
        
  3. Erstat mellemrum med kolon:
    
    sed 's/ /:/g' rearranged.txt > output.txt
        

3. Brug af R

R er et andet kraftfuldt værktøj til data manipulation. Du kan bruge dplyr og readr pakkerne.

Trin-for-trin Guide:

  1. Installer nødvendige pakker:
    
    install.packages("dplyr")
    install.packages("readr")
        
  2. Læs filerne:
    
    library(dplyr)
    library(readr)
    
    # Læs filen med passende separator
    df <- read_delim('input.txt', delim = ',|\\s+', col_names = TRUE)
        
  3. Fjern unødvendige kolonner:
    
    # Fjern kolonner ved at specificere deres navne
    df <- df %>% select(-kolonne1, -kolonne2)
        
  4. Omarranger kolonnerne:
    
    # Omarranger kolonnerne ved at specificere rækkefølgen
    df <- df %>% select(kolonne3, kolonne4, kolonne5)
        
  5. Gem outputtet i en ny .txt fil med kolon-separerede kolonner:
    
    # Gem den nye fil
    write_delim(df, 'output.txt', delim = ':')
        

Ved at følge disse trin kan du effektivt behandle store .txt filer uden at bruge Excel.