Behandling af Store .txt Filer: Python, Unix/Linux og R Metoder

Hvordan kan flere .txt filer med over 30 millioner linjer og 20-40 kolonner (nogle komma-separerede, nogle mellemrum-separerede) behandles for at fjerne unødvendige kolonner, omarrangere kolonnerne og gemme outputtet i en ny .txt fil med kolon-separerede kolonner, uden at bruge Excel?

Behandling af store .txt filer uden Excel kan gøres ved at bruge Python, Unix/Linux kommandoer eller R til at læse, manipulere og gemme data.

Behandling af Store .txt Filer uden Excel

For at behandle flere .txt filer med over 30 millioner linjer og 20-40 kolonner uden at bruge Excel, kan du følge disse trin:

1. Brug af Python

Python er et kraftfuldt værktøj til at håndtere store datasæt. Du kan bruge pandas biblioteket til at læse, manipulere og gemme data.

Trin-for-trin Guide:

Installer nødvendige biblioteker:
```
pip install pandas
```

Læs filerne:


import pandas as pd

# Læs filen med passende separator
df = pd.read_csv('input.txt', sep=',|\s+', engine='python')

Fjern unødvendige kolonner:


# Fjern kolonner ved at specificere deres navne
df = df.drop(['kolonne1', 'kolonne2'], axis=1)

Omarranger kolonnerne:


# Omarranger kolonnerne ved at specificere rækkefølgen
df = df[['kolonne3', 'kolonne4', 'kolonne5']]

Gem outputtet i en ny .txt fil med kolon-separerede kolonner:


# Gem den nye fil
df.to_csv('output.txt', sep=':', index=False)

2. Brug af Unix/Linux Kommandoer

Hvis du arbejder i et Unix/Linux miljø, kan du bruge kommandoer som awk og sed til at manipulere filerne.

Trin-for-trin Guide:

Fjern unødvendige kolonner:


awk '{print $1, $3, $5}' input.txt > temp.txt

Omarranger kolonnerne:


awk '{print $3, $1, $2}' temp.txt > rearranged.txt

Erstat mellemrum med kolon:


sed 's/ /:/g' rearranged.txt > output.txt

3. Brug af R

R er et andet kraftfuldt værktøj til data manipulation. Du kan bruge dplyr og readr pakkerne.

Trin-for-trin Guide:

Installer nødvendige pakker:


install.packages("dplyr")
install.packages("readr")

Læs filerne:


library(dplyr)
library(readr)

# Læs filen med passende separator
df <- read_delim('input.txt', delim = ',|\\s+', col_names = TRUE)

Fjern unødvendige kolonner:


# Fjern kolonner ved at specificere deres navne
df <- df %>% select(-kolonne1, -kolonne2)

Omarranger kolonnerne:


# Omarranger kolonnerne ved at specificere rækkefølgen
df <- df %>% select(kolonne3, kolonne4, kolonne5)

Gem outputtet i en ny .txt fil med kolon-separerede kolonner:


# Gem den nye fil
write_delim(df, 'output.txt', delim = ':')

Ved at følge disse trin kan du effektivt behandle store .txt filer uden at bruge Excel.

Behandling af Store .txt Filer: Python, Unix/Linux og R Metoder

Hvordan kan flere .txt filer med over 30 millioner linjer og 20-40 kolonner (nogle komma-separerede, nogle mellemrum-separerede) behandles for at fjerne unødvendige kolonner, omarrangere kolonnerne og gemme outputtet i en ny .txt fil med kolon-separerede kolonner, uden at bruge Excel?

Behandling af Store .txt Filer uden Excel

1. Brug af Python

Trin-for-trin Guide:

2. Brug af Unix/Linux Kommandoer

Trin-for-trin Guide:

3. Brug af R

Trin-for-trin Guide:

Flere tips vedr. Håndtering af Store Datafiler

Behandling af Store .txt Filer: Python, Unix/Linux og R Metoder

Vis Linje 45000000 til 45000100 i Stor Tekstfil på Linux – Alternative Metoder

Opdel Store Tekstfiler i Windows XP: Brug 7-Zip og Kommandolinjeværktøjer

Kopier tekst fra PDF til regneark uden linjeskift: Effektive metoder og værktøjer

Kopier .txt-filer med bevaret mappestruktur: Guide til Windows og Linux

Hvorfor Fylder 100000 Rækker Data Mere i en Tekstfil end i en Excel-fil? - Forklaring og Årsager

Vis store CSV-filer på Mac uden tunge programmer som OpenOffice - 6 lette metoder

Tilføj linjenummer og tabulator i tekstfiler: Python, Bash, PowerShell og teksteditorer

Konverter tekstfiler til UTF-8: Effektive metoder med Perl, iconv og Python

Sådan formateres CSV-kolonner som tekst i Excel: Trin-for-trin guide

Sådan kontrollerer du tekstvisning i Excel-celler uden at bruge "flet celler"

Sådan redigeres en tekstfil: Bevar kun linjer der starter med <Path>

Bedste Editorer til Store Tekstfiler (10 GB) - Effektive Alternativer til Notepad++

Sådan outputter du fra en fil fra en specifik linje (f.eks. linje 70000) - Python, Bash, PowerShell, Perl, C++ metoder

Få hjælp til behandling af store .txt filer med Handyhand