Lær hvordan du flette datarammer i Python

Lær hvordan du flette datarammer i Python

Hvis du bruger Python, selv til de enkleste opgaver, er du sikkert klar over vigtigheden af ​​dets tredjepartsbiblioteker. Pandas-biblioteket, med sin fremragende understøttelse af DataFrames, er et sådant bibliotek.





Du kan importere flere filtyper til Python DataFrames og oprette forskellige versioner til at gemme forskellige datasæt. Når du importerer dine data ved hjælp af DataFrames, kan du flette dem for at udføre detaljeret analyse.





At tackle det grundlæggende

Før du går i gang med at flette, skal du have DataFrames til at flette. Til udviklingsformål kan du oprette nogle dummy-data til at eksperimentere med.





hvordan man beskærer videoer på Android

Opret DataFrames i Python

Som et første trin skal du importere Pandas-biblioteket til din Python-fil. Pandas er et tredjepartsbibliotek, der håndterer DataFrames i Python. Du kan bruge importere erklæring om at bruge biblioteket, som følger:

import pandas as pd

Du kan tildele et alias til biblioteksnavnet for at forkorte dine kodereferencer.



Du skal lave ordbøger, som du kan konvertere til DataFrames. For de bedste resultater skal du oprette to ordbogsvariable— diktat 1 og dikt2— for at gemme specifikke oplysninger:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Husk, at du skal have et fælles element i begge ordbogsværdier for at fungere som den primære nøgle til at kombinere dine DataFrames senere.





Konverter dine ordbøger til datarammer

For at konvertere dine ordbogsværdier til DataFrames kan du bruge følgende metode:

df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Nogle IDE'er lader dig kontrollere værdierne i DataFrame ved at referere til DataFrame-funktionen og trykke på Kør/udfør . Der er mange Python-kompatible IDE'er , så du kan vælge og vrage den, der er den nemmeste for dig at lære.





  Jupyter Notebook-kodestykke

Når du er tilfreds med indholdet af dine DataFrames, kan du gå videre til flettetrinnet.

Kombination af rammer med fletfunktionen

Merge-funktionen er den første Python-funktion, du kan bruge til at kombinere to DataFrames. Denne funktion tager følgende standardargumenter:

opdatering af windows xp til windows 7
pd.merge(DataFrame1, DataFrame2, how= type of merge)

Hvor:

  • pd er et alias for Pandas-biblioteket.
  • fusionere er den funktion, der fusionerer DataFrames.
  • DataFrame 1 og DataFrame2 er de to DataFrames, der skal flettes.
  • hvordan definerer flettetypen.

Nogle ekstra valgfrie argumenter er tilgængelige, som du kan bruge, når du har en kompleks datastruktur.

Du kan bruge forskellige værdier for how-parameteren til at definere typen af ​​fletning, der skal udføres. Disse typer fletninger vil være velkendte, hvis du har brugte SQL til at forbinde databasetabeller .

Venstre fletning

Den venstre flettetype holder den første DataFrames værdier intakte og trækker de matchende værdier fra den anden DataFrame.

  Jupyter Notebook-kodestykke

Højre flet

Den rigtige flettetype holder den anden DataFrames værdier intakte og trækker de matchende værdier fra den første DataFrame.

  Jupyter Notebook-kodestykke

Indre fusion

Den indre flettetype beholder de matchende værdier fra begge DataFrames og fjerner ikke-matchende værdier.

  Jupyter Notebook-kodestykke

Ydre sammenfletning

Den ydre flettetype bevarer alle matchende og ikke-matchende værdier og konsoliderer DataFrames sammen.

  Jupyter Notebook-kodestykke

Sådan bruges Concat-funktionen

Det konkat funktion er en fleksibel mulighed sammenlignet med nogle af Pythons andre flettefunktioner. Med concat-funktionen kan du kombinere DataFrames lodret og vandret.

Men ulempen ved at bruge denne funktion er, at den kasserer alle ikke-matchende værdier som standard. Ligesom nogle andre relaterede funktioner har denne funktion nogle få argumenter, hvoraf kun få er essentielle for en vellykket sammenkædning.

concat(dataframes, axis=0, join='outer'/inner)

Hvor:

  • konkat er den funktion, der forbinder DataFrames.
  • datarammer er en sekvens af DataFrames, der skal sammenkædes.
  • akse repræsenterer sammenkædningsretningen, 0 er vandret, 1 er lodret.
  • tilslutte angiver enten en ydre eller indre samling.

Ved at bruge de to ovenstående DataFrames kan du prøve concat-funktionen som følger:

# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

Fraværet af akse- og join-argumenterne i ovenstående kode kombinerer de to datasæt. Det resulterende output har alle poster, uanset matchstatus.

På samme måde kan du bruge yderligere argumenter til at styre retningen og outputtet af konkatfunktionen.

Sådan styres output med alle matchende poster:

# Concatenating all matching values between the two dataframes based on their columns 
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')

print(df_merged_concat)

Resultatet indeholder kun alle matchende værdier mellem de to DataFrames.

  Jupyter Notebook-kodestykke

Sammenfletning af datarammer med Python

DataFrames er en integreret del af Python i betragtning af deres fleksibilitet og funktionalitet. På grund af deres mangesidede anvendelser kan du bruge dem i vid udstrækning til at udføre en række opgaver med største lethed.

Sådan spiller du xbox one 2016

Hvis du stadig lærer om Python DataFrames, kan du prøve at importere nogle Excel-filer og derefter kombinere dem med forskellige tilgange.