Python: numpy and pandas modules

Question

Python: numpy and pandas modules

Navigation

#1 by (5 votes)

1

Can anyone explain to me what this code does?

import pandas as pd
import numpy as np

df = pd.read_csv('Prueba.csv', sep=';')

numIteraciones = df.columns.size - 6

for i in range(1,numIteraciones+1):
    col = str(i)
    comando = df[col][0]
    registros = df.shape[0]-1
    aux = df[df[col]>=0]

I do not understand either the for or the pandas and numpy libraries.

python

asked by AlberM 25.11.2016 в 07:45

source

1 answer

Warning message in css How to go through this array

score 5 · Accepted Answer

It's a bit complex to explain since I guess it solves a very specific problem for the data Pruebas.csv in concrete.

Pandas is a library that allows you to work with structured data in rows and columns (like an Excel spreadsheet). I think the best way to imagine when working with pandas is that (if Excel is too small).

NumPy is a fundamental library of scientific Python that supports many others (pandas included). It allows to work with data as if they were "matrices" (called arrays or arrays) that are stored efficiently in memory. If you have used MATLAB or GNU Octave, numpy is the library that allows you to work in a similar way.

In the fragment that you have written you are only using pandas, if you notice you do not use numpy ( np in the code does not appear)

I recommend you read this tutorial to better understand how to work with pandas.

In any case, I briefly tell you what each line does:

import pandas as pd
import numpy as np

# el intérprete de Python ignorará todo lo que siga a un '#'

# Hasta ahora hemos importado las librerías a las
# que accederemos de con el pseudonimo que hemos definido:
# 'pd' para pandas y 'np' para numpy.

df = pd.read_csv('Prueba.csv', sep=';')
# Aquí importamos los datos del archivo Prueba.csv
# CSV viene de comma separated value, por lo que el separador
# entre columnas es el ';'

# df significa data frame, que es el formato en el que trabaja pandas
# los data frame tienen filas y columnas tal y como si fueran una hoja de Excel

numIteraciones = df.columns.size - 6
# Aquí obtenemos el numero de iteraciones
# que será la cantidad de columnas menos 6 (nº arbitrario)

# En el siguiente bucle iremos desde el segundo elemento
# (recuerda que en Python los elementos empieza en 0)
# al último (ese +1 es para incluír el último)

for i in range(1,numIteraciones+1):
    # si no te ha quedado muy claro lo de arriba
    # puedes añadir un print(i) dentro del bucle para entenderlo

    col = str(i)
    # Aquí está cambiando el número i a un formato tipo string (cadena de texto)
    # Esto es  necesario para trabajar con los data frames. Como verás a continuación
    # en pandas los indíces para seleccionar contenido entran como texto (son las cabeceras o headers).
    # Las cabeceras de tu CSV se habrán nombrado por números
    # te recomiendo el siguiente comando para enteder que tienes en el DataFrame:
    # df.head

    comando = df[col][0]
    # Aquí está seleccionado el primer elemento de la columna con cabecera 'i' 
    # El primer elemento de la fila se selecciona con ese [0],


    registros = df.shape[0]-1
    # Aquí está obteniedo el nº de filas  'df.shape[0]' y restándole
    # la unidad para (supongo) no coger la primera de ellas que tiene los cabceros
    # más adelante

    aux = df[df[col]>=0]
    # Aquí hay dos operaciones. Primero está seleccionando los elementos de la columna 'i'
    # que són mayores o iguales que 0
    # Esto lo utiliza para almacenar en la variable auxiliar todos los elementos del dataframe
    # que cumplían esa condición