Pandas: как быстро преобразовать столбец в список
Вы можете использовать один из следующих методов для преобразования столбца в pandas DataFrame в список:
Способ 1: Используйте tolist()
df['my_column']. tolist ()
Способ 2: использовать список()
list(df['my_column'])
Оба метода вернут один и тот же результат.
В следующих примерах показано, как использовать каждый из этих методов со следующими пандами DataFrame:
import pandas as pd #create DataFrame df = pd.DataFrame() #view DataFrame print(df) team points assists 0 A 99 33 1 A 90 28 2 A 93 31 3 B 86 39 4 B 88 34 5 B 82 30
Способ 1: преобразовать столбец в список с помощью tolist()
В следующем коде показано, как использовать функцию tolist() для преобразования столбца «точки» в DataFrame в список:
#convert column to list my_list = df['points']. tolist () #view list print(my_list) [99, 90, 93, 86, 88, 82]
Мы можем подтвердить, что результатом является список, используя функцию type() :
#check data type type (my_list) list
Способ 2: преобразовать столбец в список с помощью list()
В следующем коде показано, как использовать функцию list() для преобразования столбца «точки» в DataFrame в список:
#convert column to list my_list = list(df['points']) #view list print(my_list) [99, 90, 93, 86, 88, 82]
Мы можем подтвердить, что результатом является список, используя функцию type() :
#check data type type (my_list) list
Обратите внимание, что оба метода возвращают одинаковые результаты.
Обратите внимание, что для очень больших фреймов данных метод tolist() работает быстрее всего.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные функции со столбцами кадра данных pandas:
10 приемов Python Pandas, которые сделают вашу работу более эффективной
Pandas — это широко используемый пакет Python для структурированных данных. Существует много хороших учебных пособий на данную тематику, но здесь мы бы хотели раскрыть несколько интересных приемов, которые, вероятно, еще пока неизвестны читателю, но могут оказаться крайне полезными.
read_csv
Все знают эту команду. Но если данные, которые вы пытаетесь прочитать, слишком большие, попробуйте добавить команду nrows = 5 , чтобы прочитать сначала небольшую часть данных перед загрузкой всей таблицы. В этом случае вам удастся избежать ситуации выбора неверного разделителя (не всегда в данных есть разделение в виде запятой).
(Или вы можете использовать команду ‘head’ в linux для проверки первых 5 строк в любом текстовом файле: head -c 5 data.txt )
Затем вы можете извлечь список столбцов, используя df.columns.tolist() , а затем добавить команду usecols = [‘c1’, ‘c2’,…], чтобы извлечь только нужные вам столбцы. Кроме того, если вы знаете типы данных определенных столбцов, вы можете добавить dtype = для более быстрой загрузки. Еще одно преимущество этой команды в том, что если у вас есть столбец, который содержит как строки, так и числа, рекомендуется объявить его тип строковым, чтобы не возникало ошибок при попытке объединить таблицы, используя этот столбец в качестве ключа.
select_dtypes
Если предварительная обработка данных должна выполняться в Python, то эта команда сэкономит ваше время. После чтения из таблицы типами данных по умолчанию для каждого столбца могут быть bool, int64, float64, object, category, timedelta64 или datetime64. Вы можете сначала проверить распределение с помощью
df.dtypes.value_counts()
чтобы узнать все возможные типы данных вашего фрейма, затем используйте
df.select_dtypes(include=[‘float64’, ‘int64’])
чтобы выбрать субфрейм только с числовыми характеристиками.
сopy
Это важная команда. Если вы сделаете:
import pandas as pd
df1 = pd.DataFrame(< ‘a’:[0,0,0], ‘b’: [1,1,1]>)
df2 = df1
df2[‘a’] = df2[‘a’] + 1
df1.head()
Вы обнаружите, что df1 изменен. Это потому, что df2 = df1 не делает копию df1 и присваивает ее df2, а устанавливает указатель, указывающий на df1. Таким образом, любые изменения в df2 приведут к изменениям в df1. Чтобы это исправить, вы можете сделать либо:
df2 = df1.copy ()
from copy import deepcopy
df2 = deepcopy(df1)
map
Это классная команда для простого преобразования данных. Сначала вы определяете словарь, в котором «ключами» являются старые значения, а «значениями» являются новые значения.
level_map =
df[‘c_level’] = df[‘c’].map(level_map)
Например: True, False до 1, 0 (для моделирования); определение уровней; определяемые пользователем лексические кодировки.
apply or not apply?
Если нужно создать новый столбец с несколькими другими столбцами в качестве входных данных, функция apply была бы весьма полезна.
def rule(x, y):
if x == ‘high’ and y > 10:
return 1
else:
return 0
df = pd.DataFrame(< 'c1':[ 'high' ,'high', 'low', 'low'], 'c2': [0, 23, 17, 4]>)
df['new'] = df.apply(lambda x: rule(x['c1'], x['c2']), axis = 1)
df.head()
В приведенных выше кодах мы определяем функцию с двумя входными переменными и используем функцию apply, чтобы применить ее к столбцам ‘c1’ и ‘c2’.
но проблема «apply» заключается в том, что иногда она занимает очень много времени.
Скажем, если вы хотите рассчитать максимум из двух столбцов «c1» и «c2», конечно, вы можете применить данную команду
df[‘maximum’] = df.apply(lambda x: max(x[‘c1’], x[‘c2’]), axis = 1)
но это будет медленнее, нежели:
df[‘maximum’] = df[[‘c1’,’c2']].max(axis =1)
Вывод: не используйте команду apply, если вы можете выполнить ту же работу используя другие функции (они часто быстрее). Например, если вы хотите округлить столбец ‘c’ до целых чисел, выполните округление (df [‘c’], 0) вместо использования функции apply.
value counts
Это команда для проверки распределения значений. Например, если вы хотите проверить возможные значения и частоту для каждого отдельного значения в столбце «c», вы можете применить
df[‘c’].value_counts()
Есть несколько полезных приемов / функций:
A. normalize = True : если вы хотите проверить частоту вместо подсчетов.
B. dropna = False : если вы хотите включить пропущенные значения в статистику.
C. sort = False : показать статистику, отсортированную по значениям, а не по количеству.
D. df[‘c].value_counts().reset_index().: если вы хотите преобразовать таблицу статистики в датафрейм Pandas и управлять ими.
количество пропущенных значений
При построении моделей может потребоваться исключить строку со слишком большим количеством пропущенных значений / строки со всеми пропущенными значениями. Вы можете использовать .isnull () и .sum () для подсчета количества пропущенных значений в указанных столбцах.
import pandas as pd
import numpy as np
df = pd.DataFrame(< ‘id’: [1,2,3], ‘c1’:[0,0,np.nan], ‘c2’: [np.nan,1,1]>)
df = df[[‘id’, ‘c1’, ‘c2’]]
df[‘num_nulls’] = df[[‘c1’, ‘c2’]].isnull().sum(axis=1)
df.head()
выбрать строки с конкретными идентификаторами
В SQL мы можем сделать это, используя SELECT * FROM… WHERE ID в («A001», «C022»,…), чтобы получить записи с конкретными идентификаторами. Если вы хотите сделать то же самое с pandas, вы можете использовать:
df_filter = df ['ID']. isin (['A001', 'C022', . ])
df [df_filter]
Percentile groups
Допустим, у вас есть столбец с числовыми значениями, и вы хотите классифицировать значения в этом столбце по группам, скажем, топ 5% в группу 1, 5–20% в группу 2, 20–50% в группу 3, нижние 50% в группу 4. Конечно, вы можете сделать это с помощью pandas.cut, но мы бы хотели представить другую функцию:
import numpy as np
cut_points = [np.percentile(df[‘c’], i) for i in [50, 80, 95]]
df[‘group’] = 1
for i in range(3):
df[‘group’] = df[‘group’] + (df[‘c’] < cut_points[i])
# or Которая быстро запускается (не применяется функция apply).to_csv
Опять-таки, это команда, которую используют все. Отметим пару полезных приемов. Первый:print(df[:5].to_csv())Вы можете использовать эту команду, чтобы напечатать первые пять строк того, что будет записано непосредственно в файл.
Еще один прием касается смешанных вместе целых чисел и пропущенных значений. Если столбец содержит как пропущенные значения, так и целые числа, тип данных по-прежнему будет float, а не int. Когда вы экспортируете таблицу, вы можете добавить float_format = '%. 0f', чтобы округлить все числа типа float до целых чисел. Используйте этот прием, если вам нужны только целочисленные выходные данные для всех столбцов – так вы избавитесь от всех назойливых нулей ‘.0’ .
Как в Python вывести список в столбик
Программирование часто требует отображения данных в удобном для чтения формате. Вывод списка в столбик является одним из таких случаев. В этой статье мы рассмотрим различные способы, которые позволяют вывести список в столбик в Python.
Использование цикла for для вывода списка в столбик
Использование цикла for — это один из самых простых способов вывода списка в столбик в Python. Для этого мы можем перебрать каждый элемент списка и вывести его на новой строке.
Для начала определим список, который мы будем выводить в столбик:
my_list = [1, 2, 3, 4, 5]Затем мы можем использовать цикл for для перебора элементов списка и вывода каждого элемента на новой строке:
for item in my_list: print(item)Это выведет следующий результат:
1 2 3 4 5При необходимости мы можем использовать свой разделитель между каждым элементом. Для примера, мы хотим чтобы каждый элемент выводился с новой строки и после элемента была запятая:
my_list = [1, 2, 3, 4, 5] for item in my_list: print(item, end=',\n')Это выведет следующий результат:
1, 2, 3, 4, 5,Также мы можем использовать f-строки для более гибкого форматирования вывода. Для примера, мы хотим вывести каждый элемент в квадратных скобках с новой строки:
my_list = [1, 2, 3, 4, 5] for item in my_list: print(f"[]")Это выведет следующий результат:
[1] [2] [3] [4] [5]Использование цикла for является наиболее распространенным и простым способом вывода списка в столбик в Python.
Использование метода join() для вывода списка в столбик
Для вывода списка в столбик в Python можно использовать метод join() . Этот метод объединяет элементы списка в одну строку, разделяя их указанным разделителем. Мы можем использовать символ переноса строки ( \n ) в качестве разделителя, чтобы каждый элемент выводился на отдельной строке.
Пример использования метода join() для вывода списка в столбик:
my_list = ['apple', 'banana', 'orange'] print('\n'.join(my_list))В этом примере мы объединяем элементы списка my_list с помощью метода join() , указывая символ переноса строки в качестве разделителя. Результатом будет вывод списка в столбик:
apple banana orangeОбратите внимание, что метод join() работает только со строками, поэтому если в списке есть элементы других типов, они должны быть преобразованы в строки перед использованием метода join() .
Использование функции print() вместе с оператором ‘ * ‘ для вывода списка в столбик
Использование оператора * вместе с функцией print() — это один из способов вывести список в столбик в Python. Оператор * распаковывает элементы списка, разделяя их пробелами, и передает их в качестве аргументов функции print() .
Простейшим примером использования оператора * вместе с print() для вывода списка в столбик будет следующий код:
list_name = ['item1', 'item2', 'item3'] print(*list_name, sep='\n')В этом примере мы создали список list_name , содержащий три элемента, и использовали print() вместе с оператором * и аргументом sep='\n' , чтобы вывести каждый элемент списка в отдельной строке.
В результате мы получим вывод в таком виде:
item1 item2 item3Как преобразовать список в DataFrame в Python
Часто вам может понадобиться преобразовать список в DataFrame в Python.
К счастью, это легко сделать с помощью функции pandas.DataFrame , которая использует следующий синтаксис:
pandas.DataFrame(данные = Нет, индекс = Нет, столбцы = Нет, …)
- data: данные для преобразования в DataFrame
- index: Индекс для использования в результирующем DataFrame
- столбцы: метки столбцов для использования в результирующем DataFrame.
В этом руководстве представлено несколько примеров использования этой функции на практике.
Пример 1: преобразование одного списка в фрейм данных
В следующем коде показано, как преобразовать один список в кадр данных pandas:
import pandas as pd #create list that contains points scored by 10 basketball players data = [4, 14, 17, 22, 26, 29, 33, 35, 35, 38] #convert list to DataFrame df = pd.DataFrame(data, columns=['points']) #view resulting DataFrame print(df) points 0 4 1 14 2 17 3 22 4 26 5 29 6 33 7 35
Пример 2. Преобразование нескольких списков в DataFrame
В следующем коде показано, как преобразовать несколько списков в DataFrame pandas:
import pandas as pd #define lists points = [4, 14, 17, 22, 26, 29, 33, 35, 35, 38] rebounds = [1, 4, 4, 5, 8, 7, 5, 6, 9, 11] #convert lists into a single list data = [] data.append(points) data.append(rebounds) #view new list data [[4, 14, 17, 22, 26, 29, 33, 35, 35, 38], [1, 4, 4, 5, 8, 7, 5, 6, 9, 11]] #convert list into DataFrame df = pd.DataFrame(data). transpose () df.columns =['points', 'rebounds'] #view resulting DataFrame df points rebounds 0 4 1 1 14 4 2 17 4 3 22 5 4 26 8 5 29 7 6 33 5 7 35 6 8 35 9 9 38 11
Пример 3: преобразование списка списков в фрейм данных
В следующем коде показано, как преобразовать список списков в кадр данных pandas:
import pandas as pd #define list of lists data = [[4, 1], [14, 4], [17, 4], [22, 5], [26, 8], [29, 7], [33, 5], [35, 6], [35, 9], [38,11]] #convert list into DataFrame df = pd.DataFrame(data, columns=['points', 'rebounds']) #view resulting DataFrame df points rebounds 0 4 1 1 14 4 2 17 4 3 22 5 4 26 8 5 29 7 6 33 5 7 35 6 8 35 9 9 38 11
Вы можете использовать следующий код, чтобы быстро проверить, сколько строк и столбцов находится в результирующем DataFrame:
#display number of rows and columns in DataFrame df.shape (10, 2)
Мы видим, что полученный DataFrame имеет 10 строк и 2 столбца.
И мы можем использовать следующий код для получения имен столбцов в результирующем DataFrame:
#display column names of DataFrame list(df) ['points', 'rebounds']
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:
