Tagged: обработка-данных

26
Май
2021

Как объединить несколько Excel файлов в один?

Нужно объединить несколько прайс-листов в виде Excel файлов в один. Все .xlsx файлы с прайс-листами одинаковы по структуре: в первой строке шапка, дальше данные, количество столбцов одинаковое. Наименования товаров в итоговом файле должны …

14
Май
2021

Как указать несколько условий внутри loc?

Имеется фрейм данных:
data= {‘фрукт’: [‘груша’,’огурец’,’вишня’, ‘абрикос’, ‘груша’,’арбуз’,’груша’,’банан’, ‘груша’, ‘вишня’,’яблоко’, ‘дыня’, ‘вишня’,’банан’, ‘киви’, ‘гуава’, ‘банан’],
‘страна’: [‘франция’,’россия’, ‘сша’,’россия’, …

11
Май
2021

отобрать группы строк по условию

Имеется фрейм данных
import pandas as pd
import numpy as np
data = {‘фрукт’: [‘груша’,’огурец’,’вишня’, ‘абрикос’, ‘груша’,’арбуз’,’груша’,’банан’, ‘груша’, ‘вишня’,’яблоко’, ‘груша’, ‘вишня’, ‘абрикос’, ‘груша’, ‘банан’],
‘страна’: [‘фран…

05
Май
2021

Объединение строк разных столбцов датафрейма

К примеру, имеем такой dataframe. Можно ли с помощью внутренних методов Pandas объединить состав заказов, если дата покупки совпадает?
my_df = pd.DataFrame({‘Дата заказа № 1’: [‘10.02.19’, ‘09.11.19’, ‘15.01.19’],
‘Состав заказа № 1’: [‘…

28
Апр
2021

Объединить строки

Есть файл csv:
0,10,15,14
0,12,17,17
1,14,19,15
1,11,12,13

Я его считываю, и даю названия колонкам
data = pd.read_csv(‘data.csv’, names=[‘name’ + str(i) for i in range(3)])
res = dataset.groupby("name0").agg("??")
res_…

27
Апр
2021

При переводе столбцов в datetime выдает ошибку: ValueError: cannot assemble the datetimes: unconverted data remains: 1

Есть некий фрейм данных (представлен внизу), который содержит год, месяц, дату, минуты, часы и секунды.
Необходимо перевести все это в формат datetime. Прописал pd.timedate(df), но выводится следующая ошибка:

ValueError: cannot assemble t…

26
Апр
2021

Не меняя DataFrame по заданному условию произвести операцию со строками столбца

Имеется следующий DataFrame:

Необходимо по условию: если в столбце "Усреднённая скорость" значение < 0, то значение в этой строке в столбце "Масштабный коэффициент" умножить на -1.
У меня получается сделать только с…

25
Апр
2021

Как в векторе чисел посчитать количество положительных или отрицательных элементов в ряд?

Есть вектор с числами.
import numpy as np
arr = np.array([3, 2, 1, 1, -1, -2, -3, 1, 1, 2, 1], float)

Задача посчитать количество положительных или отрицательных чисел в ряд векторизированным способом. Сбрасывать до 1 если изменился знак….

23
Апр
2021

pandas замена значений в столбце по условию

Имеем фрейм данных
import pandas as pd
import numpy as np
data = {‘фрукт’: [‘груша’,’огурец’,’вишня’, ‘абрикос’, ‘груша’,’арбуз’,’груша’,’банан’, ‘груша’, ‘вишня’,’яблоко’, ‘груша’, ‘вишня’, ‘абрикос’, ‘груша’, ‘банан’],
‘страна’: [‘россия…

19
Апр
2021

Обрезать dataframe по дате

Как обрезать data[‘Date’] чтобы датафрейм шел после 1959-07-28 ? data = data.loc[‘1959-07-27’:] не помогает.
Date
1959-07-21
1959-07-22
1959-07-23
1959-07-24
1959-07-27
1959-07-28
1959-07-29
1959-07-30
1959-07-31

17
Апр
2021

Найти изменение к последнему дню прошлой недели

Найти разницу Weekly_ch между текущим значением Sales и значением Sales в последний известный день прошлой недели. Количество данных за каждую неделю разное. Некоторых недель нет.
Через for, конечно получилось, а как сделать красиво через …

04
Апр
2021

Поиск ключей в файле 6ГБ на python

Есть файл с ключами. Структура файла такова:
ключ 1/n
ключ 2/n
ключ 3/n

ключ m

Я могу его прочитать в DataFrame. И мне надо потом проверять наличие ключей в этом фрейме.
Например, есть ли ключ q в это фрейме. Пробовал несколько вариан…

04
Апр
2021

Как указать значения по условию для каждой группы датафрейма

Имеется фрейм данных:
data = {‘фрукт’: [‘груша’,’огурец’,’вишня’, ‘абрикос’, ‘груша’,’арбуз’,’груша’,’банан’, ‘груша’, ‘вишня’,’яблоко’, ‘груша’, ‘вишня’, ‘абрикос’, ‘груша’, ‘банан’],
‘страна’: [‘россия’,’сша’, ‘россия’,’россия’, ‘франция…

01
Апр
2021

Как посчитать процентное соотношение для каждого объекта?

У меня есть огромный дата сет на миллион строк, в котором есть название товара (product_id) и номера заказов (order_id), в которых эти товары приобретаются. Также у меня есть столбец (reordered), который отвечает за то, перезаказывается ли…

26
Мар
2021

Заполнение пропущенных данных для модели машинного обучения

Нужно заполнить пропущенные значения для модели машинного обучения.
С помощью функции calculate_means. (Она заранее написана в задании)
def calculate_means(numeric_data):
means = np.zeros(numeric_data.shape[1])
for j in range(numeric_data….