【pandas小技巧】--日期相关处理

pandas,技巧,日期,相关,处理 · 浏览次数 : 169

小编点评

**日期处理技巧** **1. 多列合并为日期** ```python import pandas as pddf df[\"date\"] = pd.to_datetime(df[[\"year\", "month", "day\"]]) ``` **2. 按年统计** ```python df.resample("Y", on="date").value.sum() # ysum df.resample("Y", on="date").value.mean() # ymean ``` **3. 按月统计** ```python df.resample("M", on="date").value.sum() # msum df.resample("M", on="date").value.mean() # mmean ``` **4. 按日统计** ```python df.resample("D", on="date").value.sum() # dsum df.resample("D", on="date").value.mean() # dmean ``` **5. 按季度统计** ```python df.resample("Q", on="date").value.sum() # qsum df.resample("Q", on="date").value.mean() # qmean ``` **6. 按周统计** ```python df.resample("W", on="date").value.sum() # wsum df.resample("W", on="date").value.mean() # wmean ``` **7. 支持的其他期间** ```python # 支持的期间：年 (Y)、月 (M)、日 (D)、周 (W)、季度 (Q) df.resample(on="date", on="month", on="day", on="week", on="quarter") ``` **注意：** * `on` 参数表示时间轴的字段名。 * `on` 参数可以是多个字段名。 * `resample()` 函数可以用于按其他时间单元进行聚合。

正文

日期处理相关内容之前pandas基础系列中有一篇专门介绍过，本篇补充两个常用的技巧。

1. 多列合并为日期

当收集来的数据中，年月日等信息分散在多个列时，往往需要先合并成日期类型，然后才能做分析处理。
合并多列转换为日期类型，可以直接用 to_datetime函数来处理：

import pandas as pd

df = pd.DataFrame(
    {
        "year": ["2021", "2021",
                 "2022", "2022", "2022"],
        "month": ["1", "3", "4", "4", "6"],
        "day": ["10", "20", "4", "4", "1"],
        "value": [1, 2, 3, 4, 5],
    }
)

df["date"] = pd.to_datetime(
    df[["year", "month", "day"]]
) 
df = df.drop(
    columns=["year", "month", "day"]
)
df

2. 基于日期的聚合统计

之所以要把列类型转换为日期类型，是因为pandas提供了针对日期类型的非常便利的聚合统计方法。
比如如下连续的日期数据：

df = pd.DataFrame(
    {
        "year": ["2022", "2022", "2023",
                 "2023", "2023"],
        "month": ["12", "12", "1", "1", "1"],
        "day": ["30", "31", "1", "1", "2"],
        "value": [1, 2, 3, 4, 5],
    }
)
df["date"] = pd.to_datetime(
    df[["year", "month", "day"]]
) 
df = df.drop(
    columns=["year", "month", "day"]
)
df = df.loc[:, ::-1]
df

这里用了之前介绍过的一个小技巧 df.loc[:, ::-1]，把date列放在value列之前，对数据处理没有什么影响，只是为了看数据的习惯。

得到转换好的数据之后，可以通过resample函数来聚合统计。
resample是pandas提供的专门用于时间序列数据的聚合统计的。

2.1. 按年统计

ysum = df.resample("Y", on="date").value.sum()
ymean = df.resample("Y", on="date").value.mean()

stat = pd.DataFrame({
    "sum": ysum,
    "mean": ymean,
})
stat

示例数据只有两年的，统计后显示的是日期是年末最后一天。
这里为了演示只统计了合计值和平均值，实际可以根据情况统计需要的值。

2.2. 按月统计

msum =	df.resample("M", on="date").value.sum()
mmean = df.resample("M", on="date").value.mean()
stat = pd.DataFrame({
    "sum": msum,
    "mean": mmean,
})
stat

统计后显示的日期是每个月月末的日期。

2.3. 按日统计

dsum = df.resample("D", on="date").value.sum()
dmean = df.resample("D", on="date").value.mean()
stat = pd.DataFrame({
    "sum": dsum,
    "mean": dmean,
})
stat

根据每天的日期统计。

2.4. 按季度统计

qsum = df.resample("Q", on="date").value.sum()
qmean = df.resample("Q", on="date").value.mean()
stat = pd.DataFrame({
    "sum": qsum,
    "mean": qmean,
})
stat

统计后显示的日期是每个季度的最后一天。

2.5. 按周统计

wsum = df.resample("W", on="date").value.sum()
wmean = df.resample("W", on="date").value.mean()

stat = pd.DataFrame({
    "sum": wsum,
    "mean": wmean,
})
stat

统计后显示的日期是每个周的周日。

2.6. 补充

resample函数支持的统计期间除了上面介绍的常用的年，月，日，周，季度等等，还有很多其他的期间，
具体参考：https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-offset-aliases

【pandas小技巧】--日期相关处理

小编点评

正文

1. 多列合并为日期

2. 基于日期的聚合统计

2.1. 按年统计

2.2. 按月统计

2.3. 按日统计

2.4. 按季度统计

2.5. 按周统计

2.6. 补充

与【pandas小技巧】--日期相关处理相似的内容：

【pandas小技巧】--日期相关处理

【pandas小技巧】--拆分列

【pandas小技巧】--读取多个文件

【pandas小技巧】--数据转置

【pandas小技巧】--统计值作为新列

【pandas小技巧】--category类型补充

【pandas小技巧】--DataFrame的显示参数

【pandas小技巧】--DataFrame的显示样式

【pandas小技巧】--花哨的DataFrame

【pandas小技巧】--目录（完结）

# 热门排行