本文共 856 字,大约阅读时间需要 2 分钟。
pandas 对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者从DataFrame中提取一列或者一行Series
注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。
count 非 NA 值的数量describe 针对 Series 或 DF 的列计算汇总统计min , max 最小值和最大值argmin , argmax 最小值和最大值的索引位置(整数)idxmin , idxmax 最小值和最大值的索引值quantile 样本分位数(0 到 1)sum 求和mean 均值median 中位数mad 根据均值计算平均绝对离差var 方差std 标准差skew 样本值的偏度(三阶矩)kurt 样本值的峰度(四阶矩)cumsum 样本值的累计和cummin , cummax 样本值的累计最大值和累计最小值cumprod 样本值的累计积diff 计算一阶差分(对时间序列很有用)pct_change 计算百分数变化
obj=Series(list('cadaabbcc'))uniques=obj.unique()uniquesc 3a 3b 2d 1dtype: int64
排序的话
uniques.sort()uniquesarray(['a', 'b', 'c', 'd'], dtype=object)
value_counts用于计算一个Series中各值出现的频率.
obj.value_counts()a 3d 1b 2c 3dtype: int64
value_counts还是一个顶级pandas方法,可用于任何数组或序列
pd.value_counts(obj.values, sort=False)a 3d 1b 2c 3dtype: int64