基于pandas的数据清洗 -- 异常值的清洗

基于,pandas,数据,清洗,异常 · 浏览次数 : 8

小编点评

**开发环境 Anaconda集成环境：集成好了数据分析和机器学习中所需要的全部环境安装目录** **步骤：** 1. **安装 Anaconda：**下载并安装 Anaconda 最新的版本。 2. **创建数据源：** - 创建一个名为 `data` 的 pandas 数据框，包含 1000 行 3 列的数据。 3. **设置环境变量：** - 设置 `PYTHONPATH` 环境变量，将其设置到包含 Anaconda 安装目录的路径中。 4. **启动 Jupyter Notebook：** - 在终端或命令中启动 Jupyter Notebook。 5. **创建可视化开发工具：** - 使用 Jupyter Notebook 创建一个新的 Python 脚本。 6. **编写数据源代码：** ```python import pandas as pd data = np.random.random(size=(1000, 3)) df = DataFrame(data=data, columns=['A', 'B', 'C']) # 设置判定异常值的条件 twice_std = df['C'].std() * 2 twice_std0.5539644633650048df.loc[~(df['C'] > twice_std)] ``` 7. **运行代码：** - 在 Jupyter Notebook 窗口中运行 Python 脚本。 8. **查看结果：** - 使用 matplotlib 或 seaborn 等库绘制数据源，并查看 C 列中的异常值。 **总结：** - 安装 Anaconda。 - 创建数据源。 - 设置环境变量。 - 启动 Jupyter Notebook。 - 创建可视化开发工具。 - 编写数据源代码，设置判定异常值条件。 - 运行代码，查看结果。

正文

博客地址：https://www.cnblogs.com/zylyehuo/

开发环境

anaconda
- 集成环境：集成好了数据分析和机器学习中所需要的全部环境
- 安装目录不可以有中文和特殊符号
jupyter
- anaconda提供的一个基于浏览器的可视化开发工具

自定义一个1000行3列（A，B，C）取值范围为0-1的数据源，然后将C列中的值大于其两倍标准差的异常值进行清洗

df = DataFrame(data=np.random.random(size=(1000,3)),columns=['A','B','C'])
df.head()

# 制定判定异常值的条件
twice_std = df['C'].std() * 2
twice_std

0.5539644633650048

df.loc[~(df['C'] > twice_std)]

基于pandas的数据清洗 -- 异常值的清洗

小编点评

正文

开发环境

与基于pandas的数据清洗 -- 异常值的清洗相似的内容：

基于pandas的数据清洗 -- 异常值的清洗

基于pandas的数据清洗 -- 缺失值（空值）的清洗

基于pandas的数据清洗 -- 重复值的清洗

【pandas基础】--概述

Pandas 使用教程 Series、DataFrame

【pandas基础】--数据拆分与合并

【pandas基础】--数据修改

【pandas基础】--索引和轴

【开源】2024最新python豆瓣电影数据爬虫+可视化分析项目

pandas -- 处理非数值型数据 -- 数据分析三剑客(核心)

# 热门排行