data analysis 1.Kaggle 准备

数据池塘 2019-09-05

Kaggle 准备

1.安装Anaconda

安装没什么好说的。

就是一点小问题。我用的shellzsh,安装完之后不能在terminal使用conda命令。
因为默认conda会把自己的加载路径写进~/.bashrc或者~/.bash_profile。这里需要手动复制粘贴到~/.zshrc (我寻思fish也会有这个问题)

另外conda会自动启动base环境,这个有点不好了。因为我会有多个project同时在开发,依赖不同的环境。所以可以用下面这条关闭。

conda config --set auto_activate_base false

修改默认配置

使用下面这条命令,生成一个配置文件

jupyter notebook --generate-config

mac下,配置文件的路径为~/.jupyter/jupyter_notebook_config.py

公司电脑上有权限管理,所以我需要在服务器上安装jupyter再通过http登录。那么修改jupyter_notebook_config.py文件.

首先允许所有IP访问jupyter server, 默认只允许localhost访问

c.NotebookApp.ip = '*'

对于5.3之后的jupyter notebook,这时候打开会要求输入密码
data analysis 1.Kaggle 准备

使用下面这条命令,配置密码

jupyter notebook password

设定好密码之后就可以登录了。

此外,jupyter server还允许配置SSL/HTTPS相关文档参考此处

2.注册Kaggle & 下载数据集

思路

1.这是一个什么类型的问题?

house price为例,是靠回归做预测

2.哪些算法可以做回归

线性回归等

3.线性回归需要什么样的数据

4.数据中是否有字符串,或者缺失值?如何变为数值型?

5.数据特征工程思路:EDA、特征选择、特征组合、特征分割……

6.算法的选择

数据清洗

Data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data.

方法

  1. 解决缺失值:平均值、最大值、最小值或者概率估计
  2. 去重:合并相同的记录
  3. 解决错误值:

    • 用统计方法识别可能的错误值或异常值
    • 用简单的规则库检查数据值
    • 使用不同属性间的约束、外部的数据清理数据
  4. 解决数据的不一致性:类别型、次序型数据

场景

  1. 删除多列
  2. 更改数据类型
  3. 将分类变量变为数字变量
  4. 检查缺失值
  5. 删除字符串
  6. 删除空格
  7. 字符串连接两列
  8. 转换时间戳

相关推荐