数据池塘 2019-09-05
1.安装Anaconda
安装没什么好说的。
就是一点小问题。我用的shell
是zsh
,安装完之后不能在terminal
使用conda
命令。
因为默认conda
会把自己的加载路径写进~/.bashrc
或者~/.bash_profile
。这里需要手动复制粘贴到~/.zshrc
(我寻思fish
也会有这个问题)
另外conda
会自动启动base
环境,这个有点不好了。因为我会有多个project同时在开发,依赖不同的环境。所以可以用下面这条关闭。
conda config --set auto_activate_base false
修改默认配置
使用下面这条命令,生成一个配置文件
jupyter notebook --generate-config
mac下,配置文件的路径为~/.jupyter/jupyter_notebook_config.py
公司电脑上有权限管理,所以我需要在服务器上安装jupyter
再通过http
登录。那么修改jupyter_notebook_config.py
文件.
首先允许所有IP访问jupyter server
, 默认只允许localhost
访问
c.NotebookApp.ip = '*'
对于5.3
之后的jupyter notebook
,这时候打开会要求输入密码
使用下面这条命令,配置密码
jupyter notebook password
设定好密码之后就可以登录了。
此外,jupyter server
还允许配置SSL/HTTPS
,相关文档参考此处。
2.注册Kaggle & 下载数据集
1.这是一个什么类型的问题?
以house price
为例,是靠回归做预测
2.哪些算法可以做回归
线性回归等
3.线性回归需要什么样的数据
4.数据中是否有字符串,或者缺失值?如何变为数值型?
5.数据特征工程思路:EDA、特征选择、特征组合、特征分割……
6.算法的选择
Data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data.
方法
解决错误值:
场景