pandas数据集的端到端处理

onemorepoint 2019-02-18

1. 数据集基本信息

df = pd.read_csv()

df.head()：前五行；

df.info()：

rangeindex：行索引；
data columns：列索引；
dtypes：各个列的类型，
主体部分是各个列值的情况，比如可判断是否存在 NaN 值；

对于非数值型的属性列

df[‘some_categorical_columns'].value_counts()：取值分布；

df.describe()：各个列的基本统计信息

count
mean
std
min/max
25%, 50%, 75%：分位数

df.hist(bins=50, figsize=(20, 15))：统计直方图；

对 df 的每一列进行展示：

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列，一列列名为 price，一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

一键把 categorical 型特征（字符串类型）转化为数值型：

>> df['label'] = pd.Categorical(df['label']).codes

一键把 categorical 型特征（字符串类型）转化为 one-hot 编码：

>> df = pd.get_dummies(df)

null 值统计与填充：

>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

: onemorepoint

相关推荐

开源端到端流水线实践-需求与代码管理

业务的简称为demo，微服务架构。特性分支开发，版本分支发布。每个需求对应一个特性分支。Jira作为需求和缺陷管理，采用Scrum开发方法，jira中的项目名称与业务简称一致。此时可以通过Jira中创建一个发布版本，然后问题关联发布版本。Jira负责创建需

jingzhaopan 0喜欢 / 0评论 2020-10-25

技术债务的高息信用卡：深入了解那些知名的端到端机器学习平台

本文转载自公众号“读芯术”。机器学习被称为技术债务的高利率信用卡。对于机器学习生产系统而言，只有5%的实际代码是模型本身。将一组机器学习解决方案转变为端到端的机器学习平台的，是一种运用了加速建模、自动化部署和确保生产中的可伸缩性和可靠性的技术的架构。因此，

FlyLeo 0喜欢 / 0评论 2020-09-01

机器学习项目必备：端到端机器学习项目开发过程的任务表

本文转载自公众号“读芯术”。在创建具有重大意义的项目时，我会记录所有在其他人身上学到的以及自己在工作中领悟到的东西。任务列表能指导开发人员完成下一步，促使你检查每个任务是否已成功执行。最好的做法是让项目的每一部分都经过检查。在几乎每个机器学习项目中都必须执

liukecun0 0喜欢 / 0评论 2020-08-03

知道因为啥失败吗？构建端到端ML框架的经历启示录

2019年初，笔者几个人尝试构建端到端ML框架。我们认为，构建ML管道是一种令人沮丧的、脱节的体验，我们完全可以构建更好的东西。但事情并不像想象中那样顺利。我们使用Kaggle数据集为ML管道的不同阶段进行了抽象，并公开了存储库来源并分享。一个月后，它登上

自然语言处理技术 0喜欢 / 0评论 2020-05-19

UiPath推出业界首个端到端超自动化平台

秉承“人手一个机器人”的愿景，企业机器人流程自动化软件领导企业UiPath日前宣布推出业界首个端到端超自动化平台。该平台曾于2019年10月召开的“UiPath Forward III”大会上亮相。新功能提供对自动化生命周期各个阶段的支持，而新的部署方案

laomao 0喜欢 / 0评论 2020-05-15

端到端全景分割

全景分割是一个具有挑战性的课题，它需要为每个像素指定一个类别标签，同时对每个对象实例进行分割。此外，通常采用启发式方法对结果进行合并。然而，在合并过程中，如果没有足够的上下文信息，很难确定对象实例之间的重叠关系。此外，本文还引入了一个新的空间排序模块来处理

Oudasheng 0喜欢 / 0评论 2020-04-19

Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

它提取了两阶段提交协议的通用逻辑，使得通过Flink来构建端到端的Exactly-Once程序成为可能。同时支持一些数据源和输出端，包括Apache Kafka 0.11及更高版本。它提供了一个抽象层，用户只需要实现少数方法就能实现端到端的Exactly-

jianghuchuanke 0喜欢 / 0评论 2019-11-17

如何进行端到端开发? | 我的物联网成长记

开始之前，先了解物联网平台的整体方案。使用物联网平台构建一个完整的物联网解决方案主要包括3部分：物联网平台、业务应用和设备。旨在通过物联网检测技术帮助开发者

雨花茶 0喜欢 / 0评论 2019-11-07

从web端开发到app端开发也许只有一个Flutter MVVM的距离

只所以选择Angular是因为Angular中的很多理念对一个曾经的后端开发来说并不陌生，甚至还会带有几分亲切，Module、依赖注入、守卫、provider等等，每一项都那么熟悉。但是，除了这些最能吸引到我的更是她优雅的数据绑定功能，Angular的数据

chaoxiao 0喜欢 / 0评论 2019-11-04

场景文本识别——基于图像序列识别的端到端可训练神经网络模型

由于神经网络的强大复兴，特别是深度卷积神经网络模型在各种视觉任务中的巨大成功的推动，最近大多数与深度神经网络相关的工作主要致力于检测或分类对象类别。基于图像的序列识别问题一直是计算机视觉中长期存在的研究课题。相较于一般的对象识别任务，基于图像序列识别任务中

georgesale 0喜欢 / 0评论 2019-09-08

谷歌发布端到端AI平台让开发者构建自己的模型

谷歌发布了一系列人工智能工具，所有这些新工具和服务的核心是公司计划通过预先构建的模型和便捷服务实现分布式的人工智能和机器学习，同时为更高级的开发者提供服务，使其能够构建自己的定制模型。谷歌的重点是发布该公司的测试版人工智能平台。其想法是为开发者和数据科学家

guohailiang 0喜欢 / 0评论 2019-04-11

为每个人提供Kubernetes端到端测试

越来越多过去是Kubernetes组件的一部分，现在搬到在Kubernetes之外开发。例如，存储驱动程序曾经被编译成Kubernetes二进制文件，然后被转移到主机上的独立Flexvolume二进制文件中，现在作为容器存储接口驱动程序提供，这些驱动程序部

engchina 0喜欢 / 0评论 2019-07-01

一份关于机器学习端到端学习指南

人工智能、机器学习已经火了有一阵了，很多程序员也想换到这方向，目前有关于深度学习基础介绍的材料很多，但很难找到一篇简洁的文章提供实施机器学习项目端到端的指南，从头到尾整个过程的相关指南介绍。

yangzzguang 0喜欢 / 0评论 2019-06-30

vue+koa2+mongo前后端分离restful，配置和部署到云

authSource=admin') // testDb就是要查询的数据库集合。"skipFiles": [ //skipFiles使断点不进入到node_model包。后端中预留的app目录包含层和m

fanix 0喜欢 / 0评论 2019-06-27

端到端神经网络的跳一跳玩法

从最初的 POST 直接改分再到 Python 截图识别像素点计算距离跳跃，各种各样的辅助呈出不穷，而微信方面也加强了反外挂的机制，大量的手动玩家都会被误杀了。对于之前 POST 改分的人就直接被加入黑名单，永远都是零分。这里给出一个基于深度神经网络学习的

sjzhahalala 0喜欢 / 0评论 2019-06-26

原理解析｜Apache Flink结合Kafka构建端到端的 Exactly-Once 处理

它提取了两阶段提交协议的通用逻辑，使得通过Flink来构建端到端的Exactly-Once程序成为可能。同时支持一些数据源和输出端，包括Apache Kafka 0.11及更高版本。它提供了一个抽象层，用户只需要实现少数方法就能实现端到端的Exactly-

农村外出务工男 0喜欢 / 0评论 2019-06-21

构建端到端数据科学项目实战（附链接）

Medium上一位作者完成了一项全周期数据科学项目，从爬取数据到可视化全部都有，下面是作者记录的整个过程和自己的心得，大家一起来学习一下吧~因此，涉及这些阶段的全周期数据科学项目将更有价值，因为它们证明了作者独立处理真实数据的能力，而不是使用给定的干净数据

dearbaba 0喜欢 / 0评论 2019-06-14

AI 工作坊 | 从数据中心到边缘端，创建世界级人工智能项目

本期英特尔人工智能培训课程为期半天，旨在帮助专业开发者搭建深度学习的最佳软硬件架构。课程主题为“从数据中心到边缘端，基于英特尔架构的最佳路径”，全新的课程内容是由英特尔位于美国硅谷的顶级AI架构师设计，免费向中国的开发者开放。2017 年加入英特尔 AI

网易智能 0喜欢 / 0评论 2019-06-13

从 Ideal Profiles项目中学习构建端到端数据科学项目（附链接）

本文为你介绍了构建数据科学项目中重要的思维能力及训练建议。人们常说，数据科学家的主要工作不是实际的分析和建模，而是数据的整理和清理部分。因此，涉及这些阶段的全周期数据科学项目将更有价值，因为它们证明了作者独立处理真实数据的能力，而不是使用给定的干净数据集。

dongnaosenlu 0喜欢 / 0评论 2019-06-12

伯克利开源端到端深度强化学习方案，无需奖励工程即可高效学习

但在另一方面，为机器人指定任务以进行强化学习则需要投入大量精力。大多数原有项目已经在尝试引导物理机器人进行深度强化学习，这要求我们使用专门的传感器建立奖励或者研究任务，而机器人则利用其内部传感器对奖励指标进行测量。然而，这种作法显然无法让此类机器人掌握一切

zxyscz 0喜欢 / 0评论 2019-05-30

结合符号主义和DL:DeepMind提出端到端神经网络架构PrediNet

DeepMind 最近的一项研究将符号人工智能和深度学习结合起来，提出了一种新型端到端神经网络架构 PrediNet。符号主义和连接主义是人工智能领域中的两大流派。连接主义，又称为仿生学派或生理学派，其主要原理为神经网络及神经网络间的连接机制与学习

hexianhao 0喜欢 / 0评论 2019-05-29

Apache Flink结合Apache Kafka实现端到端的一致性语义

本次分享来自阿里巴巴的工程师在Apache Kafka x Apache Flink·北京会议上的分享，关于Apache Flink结合Apache Kafka实现端到端的一致性语义的原理。2017年12月Apache Flink社区发布了1.4版本。该S

Spark高级玩法 0喜欢 / 0评论 2019-05-25

谷歌实时端到端双目系统深度学习网络stereonet

双目匹配可以得到环境中的三维深度信息，进而为机器人，无人车，VR等现实场景下的应用提供有力信息，在对安全验证比较高的人脸支付领域，三维人脸验证也正在逐渐取代安全性较低的二维人脸验证。近年来，深度学习双目系统匹配已经取得了很不错的进展，很多先进的网络性能已经

yingrenzhe 0喜欢 / 0评论 2019-05-23

APP调用java端实现支付宝授权（手机浏览器无法跳转到支付宝APP)

appId=20000067&url=URLEncoder.encode备注：如果要做成通用的接口兼容web和移动端，需要检测设备类型区分重定向地址了，另外回调完成要自定义授权完成的页面返回前端显示

bjwendy 0喜欢 / 0评论 2018-12-27

用这种方法实现无监督端到端图像分类！（附论文）

FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。在 ImageNet 和 YFCC100M 等典型规模数据集上的卷积神经网络的无监督训练的实验结果表明，该方法在所有基准性能中都远远

sweetxyf 0喜欢 / 0评论 2018-08-11

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

本文是人工智能顶级国际期刊 TPAMI 入选论文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解读。该论文主要提

丁胜利 0喜欢 / 0评论 2019-04-15

重磅2.0 Alpha版，TensorFlow新定位：端到端开源机器学习平台

刚刚，谷歌在 Tensorflow Developer Summit 2019 大会上发布 TensorFlow 2.0 Alpha 版。虽然在此之前关于 TensorFlow2.0 的众多更新已经放出，但作为当前最为流行的深度学习框架，2.0 Alpha

yamaxifeng 0喜欢 / 0评论 2019-03-07

用浅度学习训练深度网络：避开端到端深度学习难题

选自arXiv，机器之心编译，参与：Panda。第七届国际学习表征会议 ICLR 2019 将于明年 5 月在美国新奥尔良举办，目前该会议的论文正处于双盲评议阶段。与之前的使用浅度网络的方法相反，我们关注的是有研究认为深度学习具有至关重要的价值的问题。就我

AsiaLee 0喜欢 / 0评论 2018-10-11

一份关于机器学习端到端学习指南

人工智能、机器学习已经火了有一阵了，很多程序员也想换到这方向，目前有关于深度学习基础介绍的材料很多，但很难找到一篇简洁的文章提供实施机器学习项目端到端的指南，从头到尾整个过程的相关指南介绍。

ferriswym 0喜欢 / 0评论 2019-01-18

Salesforce开源TransmogrifAI：用于结构化数据的端到端AutoML库

选自Medium，作者：Shubha Nabar，机器之心编译，参与：Geek AI、路。AutoML 即通过自动化的机器学习实现人工智能模型的快速构建，它可以简化机器学习流程，方便更多人利用人工智能技术。近日，软件行业巨头 Salesforce 开源了其

atbjss 0喜欢 / 0评论 2018-08-28

FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

选自arXiv，作者：Mathilde Caron等，机器之心编译，参与：高璇、刘晓坤。在 ImageNet 和 YFCC100M 等典型规模数据集上的卷积神经网络的无监督训练的实验结果表明，该方法在所有基准性能中都远远优于目前的技术。预训练的卷积神经网络

PandaJiong 0喜欢 / 0评论 2018-07-31

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

选自百度，作者：Wei Ping、Kainan Peng、Jitong Chen，机器之心编辑。语音合成是将自然语言文本转换成语音音频输出的技术，在 AI 时代的人机交互中扮演至关重要的角色。此外，这也是语音合成领域第一个真正的端到端模型：单个神经网络，直

AI启蒙研究院 0喜欢 / 0评论 2018-07-25

从剪枝法到低秩分解，手机端语言模型的神经网络压缩

日前，机器之心介绍了一种压缩手机端计算机视觉模型的方法。在这篇文章中，我们介绍了一篇论文，介绍和对比了手机端语言模型的神经网络压缩方法。神经网络模型需要大量的磁盘与存储空间，也需要大量的时间进行推理，特别是对部署到手机这样的设备上的模型而言。在目前的研究中

tianbwin 0喜欢 / 0评论 2017-09-26

改进反向传播算法实现高效训练，端到端的目标跟踪结构

呜啦啦啦啦啦啦啦大家好，本周的AI Scholar Weekly栏目又和大家见面啦！AI Scholar Weekly是AI领域的学术专栏，致力于为你带来最新潮、最全面、最深度的AI学术概览，一网打尽每周AI学术的前沿资讯。周一更新，做AI科研，每周从这一

seekerhit 0喜欢 / 0评论 2019-04-29

Hadoop新增校验功能，防数据损坏，保护端到端数据完整性

新的Apache Hadoop端到端数据完整性验证，有助于验证不同存储系统间传输数据的完整性，也能检测出因内存错误造成的数据损坏。为确保用户数据在传输过程未被更改，Google、twitter以及Apache Hadoop开源社区合作，为Apache Ha

tfy 0喜欢 / 0评论 2019-03-08

Facebook开源基于强化学习的端到端谈判AI

每天从我们醒来的那一刻，生活中就充满了经常性的谈判。这些场景包括讨论观看的电视频道、说服孩子吃蔬菜、或者砍价。目前，已有的聊天机器人能够完成简短的对话、简单的任务，比如预定餐馆。但建立能够与人类进行有意义对话的机器仍是巨大的挑战，因为这需要 bot 结合知

luchi00 0喜欢 / 0评论 2017-06-15

语音翻译也能端到端？深度学习这条路有戏！

科大讯飞日前在全球最具影响力的口语机器翻译评测比赛IWSLT中，获得了语音翻译端到端模型评测的冠军，还成为英德口语翻译任务中唯一受邀做Oral report的参赛团队。端到端技术是当前语音翻译的研究前沿，科大讯飞联合优化语音识别和机器翻译的新技术路线，理论

dxmkkk 0喜欢 / 0评论 2018-11-02

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

最近，谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron，该模型可接收字符的输入，输出相应的原始频谱图，然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文作者认为这一新思路相比去年 DeepMind 的 WaveNet

Allsle 0喜欢 / 0评论 2017-03-31

程序员的学习之路

2016 年 10 月，当我从微软离职时，我已经在微软工作了近 21 年，在业界也快 35 年了。我花了一些时间反思我这些年来学到的东西，这些文字是那篇帖子稍加修改后得到。请见谅，文章有一点长。紧跟潮流，保持专业，这很重要。一个满足“最终一致性”的系统，可

微信rdst00 0喜欢 / 0评论 2018-05-23

率先完成5G端到端测试中兴MWC要有新动作：欲发布5G手机

2018年6月，国际电信组织3GPP确认并冻结了5G独立组网标准，第一阶段首个独立可用的5G方案初步确定。预计在19年年底，满足国际电信联盟全部要求的完整5G标准将正式出台。2019注定是不平凡的一年，全球5G标准之争逐步进入尾声。无论行业内外，5G已成为

云鼠Umouse 0喜欢 / 0评论 2019-02-14

端到端对话模型新突破！Facebook发布大规模个性化对话数据库

AI 前线导读：聊天机器人是目前非常流行的一种人工智能系统。目前大部分聊天机器人的衔接性都不是很好，尤其是在没有主动的重调优策略下训练出的端到端系统中。然而，这种个性化的数据库是通过人工合成的，并且仅包含 1k 个不同个性的人物。译者对这一数据库做了简短的

大数据社区 0喜欢 / 0评论 2018-09-17

利用Oracle RUEI+EM12c进行应用的“端到端”性能诊断

能够对各个环节的问题进行“贯穿“的诊断，才能算是”端到端“的诊断。能够进行这种类型的诊断的工具很多，我们后面会分别介绍，今天只是给大家看看利用Oracle的工具软件进行从最前端到最后端的应用性能诊断的例子。RUEIEM12c 基础框架weblogic监控模

Rivarola 0喜欢 / 0评论 2016-12-17

ACL 2018｜中科院软件研究所：基于端到端语义图生成的语义解析

Sequence-to-Action: End-to-End Semantic Graph Generation for Semantic Parsing. 传统的语义解析器大部分都基于组合文法，如组合范畴文法、基于依存的组合语义文法。在本文，我们提出

cherry0 0喜欢 / 0评论 2018-06-14

机器不学习：计算机视觉实战-端到端FCN学会在黑暗中看世界

机器不学习 www.jqbxx.com : 深度聚合机器学习、深度学习算法及技术实战CVPR2018上，伊利诺伊大学和Intel实验室的这篇“学会在黑暗中看世界” 就做了人类做不到的活，自动把低曝光、低亮度图片进行亮度还原：。人肉眼完全开不到的曝光环境下

nature 0喜欢 / 0评论 2018-08-19

干货：Kafka之端到端审计

概述Kafka端到端审计是指生产者生产的消息存入至broker，以及消费者从broker中消费消息这个过程之间消息个数及延迟的审计，以此可以检测是否有数据丢失，是否有数据重复以及端到端的延迟等。如果要计算端到端延迟的话，还需要在payload中内嵌time

luenxin 0喜欢 / 0评论 2018-02-27

基于jquery的当鼠标滚轮到最底端继续加载新数据思路分享(多用于微博、空间、论坛 )

请写很多数据……</div>");//替换为异步加载

84261948 0喜欢 / 0评论 2011-10-10

谈谈从PC端到移动端的产品设计差异

对于PC与移动客户端的设计有何差异？随着移动互联网时代的到来，移动端的产品越来越受到重视。从使用情景上来讲，这两者是一致的。其二是WAP上一些限制和优势，WAP上有许多功能还无法实现，另外WAP有快速迭代的优势，也可以进行一些项目的试错等。当然，当前WA

老海贼 0喜欢 / 0评论 2013-06-17

云安全性可视化如何端到端的云保护？

我曾经阐述了这样一个理念，即云计算并不仅仅是由商业实体所提供的服务的一个集合。与之相反，从安全性的角度来看，云计算是一个单一的可互操作性的系统，它包括了专为跨多个实体提供按需服务特定组合而设计的相互关联的子系统。在这种情况下，我们定义了一个“一组交互或相互

奔向云计算的笨鸟 0喜欢 / 0评论 2014-05-06

开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素

由此产生的超像素采样网络是端到端可训练的，它允许学习具有灵活损失功能的特定于任务的超像素，并具有快速运行时间。大量的实验分析表明，SSN不仅在传统的分割基准测试中胜过现有的超像素算法，而且还可以学习其他任务的超像素。此外，SSN可以轻松集成到下游深度网络中

walkpower 0喜欢 / 0评论 2018-07-31