elizabethxxy 2019-10-15
之前换了份工作,不再是单纯的Web开发了,要学习的东西真的挺多的。入职的第1天,就让我入手写个爬虫,只是这个爬虫没有采集几个亿数据量的业务场景。
于是,整理了下需求,简单的设计了下方案就草草开始了。小B是我大学时候的舍友,那天这哥们约我吃饭,想看下能否顺带介绍几个妹子。酒过三巡,不胜酒力,于是便聊起了最近的工作。
当他知晓我竟然在写爬虫,便起了怜悯之心,觉得我怀才不遇。仿佛写爬虫是件很低级很low的技术活。在他那家公司,招进来的实习生就多多少少会点爬虫,什么nodejs、golang,哪个不是爬虫的好手。没想到我毕业多年,竟然沦落到做实习生的工作,可悲可泣。
接着建议我转到Java阵营,如果到他公司去,多多少少也能混个组长的职位。搞得自己只能一番苦笑。
不知道从何时起,程序员的世界流行起了鄙视链这玩意。什么写C语言的鄙视写C++,写C++的鄙视写Java的,最后鄙视链最低端是PHP。具体是怎样的关系,就不再深究了。
然而,纵观整个行业,都说Python火。具体有多火,看培训机构的广告就知道了。在16年之前,Python还是1个若不见经传的单词,之后各家培训机构铺天盖地的广告,什么大数据、自动化运维全都跟Python扯上了关系。毕业学生薪资更是达到了50-100W,还老是招不到人。
更有意思的是,学Python最容易上手的过程就是写爬虫。什么Scrapy、Pysider是必学,HTML、Javascript是重点,外带几个豆瓣、花瓣网的实战案例,让你一下子就能解决企业的刚需。
这样说来,难怪连实习生也能跟你抢饭碗了,技术发展的太快,各种框架完善的结果是释放人力,降低成本。
据我了解,Python的优势集中于数据分析、信息安全这些领域。你可能听说过Hadoop、Spark、Tensorflow这些高大上的名词,但是对于数据取证、DLL注入等内容可能从无听闻。举个简单的例子,在数据取证中,由于犯罪人员不配合检查机关的工作,通过数据取证技术我们可以进行一些信息的提取,从而辅助证实其犯罪记录,如获取系统密码、浏览器中账号及密码。
听起来感觉挺高大上的,但是如果我跟你说其过程就是对sqlite3文件数据库查询一下SQL,不知道你会不会觉得上述取证的例子瞬间挺low的。但是,当你不小心把微信消息的图片删掉想找回的时候,或许你能在Python中找到对应的方案,而其他的语言还真没发现有合适的。
于是,我安慰他说,搞完这波爬虫骚操作,下一次就是数据分析了,你看不有前进了一步?
还数据分析,你反倒想的挺远的。小B打断了我的话,你觉得人家会让你搞数据分析,没有数据何来的分析。况且,没有哪家公司会笨到把所有数据都暴露在互联网上。你能看到的只是那冰山的一角。即使你想深入进去,没有分布式技术支撑和几十个亿的数据业务,你简历上也不会有亮点。
然后,又聊到他公司近期招了个大数据的开发,薪资比他还要高出一大截,但是技术却不咋地。我从小B的话里听出了一丝不屑了。于是,又怂恿我不要再搞什么爬虫了,还是搞Spark才有未来。既不用担心大半夜服务挂了,又不用担心完不成采集数量。完全是实打实的数据,何乐而不为呢?
这话听得我都有点动心了,没有攀比就没有伤害。但是一想到Java是加班加点工作,我还是打消了这个念头。
我不知道该说些什么,只是觉得时间过得很慢,是种煎熬。于是只能岔开了话题,免得吃顿饭都艰辛。
结语