Heron Blog

让知识也能拥有复利的力量

朱海龙的个人简历

个人简历

BOSS直聘网站数据类职位爬虫 学习了Scrapy框架以后,刚好赶上数据派需要各招聘网站的数据类职位信息,刚好借此机会验证自己的学习效果。并通过这篇较详细的笔记为其他新手提供一些帮助。 配置环境 本人使用Anaconda管理Pythond的各种包,使用Anaconda Python3.6版本,翻墙下载速度快,不方便的同学可以到我的网盘下载。链接 密码:w58k. Scrapy...

BOSS直聘网站数据类职位爬虫

手把手教

BOSS直聘网站数据类职位爬虫 学习了Scrapy框架以后,刚好赶上数据派需要各招聘网站的数据类职位信息,刚好借此机会验证自己的学习效果。并通过这篇较详细的笔记为其他新手提供一些帮助。 配置环境 本人使用Anaconda管理Pythond的各种包,使用Anaconda Python3.6版本,翻墙下载速度快,不方便的同学可以到我的网盘下载。链接 密码:w58k. Scrapy...

诺诺镑客借款用户分析

2百万借款用户分析

诺诺镑客借款用户分析(2,427,328用户) 一个自己在投的P2P借款平台,诺诺镑客,看到网站列出了借款人信息,就爬取了一下,了解一下自己投资的平台借款用户都是什么人,看看自己的钱都借给了谁,好让自己安心。 借款地区分布 这张图是借款人数在不同地区的分布,从颜色深度可以看出四川省、湖南省、湖北省、内蒙古等借款次数远超其他省市。可以作为平台的主要发展区域。 从统计数据...

大众点评用户分析

百万用户分析

大众点评用户分析(数据库用户数5,410,528) 学了爬虫,学以致用,正好最近大众点评用的比较频繁,就好奇看看大众的用户分布。大概看了一下,大众的注册用户将近两亿。本来是决定从20140101注册时间开始爬取2000w用户的,后来发现自己的爬虫速度有点慢,电脑分析这么多数据也太慢了,就取了500多万的数据简单看了一下。爬虫代码在Github。由于注册时间较早,而且用户主动填写的信息不多,...

python Challenge 答案和解题思路

心血来潮进行的,不知道能不能做下去

0. 计算2的38次方,结果替换网址就行了(274877906944) 1. 字母映射问题(ocr) 每个字母向后移两位,在最后Y、Z映射到A、B。将提示下的乱码句子转换以后就是答案。 import string orginal_str = "g fmnc wms bgblr rpylqjyrc gr zw fylb. rfyrq ufyr amknsrcpq ypc dmp. bmg...

祝福高考的学子,金榜题名

又是一年高考时

又是一年高考时 一年一度的高度又开始了,在这里送各位考生一张三星图(内含文昌星,文曲星,魁星),祝各位考生金榜题名。 图片来自@叶梓颐-巡天者

Machine Learning Yearning 翻译,动手写起来!

chapter14

14. Evaluating multiple ideas in parallel during error analysis 你的团队有几个提升猫检测器性能的想法: 解决狗识别成猫的问题。 解决“大型猫科动物”(狮子、豹等)识别成家猫(宠物)。 在模糊图像上提升系统的性能。 … 你可以同时有效地评估这些想法。我通常建个表格,当我浏览100个误分类开发集图片时填充表...

Machine Learning Yearning 翻译,动手写起来!

chapter13

13. Error analysis: Look at dev set examples to evaluate ideas 当你使用猫分类应用时,你注意到一些将狗分类成猫的例子。一些长得像猫的狗! 团队成员建议引入第三方软件,使系统在狗的图片上做的更好。这些改变将花费一个月,团队成员都很热衷于这个方案。你应该让他们继续下去么? 在为这个任务投入一个月前,我建议你先估计这实际提升多...

Machine Learning Yearning 翻译,动手写起来!

chapter12

12. Takeaways:Setting up development and test sets 从分布中选择反映你在将来期望得到的数据并且做的很好的开发集和测试集。这可能和你训练数据的分布不一样。 如果可能的话从相同的分布中选择开发和测试集。 为你的团队选择一个单数字评估指标去优化。如果你关心多个目标,考虑将它们通过公式组合成一个值(例如多个误差指标的均值)或者定义满意...

Machine Learning Yearning 翻译,动手写起来!

chapter11

11. When to change dev/teset sets and metrics 开始一个新项目时,我一般试着快速选出开发/测试集,因为这可以给团队一个明确的目标。 我通常要求我的团对在一周之内想出一个初始的开发/测试集和一个初始指标—从不会长于一周。提出一个不太完美的方案并且快速行动起来往往比过度思考要好的多。但是一周这个时间并不应用在成熟的应用中。比如,垃圾邮件识别是一个成...