ID:184053

Jacob

python爬虫工程师

  • 公司信息:
  • 上海优攀米网络技术有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 上海
  • 静安

技术能力

您好,我叫娄长健,三年工作经验熟悉python、了解java、c#编程语言; 熟练使用Django、Scrapy、等python主流框架,熟悉Flask、pyspider框架;熟悉numpy、pandas和matplotlib数据分析和数据可视化框架;了解ETL流程和kettle等常用工具,了解数据挖掘算法; 熟悉Mysql、Mongodb、Redis等数据库,熟悉阿里云RDS数据库和oss文件转存技术;了解前端开发技术;熟悉Selenium、Xpath、正则表达式等网页提取技术,对tensorflow有一定的了解。

项目经验

1、负责公司产品"公寓家"软件的后台数据架构的的搭建。
项目经验 
2、负责公司产品的数据来源、数据清洗、分表入库、数据监控、阶段性的数据分析、数据 可视化的一套流程。 3、负责搭建公司产品后台独有的GIS系统构,建自己租房平台的商圈坐标系。 4、结合业务根据商业理解和数据理解在千万级数据库里面分析和挖掘数据的商业价值。
天眼查公司信息 python爬虫 项目简介:
对天眼查网站进行数据采集,指定不同的公司名称关键词进行搜索,将搜索到的所 有公司的公司信息,如工商注册号、统一信用代码、注册资金、注册时间、公司状态等字段 数据进行采集并储存在数据库中。
责任描述:
1、负责分析天眼查网站结构,制定爬去策略; 2、负责采集公司全部信息,分析登录接口,进行模拟登录; 3、负责使用Scrapy实现爬虫代码,并进行部署分布式爬虫; 4、负责分析点触验证码,进行验证码破解; 5、负责数据的去重、更新工作; 6、负责编写shell脚本,对爬虫进行监控,对异常错误进行预警;
北京法院审判信息网 python爬虫 项目简介:
根据项目需求文档,对北京法院审判信息网数据进行提取,抓取法案文书标题、被执 行,执行日期等数据,并对数据进行清洗入库。
责任描述:
1、负责分析该网站反爬、验证机制,执行爬取策略,负责使用scrapy框架编写爬虫代 码。
2、负责对爬取的数据进行清洗,去重、并保存为Excel表格。 3、结合redis部署分布式爬虫,充分利用服务器资源,优化数据采集效率。 4、负责定时开启采集任务,对信息进行增量爬取。 5、负责爬虫代码的维护和优化。
12306中国铁路客户服务中心 python爬虫 项目简介:
根据客户需求对中国铁路客户服务中心进行模拟登陆,再进行规定时间的的始发地和 到达地的车票余票机制定时进行爬取。
责任描述:
1、负责分析网站结构登录参数,验证机制,制定登录和爬取策略。 2、自定义爬虫类,编写实现模拟登录和爬取数据的代码。 3、用cookiejar管理cookie,发送请求把登录的验证图片保存至本地然后通过若快打
码平台api接口进行打码返回结果,再次请求实现登录的url,等待返回登录成功的信息。 4、用保存成功登陆网站之后的cookiejar对象请求特定的始发地址和结束地请求抓取
车票信息,判断哪个时间有余票。 5、在网站服务时间段开启定时爬虫任务,把爬取的数据写入csv表格 6、编写警报代码,实现对爬虫的监控。
国内各大租房平台租房数据获取 python爬虫 项目简介:
结合公司业务需要爬取国内各大租房网站房源数据,比如安居客、贝壳、蛋壳、Q房 网等根据不同网站类型攻克反爬手段,把数据清洗、去重、统一格式入RDS数据库,并把房 源图片转存至阿里云OSS。
责任描述:
1、根据不同的租房网站结构分析数据请求来源。 2、研究并且制定针对不同网站的反反扒爬策略。 3、清洗并统一数据格式根据城市和网站数据来源分表入库,业务需要每条房源数据

自我评价 
记录多个时间,并且用MD5加密把数据进行更新去重。 4、把房源图片转存至阿里云OSS并和对应房源建立关联。 5、在服务器上面设置定时任务定时启动爬虫。 6、通过钉钉接口定时发送通知监控数据增长状态、完成状态和服务器性能指标。
构建商圈网络地图 GIS系统 项目简介:
根据公司产品‘公寓家’需求(由于各大租房平台对商圈信息定义不一样)构建平台自 己的商圈坐标系统。
责任描述:
1、(以链家为准)抓取链家网各大城市下面商圈中心点坐标。 2、写算法根据中心点坐标和半径得到一个最大经纬度和最小经纬度确定一个范围(考
虑到部分范围重合由人工审核)。 3、把爬取房源的经纬度映射到算法完成的表,再通过计算确定该房源所在的是哪个
商圈。
国内租房数据阶段性分析 python数据分析 项目简介:
由于公司业务需要,根据国内各大城市租房数据对热门区域、最受欢迎的户型、区域 房租的分布情况进行分析。
责任描述: 1、根据业务场景拿出该时间段内城市的所有数据。 2、使用numpy和pandas对租房数据进行分析处理。 3、根据需要把分析的结果用matplotlib展示出来。 4、提供分析结果文档供业务部门参考。
分析挖掘租房数据潜在的商业价值 python数据分析数据挖掘 项目简介:
公司拓展线下业务,需要在数据中分析挖掘出潜在的业主和二房东角色,把这些可能 是潜在角色的用户信息提取出来。
责任描述:
1、分析并研究规则,用规则区分出二房东和业主角色。 2、使用numpy和pandas对数据进行分析挖掘处理。 3、把处理过后潜在的业主和二房东的个人联系方式区分并提取出来。 4、把挖掘之后

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服