ID:305037

..

python爬虫工程师

  • 公司信息:
  • 游态度科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 杭州
  • 拱墅

技术能力

熟练掌握Python的基本语法,拥有良好的编码规范和对面向对象编程的理解。
熟练掌握MySQL、MongoDB、Redis数据库的常规操作。
熟练使用re正则、lxml与XPath、BeautifulSoup网页信息抽取技术。
熟练掌握使用airtestIDE、Mitmproxy、Fiddler对手机app进行数据自动化抓取工具。
熟练使用selenium自试动化测。
掌握js加密解密、js逆向、hook、定时调度等破解手段。
掌握 防调试,代码混淆,webpack打包等防爬虫逆向。
掌握微信小程序逆向。
掌握常见的爬虫、反爬虫知识及使用代理ip及Cookie池等反爬的应对策略。
熟悉Scrapy爬虫框架,能够使用多进程、多线程技术爬取数据。
熟悉数据库清洗、去重等处理数据手段以及定时调度框架APScheduler。
熟悉常用前端网页结构,包括Html,css,js, bootstrap,jquery。
熟悉常用后端框架Django、DRF、Flask能独立完成系统搭建。
熟悉 Linux 基本命令,Linux 部署爬虫项目等。
了解Numpy,Pandas数据分析,数据可视化。

项目经验

项目名称: 爬取短视频相关信息
项目描述:分析APP信息存放位置,爬取抖音、小红书、快手、皮皮虾上面视频标题内容时间以及前五百条评论。
责任描述:
1. 一些APP没有网页版只能通过airtestIDE、Mitmproxy、Fiddler自动化抓包工具进行抓包处理。
2. 解决自动抓包工具中抓取相同数据的问题。
3. 优化项目提高抓取速度。
4. 多表存储,评论和内容为一对多的关系存储。

案例展示

  • 小程序,网页

    小程序,网页

    1. 梳理和解读业务,根据业务需求,提供数据层面的解决方案; 2. 协助进行数据提取、清洗、转换等处理工作,制定采集策略,提升网页爬取的效率和质量; 3. 参与数据处理框架的开发和数据处理平台的建设; 4. 负责系统代码撰写及日常管理工作; 5. 对项目负责,工

  • js混淆突破

    js混淆突破

    1. 分析各个网站的结构,对各个网站做出预估时间。 2. 做出对反爬相应的措施,js逆向,验证码破解,自动更换ip等。 3. 抓取字段,对字段进行处理,并入库。 4. 自制一个小框架用于统一调度数据库,以及爬虫项目启动。 5. 项目定时启动自动爬取数据,分析数据,清洗数据

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服