ID:386488

我胡闹i 你善!xoxo

中级爬虫工程师

  • 公司信息:
  • 广州越亮传奇有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 广州
  • 天河

技术能力

编程语言:Python,JavaScript,SQL
Web框架:Django,Flask,FastAPI
数据库:MySQL,PostgreSQL,MongoDB,Redis
工具与技术:Git,Docker,RESTfulAPI,GraphQL,Celery
其他:数据爬虫(Scrapy,BeautifulSoup),数据分析(Pandas,N
umPy),自动化测试(Pytes,Selenium)

项目经验

负责设计和开发高效的网络爬虫程序
选择MySql或MongoDb作为数据存储方案,保障数据结构化管理
参与编写技术文档,记录爬虫开发流程、遇到的问题及解决方案
1.对亚马逊,168等电商数据进行采集
2.抓取并清洗公开数据,存储到mogoDb中
3.负责日志系统的开发和维护
4.将披爬取的数据展示在页面上
5.进行api开发,和前端进行对接


熟练运用Python编程语言,结合Scrapy、Requests、BeautiulSou
p等常用爬虫框架和工具,实现对动态网页、反爬机制较强网站的
数据抓取
深入研究目标网站的结构和反爬策略,通过分析网络源代码、网络
请求、响应头等信息,制定合理的爬取策略,有效规避IP封禁、验
证码识别等常见问题
1.做电商类、工商信息类爬虫程序
2.为公司整合社会工程资源
3.和解决各种反爬方式:诸如(JS逆向,Cookie反爬,Token生成
和各种验证码的破解)
4.数据去重,简单的数据分析,数据入库
5.编写Python脚本实现日常任务


获取维普期刑网站的期刑数据信息(期刑名称,期刑简介作者扩发
布日期等)
1.分析网站为瑞数6代Cookie加密
2.通过补环境的方式获取到第二次产生的Cookie值
3.获取到该网站全部期刑数据,包括经济类,哲学类,生物类,化
学类等所有数据
4.获取到的数据存储到mongoD中

京东手机数据获取。
1.通过纯算协议采集,单台服务器每日新数据量为2W+
2.经协议算法的时候遇到接口加密,经测试是H5st参数
3.多线程采集数据,高效完成爬虫任务
4.获取到产品标题,产品价格,产品url,以及对应的购买人数等
5.数据存储到mongoDb中
6.对数据进行去重,清洗等操作为产品经理提供数据支持

案例展示

  • 问财网

    问财网

    1. 爬虫技术 选择合适的Python库:使用requests库发送HTTP请求获取网页内容,使用BeautifulSoup库解析HTML网页,提取所需数据。 设置请求头:为了模拟浏览器的请求,避免被服务器识别为爬虫,需要设置请求头,例如设置User-Agent和Refere

  • 艺恩网

    艺恩网

    1. 爬虫技术 选择合适的Python库:使用requests库发送HTTP请求获取网页内容,使用BeautifulSoup库解析HTML网页,提取所需数据。 设置请求头:为了模拟浏览器的请求,避免被服务器识别为爬虫,需要设置请求头,例如设置User-Agent和Refere

  • 中国观鸟网

    中国观鸟网

    中国观鸟网是一个面向所有热爱自然、关注鸟类的朋友们的平台,旨在传播鸟类知识,介绍鸟类研究与观察方法。以下是其详细介绍: 一、平台功能 数据查询:提供1400多种鸟的数据查询,包括鸟类的种类、分布、习性等信息。 鸟类分布查询:用户可以查询不同地区鸟类的分布情况,了解鸟类的栖息

查看案例列表(含更多 0 个案例)

相似人才推荐

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服