ID:408786

豆腐混世大魔王

python高级爬虫

  • 公司信息:
  • 蓝因子
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 乌鲁木齐
  • 全区

技术能力

精通Python编程语言,熟练运用Scrapy、BeautifulSoup、Selenium等爬虫框架与库,能够针对不同类型网站(静态页面、动态渲染页面、反爬机制网站)制定对应的爬取策略。熟悉IP代理池搭建、Cookie池维护、请求头伪装等反反爬技术,可高效突破网站的反爬限制。掌握正则表达式、XPath、CSS选择器进行数据解析,能将爬取的非结构化数据清洗、整理为结构化数据并存储至MySQL、MongoDB、CSV等介质中。同时了解分布式爬虫架构,可基于Scrapy-Redis实现大规模数据的分布式爬取,保障数据获取的效率与稳定性,还能根据业务需求对爬取的数据进行初步的统计分析与可视化处理。

项目经验

负责电商平台商品数据爬取项目:针对某知名电商平台的商品信息、价格、评论等数据进行爬取,使用Scrapy框架搭建爬虫,结合Selenium处理动态加载的商品详情页。对爬取的数据进行清洗去重后,存储至MongoDB数据库,并利用Pandas进行价格趋势分析和评论情感分析,形成可视化分析报告,为客户的市场调研提供了数据支撑,项目交付后客户反馈数据准确率达98%以上。

案例展示

  • 广东省公共资源数据采集-

    广东省公共资源数据采集-

    1. 主要网站(https://ygp.gdzwfw.gov.cn/#/44/jygg) 全国公共资源交易平台(广东省) 2. 主要任务 1. 在广东省公共资源平台获取栏目“政府采购”中检索近1个月全部公告,可获取该栏目的各公告标题、公告类型、发布平台以及该月内所有的

  • 高德地图实时全国拥堵城市榜单-

    高德地图实时全国拥堵城市榜单-

    2. 主要任务 1. 爬取高德地图实时全国拥堵城市榜单。 2. 高德地图实时拥挤前十名 拥堵延时指数,样例数据↓ 3. 将采集下来的数据进行可视化处理,如生成柱状图。

  • 登录界面设计

    登录界面设计

    1. 主要任务 1. 使用web框架 如flask,django, fastapi等,实现一个类似的登录界面。 2. 登录界面应具有注册功能,同步到后台存放账号的文档中(可使用数据库)。 3. 登录时不在这十个账户中的登录信息返回账户不存在,密码错误则返回密码错误,

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服