ID:419684

未央

数据治理工程师

  • 公司信息:
  • 贵州融创智云信息科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 贵阳
  • 全区

技术能力

我是一名专注数据采集与处理的Python开发者,能够独立完成中小型爬虫项目,从需求分析到数据交付均有实践经验。
熟练使用requests库构造HTTP请求,能够灵活添加请求头、Cookie、代理IP以及随机延时,有效应对轻型反爬机制。
精通Beautifulsoup、XPath和正则表达式,能从静态网页中精准提取文本、链接、图片等信息;对于动态加载的网站,能够使用Selenium模拟浏览器操作,获取完整页面数据。
掌握 pandas进行数据清洗与格式转换,支持CSV、Excel、JSON等常见格式的读写;了解MySQL基础操作,能够将数据存入数据库。注重代码可读性,编写必要的注释和异常处理,确保程序稳定运行。交付成果包含运行说明,并提供短期售后支持,配合客户完成验收。
我相信我的技术能力能够胜任常规数据采集任务,为客户提供可靠、高效的服务

项目经验

项目一:某电商网站商品信息爬取
项目描述:爬取目标电商网站的商品列表及详情页数据,包括商品名称、价格、销量、评价数等字段,
用于市场竞品分析。
技术栈:requests + BeautifulSouppandastime
职责与难点:
分析网站分页规律,构造循环请求实现多页数据抓取。
针对商品详情页的异步加载内容,使用Selenium模拟浏览器滚动与点击,获取完整页面源代码后再用BeautifulSoup 解析。
对缺失字段进行异常处理,使用 pandas清洗数据并导出为Excel报表。
成果:累计抓取有效数据2000余条,为客户提供了及时的价格监测依据。
项目二:某动态网站评论数据采集
项目描述:采集某个社交平台的用户评论,包含用户名、评论内容、点赞数、发布时间。
技术栈:Selenium+re+pandas
职责:
使用Selenium模拟登录和滚动加载,处理无限滚动分页。
利用正则表达式从页面源码中提取隐藏的JSON数据块,转为字典后提取字段。
将最终结果保存为CSV文件,并编写简单的统计分析
成果:完成了2000条评论的采集与初步分析,交付代码及使用说明。
以上项目均为独立完成,代码注释清晰,具备良好的可维护性。

案例展示

  • 小红书up主视频、评论获取

    小红书up主视频、评论获取

    作品名称:小红书笔记评论采集工具 项目背景:客户需要收集指定小红书笔记下的所有用户评论,用于舆情分析或产品反馈研究。 技术难点: 小红书页面为动态加载,滚动触发新评论出现。 传统requests无法直接获取渲染后的内容,需模拟浏览器。 解决方案: 使用Drission

  • 中关村网站数据采集

    中关村网站数据采集

    作品名称:中关村在线热门手机数据采集 项目背景:爬取中关村在线手机列表页的热门手机数据,包括手机图片、名称、参考价格、评分、点评数、京东/天猫价格及购买链接,共9个字段,数据量不少于150条。 技术栈:requests + BeautifulSoup + Selenium -

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服