ID:402469

YOLO

大数据工程师

  • 公司信息:
  • 广州泰迪智能科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 所在区域:
  • 北京
  • 海淀

技术能力

爬虫技术能力
我精通Python生态的爬虫技术栈,能够高效采集结构化/非结构化数据:
技术栈:熟练使用Scrapy框架构建分布式爬虫,配合Requests/BeautifulSoup处理动态页面,掌握Selenium/Playwright应对复杂JS渲染,熟悉Pyppeteer无头浏览器技术。
反爬应对:具备IP代理池搭建(住宅/数据中心IP)、请求指纹混淆、验证码识别(Tesseract/打码平台接入)等实战经验,能突破Cloudflare等主流防护。
工程化能力:实现自动化调度(Celery+Redis)、数据去重(BloomFilter)、异常熔断机制,日均千万级数据采集稳定性达99.5%+。支持输出CSV/XLSX等多种存储格式。
数据分析技术能力
我擅长使用Python/R进行数据清洗、分析与可视化:
数据处理:精通Pandas/Numpy进行数据规整(缺失值/异常值处理、时间序列转换),掌握Dask处理GB级数据集,熟悉正则表达式与文本挖掘(Jieba/NLTK)。
分析建模:具备统计分析(假设检验/回归分析)、机器学习(Sklearn/TensorFlow)实战经验,成功构建用户画像、销售预测等模型,AUC指标达0.9+。
可视化呈现:熟练使用Matplotlib/Seaborn制作专业图表,能通过桑基图、热力图等直观呈现数据洞察

项目经验

项目1.企业内推招聘平台信息采集与分析
爬虫技术:基于Scrapy-Redis构建分布式爬虫,突破BOSS直聘反爬,动态渲染(Splash)+ 代理IP池保障稳定采集200万+岗位数据。
数据分析:使用Pandas+PySpark分析薪资分布,发现算法岗在北上深溢价34%;TF-IDF+Word2Vec挖掘技能趋势,输出人才需求报告,提升HR招聘效率25%。
项目2.酒店评论文本分类系统
NLP处理:Jieba+SnowNLP清洗中英文评论,标注5万条数据(服务/卫生/位置等6类标签)。
智能分类:对比贝叶斯(F1=0.82)与BERT微调(F1=0.91),采用ALBERT+Attention模型,准确率89%,实时API支持酒店优化差评主因(床品问题),NPS提升11%。

案例展示

  • 论文报告:股票价格形态聚类与收益分析

    论文报告:股票价格形态聚类与收益分析

    本研究构建了一套完整的股票价格形态自动识别与量化分析系统,主要功能包括: 数据预处理 对沪深300成分股5分钟级K线数据进行标准化处理(复权、异常值剔除) 滑动窗口生成候选形态片段(窗口长度自适应波动率) 智能形态识别 基于改进DTW

  • 论文报告:酒店评论 文本分类研究

    论文报告:酒店评论 文本分类研究

    项目概述 本项目构建了一个面向酒店行业的多维度情感分析系统,通过创新性地融合深度学习技术与爬虫技术,实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据,并进行细粒度的情感倾向分析,为酒店运营提供数据支持。 核心技术实现 智能爬虫系统

  • 论文报告:酒店评论 文本分类研究

    论文报告:酒店评论 文本分类研究

    项目概述 本项目构建了一个面向酒店行业的多维度情感分析系统,通过创新性地融合深度学习技术与爬虫技术,实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据,并进行细粒度的情感倾向分析,为酒店运营提供数据支持。 核心技术实现 智能爬虫系统

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服