猿急送>

北京其它兼职程序员

ID：402469

YOLO

大数据工程师

公司信息：
广州泰迪智能科技有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后

所在区域：
北京
海淀

技术能力

爬虫技术能力
我精通Python生态的爬虫技术栈，能够高效采集结构化/非结构化数据：
技术栈：熟练使用Scrapy框架构建分布式爬虫，配合Requests/BeautifulSoup处理动态页面，掌握Selenium/Playwright应对复杂JS渲染，熟悉Pyppeteer无头浏览器技术。
反爬应对：具备IP代理池搭建（住宅/数据中心IP）、请求指纹混淆、验证码识别（Tesseract/打码平台接入）等实战经验，能突破Cloudflare等主流防护。
工程化能力：实现自动化调度（Celery+Redis）、数据去重（BloomFilter）、异常熔断机制，日均千万级数据采集稳定性达99.5%+。支持输出CSV/XLSX等多种存储格式。
数据分析技术能力
我擅长使用Python/R进行数据清洗、分析与可视化：
数据处理：精通Pandas/Numpy进行数据规整（缺失值/异常值处理、时间序列转换），掌握Dask处理GB级数据集，熟悉正则表达式与文本挖掘（Jieba/NLTK）。
分析建模：具备统计分析（假设检验/回归分析）、机器学习（Sklearn/TensorFlow）实战经验，成功构建用户画像、销售预测等模型，AUC指标达0.9+。
可视化呈现：熟练使用Matplotlib/Seaborn制作专业图表，能通过桑基图、热力图等直观呈现数据洞察

项目经验

项目1.企业内推招聘平台信息采集与分析
爬虫技术：基于Scrapy-Redis构建分布式爬虫，突破BOSS直聘反爬，动态渲染（Splash）+ 代理IP池保障稳定采集200万+岗位数据。
数据分析：使用Pandas+PySpark分析薪资分布，发现算法岗在北上深溢价34%；TF-IDF+Word2Vec挖掘技能趋势，输出人才需求报告，提升HR招聘效率25%。
项目2.酒店评论文本分类系统
NLP处理：Jieba+SnowNLP清洗中英文评论，标注5万条数据（服务/卫生/位置等6类标签）。
智能分类：对比贝叶斯（F1=0.82）与BERT微调（F1=0.91），采用ALBERT+Attention模型，准确率89%，实时API支持酒店优化差评主因（床品问题），NPS提升11%。

案例展示

论文报告：股票价格形态聚类与收益分析

本研究构建了一套完整的股票价格形态自动识别与量化分析系统，主要功能包括：数据预处理对沪深300成分股5分钟级K线数据进行标准化处理（复权、异常值剔除）滑动窗口生成候选形态片段（窗口长度自适应波动率）智能形态识别基于改进DTW
论文报告：酒店评论文本分类研究

项目概述本项目构建了一个面向酒店行业的多维度情感分析系统，通过创新性地融合深度学习技术与爬虫技术，实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据，并进行细粒度的情感倾向分析，为酒店运营提供数据支持。核心技术实现智能爬虫系统
论文报告：酒店评论文本分类研究

项目概述本项目构建了一个面向酒店行业的多维度情感分析系统，通过创新性地融合深度学习技术与爬虫技术，实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据，并进行细粒度的情感倾向分析，为酒店运营提供数据支持。核心技术实现智能爬虫系统