爬虫技术能力
我精通Python生态的爬虫技术栈,能够高效采集结构化/非结构化数据:
技术栈:熟练使用Scrapy框架构建分布式爬虫,配合Requests/BeautifulSoup处理动态页面,掌握Selenium/Playwright应对复杂JS渲染,熟悉Pyppeteer无头浏览器技术。
反爬应对:具备IP代理池搭建(住宅/数据中心IP)、请求指纹混淆、验证码识别(Tesseract/打码平台接入)等实战经验,能突破Cloudflare等主流防护。
工程化能力:实现自动化调度(Celery+Redis)、数据去重(BloomFilter)、异常熔断机制,日均千万级数据采集稳定性达99.5%+。支持输出CSV/XLSX等多种存储格式。
数据分析技术能力
我擅长使用Python/R进行数据清洗、分析与可视化:
数据处理:精通Pandas/Numpy进行数据规整(缺失值/异常值处理、时间序列转换),掌握Dask处理GB级数据集,熟悉正则表达式与文本挖掘(Jieba/NLTK)。
分析建模:具备统计分析(假设检验/回归分析)、机器学习(Sklearn/TensorFlow)实战经验,成功构建用户画像、销售预测等模型,AUC指标达0.9+。
可视化呈现:熟练使用Matplotlib/Seaborn制作专业图表,能通过桑基图、热力图等直观呈现数据洞察
项目1.企业内推招聘平台信息采集与分析
爬虫技术:基于Scrapy-Redis构建分布式爬虫,突破BOSS直聘反爬,动态渲染(Splash)+ 代理IP池保障稳定采集200万+岗位数据。
数据分析:使用Pandas+PySpark分析薪资分布,发现算法岗在北上深溢价34%;TF-IDF+Word2Vec挖掘技能趋势,输出人才需求报告,提升HR招聘效率25%。
项目2.酒店评论文本分类系统
NLP处理:Jieba+SnowNLP清洗中英文评论,标注5万条数据(服务/卫生/位置等6类标签)。
智能分类:对比贝叶斯(F1=0.82)与BERT微调(F1=0.91),采用ALBERT+Attention模型,准确率89%,实时API支持酒店优化差评主因(床品问题),NPS提升11%。
本研究构建了一套完整的股票价格形态自动识别与量化分析系统,主要功能包括: 数据预处理 对沪深300成分股5分钟级K线数据进行标准化处理(复权、异常值剔除) 滑动窗口生成候选形态片段(窗口长度自适应波动率) 智能形态识别 基于改进DTW
项目概述 本项目构建了一个面向酒店行业的多维度情感分析系统,通过创新性地融合深度学习技术与爬虫技术,实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据,并进行细粒度的情感倾向分析,为酒店运营提供数据支持。 核心技术实现 智能爬虫系统
项目概述 本项目构建了一个面向酒店行业的多维度情感分析系统,通过创新性地融合深度学习技术与爬虫技术,实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据,并进行细粒度的情感倾向分析,为酒店运营提供数据支持。 核心技术实现 智能爬虫系统