实现对多类型网站(包括新闻门户、电商平台、社交媒体等)的自动化数据采集与结构化处理。我负责核心爬虫引擎的开发与优化,使用 Java + Jsoup + Selenium 实现复杂网页的动态渲染数据抓取,并结合正则表达式与 XPath 实现高精度的数据提取。系统支持任务分布式调度、断点续爬、IP 池/UA 池轮换、防止封禁等机制,确保爬虫稳定运行。采集数据经过清洗、标准化处理后存入 MySQL 和 Elasticsearch,支持按关键词和时间范围快速检索。该系统成功应用于舆情监控、市场行情分析等多个业务场景