Etsy 电商平台数据采集与清洗
使用 DrissionPage + BeautifulSoup 搭建了一个稳定的网页爬虫框架,实现对 Etsy 平台珠宝类店铺和商品数据的自动化采集。
采集的核心指标包括:店铺 ID、店铺名称、国家、开店年份、销售总量、评分、关注人数、商品数,以及商品层面的标题、价格(统一转换为 EUR)、定制化标签等。
针对网页结构的动态加载问题,结合 Chromium 内核与 XPath/正则进行精准定位,避免采集过程中出现漏抓和重复。
在数据清洗环节,利用 Pandas 对采集结果进行去重、缺失值处理、货币转换及统一编码(UTF-8),最终输出为 结构化 CSV 数据集,方便后续在 Python/R 中进行分析。
项目成果:实现了端到端的电商数据采集与清洗流程,生成的店铺级与商品级数据可直接用于市场研究、价格建模和推荐系统的输入。