本项目基于 Python + BeautifulSoup 开发专用城市信息爬虫,针对天气网全国城市列表页面进行定向数据抓取。
自动解析网页结构,精准提取全国全部城市名称、城市详情链接、所属省份、是否为热门城市四大核心字段;内置请求会话封装、文本安全清洗、日志全程记录机制,保证爬取稳定、数据干净规范。
采集完成后自动完成两件事:
结构化数据批量存入 MySQL 数据库,建立城市信息基础数据表;
同步导出本地 CSV 文件 备份,方便后续天气爬虫读取调用。
同时提供命令行清理参数,可一键清空日志、本地 CSV 文件及数据库数据表,支持重复爬取、重置重跑,代码采用面向数据类封装、模块化设计,结构清晰易维护、可扩展,为后续全国城市天气批量爬取提供完整基础数据源。