技术:1.熟悉HTTP/HTTPS协议,TCP/IP网络协议 2.熟悉Python 多线程爬虫及其机制 3.熟练使用Python urllib、urllib2、requests等网络模块 4.熟练使用Python lxml、BeautifulSoup、re、json模块进行数据提
项目:爬虫与数据分析项目 1、根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取 2、对抓取到的数据进行清洗过滤,结构化存到数据库,根据爬取过程中遇到的一些
案例: 音乐爬取