Python爬虫:熟练掌握Python变量、循环、条件判断等基础,熟练掌握爬虫所需要的requests库、Beautifulsoup库解析库、selenium自动化浏览器工具,掌握文件的存储方式,如Json、CSV、Excel等,了解常见反爬虫机制、如User-Agent检测、IP封锁、验证码、动态渲染等,掌握数据清洗库pandas、re、lxtm、xpath等。
Python数据分析:熟练掌握pandas库用于数据清洗、转换、聚合,Numpy库用于数值计算,matplotlib库用于可视化绘图,seaborn库用于高级统计图表展示,了解SQL数据库基础知识、能熟练使用SQL语句进行增删改查操作,了解Scipy和statemodels用于统计分析,清楚机器学习算法,如分类、聚类、回归算法,数据标准化等特征工程。
通过Python爬虫从网易财经网站获取云南白药的历史数据、通过对数据的缺失值、重复值检测、查看数据类型等步骤了解数据整体情况,对数据进行必要可视化之后,寻找收盘价与其他指标的相关性,并删除相关性较低的指标,利用剩余指标构建LSTM模型预测未来收盘价数据,最终模型准确率可观。
对爬取到的图片进行数据预处理后、对数据进行独热编码、数据划分、提取特征,将特征与标签(图片名)、利用卷积神经网络对模型进行训练,对模型进行评估,采用混淆矩阵、模型准确率、ROC曲线等指标进行评估。
通过爬虫从网易财经网站获取数据,经过数据预处理等操作保证数据的完整性、可用性,对数据进行可视化操作,查找和收盘价相关性较高的指标作为自变量,收盘价作为因变量,建立LSTM模型预测收盘价。
通过爬虫从网易财经网站获取实验数据、删除缺失值、重复值等保证数据完整性可用性、绘制股票收盘价K线图,选择和收盘价相关性较高的指标作为模型自变量,收盘价作为收盘价,构建长短期神经网络预测收盘价,最终进行模型评估。