熟悉使用python库,使用matplotlib库绘制图像,states 包对数据处理统计,pandas熟练操作数据,使用sql,精通机器学习算法等曾使用apriori算法对数据挖掘,关联数据之间的关系,发现有用的数据,实现商品精准营销;
使用箱型图侦测异常数据:
这里采用python脚本,技术难点将异常点,标记在箱型图上,python绘制箱型图,异常数据不会显示出来,通过修改相应脚本,将异常数据的值,标注在图上,设置相应颜色;在工作中熟悉python爬虫,会从各个网站爬取数据,了解爬虫框架,selenium等自动化框架,有扎实的数学统计基础,分析数据,熟练使用各种统计量对数据进行分析
将数据根据合适的统计量进行分类,因为现实中我们会因为使用平均数和中位数而感到迷惑,当数据左偏或者右偏是使用平均数就不太合理了,当数据的概率质量函数对称就可以使用平均数,否则就使用中位数,这是算法的核心点
在工作的时候统计各种数据,但是再检查数据会很麻烦,不知道那些数据有问题,那些数据异常,之前想的是使用箱型图来侦测异常数据,在绘制该图的时候,发现原始脚本并不会将异常的值清晰标注出来,所以就写了该脚本用于将异常数值标记到箱型图上; 另一个图片描述的是将数据用机器学习算法进行划分,