问卷分析涉及设计有效的调查工具、清洗回收数据(如处理缺失值或异常值),通过统计方法(如信效度检验、因子分析)验证数据的可靠性。使用方差分析、卡方分析验证不同水平之间的差异,通过描述性统计和推断统计(回归分析)进一步挖掘数据规律
,使用机器学习模型(XGB、RF等)探索因子之间的关系,并使用SEM探寻中介效应
熟练使用Python(Pandas、NumPy)、SPSS(非编程界面操作)或R可高效完成相关任务。
数据可视化则通过Matplotlib、Seaborn(Python)、ggplot2(R)将复杂数据转化为直观图表(如热力图),便于洞察趋势和传递结论。
建模环节需根据问题类型选择算法(线性回归、随机森林、神经网络),并利用Scikit-learn、TensorFlow进行训练与评估。
此外,MySQL的熟练运用有效管理结构化数据,为分析提供高质量数据源。综合这些技能,可构建从数据采集到商业洞察的完整闭环,适用于市场研究、用户行为分析、预测建模等多场景。
1.多语言文本分类与相似度研究
《圣经》第一卷《创世纪》英、法、意、西、德语文本数据收集、清洗、建模
运用预训练语言模型BERT、XLM-RoBERTa对五种与欧洲语言进行分类,验证预训练语言模型在处理文本数据上的高效。同时,计算余弦相似度相似度与误分类结果的对比,得到相似度越高,误分类越明显。进一步打算通过预训练语言模型,提取不同国家的文本所传达的思想,并计算各思想之间的相似性
2.亲人离世对大学生学习与生活的影响调查问卷分析
问卷分析,包括方差分析、描述性统计、影响因素分析(使用最基本的回归到目前流行的XGBoost,输出特征重要性)、结构方程模型的建立分析中介效应
获得第十四届正大杯广东赛区一等奖
3.基于python的淘宝用户为分析
基于RFM模型完成120万+用户价值分层,设计评分标准并制定差异化营销策略。数据可视化
锁定每日18-22时为流量高峰,针对性优化商品推荐策略。
4.中国画山水写生成果线上线下呈现之满意度问卷分析
承担问卷数据分析、信效度检验、可视化分析、方差分析
5.基于人水关系的梅州城镇化与水资源耦合协调机制研
数据处理,使用熵值法、CRITIC计算各指标权重,并分别计算耦合协调度,根据实际情况创新性的结合两者得到更为合理的城镇化与水资源的协调等级
负责问卷分析,通过描述性统计和推断统计(如假设检验)进一步的探寻不同变量间的差异,使用FA进行降维提取维度。使用回归分析、机器学习模型探寻不同变量间的关系并使用SEM探索中介效应
在GIthub中收集圣经第一卷创世纪英、法、德、意、西语译文,根绝译文文本进行文本处理,后使用GloVe进行词向量化,并使用余弦相似度计算各语言之间的相似程度。使用NLTK库进行分词,得到273万条token,进行分类模型建模,使用语句级数据进行BERT和XLM-RoBERTa模
在GIthub中收集圣经第一卷创世纪英、法、德、意、西语译文,根绝译文文本进行文本处理,后使用GloVe进行词向量化,并使用余弦相似度计算各语言之间的相似程度。使用NLTK库进行分词,得到273万条token,进行分类模型建模,使用语句级数据进行BERT和XLM-RoBERTa模