本次综合大作业是完成青少年社交网络信息数据预处理。
一、实验目的
1. 掌握数据清洗的典型流程和方法。
2. 掌握数据缺失值和异常值的处理方法。
3. 掌握特征编码和特征标准化的特征处理方法。
二、实验内容和要求(详见附件)
随着社交网络平台的流行,越来越多的青少年用户会在这些平台发布消息。请使用Pandas包和sklearn的预处理模块中的一些类,对社交网络信息数据集进行预处理。数据集teenager_sns.csv(见附件)是一份包含30000个样本的美国高中生社交网络信息。数据均匀采样于2006年到2009年,每个样本包含40个变量,其中gradyear、gender、age和friends四个变量代表高中生的毕业年份、性别、年龄和好友数等基本信息,剩余36个关键词代表了高中生的5大兴趣类:课外活动、时尚、宗教、浪漫和反社会行为。具体描述如下:
三、作业提交要求
完成实验报告(见附件模板),将源代码和实验报告一起压缩打包提交至学习平台。
请先
!