实验名称:综合性大作业
一、实验目的及要求
1、能够描述Numpy的相关基本概念;
2、能够学会使用数据结构Series和DataFrame;
3、学生能够正确读写数据文件、学会使用数据类型和数据初步探索中的常用方法;
4、能够学会数据合并与数据融合的常用方法,以及排序、随机采样、离散化和面元划分;
5、能够使用GroupBy技术、数据分组、函数应用和数据聚合的基本函数;
6、能够描述Pandas时间序列基础,学会日期、频率、时区和时期的常用操作方法,以及重采样;
7、能够正确学会Matplotlib基础和Pandas基本绘图函数,以及如何自定义图表样式。
二、实验内容
现在我们有一组从2006年到2016年1000部最流行的电影数据,数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data
问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?
问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?
问题3:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?
三、实验设备及环境
CPU:需要pentium 以上处理器。
内存:对于X86、AMD64/Intel64和itanium2架构的主机,最少需要512MB的内存,如果主机是IBM Power系列,则至少需要1GB的内存(推荐2GB)。
显卡:需要VGA兼容显卡。
光驱:CD-ROM或者DVD。
软件:安装Numpy。
四、实验步骤(功能实现的核心步骤及截图)
评论0