链家是集房源信息搜索、产品研发、大数据处理、服务标准建立为一体的国内领先且重度垂直的全产业链房产服务平台作为全国二手房市场的领头羊,链家网拥有全国最大的真房源数据库,收录了全国20多个重点城市6000万套房源信息。
通过O2O模式,使用户能够在线精准定位,找到满意的房屋,并快速匹配经纪人完成看房、交易等环节,真正帮客户做到省时省力的安心服务本次通过探索分析上海二手房在各城区情况及价格分布,建筑时间、楼层、朝向、户型、地理位置对房价的影响
本次数据集来源链家公布上海二手房数据集,不涉及个人隐私
一、数据探查1、导入数据集:数据集共28201行,10个字段查看各自字段数据类型,建筑时间属于字符型的需要转换成时间格式查看空值:在建筑时间、楼、朝向存在空值
2、数据处理:为方便后面分析,将中文的字段重命名为英文建筑时间提取时间并转换成datetime格式
二、整体数据情况1、描述统计分析二手房平均面积在96平方米,中位数是85平方米,受到极大值影响,整体拉高了在售二手房的平均面积平均总价在580万,中位数为315万,同样也受到极大值的影响,这也符合房价情况,高价位的房源拉高平均水平
平均单价在5.97万,中位值是5.8万,最高达到20万元,中位数为5.8万元,平均值与中位数基本相等,说明房价升高趋势比较线性
二手房描述统计分析2、上海各城区二手房在售整体情况1、上海行政区划分:中心城区7个包括:黄浦区(原黄浦区加原南市区加卢湾区),静安区(原静安区加原闸北区),徐汇区,长宁区,杨浦区,虹口区,普陀区半中心区半郊区1个:浦东新区
郊区8个包括:宝山区,嘉定区,闵行区,松江区,青浦区,奉贤区,金山区,崇明区
2、各城区二手房在售房源数量浦东区在售二手房源最多2500多套,静安、金山、崇明房源远少于其他城区金山、静安、崇明三个区房源数量太少,不具有统计意义,在进行房价分析上,将其过滤
三、数据分析&可视化二手房的房价分布:1、各城区的房价分布:单价直方图接近正态分布,呈现中间高,两边低的形态,单价均值为6万元左右,大多数在3-8万之间
各城区的房价分布2、各城区平均单价和总价排名:从箱线图看出,黄埔区单价
青浦区有个有趣的现象,城区平均单价在倒数第二,但是在总价是第三,在箱线图看出少数价格高的拉高了总体平均值
3、上海单价排名前15的小区:平均单价排名前三位的小区分别是翠湖天地御苑、华润外滩九里、翠湖天地雅苑;第一名的翠湖天地御苑单价,超过了15万元,远高于排名第二的华润外滩九里近2万元通过查询这个三个小区均在黄埔区。
4、各城区单价最高的小区:长宁区单价最高的小区宏业花园达到20万,奉贤区单价最高的申亚花涧墅仅6.6万元,差异较大 new_df[~new_df.village.isin(drop_village)].groupby([district,village]).mean().reset_index().groupby(district).apply(lambda x:x.sort_values(unit_price,ascending=False)[:1])。
其他城区二手房平均面积在70-100,由于房子面积不算大,相对来说经济压力负担小一些
2、各城区在售二手房数量排名前5的小区:嘉定和奉贤按小区划分在售二手房数量较高与其他城区嘉定的新城金郡和奉贤的贝港南区在售二手房数量有70多套(可对比实际建筑房源数量,初步推断是自住刚需还是买房投资还是其他…)
房价影响因素探究1、房价与地理位置的关系:不同城区的房价显然存在一定的差异,越核心的区域房价越高,平均单价最高的是黄浦区达到9万,最低的是奉贤区才3万
2、房价与户型的关系:市场上以2室1厅、2室2厅、3室2厅的户型房子数量居多,这三种户型的房子单价处于整体单价的平均线水平而1室2厅、2室0厅、1室0厅的房子,由于房子面积小,总价不会太贵,相对来说经济压力负担小一些,被称为刚需户型,单价相对其他大户型的较高,1室2厅的房子甚至平均单价高达7.3万。
3、房价与楼层的关系:市场上6楼的房子数量最多,其单价在邻近低楼层中最高,约6.8万; 从20层到38层,随着楼层的增加,其单价也在上涨; 之后单价随楼层的变化波动很大,应该是由于40层之后,数据样本数量比较少,容易产生较大的误差, 因此40层之后的楼层单价与楼层的关系不进行研究。
#房价与楼层的关系 # 过滤楼层存在缺失值的行 group_floor = new_df[new_df.floor.isin((new_df.groupby(floor).area.count()>100).index)].groupby(floor) fig,axes = plt.subplots(2,1,figsize = (15,10)) axes0,axes1 = axes.flatten() group_floor.unit_price.count().plot.bar(ax = axes0) axes0.set_title(不同楼层的房源数量) group_floor.unit_price.mean().plot.bar(ax = axes1) axes1.set_title(不同楼层的平均单价) plt.axhline(y=70000,c=r,ls=-,) plt.text(1,71000,”中位数7万”)
3、房价与朝向的关系:朝向对房价有一定的影响,朝向南面(南、东南、西南)的房子总体价格会高一点且房源数量也是比较多的,这一现象也符合生活情景,朝向南面的房屋采光会比较好,这些南北通透的房子单价相对于其他朝向会高一些。
在2015后后建筑的房子也呈现上升的趋势,这与现实业务房价不断上涨的趋势吻合
3、房价影响因素:对二手房区域、户型、楼层、朝向及建筑年代特征进行分析,不同的区域、不同的户型、不同的楼层、不同的朝向和不同的建筑年代都会使得房子单价不一样,楼层在6层的低楼层房子、中小户型的、朝向南面受欢迎
数据报告