背景介绍因为朋友聊到买房问题,所以对某二手房价格信息进行了抓取并存档,见这篇文章:董汇标MINUS:二手房价格及信息爬取6 赞同 · 3 评论文章
本篇文章为上文爬到数据的分析,在这片文章中,用到pandas、seaborn、Matplotlib等工具,分析工具用到提琴图、箱型图、散点图等其他如回归模型、相关性分析等没写,因为房价和地段、户型、面积关系是大家的常识。
二手房房价分析首先呢还是导入library方便后续一切操作,如果对某个模块不懂,可以私信我import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings # 这部分是超参数提前设置 sns.set(style=darkgrid) plt.rcParams[font.family]=Arial Unicode MS plt.rcParams[axes.unicode_minus]=False warnings.filterwarnings(ignore)。
然后读取数据表,直接描述一下看看情况data =pd.read_csv(链家新房100个.csv) data.describe()
最贵和最便宜的从上面输出表格可以看到初步结论如下:这些二手房最小面积9.6平米,最大718平米,最便宜的56万,最贵的5200万 面积大概集中在59-102平,价格大概集中在325-630万,初步信息看完了有个印象,下边进行详细分析。
首先我对这个9.6平的房子很感兴趣,提取出来看看,但是运行下边代码看到,CBD核心区,别墅,9.64平,56W,估计是各厕所拆出来卖的。。作罢。跳过他继续分析data.min()
而最贵的呢在鼓楼大街(二环边上)联排别墅,售价5200万。emmmdata.max()
价格分布,面积分布粗看现在我想直观的看一下售价分布,从下图可以看到,售价主要集中在1000万之内sns.distplot(data[钱].dropna())
同样的思路看一下面积,可以看到这些二手房源面积主要集中在100平米左右sns.distplot(data[面积].dropna())
此处其实也可以两张图一块看,代码如下:(都有点右偏)fig, ax =plt.subplots(1,2) #2个子区域 sns.distplot(data[钱],ax=ax[0]) sns.distplot(data[面积],ax=ax[1]) plt.show()
售价精看对售价做一个箱型图看看,很明显的1000万那条横线以上的点儿,都是合理数据外的数据。sns.boxplot(data=data[钱])
那么合理的数据分别是什么呢?可以参考以下代码mean, std = data[钱].mean() , data[钱].std() # 得到上下限 lower , upper =mean -3*std , mean+3*std print(均值,mean) print(标准差,std) print(下限,lower) print(上限,upper)
打印结果可以看到的是标准差集中在358万,合理上限是1613万对现实的指导就是:如果有358万,买一套房子就够了,1613万以上的房买起来就是坑爹了均值 538.44标准差 358.47下限 -536.9763753150206。
上限 1613.8755022458467最便宜的20套通过这段代码可以看一下这些房子分布在哪里结论见代码下截图,如果你对北京熟悉,可移看到,这些房子主要分布在5换外,部分在顺义、昌平、门头沟等地t=data[[小区,地区,钱]].sort_values(钱) display(t.iloc[:20])。
面积精看同样的方式,可以把”钱”列换为“面积”列看一下,面积均值89平,标准差50平,合理上
上限 240.9883596328421面积最小的部分信息如下
其他信息分析朝向通过对户型方向进行分组展示可以看到在北京,主要还是南北向的,东西朝向的低很多posit=data[方向].value_counts()[:10] display(posit)
装修程度装修程度有四类:精装、简装、毛呸、其他。建筑形式有:板楼、塔楼、板楼塔楼结合、别墅等,这两个维度与价格有啥关系呢?来分析分析,做三个图先:图一:装修状态和价格关系
图二:装修状态联同建筑形式与售价关系
图三:建筑形式连同装修状态与价格关系
图四:建筑形式箱型图
通过对装修状态做价格分布图可以看到,精装修的集中在400±100万左右,简装稍微便宜一丢丢,毛坯房二手很少,其他形式的很多,价格集中在300-500万左右对装修状态进行楼房形式的拆解后做箱型图如上,得到结论是板楼、塔楼、板楼塔楼结合是最多的,不论是精装简装还是其他信息不明的装修状态的。
对建筑形式连同装修状态和价格关系可以看到,不论什么类西宁的建筑形式,都存在精装修、简装修毛呸板楼价格横跨100万-1000万之间,集中在300-600万之间,板楼塔楼结合的价格集中在350万-700万之间,塔楼集中在380-700万之间。
初步结论,如果能搞到300万以上,精装修的板楼或塔楼随便选但若没这么多钱,也可以有50-300万之间的选择,只是选项少一些,但并不是没有选择在这个初步结论基础上提问: 我有xxx万,那么我能买到多少平的房子呢?。
分组后作图如下:面积主要集中在40-110平之间。
做一张散点图,表明价格、面积的分布,限定横坐标50-500万之间,纵坐标40-120平之间sns.scatterplot(data[钱], data[面积]) plt.xlim(50,500) plt.ylim(40,120) plt.show()
所以,到这里,有大概多少钱,能买多少平的房子,一目了然其实可以看到:180万以上就有很多选择了如果只是想先买一套100万左右也有满足的情况今天的分析就到这里希望对您带来帮助如果,针对这些数据有提建议的分析思路 ,希望不要犹豫赶紧留言。
我加进去!