python+selenium+PHANTOMJS 爬58同城二手房网站，并入库MongoDB（selenium自动化框架有哪些）-睢宁论坛

python爬虫练习项目思路就是用模拟浏览器来爬58同城的二手房板块，目标是把全国各个城市的二手房信息（发布时间地点面积单价等）全部爬取并入库思路：1 先建立下载要分析的所有网页2 python提取一以下载网页有用信息。

具体步骤：1 首先获取所有省市的名称，并省市为文件夹名建立要下载网页的文件夹2 下载并把对应的网页放在对应的文件夹里3 以城市为单位分析已下载网页的有用信息代码：1、下载城市列表（这个城市列表可以从58的二手房首页也的html网页源代码中手动复制提取）并获取所有城市的二手房网址，存入文件待用

importredic_zhixia={“北京”:”bj|1″,”上海”:”sh|2″,”天津”:”tj|18″,”重庆”:”cq|37″}dic_shengshi={“安徽”:{“合肥”:”hf|837″

,”霍邱”:”hq|11226″,”桐城”:”tongcheng|11296″,”宁国”:”ningguo|5645″,”天长”:”tianchang|10273″},”福建”:{“福州”:”fz|304″

:”longhai|713″},”广东”:{“深圳”:”sz|4″,”广州”:”gz|3″,”东莞”:”dg|413″,”佛山”:”fs|222″,”中山”:”zs|771″,”珠海”:”zh|910″

,”惠东”:”huidong|725″,”博罗”:”boluo|726″,”海丰”:”haifengxian|9444″},”广西”:{“南宁”:”nn|845″,”柳州”:”liuzhou|7133″

},”贵州”:{“贵阳”:”gy|2015″,”遵义”:”zunyi|7620″,”黔东南”:”qdn|9363″,”黔南”:”qn|10492″,”六盘水”:”lps|10506″,”毕节”:”bijie|10564″

,”铜仁”:”tr|10417″,”安顺”:”anshun|7468″,”黔西南”:”qxn|10434″,”仁怀”:”renhuaishi|7628″},”甘肃”:{“兰州”:”lz|952″,”天水”

,”儋州”:”danzhou|10394″},”河南”:{“郑州”:”zz|342″,”洛阳”:”luoyang|556″,”新乡”:”xx|1016″,”南阳”:”ny|592″,”许昌”:”xc|977″

},”黑龙江”:{“哈尔滨”:”hrb|202″,”大庆”:”dq|375″,”齐齐哈尔”:”qqhr|5853″,”牡丹江”:”mdj|3489″,”绥化”:”suihua|6718″,”佳木斯”:”jms|6776″

,”大兴安岭”:”dxal|9878″},”湖北”:{“武汉”:”wh|158″,”宜昌”:”yc|858″,”襄阳”:”xf|891″,”荆州”:”jingzhou|3479″,”十堰”:”shiyan|2032″

,”宜都”:”yidou|864″,”汉川”:”hanchuan|3439″,”枣阳”:”zaoyang|896″},”湖南”:{“长沙”:”cs|414″,”株洲”:”zhuzhou|1086″,”益阳”

,”醴陵”:”liling|1091″},”河北”:{“石家庄”:”sjz|241″,”保定”:”bd|424″,”唐山”:”ts|276″,”廊坊”:”lf|772″,”邯郸”:”hd|572″,”秦皇岛”

,”涿州”:”zhuozhou|428″},”江苏”:{“苏州”:”su|5″,”南京”:”nj|172″,”无锡”:”wx|93″,”常州”:”cz|463″,”徐州”:”xz|471″,”南通”:”nt|394″

:”siyang|5959″},”江西”:{“南昌”:”nc|669″,”赣州”:”ganzhou|2363″,”九江”:”jj|2247″,”宜春”:”yichun|5709″,”吉安”:”ja|2364″

,”永新”:”yxx|11077″,”乐平”:”lepingshi|9048″},”吉林”:{“长春”:”cc|319″,”吉林”:”jl|700″,”四平”:”sp|10171″,”延边”:”yanbian|3184″

yuan|2501″,”公主岭”:

,”葫芦岛”:”hld|10088″,”铁岭”:”tl|6729″,”阜新”:”fx|10097″,”庄河”:”pld|3306″,”瓦房店”:”wfd|3279″},”宁夏”:{“银川”:”yinchuan|2054″

,”吴忠”:”wuzhong|9962″,”石嘴山”:”szs|9971″,”中卫”:”zw|9951″,”固原”:”guyuan|2421″},”内蒙古”:{“呼和浩特”:”hu|811″,”包头”:

},”青海”:{“西宁”:”xn|2052″,”海西”:”hx|9902″,”海北”:”haibei|9917″,”果洛”:”guoluo|9936″,”海东”:”haidong|9909″,”黄南”:

“huangnan|9896″,”玉树”:”ys|9888″,”海南”:”hainan|10574″},”山东”:{“青岛”:”qd|122″,”济南”:”jn|265″,”烟台”:”yt|228″,”潍坊”

,”邹平”:”zouping|946″},”山西”:{“太原”:”ty|740″,”临汾”:”linfen|5669″,”大同”:”dt|6964″,”运城”:”yuncheng|5653″,”晋中”:

,”朔州”:”shuozhou|9871″,”临猗”:”linyixian|9193″,”清徐”:”qingxu|10908″},”陕西”:{“西安”:”xa|483″,”咸阳”:”xianyang|7453″

,”商洛”:”sl|9854″,”铜川”:”tc|9832″,”神木”:”shenmu|5944″},”四川”:{“成都”:”cd|102″,”绵阳”:”mianyang|1057″,”德阳”:”deyang|2373″

,”安岳”:”anyuexian|6806″,”广汉”:”guanghanshi|8719″,”简阳”:”jianyangshi|6805″,”仁寿”:”renshouxian|9706″},”新疆”:{

,”塔城”:”tac|18845″},”西藏”:{“拉萨”:”lasa|2055″,”日喀则”:”rkz|9615″,”山南”:”sn|9576″,”林芝”:”linzhi|9646″,”昌都”:”changdu|9648″

,”那曲”:”nq|9618″,”阿里”:”al|9678″,”日土”:”rituxian|9682″,”改则”:”gaizexian|9684″},”云南”:{“昆明”:”km|541″,”曲靖”:”qj|2389″

“cangnanxian|7579″,”临海”:”linhai|407″,”永康”:”yongkang|537″,”玉环”:”yuhuan|409″},”其他”:{“香港”:”hk|2050″,”澳门”

:”am|9399″,”台湾”:”tw|2051″,”全国”:”quanguo|8728″,”其他”:”cn|2258″},”海外”:{“洛杉矶”:”gllosangeles”,”旧金山”:”glsanfrancisco”

,”纽约”:”glnewyork”,”多伦多”:”gltoronto”,”温哥华”:”glvancouver”,”伦敦”:”glgreaterlondon”,”莫斯科”:”glmoscow”,”首尔”:

“glseoul”,”东京”:”gltokyo”,”新加坡”:”glsingapore”,”曼谷”:”glbangkok”,”清迈”:”glchiangmai”,”迪拜”:”gldubai”,”奥克兰”

合肥分类信息 – 本地免费高效

#print(dic_zhixia)forjindic_shengshi:# print(j)dic_chengshi=dic_shengshi[j]forcindic_chengshi:print

dic_all_city_list=dict(dic_zhixia,**dic_shengshi)#两个字典相加语法：dictMerged2=dict(dict1, **dict2) 而且这种方法更快!

print(dic_all_city_list)withopen(rC:\Users\Administrator\Desktop\python试验田\58\所有城市二手房页面网址.txt,w,encoding

=utf-8)asfw:#这里的decode要在open函数中进行，这点很奇怪，不是在前面decode，fw.write(str(dic_all_city_list))fw.close()2、读取城市地址并以其性质名称命名

importreimportos#import jsonf=open(rC:\Users\Administrator\Desktop\python试验田\58\所有城市二手房页面网址.txt,rb)str_dic_allcity

=f.read().decode(utf-8)f.close()#print(type(str_dic_allcity)) #字符串dic_allcity=eval(str_dic_allcity)

#eval() 为将字典格式的字符串转化为字典当然也可以用流行的json函数来进行转换json.loads()，函数为这个，但是会报错，原因是json格式的大括号里的格式是双引号，这里要求的是单引号，所以要用全部替换一下才可以，这里不做替换。

#pri

)ifpat.search(str(dic_allcity[i]))andisinstance(dic_allcity[i],str):###在这里要将dic_allcity[i]给字符化，因为省份后面跟的是字典不是字符，这里判断时会报错

os.makedirs(“C:/Users/Administrator/Desktop/python试验田/58/全国二手房信息/直辖市/”+i+”市”)f_zhixia=open(rC:\Users\Administrator\Desktop\python试验田\58\全国二手房信息\直辖市

\\+i+市\\+i+市.txt,w)f_zhixia.write(这是直辖市的网址+\n+dic_allcity[i])else:forjindic_allcity[i]:os.makedirs(“C:/Users/Administrator/Desktop/python试验田/58/全国二手房信息/省/”

+i+”省/”+j+”市”)f_chengshi=open(rC:\Users\Administrator\Desktop\python试验田\58\全国二手房信息\省\\+i+省\\+j+市\\+j+

市.txt,w)f_chengshi.write(这是+i+省+j+市的网址+\n+dic_allcity[i][j])3 核心代码！！！！！网页下载(selenium+PHANTOMJS)import

importActionChains#引入ActionChains类，这里用于一些列鼠标操作f

DesiredCapabilities#貌似是PHANTOMJS抓包时不用加载图片时用的库importtimeimportospath=r”C:\Users\Administrator\Desktop\python试验田\58\全国二手房信息”

dic_path_url={}foriinos.walk(path):#此命令返回的地址是\\形式的带有转义符号的，所以还是方便下文再次调用的ifi[1]==[]:dic_path_url[i[0]]=

i[2][0]else:pass#print(dic_path_url) ###返回的字典就是文件夹路径名：文件名 perfect！j=0#j为全局变量,是下文的save_html()中文件名都的值

forchengshi_pathindic_path_url:# print(chengshi_path) #chengshi_path为二手房城市所在的目录# print(chengshi_path+\\+dic_path_url[chengshi_path]) ####返回的chengshi_path+\\+dic_path_url[chengshi_path] 就是txt文件的完整路径 perfect！

txt_dizhi=chengs

f_txt.close()chengshi_url=paten.findall(txt_content)# with open(rC:\Users\Administrator\Desktop\python试验田\58\shiyan1126.txt,a,encoding=utf-8) as fw: #这里的decode要在open函数中进行，这点很奇怪，不是在前面decode，

# fw.write(str(chengshi_url)+\n)# fw.close() # print(chengshi_url[0]) #chengshi_url[0]各个城市二手房网址

defsave_html(html_58):globaljj=j+1withopen(chengshi_path+\\+str(j)+.html,w,encoding=utf-8)asfw:#这里的decode要在open函数中进行，这点很奇怪，不是在前面decode，

fw.write(html_58)fw.close()###########以下是用Chrome来当作浏览器进行爬取######### #options = webdriver.ChromeOptions()

#driver = webdriver.Chrome(chrome_options=options)##driver.maximize_window()#driver.get(【北京二手房网|北京二手房出售|北京二手房买卖信息】-北京58同城)

###########以下是用selenium+PHANTOMJS来当作浏览器进行爬取######### dcap=dict(DesiredCapabilities.PHANTOMJS)dcap[“phantomjs.page.settings.userAgent”

]=(“Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0”

)#设置user-agent请求头dcap[“phantomjs.page.settings.loadImages”]=False#禁止加载图片driver=webdriver.PhantomJS(desired_capabilities

=dcap)driver.set_page_load_timeout(20)#设置页面最长加载时间为20stry:driver.get(chengshi_url[0])except:passfornin

range(70):print(正在进行第+str(n+1)+页的内容加载)driver.implicitly_wait(5)#隐性休眠时间，让页面加载5秒，5秒内加载完随时进行下一步，没有的话就等到5秒再执行下一步。

对应的是time.sleep()显性休眠#js=”var q=document.documentElement.scrollTop=10000″#driver.execute_script(js) #将页面滚动条拖到底部

html=driver.page_sourcesave_html(html)print(第+str(n+1)+页加载完毕！)try:move_mouse=driver.find_element_by_xpath

(“//div[@class=pager]/a[@class=next]/span[contains(text(),下一页)]”)except:passActionChains(driver).move_to_element

(move_mouse).perform()#使鼠标悬浮事件，因为58网站检测先有鼠标悬浮动作然后才点击才是人类动作，所以，很讨巧的一个程序员，必经没有“之家”程序员做的那么绝！time.sleep(1

)try:driver.find_element_by_xpath(“//div[@class=pager]/a[@class=next]/span[contains(text(),下一页)]”).click

()except:passdriver.close()#关闭浏览器driver.quit()#退出浏览器，不然会占有大量内存#先爬取四个直辖市证明爬到244个页面时网站出现验证码说明58还是比较仁义的比之家强多了所以要用代理了，接下来的工作就是塞选代理的过程了，图片识别代理验证码，筛选最快代理，多线程，断点爬取

4、批量将下载的网页进行分析_并入MongDB（次核心！！！）importrefromlxmlimportetreeimportdatetimeimportosfrompymongoimportMongoClient

######mongodb操作#######client=MongoClient(localhost,27017)db_name=58_ershoufangdb=client[db_name]#建立数据库

##########分析该目录下所有html文档中的房价等信息###########path=r”C:\Users\Administrator\Desktop\python试验田\58\全国二手房信息”

dic_path_url={}foriinos.walk(path):#此命令返回的地址是\\形式的带有转义符号的，所以还是方便下文再次调用的ifi[1]==[]:dic_path_url[i[0]]=

i[2]##返回的是文件名列表中的第一个值else:pass#print( dic_path_url) #####dic_path_url为所有文件名的值与其路径路径：所有文件列表######单独获取省份和城市名字######

forjindic_path_url:list_sheng_shi=j.split(\\)#将路径名用\分割成列表，因为\同时也是转义符号所以这里要用\\# print(list_sheng_shi)

sheng_str=list_sheng_shi[-2]#从列表中提取出省名shi_str=list_sheng_shi[-1]#从列表中提取出市名# print(省：+sheng_str)# print(市：+shi_str)

file_list=dic_path_url[j]######mongodb操作####### col=db[sheng_str+_+shi_str]#建立以省_市为名字的表单######八大函数分析读取信息#######

#不需要这种方法了 dic={} #把字典定义为全局变量，这样方便以后为其赋值，在次循环过程中，字典清空进行下一次的利用#不需要这种方法了 dic[省份]=sheng_str

#不需要这种方法了 dic[城市]=shi_str #在字典中添加省份和城市字段，以便以后分析用途CONSTANT=0#全局变量，用于记录总收录数量start_num=0#全局变量end_num

=0#全局变量defanalysis_all():count_num=0forsingle_fileinfile_list:count_num=count_num+1ifre.search(html,single_file

):#选择html文件 f=open(j+\\+single_file,rb)html=f.read().decode(utf-8)f.close()print(正在分析第+str

(count_num)+页:+j+\\+single_file)# print(html)deffind_xiaoqu():xiaoqu_list=[]#定义小区空列表，用于查询结果数据以字典形式添加，方便入mongo库，具体见《mongo数据查询》里过程详解，提示，col.updata()

xiaoqu_name=etree.HTML(html).xpath(“//ul[@class=house-list-wrap]//p[@class=baseinfo]//a[1]”)# if xiaoqu_name:

# print(find it！)# else:# print(没！)# print(共+str(len(xiaoqu_name))+个小区)

foriinrange(len(xiaoqu_name)):globalCONSTANTCONSTANT+=1xiaoqu_content=xiaoqu_name[i].text#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式

haha=xiaoqu_name[i].xpath(@href)#提取该对象中的连接地址，这是xpath的特有方法. 结果haha是列表形式# print(haha)

用列表[0]时会提示溢出

ifpaten.search(haha[0]):passelse:xiaoqu_content=****else:haha=[****]xiaoqu_content=****xiaoqu_list.append

({省份:sheng_str,城市:shi_str,房源ID:CONSTANT,小区名称:xiaoqu_content})foriinxiaoqu_list:col.insert_one(i)#把 xiaoqu_list 小区信息列表全部插入mongo数据库建立i个条目，字典形式

globalstart_numstart_num=CONSTANT-len(xiaoqu_list)+1#定义本页面起始要更新的房源id号globalend_numend_num=CONSTANT#定义本页面结束要更新的房源id号

find_xiaoqu()#这样就可以直接运行函数了，其实这里完全没必要用函数，还不如直接运行直线算了，哎，不改了，算了！# dic[调查房源+str(CONSTANT)]={小区名称:xiaoqu_content} #给字典赋值

#不需要这种方法了 CONSTANT=CONSTANT-len(xiaoqu_name) #为了不影响下面字典元素的添加赋值，这里要将CONSTANT复位，直到最后一个函数，然后再重新计算（带着最后一个函数的值），不这样的话，第二个函数都到不了，直接溢出报错！

#不需要这种方法了 return dic# print(haha)######单价#######deffind_danjia():danjia_list=[]

danjia_name=etree.HTML(html).xpath(“//div[@class=price]//p[@class=unit]”)# if danjia_name:

# print(find it！)# else:# print(没！)# print(共+str(len(danjia_name))+单价)

foriinrange(len(danjia_name)):# global CONSTANT# CONSTANT += 1

danjia_content=danjia_name[i].text.strip(元/㎡).strip()#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式

danjia_list.append({单价(元):int(danjia_content)})j=0foriincol.find({房源ID:{$gte:start_num,$lte:end_num}}):

#这里一定要注意！！！！！pymongo里的符号代码一定要加引号，其中$gte 为大于等于 $lte为小于等于j+=1col.update_one(i,{$set:danjia_list[j-1]})

find_danjia()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[单价]=danjia_content #给字典中的字典再次添加新的值# CONSTANT=CONSTANT-len(danjia_name)

# return dic# print(haha)#########面积##########deffind_mianji():mianji_list=[]mianji_name

=etree.HTML(html).xpath(“//div[@class=content-wrap]//ul[@class=house-list-wrap]//div[@class=list-info]//p[@class=baseinfo][1]//span[2]”

)# if mianji_name:# print(find it！)# else:# print(没！)

# print(共+str(len(mianji_name))+面积)# print(type(mianji_name))foriinrange(len(mianji_name

)):# global CONSTANT# CONSTANT += 1mianji_content=mianji_name

[i].text.strip(㎡\xa0)#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式mianji_list.append

({面积(平方米):float(mianji_content)})j=0foriincol.find({房源ID:{$gte:start_num,$lte:end_num}}):j+=1col.update_one

(i,{$set:mianji_list[j-1]})find_mianji()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[面积]=mianji_content #给字典中的字典再次添加新的值# CONSTANT=CONSTANT-len(mianji_name)

# return dic# print(haha)#######总价#########deffind_zongjia():zongjia_list=[]zongjia_name

=etree.HTML(html).xpath(“//div[@class=content-wrap]//ul[@class=house-list-wrap]//div[@class=price]//p[@class=sum]/b”

)# if zongjia_name:# print(find it！)# else:# print(没！)

# print(共+str(len(zongjia_name))+个总价)# print(type(zongjia_name))foriinrange(len

(zongjia_name)):# global CONSTANT# CONSTANT += 1zongjia_content

=float(zongjia_name[i].text)*10000#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式zongjia_list

.append({总价(元):zongjia_content})j=0foriincol.find({房源ID:{$gte:start_num,$lte:end_num}}):j+=1col.update_one

(i,{$set:zongjia_list[j-1]})find_zongjia()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[总价]=zongjia_content #给字典中的字典再次添加新的值# CONSTANT=CONSTANT-len(zongjia_name)

# return dic# # print(haha)######所在楼层########deffind_suozailouceng

():suozailouceng_list=[]suozailouceng_name=etree.HTML(html).xpath(“//div[@class=content-wrap]//ul[@class=house-list-wrap]//div[@class=list-info]//p[@class=baseinfo][1]//span[last()]”

)# if suozailouceng_name:# print(find it！)# else:# print(没！)

# print(共+str(len(suozailouceng_name))+所在楼层)# print(type(suozailouceng_name))for

iinrange(len(suozailouceng_name)):# global CONSTANT# CONSTANT += 1

suozailouceng_content=suozailouceng_name[i].text#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式

suozailouceng_list.append({所在楼层:suozailouceng_content})j=0foriincol.find({房源ID:{$gte:start_num,$lte:end_num

}}):j+=1col.update_one(i,{$set:suozailouceng_list[j-1]})find_suozailouceng()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[所在楼层]=suozailouceng_content #给字典中的字典再次添加新的值# CONSTANT=CONSTANT-len(suozailouceng_name)

# return dic# find_suozailouceng()########封面#########deffind_fengmian

():fengmian_list=[]fengmian_name=etree.HTML(html).xpath(“//div[@class=content-wrap]//ul[@class=house-list-wrap]//div[@class=pic]//img”

)# if fengmian_name:# print(find it！)# else:# print(没！)

# print(共+str(len(fengmian_name))+个封面)# print(type(fengmian_name))foriinrange(len

(fengmian_name)):# global CONSTANT# CONSTANT += 1fengmian_content

=fengmian_name[i].xpath(@data-src)[0]#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式

fengmian_list.append({封面图片地址:fengmian_content})j=0foriincol.find({房源ID:{$gte:start_num,$lte:end_num}}):

j+=1col.update_one(i,{$set:fengmian_list[j-1]})find_fengmian()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[封面照片地址]=fengmian_content #给字典中的字典再次添加新的值# CONSTANT=CONSTANT-len(fengmian_name)

# return dic# find_fengmian()######标题##########deffind_biaoti():biaoti_list

=[]biaoti_name=etree.HTML(html).xpath(“//div[@class=content-wrap]//ul[@class=house-list-wrap]//div[@class=list-info]//h2//a”

)# if biaoti_name:# print(find it！)# else:# print(没！)

# print(共+str(len(biaoti_name))+个标题)# print(type(biaoti_name))foriinrange(len(biaoti_name

)):# global CONSTANT# CONSTANT += 1biaoti_content=biaoti_name

[i].text.strip()#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式biaoti_list.append({标题

:biaoti_content})j=0foriincol.find({房源ID:{$gte:start_num,$lte:end_num}}):j+=1col.update_one(i,{$set:biaoti_list

[j-1]})find_biaoti()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[标题]=biaoti_content #给字典中的字典再次添加新的值# CONSTANT=CONSTANT-len(biaoti_name)

# return dic# find_biaoti()#######发布时间#########deffind_shijian():shijian_list

=[]shijian_name=etree.HTML(html).xpath(“//div[@class=content-wrap]//ul[@class=house-list-wrap]//div[@class=time]”

)# if shijian_name:# print(find it！)# else:# print(没！)

# print(共+str(len(shijian_name))+时间)# print(type(shijian_name))# for

iinrange(len(shijian_name)):# global CONSTANT# CONSTANT += 1

shijian_content=shijian_name[i].text.strip()#提取该对象中的文字部分，这是xpath的特有方法.或者以这种方法提取.xpath(text()) ，但是提取出来的是列表形式

ifshijian_content==今天:now=datetime.datetime.now()shijian_content=now.strftime(%Y-%m-%d)shijian_list.append

({时间:shijian_content})else:shijian_list.append({时间:****})j=0foriincol.find({房源ID:{$gte:start_num,$lte

:end_num}}):j+=1col.update_one(i,{$set:shijian_list[j-1]})find_shijian()# dic_inside=dic[调查房源+str(CONSTANT)] #因为上面定义dic的第一个key值对应的也是一个字典所以，先定义出来比较方便下面赋值理解

# dic_inside[时间]=shijian_content #给字典中的字典再次添加新的值 # return dic

# find_shijian() # else:# passprint(已经写入Mongo)analysis_all

()

扫一扫打开手机网站

微信扫一扫关注我们

python+selenium+PHANTOMJS 爬58同城二手房网站，并入库MongoDB（selenium自动化框架有哪些）

作者: 一朵玫瑰花

发表回复取消回复

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: 一朵玫瑰花

为您推荐

LPR降了！房贷利率地板价4.4%已过时，4.25%来了！算一算房贷能省多少钱？（房贷lpr调整规则）

青岛首套房贷利率最低降至4.25% 你能省多少钱？（青岛首套房贷款利率2020）

多地首套房贷利率跌破“4”！能省多少钱？会有更多城市跟进吗？（目前购房贷款利率是多少2023）

重定存量房贷利率是多方共赢（房贷重定价日是什么意思）

定了！存量首套房贷利率可降低，会省多少钱？一图速览（首套房利率政策）

刚刚，北京、上海、深圳重磅发布！事关存量房贷利率！最多能省多少钱，现在可以算了（各家银行房贷利率深圳）

发表回复 取消回复

联系我们

微信扫一扫关注我们

发表回复取消回复