爬取过程分析:
1、链家网url:https://bj.lianjia.com/ershoufang/pg2/
显示的二手房信息每个url递增一
2、访问时要加头信息,否则无法访问
3、用beautifulsoup解析网页,找到二手房信息
4、将信息简单处理后保存成csv文件
具体代码如下:
import requests
import re
from bs4 import BeautifulSoup
i=0
with open('./lianjia/lianjia.csv','a') as file:
for j in range(1,100,1):
i+=1
url = 'https://bj.lianjia.com/ershoufang/pg+str(i)'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
resp = requests.get(url,headers = headers).text
# print(resp)
soup = BeautifulSoup(resp,'lxml')
infos = soup.find('ul',{'class':'sellListContent'}).find_all('li')
# print(infos)
for info in infos:
name = info.find('div',{'class':'title'}).find('a').get_text()
price = info.find('div',{'class':'totalPrice'}).find('span').get_text()
address = info.find('div',{'class':'address'}).get_text()
print(address)
area = re.split(r'\|',address)[2]
print(area)
file.write('{},{},{},{}\n'.format((name),(price),(address),area))
scalaspark 可以看到spark要求hadoop版本大于2.7,解压完后添加到环境变量中()hadoop 记得版本要大于2.7winutils 这个是保证hadoop在windows正常运行的依赖,找到与hadoop对应的版本,将bin里面的文件拷贝到hadoop的bin目录里...
javaweb设计简易购物车<%@ page language="java" contentType="text/html; charset=ISO-8859-1" pageEncoding="ISO-8859-1" import="java.util.*"%><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
1、VL01A(交货的销售订单到期)该TCODE对应的读取数据程序:/1SAP1/%LE_SHP%_VEPVG99A004 操作的SAP表:vepvg对应代码程序:SELECT * INTO TABLE cx_sd_order-vepvg FROM vepvg WHERE* VEPVG-Selektionskri
问题描述:启动虚似机后,发现supervisor没有正常启动。首先使用ps -ef|grep supervisor查看程序是否启动。发现没有启动。使用supervisorctl start 启动supervisor报错说是没有sock文件。查找ls /var/run/supervisor/ 看这个,发现没有这个文件。执行下面的语句再次查找文件,发现已经可以 看到...
CTFSHOW--PHPCVE复现web311[CVE-2019-11043]web312(CVE-2018-19518)web313(CVE-2018-19518)web314:(日志文件包含)web315:(XDebug 远程调试漏洞)web311[CVE-2019-11043]web312(CVE-2018-19518)同样,没有任何的界面就直接抓包,发现是X-Powered-By: PHP/5.6.38,网上搜索发现是CVE-2018-19518 PHP imap 远程命令执行漏洞。简介:
前言什么是GitHub GitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名GitHub。 GitHub于2008年4月10日正式上线,除了Git代码仓库托管及基本的 Web管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用户已经超过350万,托管版本数量也是非...
本文介绍telephony的ril部分,ril框架图如下:ril框架 上图介绍了ril信息从ril.java到modem的传递过程,下面开始解析上图。 1.ril.java 该文件是android的framework层跟ril的对接接口,也就是说framework及应用层的Java代码想调用ril跟modem通信都得通过该文件来跟ril通信。
TCP协议通讯流程
Java开源项目中制作图表比较出色的就是JFreeChart了,相信大家都听说过,它不仅可以做出非常漂亮的柱状图,饼状图,折线图基本图形之外,还能制作甘特图,仪表盘等图表。在Web应用中可以为项目增色不少。JFreeChart技术成熟,完全是通过Java代码控制图表生成,掌握难度不大。但是它的一个缺点就是所有资源在服务器端生成,需要占用大量的服务器资源,而且图表以流的形式输送到客户端也占...
一、在 .NET 中生成1、直接用.NET Framework 提供的 Guid() 函数,此种方法使用非常广泛。GUID(全局统一标识符)是指在一台机器上生成的数字,它保证对在同一时空中的任何两台计算机都不会生成重复的 GUID 值(即保证所有机器都是唯一的)。关于GUID的介绍在此不作具体熬述,想深入了解可以自行查阅MSDN。代码如下:using System;using...
在LaTex编译过程中出现两种错误,File 'cite.sty' not found 以及File 'algorithmic.sty' not found,这是缺少相应的sty文件所导致。关于File 'cite.sty' not found 错误的解决1. 在此网站搜索缺少的文件名然后下载2. 将下载好的包含.sty文件夹保存在Ctex安装路径下保存路径一般为:\CTEX\MiKTeX\tex\latex3. 在Ctex中更新数据包点击该图标,然后选择 MikTex
我们的一个Reporting Service服务上部署了比较多的SSRS报表,其中有一个系统的SSRS报表部署后,执行时间相对较长,加之供应商又在ASP.NET页面里面嵌套了Reporting Service的报表,使得用户对报表响应速度非常不满,于是和几个同事研究了一番如何定位、优化SSRS报表性能。 案例环境: 操作系统 : Windows Server 200...