【python 淘宝爬虫】淘宝信誉分抓取_东华果汁哥的博客-程序员宝宝

技术标签: 数据科学--python  爬虫  python  淘宝网  

一、需求分析
输入旺旺号,获取淘宝卖家的信用分

这里写图片描述

二、思路
淘宝需要模拟登陆,我们这里抓不到,因此为了绕过登陆,发现了淘一兔,我们可以通过这里,得到淘宝卖家的信用分,结果是一样的。
http://www.taoyizhu.com/

这里写图片描述

输入旺旺号,需要点击查询,等待几秒,得到查询结果,这里我们用selienum 来做

三、实现源代码(抓取不能太快,否则抓不到)

# encoding: utf-8

from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import pandas as pd
import time
import re
time1=time.time()

driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe')
driver.set_window_size(800, 600)

########################读取数据############################
data1=pd.read_excel(r'C:/taobao/taobao1.xlsx')
print data1


#######################查询店铺信誉分#############################
seller_credit=[]
for i in range(0,len(data1)):
    key=str(data1.iloc[i,0])
    key1=key.decode("utf-8")
    driver.get("http://www.taoyizhu.com/")
    time.sleep(5)
    driver.find_element_by_id("txt_name").clear()
    driver.find_element_by_id("txt_name").send_keys(key1)
    driver.find_element_by_id('search_btn').click()
    time.sleep(3)
    html2 = driver.page_source
    seller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)
    for each in seller_credit1:
        print key,each
        seller_credit.append(each)


#######################################增加店铺信誉分这一列#############################
data1['店铺信誉分']=seller_credit

print data1


# 写出excel
writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={
   'strings_to_urls': False})
data1.to_excel(writer, index=False)
writer.close()

time2 = time.time()
print u'ok,爬虫结束!'
print u'总共耗时:' + str(time2 - time1) + 's'

这里写图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u013421629/article/details/73275960

智能推荐

poj 2385 Apple Catching 经典dp_代码随想录的博客-程序员宝宝

这道题让我对于这种类型题有了一个比较深的理解!!!主要思路就是用跳的数目去更新dp[][]。#include&lt;iostream&gt;using namespace std;int dp[50][1005];int a[1005];int main() { int t,w; while(cin&gt;&gt;t&gt;&gt;w) { ...

01.用Numpy手搓一个三层神经网络解决XoR分类问题_从零开始的计科搬砖猫的博客-程序员宝宝_手搓神经网络

一、前言本文参考了以下几篇文章1.BP神经网络算法 python实现BP神经网络算法 python实现 - 人工智能 - 电子发烧友网2.一个简单神经网络的代码实现一个简单神经网络的代码实现_神童i的博客-程序员宝宝3.深度学习基础之-5.1非线性分类-二分类深度学习基础之-5.1非线性分类-二分类(神经元解决异或问题)_Susan Wong-程序员宝宝二、两层神经网络实现线性分类问题1. 采用算法预测下表结果(线性)2. 修改表格为非线性后无法预测三、三层.

Hbase记录-client访问zookeeper大量断开以及参数调优分析(转载)_weixin_30566063的博客-程序员宝宝

1.hbase client配置参数超时时间、重试次数、重试时间间隔的配置也比较重要,因为默认的配置的值都较大,如果出现hbase集群或者RegionServer以及ZK关掉,则对应用程序是灾难性的,超时和重新等会迅速占满web容器的链接,导致web容器停止服务,关于socket的超时时间,有两种:1:建立连接的超时时间;2:读数据的超时时间。可以配置如下几个参数:1. hbase.r...

游戏开发路线图_weixin_34115824的博客-程序员宝宝

Unreal4(虚幻4) Unity3D1) 首先,一开始可能对游戏引擎没什么概念,建议先使用一两个游戏引擎(我推荐C++程序员学习虚幻4游戏引擎,现在是免费开源的,非常值得学习。那些不开源的游戏引擎尽量不要去学习,因为其对于学习原理来说没有多大贡献)。 2) 因为游戏开发就是一门实时渲染的艺术,所以离不开图形库的学习。现在主流的图形库是Windows平台专用的DirectX 11和通用平台...

Navicat使用指南(二)_SQL数据库开发的博客-程序员宝宝

点击关注上方“SQL数据库开发”,设为“置顶或星标”,第一时间送达干货SQL专栏SQL基础知识第二版SQL高级知识第二版之前发布了Navicat数据库和架构的一些实用功能,还没看的小伙伴可...

ZOJ 3981 && 2017CCPC秦皇岛 A:Balloon Robot(思维题)_Y先森0.0的博客-程序员宝宝

A - Balloon Robot Time Limit:1000MS     Memory Limit:65536KB     64bit IO Format:%lld &amp;amp; %lluSubmit Status Practice ZOJ 3981DescriptionThe 2017 China Collegiate Programming C...

随便推点

Pepper API(PPAPI)参考之六、Pepper C ++ API参考(开发版)_baixingzhi2917的博客-程序员宝宝

原文链接:https://developer.chrome.com/native-client/cpp-api-dev注意:已针对ChromeOS以外的平台公布了此处所述技术的弃用。请访问我们的迁移指南了解详情。Pepper C ++ API参考(开发)此页面列出了Pepper 61的C ++ API。使用此API的应用程序可以在Chrome ...

Hadoop 基础系列一Hadoop 系列之 1.0 和2.0 架构_程序员小陶的博客-程序员宝宝

精选30+云产品,助力企业轻松上云!&gt;&gt;&gt; Hado...

Kotlin 泛型_非也缘也的博客-程序员宝宝_kotlin 泛型

泛型和委托泛型的基本用法Java 早在 1.5 版本中就引入了泛型的机制,因此,Kotlin 自然也就支持了泛型功能。但是 Kotlin 中的泛型与 Java 中的泛型有同有异,这里先看与 Java 中相同的部分。泛型,是指在一般的编程模式下,我们需要给任何一个变量指定一个具体的类型,而泛型允许我们在不指定具体类型的情况下进行编程,这样编写出来的代码将会拥有更好的扩展性。比如 List 就是使用泛型来实现的。泛型主要有两种定义方式,一种是定义泛型类,另一种是定义泛型方法,使用的语法结构都是&lt;T

神经网络-多分类逻辑斯蒂回归模型_Xeon_CC的博客-程序员宝宝_多分类逻辑回归模型

大纲:①认识最简单的神经网络结构②认识二分类的逻辑斯蒂回归模型③认识多分类的逻辑斯蒂回归模型以及其实现图像分类的原理1、聊一聊最简单的神经网络结构神经元可以理解为一个函数,相当于一个黑盒,我向这个函数输入数据,通过这个函数进行一系列的算法去运算,输出一个结果。(1)这幅图里边,x1,x2,x3 表示同时输入3个值,因为只有一个神经元,所以只有一个输出,在图上,看似蓝色和粉色的是两个大神经元,其实就是一个神经元,只是分开来更好理解(2)W*x表示W矩阵,称之为权重矩阵,W矩阵.

ssis连接oracle报错,SSIS连接Oracle报错:ORA-12154: TNS:could not resolve the connect identifier specified。但在CM..._Samonwise的博客-程序员宝宝

解决方法2:适合ssis几乎所有的版本SSIS 64位环境访问Oracle11gSSIS 为了要能够在64位的机器上面让SSIS存取Oracle,当然需要安装64位的Oracle Provider,但是遇到最大的问题在于SSIS在执行的时候分成两种组件,分别是DTExec.exe(32位版)以及DTExec.exe(64位版),分别存在于Program Files(x86)以及Program Fi...

android 条目背景,ListView 设置每个item有不同背景色_楼上雅坐的博客-程序员宝宝

该楼层疑似违规已被系统折叠隐藏此楼查看此楼当我们做列表(ListView)的时候,有时候有如下需求:第一个条目为白色的一个背景图,第二个为灰色的一个背景图,然后依次类推,就是偶数为灰色背景图,奇数为白色背景图;解决方法如下:再适配器中的getView设置如下:if (position % 2 == 0){convertView.setBackgroundResource(R.drawable.l...

推荐文章

热门文章

相关标签