Appium自动化操作02(元素定位及查看工具)

二叉树上的我发布于 2020-05-24 收录于 Python 爬虫

前言

最好有Selenium的Web自动化的实际经验

运行基础：client库(0.52版本)，Appium Server，安卓SDK(含JDK环境)，USB调试模式下的手机(开发者模式)

Appium自动化操作01(环境安装与初始结构)

二叉树上的我发布于 2020-05-23 收录于 Python 爬虫

前言

最好有Selenium的Web自动化的实际经验

本篇用到的相关软件链接：

链接: https://pan.baidu.com/s/126x-AgLKvM7qSJqdOzAAHA

提取码: h9b2

Appium 基础知识

Appium 用途和特点

Appium 是一个移动 App （手机应用）自动化工具。

NumPy (下)

二叉树上的我发布于 2020-05-22 收录于 Python 数学建模

前言

本篇鸣谢马川-燕大的增删整理，王圣元 ——原创文章，与原文不同之处包含我的学习记录。

匹配Jupyter Notebook的ipynb文档链接下载地址如下

Selenium的web自动化操作03(语法补充)

二叉树上的我发布于 2020-05-17 收录于 Python 爬虫

前言

需要下载Chrome或Firefox的driver，Chrome内核81.440与Firefox内核74.0下载链接如下：

其他版本请在搜索引擎查找，本篇使用该版本，注意，driver下载后需要配置对应内核的游览器，电脑本身需要有该内核的游览器。

NumPy (上)

二叉树上的我发布于 2020-05-12 收录于 Python 数学建模

前言

本篇鸣谢马川——燕大增删整理，王圣元——原创文章，与原文不同之处包含我的学习记录。

匹配Jupyter Notebook的ipynb文档链接下载地址如下

Selenium的web自动化操作01(环境布置与标准流程)

二叉树上的我发布于 2020-05-10 收录于 Python 爬虫

前言

需要下载Chrome或Firefox的driver，Chrome内核81.440与Firefox内核74.0下载链接如下：

其他版本请在搜索引擎查找，本篇使用该版本，注意，driver下载后需要配置对应内核的游览器，电脑本身需要有该内核的游览器。

Python数据分析快速入门

二叉树上的我发布于 2020-05-09 收录于 Python 数学建模

前言

本篇鸣谢燕大——马川的整理

匹配Jupyter Notebook的ipynb文档链接下载地址如下

Python编程基础

by 马川燕大

代码胜于雄辩
Talks is cheap. Show me the code.
—-Linus Torvalds(Linux操作系统的奠基者)

比较简单的selenium自动化操作播放bilibili(b站)视频2020

二叉树上的我发布于 2020-05-05 收录于 Python

直接放代码

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39


from selenium import webdriver
import time

driver = webdriver.Chrome(r'C:\chromedriver.exe')
urllist = [
    'https://www.bilibili.com/video/BV15f4y1m7xH?from=search&seid=9788956603997309480',
    'https://www.bilibili.com/video/BV1WA411h76h?from=search&seid=9738279009337231611',
    'https://www.bilibili.com/video/BV13c411h7k7?from=search&seid=9738279009337231611',
    'https://www.bilibili.com/video/BV1x541147u8?from=search&seid=9738279009337231611',
    'https://www.bilibili.com/video/BV17p4y1C78w?from=search&seid=9738279009337231611'
]
#视频链接
timelist=[
    311,
    598,
    669,
    568,
    507,
]
#放入自己各个视频的时长

t = 0

for url in urllist:
    try:
        driver.set_page_load_timeout(5)
        driver.get(url)
        time.sleep(10)
    except Exception :
        print("timeout")

    element = driver.find_element_by_xpath('//*[@id="bilibiliPlayer"]/div[1]/div[1]/div[10]/div[2]/div[2]/div[1]/div[1]/button[1]')#xpath抓取播放控件
    time.sleep(5)
    print('控件抓取成功')
    driver.find_element_by_xpath('//*[@id="bilibiliPlayer"]/div[1]/div[1]/div[10]/div[2]/div[2]/div[1]/div[1]/button[1]').click()#xpath定位成功后点击播放
    print('播放成功')
    time.sleep(timelist[t])
    print('下一个视频')
    t = t + 1

因为页面加载需要时间，抓取控件也需要时间，设计sleep时长看你的页面加载速度以及网速进行调整

爬虫流程及方法14(正则表达式篇)

二叉树上的我发布于 2020-05-05 收录于 Python 爬虫

前言

re库的实用实例如下

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34


import requests
import re
import os


a = True
while a:
    #创建一个文件夹，保存所有图片
    if not os.path.exists('./tupianLibs'):
        os.mkdir('./tupianLibs')
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    }
    url = "https://www.pexels.com/"
    #使用通用爬虫对整张页面进行爬取
    page_text = requests.get(url=url, headers=headers).text
    #使用聚焦爬虫将页面中所有的图片进行解析/提取
    #正则.*?表示一切内容
    #re.S单行匹配
    ex = '<a class="js-photo-link photo-item__link" style.*? >.*?<img srcset="(.*?)" class.*?></div>'
    image_src_list = re.findall(ex, page_text, re.S )
    for src in image_src_list:
        src = 'https:'+ src
        #拼接出一个完整的图片url
        image_data = requests.get(url=src, headers=headers).content
        #请求到了图片的二进制数据
        image_name = src.split('/')[-1]
        #生成图片名称
        imgPath = './tupianlbs/' + image_name
        #图片最终存储的路径
        with open(imgPath, 'W') as fp:
            fp.write(image_data)
            print('下载成功')
a = False

正则表达式详情

爬虫流程及方法13(xpath解析页面)

二叉树上的我发布于 2020-05-04 收录于 Python 爬虫

前言

xpath解析原理:
1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。
2.调用et ree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。