当前所在位置: 首页 > 百度域名

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项正则表达式如何解析网页?

2021-10-11 本站作者 【 字体:

Python爬取网页信息时,经常使用的正则表达式及方法。

代码作用如下:

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:Stark-C

1.获取<tr></tr>标签之间内容

前两天给大家分享了Kindle传书的几种方法:

其中讲到比较方便的邮箱推送。文中很多地方我都是一笔带过,讲的不是很具体,可能有些小伙伴会看的一知半解,所以今天我特地的对邮箱推送尽量说的详细点,那怕你是小白也能一次成功!

邮箱推送的优缺点:

优点:

方便安全。Kindle 推送可以让你摆脱 USB 数据线的束缚,不必为了往 Kindle 中拷贝电子书,还要打开电脑和插拔数据线。对于手机不离手的你,只需要动动手指就可以把电子书同步到 Kindle 中。如果你没有关闭个人文档的存档功能,还可以避免今后因重置 Kindle 系统造成电子书丢失的情况。数据共享。如果你不止一部 Kindle 设备,或者使用 Kindle 设备的同时也使用 Kindle APP,那只要它们都绑定了同一个亚马逊账号,都可以共享下载你推送到云端的电子书。同时这些电子书还可以享受亚马逊提供的 Whispersync 同步功能,自动将你的阅读笔记、书签和标注等数据同步到云端。统一格式。对于 TXT、DOC 和 True PDF 等 Kindle 设备支持较差的格式,通过推送可以让亚马逊服务器自动将其转换成最适合 Kindle 阅读的电子书格式,可有效避免出现缺字、显示异常等问题。

缺点:

2.获取<a href..></a >超链接之间内容

3.获取URL最后一个参数命名图片或传递参数

对网络的依赖性,必须有网才能完成推送。不允许推送 AZW3、KFX 等 Kindle 设备支持阅读的格式,KF8 标准的 MOBI 格式不显示封面也不可用内嵌字体不支持大于 50M 的电子书或文档,对于 ZIP 压缩包,压缩后的文件大小也不能超过 50MB。受限于大多邮箱 20MB 附件大小的限制,偶尔出现的服务器故障导致推送同步不及时或推送丢失。附件个数不能超过 25 个,并且最多只能发送到 15 个不同的 Kindle 接收邮箱。

Kindle 推送的格式也比较有限,仅限于以下几种:

Kindle 格式 (.mobi 或 .azw) * 推荐格式Microsoft Word (.doc 或 .docx)HTML (.html, .htm)RTF (.rtf)TEXT (.txt)JPEG (.jpeg, .jpg)GIF (.gif)PNG (.png)BMP (.bmp)PDF (.pdf)直接邮箱推送的详细步骤:

简单说只需要做两件事:首先在亚马逊账户中把发送附件文件的邮箱添加到认可列表,然后用这个邮箱把电子书文件以附件的形式发送到 Kindle 邮箱。正常情况下,稍候片刻,与 Kindle 邮箱相对应的 Kindle 设备或 APP 就会自动同步下载你所推送的电子书了。

4.爬取网页中所有URL链接

1.准备一个电子邮箱

此邮箱是用来向 Kindle 邮箱发送电子书或文档的,没有什么特殊要求,只要能发送带附件的邮件即可。国内推荐使用163 邮箱、QQ 邮箱、新浪邮箱等,当然,有国际互联网的也可以使用Outlook 邮箱、Gmail 邮箱等国外邮箱也没有问题!

5.爬取网页标题title两种方法

6.定位table位置并爬取属性-属性值

2.注册绑定亚马逊账号

7.过滤<span></span>等标签

8.获取<script></script>等标签内容

先去亚马官方网站https://www.amazon.cn/注册一个账号。

注册以后直接绑定到Kindle 设备中即可。

1). 获取<tr></tr>标签之间内容

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

我这个是已经绑定好账号的Kindle。很简单,只需要把Kindle联网以后,点设置,第一项就是“绑定”界面。其实如果你没有账号也可以在此页面直接注册,等下下面的步骤你也直接可以用这个注册的账号登陆亚马逊官方网站也是可以的。

开始标签如:<tr>、<th>、<td>、<a>、<table>、<div>...

后缀标签如:</tr>、</th>、</td>、</a >、</table>、</div>...

3.确定 Kindle 邮箱

绑定了亚马逊账号的 Kindle 设备或 APP 会被自动分配一个 Kindle 邮箱,推送文件其实就是指用邮箱向 Kindle 邮箱发送带附件的邮件。这里有两种方法可以确定:

核心代码:

res_tr = r'<tr>(.*?)</tr>'

language = '''<tr><th>床前明月光</th><td>忧思独伤心</td></tr><tr>'''

# 正则表达式获取<tr></tr>之间内容

第一种方法:直接在 Kindle 设备中查看:

2). 获取超链接<a href= ></a >之间内容

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

这种方法可能会因为版本的不同而不同,我目前的是最新版本,位置在“设置>您的账户>〖发送至 Kindle〗电子邮件地址",下面有一个后缀为”@KINDLE.CN“的就是 Kindle 邮箱地址。

第二种方法:登录亚马逊账户查看

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

登录亚马逊账户后即可进入“管理我的内容和设备”页面,点击【设备】选项卡,然后点击“亚马逊设备”下的 Kindle 设备组,在列表中选中你的 Kindle 设备。

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

然后就可以看到“设备摘要”,“设备摘要”中有一个后缀为 “@kindle.cn ”的 Kindle 邮箱。并且在这里点击邮箱后面的“编辑”可以自定义 @ 前的邮箱名。

4、添加认可邮箱列表

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

这个我已经在篇一文中讲过了,这个邮箱就是你给“****@kindle.cn"发送电子书或者文档的邮箱,也就是第一步让你准备的邮箱。它的具体位置在【设置:https://www.amazon.cn/mn/dcw/myx.html/ref=kinw_myk_redirect#/home/settings/payment】选项卡,在页面底部找到“个人文档设置”并展开,在“已认可的发件人电子邮箱列表”这一项,点击“添加认可的电子邮箱”,把邮箱地址添加进去。

5.推送电子书到 Kindle

基本上到这一步,我们邮箱的准备工作总算完成了。现在我们只需要登陆我们第一步准备的邮箱,也就是第四部也添加认可邮箱中的其中一个,新建一封邮件,收件人填写 Kindle 邮箱地址,添加格式受支持文档或电子书到附件,并点击发送,稍等片刻,你的 Kindle 即可接收到推送的内容。

在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

我们可以在“主题”中填写“Convert”来告诉个人文档服务把推送的 PDF 文件转换成 Kindle 电子书格式,否则会保留 PDF 原有的排版格式。注意此方法只对 True PDF 起作用,对图片版 PDF 无效。需要注意的是:推送时一定要使用邮箱的“普通附件”功能而不是“假附件”功能,如 163 邮箱的云附件、QQ 邮箱的超大附件、Gmail 的 Google Drive 附件。

Calibre 邮件一键推送设置:小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

打开Calibre软件,点击“首选项”图标,找到“分享”分类,点击“通过邮件分享”。

res = r'<a .*?>(.*?)</a >'

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

在弹出的对话框中点击右边的“添加邮件地址”,填入和你的Kindle设备绑定的推送接收邮箱(可添加多个)。在下面的“发信人地址”中填写自己的电子邮箱。注意请确保该邮箱已经添加到亚马逊官网 Kindle 管理后台的【设置】页面中的“已认可的发件人电子邮箱列表”中,也就是上面“直接邮箱推送的详细步骤:”中的第四步中的邮箱。

mm = re.findall(res, content, re.S|re.M)

urls=re.findall(r"<a.*?href=.*?<\/a>", content, re.I|re.S|re.M)

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

现在是推送邮箱的邮件服务器设置。如果你用的是 Gmail 或 Live/Outlook/Hotmail 邮箱,直接点右边相应的图标填写你的邮箱地址及用户名密码即可,软件将会自动为你填写主机名和端口。如果使用其他的邮箱请自行填写邮箱服务器设置并填入你的邮箱用户名和密码。常见的几个邮箱服务器如下:

  

<td>

163 邮箱:主机名 smtp.163.com 端口 465 或 587(加密类型:SSL)126 邮箱:主机名 smtp.126.com 端口 465 或 587(加密类型:SSL)yeah 邮箱:主机名 smtp.yeah.net 端口 465 或 587(加密类型:SSL)新浪邮箱:主机名 smtp.sina.com 端口 端口 465(加密类型:SSL)Gmail 邮箱:主机名 smtp.gmail.com 端口 587(加密类型:TLS)Hotmail/Live/Outlook邮箱:主机名 smtp-mail.outlook.com 端口 587(加密类型:TLS)QQ 邮箱:主机名 smtp.qq.com 端口 465(加密类型:SSL)

需要注意的是上面的参数,特别是端口不要添错了,还有就是因为政策原因,新注册的 163 邮箱无法立即使用,如果163 邮箱如果开启了授权码,密码那里添的就是授权码,而不是你的登陆密码。

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

全部设置完毕后点击右下角的“测试邮件发送”按钮,会出现“该操作会在屏幕上明文显示你的电子邮件地址密码。要继续吗?”的提示,点击“是”会弹出一个测试对话框,点击“测试”按钮,如果显示框出现“邮件成功发送”即表示设置成功。最后返回点击右下角的“应用”按钮,到此为止,Calibre 邮件一键推送设置也完成了。

<a href="https://www.baidu.com/articles/zj.html" title="湖南省">湖南江省主题介绍</a >

小白教程,关于Kindle邮箱推送电子书的具体设置及注意事项

回到主界面书库,选择一个或多个电子书,右键点击所选电子书,在弹出的菜单里将鼠标指针悬浮到“连接/共享”,在弹出的子菜单中点击“发送右键至***@kindle.cn”,就可以直接把这些电子书发送到Kindle中了。

<a href="https://www.baidu.com//articles/gz.html" title="湖南省">湖南省主题介绍</a >



</td>

'''

  

# 获取<a href></a >之间的内容

res = r'<a .*?>(.*?)</a >'

# 获取所有<a href></a >链接所有内容

urls = re.findall(r"a.*?href=.*?<\/a>",content,re.I|re.S|re.M)

# 获取<a href></a >中的URL

res_url = r"(?<=href=").+?(?=")|(?<=href=\').+?(?=\')"

l

3). 获取URL最后一个参数命名图片或传递参数

使用Python爬取图片过程中,会遇到图片对应的URL最后一个字段通常用于命名图片

通过该URL的"/"后面的参数命名图片

urls = 'http://i1.hoopchina.com.cn/blogfile/201411/11/BbsImg141568417848931_640*640.jpg'

value = urls.split("/")[-1]

url = 'http://localhost/test.py?a=hello&b=world'

values = url.split('?')[-1]

p

4). 爬取网页中所有URL链接

从固有网页中爬取URL链接,再进行下一步的循环爬取或URL抓取.

urls = re.findall(r'<a.*?href=.*?<\/a>',content,re.I)

link_list = re.findall(r"(?=href=".+?(?=")|(?<=href=\').+?(?=\')",content)

5). 爬取网页标题title两种方法

获取网页标题也是一种常见的爬虫,常位于<html><head><title>标题</title></head></html>中

title_pat = r'(?<=<title>).*?(?=</title>)'

# 方法二

title = re.findall(r'<title>(.*?)</title>',content)

6). 定位table位置并爬取属性-属性值

res = r'<td>(.*?)</td><td>(.*?)</td>'

# 如果<td id="">包含该属性则正则表达式为r'<td id=.*?>(.*?)</td>';同样如果不一定是id属性开头,则可以使用正则表达式r'<td .*?>(.*?)</td>'

7). 过滤<span></span>等标签

获取值过程中,通常会存在<span>、

、<a href>等标签

核心代码:

res_value = r'<span .*?>(.*?)</span>'

# 获取table中tr值

res_tr = r'<tr>(.*?)</tr>'

m_tr = re.findall(res_tr,language,re.S|re.M)

# 获取表格第一列th 属性

for line in m_tr:

res_th = r'<th>(.*?)</th>'

m_th = re.findall(res_th,line,re.S|re.M)

for mm in m_th:

if "href" in mm: # 如果获取加粗的th中含超链接则处理

restr = r'<a href=.*?(.*?)<\a>'

8). 获取<script></script>等标签内容

在获取游讯网图库中,图集对应的原图它是存储在script中,其中获取原图-original即可

通过正则表达式下载URL:

阅读全文
id_1广告位-300*300
相关推荐

写出域名解析的过程和具体步骤申请域名的流程?

写出域名解析的过程和具体步骤申请域名的流程?
域名分为国际域名和国内域名。国内域名需要实名制审核,具体流程如下:1、国际域名:...

这些免费DNS域名解析服务你们知道吗?稳定、可靠从DoH到ODoH,运营商再也不能搞DNS劫持了

这些免费DNS域名解析服务你们知道吗?稳定、可靠从DoH到ODoH,运营商再也不能搞DNS劫持了
DNS,即Domain Name System,中文为域名解析系统,平时我们可能...

域名解析中的cname和url转发有什么区别二级域名和URL转发的区别

域名解析中的cname和url转发有什么区别二级域名和URL转发的区别
a (address) 记录是用来指定主机名(或域名)对应的ip地址记录。用户可...

让我来帮你轻松搞定那些又臭又长的网页地址短网址系统(又名短链接系统)

让我来帮你轻松搞定那些又臭又长的网页地址短网址系统(又名短链接系统)
上网的时候我们总要与各种各样形式的网页链接打交道。那些很难记住的链接,特别是非常...

短链接/短网址缩短服务通常运用在哪些场景?又有什么样的作用?利用AdFly网址缩短服务跳转率分享赚美元方法分析操作

短链接/短网址缩短服务通常运用在哪些场景?又有什么样的作用?利用AdFly网址缩短服务跳转率分享赚美元方法分析操作
短链接特点简短、易记、易推广同时可以统计跟踪用户分析,让你的推广变得简单有效。在...

尼康以6800美金高价购买“尼康.世界”中文域名(转载)浅解姓氏域名的重要性,中小企业必看!

尼康以6800美金高价购买“尼康.世界”中文域名(转载)浅解姓氏域名的重要性,中小企业必看!
Sedo上周出售域名价值100万美元,其中包括了一些值得注意的新顶级域名。  新...

怎么缩短一个网址的链接?如何把这个网址简缩一下!不要二级域名的!急需!!!

怎么缩短一个网址的链接?如何把这个网址简缩一下!不要二级域名的!急需!!!
http://store.taobao.com淘宝首页http://store....

com.cn / .cn / .net的同名域名哪个主推比较好?快捷指令高级用法?

com.cn / .cn / .net的同名域名哪个主推比较好?快捷指令高级用法?
网站原本的网址是ip地址,例如www.wikipedia.org是一个域名,他的...

如何使用ScrapeBox查找过期域名几种域名whois查询的方法及平台介绍

如何使用ScrapeBox查找过期域名几种域名whois查询的方法及平台介绍
过期域名是SEO 项目中的一个宝贵资源,很多在做SEO项目的人都在挖掘它。域名注...

域名要过期多久之后才开放注册[网络天地]方便快捷查询网站域名Alexa和whios信息的捷径

域名要过期多久之后才开放注册[网络天地]方便快捷查询网站域名Alexa和whios信息的捷径
 所有的域名都会有一定的注册时间,最长的一半是10年,最短也要1年起注册。所以只...