当前所在位置: 首页 > 域名大全

正则表达式如何解析网页?我的电脑的DNS不是四个数字,是fec0:0:0:f f f f:1%1,请问这是什么意思啊?

2021-10-11 本站作者 【 字体:

Python爬取网页信息时,经常使用的正则表达式及方法。

这是电脑的IP地址的意思域名系统(英文:Domain Name System,缩写:DNS)是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。DNS使用TCP和UDP端口53。当前,对于每一级域名长度的限制是63个字符,域名总长度则不能超过253个字符。简单来说dns就是一个将域名翻译成ip地址的系统记录类型主条目:域名服务器记录类型列表DNS系统中,常见的资源记录类型有:主机记录(A记录):RFC 1035定义,A记录是用于名称解析的重要记录,它将特定的主机名映射到对应主机的IP地址上。别名记录(CNAME记录): RFC 1035定义,CNAME记录用于将某个别名指向到某个A记录上,这样就不需要再为某个新名字另外创建一条新的A记录。IPv6主机记录(AAAA记录): RFC 3596定义,与A记录对应,用于将特定的主机名映射到一个主机的IPv6地址。服务位置记录(SRV记录): RFC 2782定义,用于定义提供特定服务的服务器的位置,如主机(hostname),端口(port number)等。NAPTR记录:RFC 3403定义,它提供了正则表达式方式去映射一个域名。NAPTR记录非常著名的一个应用是用于ENUM查询

代码作用如下:

1.获取<tr></tr>标签之间内容

2.获取<a href..></a >超链接之间内容

3.获取URL最后一个参数命名图片或传递参数

4.爬取网页中所有URL链接

5.爬取网页标题title两种方法

6.定位table位置并爬取属性-属性值

7.过滤<span></span>等标签

8.获取<script></script>等标签内容

1). 获取<tr></tr>标签之间内容

开始标签如:<tr>、<th>、<td>、<a>、<table>、<div>...

后缀标签如:</tr>、</th>、</td>、</a >、</table>、</div>...

核心代码:

res_tr = r'<tr>(.*?)</tr>'

language = '''<tr><th>床前明月光</th><td>忧思独伤心</td></tr><tr>'''

# 正则表达式获取<tr></tr>之间内容

2). 获取超链接<a href= ></a >之间内容

在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:

res = r'<a .*?>(.*?)</a >'

mm = re.findall(res, content, re.S|re.M)

urls=re.findall(r"<a.*?href=.*?<\/a>", content, re.I|re.S|re.M)

  

<td>

<a href="https://www.baidu.com/articles/zj.html" title="湖南省">湖南江省主题介绍</a >

<a href="https://www.baidu.com//articles/gz.html" title="湖南省">湖南省主题介绍</a >

</td>

'''

  

# 获取<a href></a >之间的内容

res = r'<a .*?>(.*?)</a >'

# 获取所有<a href></a >链接所有内容

urls = re.findall(r"a.*?href=.*?<\/a>",content,re.I|re.S|re.M)

# 获取<a href></a >中的URL

res_url = r"(?<=href=").+?(?=")|(?<=href=\').+?(?=\')"

l

3). 获取URL最后一个参数命名图片或传递参数

使用Python爬取图片过程中,会遇到图片对应的URL最后一个字段通常用于命名图片

通过该URL的"/"后面的参数命名图片

urls = 'http://i1.hoopchina.com.cn/blogfile/201411/11/BbsImg141568417848931_640*640.jpg'

正则表达式如何解析网页?我的电脑的DNS不是四个数字,是fec0:0:0:f f f f:1%1,请问这是什么意思啊?(图1)

value = urls.split("/")[-1]

url = 'http://localhost/test.py?a=hello&b=world'

values = url.split('?')[-1]

p

4). 爬取网页中所有URL链接

从固有网页中爬取URL链接,再进行下一步的循环爬取或URL抓取.

urls = re.findall(r'<a.*?href=.*?<\/a>',content,re.I)

link_list = re.findall(r"(?=href=".+?(?=")|(?<=href=\').+?(?=\')",content)

5). 爬取网页标题title两种方法

获取网页标题也是一种常见的爬虫,常位于<html><head><title>标题</title></head></html>中

title_pat = r'(?<=<title>).*?(?=</title>)'

# 方法二

title = re.findall(r'<title>(.*?)</title>',content)

6). 定位table位置并爬取属性-属性值

res = r'<td>(.*?)</td><td>(.*?)</td>'

# 如果<td id="">包含该属性则正则表达式为r'<td id=.*?>(.*?)</td>';同样如果不一定是id属性开头,则可以使用正则表达式r'<td .*?>(.*?)</td>'

7). 过滤<span></span>等标签

获取值过程中,通常会存在<span>、

、<a href>等标签

核心代码:

res_value = r'<span .*?>(.*?)</span>'

# 获取table中tr值

res_tr = r'<tr>(.*?)</tr>'

m_tr = re.findall(res_tr,language,re.S|re.M)

# 获取表格第一列th 属性

for line in m_tr:

res_th = r'<th>(.*?)</th>'

m_th = re.findall(res_th,line,re.S|re.M)

for mm in m_th:

if "href" in mm: # 如果获取加粗的th中含超链接则处理

restr = r'<a href=.*?(.*?)<\a>'

8). 获取<script></script>等标签内容

在获取游讯网图库中,图集对应的原图它是存储在script中,其中获取原图-original即可

通过正则表达式下载URL:

阅读全文
id_1广告位-300*300
相关推荐

如何注册一个域名?网站域名的流程及费用是多少?

如何注册一个域名?网站域名的流程及费用是多少?
1.首先定位好,要注册什么样的域名。2.选择一家大的域名注册服务商。3.在注册前...

中英文域名后面的英文代表什么意思什么是域名?该怎么写的啊?

中英文域名后面的英文代表什么意思什么是域名?该怎么写的啊?
com --- Commercial organizations,商业组织,公司...

英文域名和中文域名是什么意思域名名词解释

英文域名和中文域名是什么意思域名名词解释
英文国际域名是Internet网络上的一个服务器或一个网络系统的名字,Inter...

请问电脑里的域名是什么意思啊?域名和ip地址的关系是什么?

请问电脑里的域名是什么意思啊?域名和ip地址的关系是什么?
一、域名   是INTERNET上用来寻找网站所用的名字,是INTERNET上的...

阿里云怎么备案第多个域名阿里云服务器购买流程,请问如何购买阿里云服务器

阿里云怎么备案第多个域名阿里云服务器购买流程,请问如何购买阿里云服务器
你先去阿里云官网,然后去云服务器ECS 购买页面这叫新增网站备案。分为两种情况,...

[案例解析]网站域名、路径(URL)的优化(转载)更换新域名是否会严重影响搜索排名?如何选择好的域名?哪里可以注册域名

[案例解析]网站域名、路径(URL)的优化(转载)更换新域名是否会严重影响搜索排名?如何选择好的域名?哪里可以注册域名
做优化,网站的域名和路径 URL 很重要, 如果细心点会发现。当你在GOOGL搜...

域名怎么转URL?如何隐藏URL转发?

域名怎么转URL?如何隐藏URL转发?
 URL转发是域名解析的一种,因为被滥用,现在开放的URL转发服务已经越来越少了...

Google 短网址服务 goo.gl 被关闭如何将长网址变成短网址?怎么生成短网址?

Google 短网址服务 goo.gl 被关闭如何将长网址变成短网址?怎么生成短网址?
缩短链接工具在社群推广中的应用随着私域流量的兴起,社群推广再次重回大家推广计划中...

如何把微信二维码生成一个链接?新媒体运营高手都用什么工具?

如何把微信二维码生成一个链接?新媒体运营高手都用什么工具?
把微信二维码生成一个链接的步骤如下:前段时间给大家公布了一些自媒体需要用到的工具...

手把手教你如何快速抢注过期域名如何查询域名注册的时间

手把手教你如何快速抢注过期域名如何查询域名注册的时间
域名的注册时间是这个域名被注册之后的时间,他可以透露很多信息,比如有些网站说自己...