信息标记和内容查找

2019-11-03

字数统计: 760字 | 阅读时长: 3分

阅读量

信息标记的3种形式

‘name’ ygj

‘age’ 18

HTML的信息标记

HTML通过预定义的<>…</>标签形式组织不同类型的信息

XML，JSON，YAML 3种主流标记形式

XML是HTML基础上发展起来的一种信息标记形式

JSON是用有类型的键值对表达信息

YAML是用无类型的键值对表达信息

三者的比较

XML Internet上的信息交互

JSON 移动应用云端和节点的信息通信，无注释

YAML 各类系统的配置文件，有注释

信息提取的一般方法

信息提取

import requests
r=requests.get("http://python123.io/ws/demo.html")
demo = r.text
from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,"html.parser")
# print(demo)
# print(soup.find_all('a'))
# print(soup.find_all(['a','b']))

# for link in soup.find_all('a'):
#     print(link.get('href'))
# for tag in soup.find_all('True'):
#     print(tag.name)
# for tag in soup.find_all(re.compile('b')):#正则表达式
#     print(tag.name)
# print(soup.find_all('p','course'))
# print(soup.find_all(id='link1'))
print(soup.find_all(id=re.compile('link')))

完整解析信息的标记形式，再提取关键信息

优点：信息解析准确
缺点：提取过程繁琐，速度慢

直接搜索关键信息

优点：提取过程简洁，速度快
缺点：提取结果准确性与信息内容相关

融合方法需要信息标记解析器和文本查找函数

操作实例

import requests
from bs4 import BeautifulSoup

url = "https://python123.io/ws/demo.html"
demo = requests.get(url)
soup = BeautifulSoup(demo.text,'html.parser')
for link in soup.find_all('a'):
	print(link.get('href'))

内容查找方法

find_all

soup(..) 等价于 soup.find_all(..)

中国大学排名实例

分析

输入：大学排名url链接

输出：大学排名信息的屏幕输出

技术路线： requests + bs4

定向爬虫：仅对输入url进行爬取，不扩展爬取

程序结构设计 1. 从网络上获取相关内容 getHTMLText() 2. 提取内容信息到合适的数据结构（二维列表） fillUnivList() 3. 利用数据结构展示并输出结果 printUnivList()

def getHTMLText(url):
    try:
        r=requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string,tds[1].string,tds[2].string])
def printUnivList(ulist,num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名","学校","其他"))
    for i in range(num):
        u = ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20) # 20 univs
main()

代码改进（整齐输出）

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
    try:
        r=requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string,tds[1].string,tds[2].string])
def printUnivList(ulist,num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校","其他",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20) # 20 univs
main()