Python爬虫 12306抢票开源代码过程详解-FinClip官网

Python爬虫 12306抢票开源代码过程详解

网友投稿 1564 2023-07-21

Python爬虫 12306抢票开源代码过程详解

今天就和大家一起来讨论一下python实现12306余票查询（pycharm+python3.7），一起来感受一下python爬虫的简单实践

我们说先在浏览器中打开开发者工具(F12)，尝试一次余票的查询，通过开发者工具查看发出请求的包

可以看到红框框中的URL就是我们向12306服务器发出的请求，那么具体是什么呢？我们来看看

https://kyfw.12306-/otn/leftTicket/queryZ?leftTicketDTO.train_date=2019-01-21&leftTicketDTO.from_station=CDW&leftTicketDTO.to_station=SZQ&purpose_codes=ADULT

可以看到发出请求的几个字段：

leftTicketDTO.train_date：查询的日期

leftTicketDTO.from_station：查询的出发地

leftTicketDTO.to_station：查询的目的地

purpose_codes：不太清楚这个字段是用来做什么的，就默认吧

可以从我们递交的URL请求看出，我们输入的成都，深圳都变成了对应的编号，比如，成都（CDW）、深圳（SZQ），所以当我们程序进行输入的时候要进行一下处理，12306的一个地方存储着这些城市名与编码对应的文档：

https://kyfw.12306-/otn/resources/js/framework/station_name.js?station_version=1.8971

下面我们就编写一个小程序，将这些城市名与编号提取出来：

import re,requests

url = "https://kyfw.12306-/otn/resources/js/framework/station_name.js?station_version=1.8971"

response = requests.get(url,verify=False)

#将车站的名字和编码进行提取

chezhan = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', response.text)

chezhan_chttp://ode = dict(chezhan)

#进行交换

chezhan_names = dict(zip(chezhan_code.values(),chezhan_code.keys()))

#打印出得到的车站字典

print(chezhan_names)

得到的打印结果如下（只截取部分显示）：

{'VAP': '北京北', 'BOP': '北京东', 'BJP': '北京', 'VNP': '北京南', 'BXP': '北京西', 'IZQ': '广州南', 'CUW': '重庆北', 'CQW': '重庆', 'CRW': '重庆南', 'CXW': '重庆西', 'GGQ': '广州东', 'SHH': '上海', 'SNH': '上海南', 'AOH': '上海虹桥', 'SXH': '上海西', 'TBP': '天津北', 'TJP': '天津', 'TIP': '天津南', 'TXP': '天津西', 'XJA': '香港西九龙', 'CCT': '长春', 'CET': '长春南', 'CRT': '长春西', 'ICW': '成都http://东', 'CNW': '成都南', 'CDW': '成都', 'CSQ': '长沙', 'CWQ': '长沙南',}

接下来我们就动手开始程序的主要代码编写：

def main():

date = input("请输入时间(如2019-01-22)：\n")

from_station = chezhan_code[input("请输入起始站点：\n")]

to_station = chezhan_code[input("请输入目的站点：\n")]

url = "https://kyfw.12306-/otn/leftTicket/queryZ?"

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400"

}

url=url+"leftTicketDTO.train_date="+date+"&leftTicketDTO.from_station="+from_station+"&leftTicketDTO.to_station="+to_station+"&purpose_codes=ADULT"

#print(url) 已经检查过生成的URL是正确的

#request请求获取主页

r = requests.get(url,headers=headers)

r.raise_for_status() #如果发送了一个错误的请求，会抛出异常

r.encoding = r.apparent_encoding

showTicket(r.text)

用户输入时间、起始站点、目的站点，然后通过get来请求，然后我们对返回的网页信息进行解析。我们现将上面代码的r.text进行打印，看看我们请求之后，返回了什么样的信息，然后决定我们应该如何解析

这样看着不方便，我们粘贴到记事本中，进行详细的分析：

可以与12306显示的信息进行对比，K829是车次，CDW与BJQ是出发地和目的地，10:10是出发时间，06:13是到达时间，44:21是历时时间，20190123为查询的日期，剩下的就是一系列票的各种信息。

下面就是对这些返回的信息进行解析，其实这也是python爬虫的关键，就是解析！！！

我们先把信息转化为json格式，可以看到都是用“|”隔开的，那么我们就用split函数分割出来，下面是主要功能代码：

def showTicket(html):

html = json.loads(html)

table = PrettyTable([" 车次 ","出发车站","到达车站","出发时间","到达时间"," 历时 ","商务座"," 一等座","二等座","高级软卧","软卧","动卧","硬卧","软座","硬座","无座","其他","备注"])

for i in html['data']['result']:

name = [

"station_train_code",

"from_station_name",

"to_station_name",

"start_time",

"arrive_time",

"lishi",

"swz_num",

"zy_num",

"ze_num",

"dw_num",

"gr_num",

"rw_num",

"yw_num",

"rz_num",

"yz_num",

"wz_num",

"qt_num",

"note_num"

]

data = {

"station_train_code": '',

"from_station_name": '',

"to_station_name": '',

"start_time": '',

"arrive_time": '',

"lishi": '',

"swz_num": '',

"zy_num": '',

"ze_num": '',

"dw_num": '',

"gr_num": '',

"rw_num": '',

"yw_num": '',

"rz_num": '',

"yz_num": '',

"wz_num": '',

"qt_num": '',

"note_num": ''

}

#将各项信息提取并赋值

item = i.split('|') #使用“|”进行分割

data["station_train_code"] = item[3] #获取车次信息，在3号位置

data["from_station_name"] = item[6] #始发站信息在6号位置

data["to_station_name"] = item[7] #终点站信息在7号位置

data["start_time"] = item[8] #出发时间在8号位置

data["arrive_time"] = item[9] #抵达时间在9号位置

data["lishi"] = item[10] #经历时间在10号位置

data["swz_num"] = item[32] or item[25] #特别注意，商务座在32或25位置

data["zy_num"] = item[31] #一等座信息在31号位置

data["ze_num"] = item[30] #二等座信息在30号位置

data["gr_num"] = item[21] #高级软卧信息在21号位置

data["rw_num"] = item[23] #软卧信息在23号位置

data["dw_num"] = item[27] #动卧信息在27号位置

data["yw_num"] = item[28] #硬卧信息在28号位置

data["rz_num"] = item[24] #软座信息在24号位置

data["yz_num"] = item[29] #硬座信息在29号位置

data["wz_num"] = item[26] #无座信息在26号位置

data["qt_num"] = item[22] #其他信息在22号位置

data["note_num"] = item[1] #备注信息在1号位置

color = Colored()

data["note_num"] = color.white(item[1])

#如果没有信息，那么就用“-”代替

for pos in name:

if data[pos] == "":

data[pos] = "-"

tickets = []

cont = []

cont.append(data)

for x in cont:

tmp = []

for y in name:

if y == "from_station_name":

s = color.green(chezhan_names[data["from_station_name"]])

tmp.append(s)

elif y == "to_station_name":

s = color.red(chezhan_names[data["to_station_name"]])

tmp.append(s)

elif y == "start_time":

s = color.green(data["start_time"])

tmp.append(s)

elif y == "arrive_time":

s = color.red(data["arrive_time"])

tmp.append(s)

elif y == "station_train_code":

s = color.yellow(data["station_train_code"])

tmp.append(s)

else:

tmp.append(data[y])

tickets.append(tmp)

for ticket in tickets:

table.add_row(ticket)

print(table)

那么我们程序就成功啦！！！

但是在编译器里面Prettytable的格子没有对齐，不要担心，我们到终端运行一下脚本，就可以看到很好看的输出啦：

完成！！！下面是完整代码

main.py

# -*- coding: utf-8 -*-

import re,requests,datetime,time,json

from prettytable import PrettyTable

from colorama import init,Fore

from stationinfo import chezhan_code,chezhan_names

init(autoreset=False)

class Colored(object):

def yeah(self,s):

return Fore.LIGHTCYAN_EX + s + Fore.RESET

def green(self,s):

return Fore.LIGHTGREEN_EX + s + Fore.RESET

def yellow(self,s):

return Fore.LIGHTYELLOW_EX + s + Fore.RESET

def white(self,s):

return Fore.LIGHTWHITE_EX + s + Fore.RESET

def blue(self,s):

return Fore.LIGHTBLUE_EX + s + Fore.RESET

def showTicket(html):

html = json.loads(html)

for i in html['data']['result']:

name = [

"station_train_code",

"from_station_name",

"to_station_name",

"start_time",

"arrive_time",

"lishi",

"swz_num",

"zy_num",

"ze_num",

"dw_num",

"gr_num",

"rw_num",

"yw_num",

"rz_num",

"yz_num",

"wz_num",

"qt_num",

"note_num"

]

data = {

"station_train_code": '',

"from_station_name": '',

"to_station_name": '',

"start_time": '',

"arrive_time": '',

"lishi": '',

"swz_num": '',

"zy_num": '',

"ze_num": '',

"dw_num": '',

"gr_num": '',

"rw_num": '',

"yw_num": '',

"rz_num": '',

"yz_num": '',

"wz_num": '',

"qt_num": '',

"note_num": ''

}

#将各项信息提取并赋值

item = i.split('|') #使用“|”进行分割

data["station_train_code"] = item[3] #获取车次信息，在3号位置

data["from_station_name"] = item[6] #始发站信息在6号位置

data["to_station_name"] = item[7] #终点站信息在7号位置

data["start_time"] = item[8] #出发时间在8号位置

data["arrive_time"] = item[9] #抵达时间在9号位置

data["lishi"] = item[10] #经历时间在10号位置

data["swz_num"] = item[32] or item[25] #特别注意，商务座在32或25位置

data["zy_num"] = item[31] #一等座信息在31号位置

data["ze_num"] = item[30] #二等座信息在30号位置

data["gr_num"] = item[21] #高级软卧信息在21号位置

data["rw_num"] = item[23] #软卧信息在23号位置

data["dw_num"] = item[27] #动卧信息在27号位置

data["yw_num"] = item[28] #硬卧信息在28号位置

data["rz_num"] = item[24] #软座信息在24号位置

data["yz_num"] = item[29] #硬座信息在29号位置

data["wz_num"] = item[26] #无座信息在26号位置

data["qt_num"] = item[22] #其他信息在22号位置

data["note_num"] = item[1] #备注信息在1号位置

color = Colored()

data["note_num"] = color.white(item[1])

#如果没有信息，那么就用“-”代替

for pos in name:

if data[pos] == "":

data[pos] = "-"

tickets = []

cont = []

cont.append(data)

for x in cont:

tmp = []

for y in name:

if y == "from_station_name":

s = color.green(chezhan_names[data["from_station_name"]])

tmp.append(s)

elif y == "to_station_name":

s = color.yeah(chezhan_names[data["to_station_name"]])

tmp.append(s)

elif y == "start_time":

s = color.green(data["start_time"])

tmp.append(s)

elif y == "arrive_time":

s = color.yeah(data["arrive_time"])

tmp.append(s)

elif y == "station_train_code":

s = color.yellow(data["station_train_code"])

tmp.append(s)

else:

tmp.append(data[y])

tickets.append(tmp)

for ticket in tickets:

table.add_row(ticket)

print(table)

def main():

date = input("请输入时间：\n")

from_station = chezhan_code[input("请输入起始站点：\n")]

to_station = chezhan_code[input("请输入目的站点：\n")]

url = "https://kyfw.12306-/otn/leftTicket/queryZ?"

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5702.400 QQBrowser/10.2.1893.400"

}

url=url+"leftTicketDTO.train_date="+date+"&leftTicketDTO.from_station="+from_station+"&leftTicketDTO.to_station="+to_station+"&purpose_codes=ADULT"

#print(url) 已经检查过生成的URL是正确的

#request请求获取主页

r = requests.get(url,headers=headers)

r.raise_for_status() #如果发送了一个错误的请求，会抛出异常

r.encoding = r.apparent_encoding

showTicket(r.text)

#print(r.text)

main()

stationinfo.py

import re,requests

url = "https://kyfw.12306-/otn/resources/js/framework/station_name.js?station_version=1.8971"

response = requests.get(url,verify=False)

#将车站的名字和编码进行提取

chezhan = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)', response.text)

chezhan_code = dict(chezhan)

chezhan_names = dict(zip(chezhan_code.values(),chezhan_code.keys()))

#print(chezhan_names)

探索如何通过人工智能小程序插件开发提升企业数字化转型的效率与合规性

1564 2023-07-21

Python爬虫 12306抢票开源代码过程详解

主流小游戏组件如何通过FinClip提升开发效率与用户体验

探索如何通过人工智能小程序插件开发提升企业数字化转型的效率与合规性

金融科技监管数字沙盒如何加速创新与合规的平衡？

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计