如何用Python写一个抓取新浪财经网指定企业年报的脚本

2024-05-09 17:08

1. 如何用Python写一个抓取新浪财经网指定企业年报的脚本

1.先得到需要的上市公司的股票代码和名字。
2.分析下载链接地址。以康达尔为例，年报地址，下载链接 的页面 ，链接末尾的8个数字前6个是股票代码，后两位01代表上交所上市公司（股票代码60开头）、02代表深交所上市公司。 让后就可以用一个循环来下载所有的数据！
3.把下载下来的xml文件转化成xls文件，代码如下：
1). xml可能的中文编码错误处理


def xml_Error_C(filename):
fp_xml=open(filename)
fp_x=''#中文乱码改正
for i in range(os.path.getsize(filename)):
i+=1
a=fp_xml.read(1)
if a=='&':
fp_xml.seek(-1,1)
if fp_xml.read(6)==' ':
i+=5
continue
else:
fp_xml.seek(-5,1)
fp_x+=a
fp_xml=open(filename,'w+')
fp_xml.write(fp_x)
fp_xml.flush()
fp_xml.close()


2). xml转xls

def Xmltoxls(xmlname,xlsname):
if os.path.getsize(xmlname)<1024:#小于1K，无该项数据
return False
wb=xlwt.Workbook(encoding='utf-8')
ws=wb.add_sheet('Table')
fp_xml=minidom.parse(xmlname)
root=fp_xml.documentElement
Row=root.getElementsByTagName('Row')
Data=root.getElementsByTagName('Data')
col_num=len(Data)/len(Row)
row_num= 0
for row in Row:
Data=row.getElementsByTagName('Data')
for i in range(col_num):
if len(Data[i].childNodes)==0:
ws.write(row_num,i,' ')
continue
ws.write(row_num,i,Data[i].childNodes[0].nodeValue.strip().encode('utf-8'))
row_num+=1
wb.save(xlsname)
return True




上整体代码：

from  xml.dom import  minidom
import xlwt
import os,shutil
import time,urllib2
def Xmltoxls(xmlname,xlsname):
if os.path.getsize(xmlname)<1024:
return False
wb=xlwt.Workbook(encoding='utf-8')
ws=wb.add_sheet('Table')
fp_xml=minidom.parse(xmlname)
root=fp_xml.documentElement
Row=root.getElementsByTagName('Row')
Data=root.getElementsByTagName('Data')
col_num=len(Data)/len(Row)
row_num= 0
for row in Row:
Data=row.getElementsByTagName('Data')
for i in range(col_num):
if len(Data[i].childNodes)==0:
ws.write(row_num,i,' ')
continue
ws.write(row_num,i,Data[i].childNodes[0].nodeValue.strip().encode('utf-8'))
row_num+=1
wb.save(xlsname)
return True
def xml_Error_C(filename):
fp_xml=open(filename)
fp_x=''#中文乱码改正
for i in range(os.path.getsize(filename)):
i+=1
a=fp_xml.read(1)
if a=='&':
fp_xml.seek(-1,1)
if fp_xml.read(6)==' ':
i+=5
continue
else:
fp_xml.seek(-5,1)
fp_x+=a
fp_xml=open(filename,'w+')
fp_xml.write(fp_x)
fp_xml.flush()
fp_xml.close()
def errorlog(error):
fp_error=open('errorlog.txt','a')
fp_error.write(error+'\n')
fp_error.close
fp_code=open('stockcode..txt')
fp_basic=open('basicdata_url.txt')
temp='z:\\temp.xml'
for line in fp_code:#设置代码起始位置
if line.split()[0]=='601958':
break
for line in fp_code:#遍历所有代码及名称
filepath='basicdata\\'+line.split()[0]+line.split()[1].replace('*','&')#建立文件夹
if not os.path.isdir(filepath):
os.makedirs(filepath)
for url in fp_basic:#抓取所有数据并保存
url_f=url.split()[0]+line.split()[0]+('01' if int(line.split()[0])>599999 else '02')+'&exp=1'
print 'I am handle '+line+' '+url.split()[1]+' '+'data for you'
filename=filepath+'\\'+line.split()[0]+' '+url.split()[1]+'.xls'
while True:#get xml data
try:
u=urllib2.urlopen(url_f)
time.sleep(0.3)
data=u.read()
f=open(temp,'w+')#保存文件
f.write(data)
f.flush()
f.close()
break
except :
print 'Network error,try latter!'
time.sleep(10)
while True:#xml data to xls data
if url.split()[1] in ['News','Notice','Subject']:
shutil.move(temp,filename) #   os.rename("oldname","newname")
break
try:
xml_Error_C(temp)
Xmltoxls(temp,filename)
except IOError:
errorlog('No '+filename)
except:
shutil.move(temp,filename)
errorlog('Not Done '+filename)
break
time.sleep(0.2)
time.sleep(7)
fp_basic.seek(0)
print 'All data have been getted.'
fp_code.close()
fp_basic.close()

2. 如何使用python爬取知乎数据并做简单分析

一、使用的技术栈：
爬虫：python27 +requests+json+bs4+time
分析工具： ELK套件
开发工具：pycharm
数据成果简单的可视化分析
1.性别分布
0 绿色代表的是男性 ^ . ^
1 代表的是女性
-1 性别不确定
可见知乎的用户男性颇多。
二、粉丝最多的top30
粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。
三、写文章最多的top30
四、爬虫架构
爬虫架构图如下：
说明：
选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。
抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。
解析该用户的个人信息，并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据，并给elsticsearchkibana和elasticsearch配合，将数据转换成用户友好的可视化图形。
五、编码
爬取一个url:
解析内容：
存本地文件：
代码说明：
* 需要修改获取requests请求头的authorization。
* 需要修改你的文件存储路径。
源码下载：点击这里，记得star哦！https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization
打开chorme，打开https : // www. zhihu .com/，
登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)七、可改进的地方
可增加线程池，提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。
八、关于ELK套件
关于elk的套件安装就不讨论了，具体见官网就行了。网站：https : // www . elastic . co/另外logstash的配置文件如下：
从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。

3. Python爬取信息读写数据库问题

按 F12 或 ctrl+u 审查元素，结果如下:

  结构很清晰简单，我们就是要爬 tr 标签里面的 style 和 tr 下几个并列的 td 标签，下面是爬取的代码:
#!/usr/bin/env python
# coding=utf-8

import requests

Python爬取信息读写数据库问题

4. Python爬取网站信息（随便一个网站就行），并导入Excel中，应该如何操作？

使用的python的request、csv模块
import requesimport reimport csv_re = requests.get(url)re_text = re.findall(str, _re.text, re.S)  # str 正则with open('1.csv', 'wb') as f:    csv.writer(f).writerow(re_text)

5. python怎么爬取天眼查工商基本信息

tamp=1487746860&ver=1&signature=TWfavBHXlFoqEPSY9rQfoyb3SrTawkrvASMsc8p6iPNCiEkQ6gizbLU4PABGcvkJcd4B1CyKtuUvGaCgHSABQwPWrZRSZc5kKcZqJ7TFFfdNNqZuy14UGa*dbquyH*Zvd2f0gmY25-aGiF5C9ULYIwhEDbrJsGW4uBVEKw*Q5mg=中有写道：
天眼查数据获取分为两块，其中一块为大量索引信息获取，此方式天眼查没有做反爬机制，因此代码直接就可以获取，详细的代码及方式可参考知乎专栏的一篇文章
第二块为企业详细信息获取，天眼查做了相应的反爬机制，需要研究穿插在几万行代码里的加密算法，获取cookie才能成功获取企业数据，且他们有专门的反爬虫工程师，想破解很难。

python怎么爬取天眼查工商基本信息

6. python爬取网页信息，怎么获取到网页的真实URL？？

首先要知道这个url是用get还是post方法，然后看看请求头或者url有没有携带什么会产生变化的数据，你单独请求ajax页面的时候是要带上这些数据的。

7. 怎么使用python来爬取网页上的表格信息

稍微说一下背景，当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律，首先得有数据啊，数据从哪里来？就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候，手动一个个去下显然是不可取的，我们需要写个脚本，能从特定的网站选择性得批量下载需要的信息。python是不错的选择。

import urllib    #python中用于获取网站的模块
import urllib2, cookielib

有些网站访问时需要cookie的，python处理cookie代码如下：
cj = cookielib.CookieJar ( )
opener =  urllib2.build_opener( urllib2.HttpCookieProcessor(cj) )
urllib2.install_opener （opener）

通常我们需要在网站中搜索得到我们需要的信息，这里分为二种情况：

1. 第一种，直接改变网址就可以得到你想要搜索的页面：

def GetWebPage( x ):  #我们定义一个获取页面的函数，x 是用于呈递你在页面中搜索的内容的参数
url = 'http://xxxxx/xxx.cgi?&' + ‘你想要搜索的参数’   # 结合自己页面情况适当修改
page = urllib2.urlopen(url)
pageContent = page.read( )
return pageContent                #返回的是HTML格式的页面信息

2.第二种，你需要用到post方法，将你搜索的内容放在postdata里面，然后返回你需要的页面

def GetWebPage( x ):  #我们定义一个获取页面的函数，x 是用于呈递你在页面中搜索的内容的参数
url =  'http://xxxxx/xxx'    #这个网址是你进入搜索界面的网址
postData = urllib.urlencode( {  各种‘post’参数输入 } )   #这里面的post参数输入需要自己去查
req= urllib2.Request (url, postData)
pageContent = urllib2.urlopen (req). read( )
return pageContent                #返回的是HTML格式的页面信息


在获取了我们需要的网页信息之后，我们需要从获得的网页中进一步获取我们需要的信息，这里我推荐使用 BeautifulSoup 这个模块， python自带的没有，可以自行百度谷歌下载安装。 BeautifulSoup 翻译就是‘美味的汤’，你需要做的是从一锅汤里面找到你喜欢吃的东西。

import re  # 正则表达式，用于匹配字符
from bs4 import BeautifulSoup  # 导入BeautifulSoup 模块

soup =  BeautifulSoup（pageContent）  #pageContent就是上面我们搜索得到的页面

soup就是 HTML 中所有的标签（tag）BeautifulSoup处理格式化后的字符串，一个标准的tag形式为：

hwkobe24

通过一些过滤方法，我们可以从soup中获取我们需要的信息：

（1） find_all ( name , attrs , recursive , text , **kwargs)
这里面，我们通过添加对标签的约束来获取需要的标签列表， 比如 soup.find_all ('p') 就是寻找名字为‘p’的 标签，而soup.find_all (class = "tittle") 就是找到所有class属性为"tittle" 的标签，以及soup.find_all ( class = re.compile('lass')) 表示 class属性中包含‘lass’的所有标签，这里用到了正则表达式（可以自己学习一下，非常有用滴）

当我们获取了所有想要标签的列表之后，遍历这个列表，再获取标签中你需要的内容，通常我们需要标签中的文字部分，也就是网页中显示出来的文字，代码如下：

tagList = soup.find_all (class="tittle")   #如果标签比较复杂，可以用多个过滤条件使过滤更加严格

for tag in tagList:
print tag.text
f.write ( str(tag.text) )  #将这些信息写入本地文件中以后使用

（2）find( name , attrs , recursive , text , **kwargs )

它与 find_all( ) 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

（3）find_parents( )  find_parent( )

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

（4）find_next_siblings()  find_next_sibling()

这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

（5）find_previous_siblings()  find_previous_sibling()

这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点

（6）find_all_next()  find_next()

这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

（7）find_all_previous() 和 find_previous()

这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

具体的使用方法还有很多，用到这里你应该可以解决大部分问题了，如果要更深入了解可以参考官方的使用说明哈！

怎么使用python来爬取网页上的表格信息

8. 如何利用Python爬取微信运动中各个好友的运动信息

可以测试一下
#!/usr/bin/python3

""" This script simulate a PC wechat client to get wechat sports data """

import re
import json
import requests

# Headers: simulate wechat embedded browser
HEADERS = {
'Connection': 'keep-alive',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501'
' NetType/WIFI WindowsWechat QBCore/3.43.27.400 QQBrowser/9.0.2524.400',
'Accept-Encoding': 'gzip, deflate'
}

COOKIES = {
'hwstepranksk': '填入Cookie',
'pass_ticket': '填入Cookie'
}

REQUEST_URL = ''


def get_info(openid):
"""Get data according to openid"""
params = {"openid": openid}
data = requests.get(url=REQUEST_URL, params=params, cookies=COOKIES, headers=HEADERS)
data.encoding = "utf-8"
try:
return parse_code(data.text)
except LookupError:
return {"Error": "Cookies could be out of date"}


def parse_code(code):
"""Parse web page source code"""
match_strings = re.findall(r"window.json = (\S+);", code)
# json strings are hided in js code
if len(match_strings) == 0:
raise LookupError
else:
json_string = match_strings[0]
json_object = json.loads(json_string)
data_dict = {
"openid": json_object.get("myopenid"),
"Today Steps": json_object.get("rankdesc").get("score"),
"History Steps": json_object.get("rankdetaillist")[0].get("score"),
"Highest Record": json_object.get("rankdetaillist")[1].get("score")
}
return data_dict


if __name__ == "__main__":
print(get_info("o95gOt0QsJ4O4vxBVUzmYeXGuN74"))