如何用Python写一个抓取新浪财经网指定企业年报的脚本

2024-05-07 11:59

1. 如何用Python写一个抓取新浪财经网指定企业年报的脚本

给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。 import beautifulsoup import urllib2 def main(): userMainUrl = "你要抓取的地址" req = urllib2.Request(userMainUrl) resp = urllib2.url.

如何用Python写一个抓取新浪财经网指定企业年报的脚本

2. 用Python3写的抓取网页的程序,总是报错,帮忙看看? --- 抓取百度没问题,抓取新浪的时候转码总报错:

把这一句message2=file2.read().decode('utf-8')
改成message2=file2.read()
就可以了

3. 如何使用python或R抓取网页被隐藏的源代码

    隐藏的源代码?不知道你指的是什么?我的理解有两种,一是不在前段显示,但是查看源代码时有,二是,异步加载的内容在前端和源代码中均看不到,第一种很容易解决,想必你指的时第二种,解决方法有三种:
模拟浏览器,动态获取,可以使用大杀器selenium工具
使用这种方法可以实现只要能看到就能抓取到,如鼠标滑过,异步加载等,因为他的行为可以与浏览器一模一样,但是这种方式的效率却是最低的,一般不到实在没有办法的时候不推荐使用。
执行js代码
在python中执行异步加载的js代码,获得一些诸如鼠标滑过,下拉加载更多等,但是现在的网站中都有非常多的js代码,要找到需要执行的目标js代码时非常困难和耗时的,此外python对js的兼容性也不是很好,也不推荐使用。
找到异步加载的json文件,最常用,最方便,最好用的方法,这是我平常抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。具体的使用方法是打开浏览器的开发者工具,转到network选项,之后重新加载网页,在network中的列表中找到加载过程中加载的需要动态异步加载的json文件,以京东为例,如图,第一张找到的是异步加载的库存信息的json文件,第二招找到的是异步加载的评论信息的json文件:



具体更详细的方法可以google或百度

如何使用python或R抓取网页被隐藏的源代码

4. 如何用python提取网页中框架的源代码

简单的做个例子,框架路径可以自己修改,调用像百度等网站时无法读取其中源码,涉及到一些安全问题,所以路径要求是合法的允许访问的路径 function GetFrameInnerHtml(objIFrame) { var iFrameHTML = ""; if (objIFrame.contentDocument) { //针...

5. Python抓取网页信息时,读取的是非网页源代码,怎么解决啊

这个是你爬虫发送请求,被服务端拒绝了;可能有这么几种:1.需要登录,2.需要cookie,3,发送的头不符合服务端的要求,具体要研究服务端;
现手动登陆一次,用fiddler抓包,看一下,如果cookie,就把cookie带上;

Python抓取网页信息时,读取的是非网页源代码,怎么解决啊

6. python 抓取网页表格,具体请看程序,网页中html可以看到是中文,但是解析之后却是这样,求大神解答?

将二进制再转成字符就行了
>>> aa= b"\xe4\xb8\x9c\xe5\x9f\x8e\xe5\xa4\xa9\xe5\x9d\x9b184\xe8\x87\xad\xe6\xb0\xa74\xe4\xb8\xad\xe5\xba\xa6\xe6\xb1\xa1\xe6\x9f\x93"
>>> bb = aa.decode("utf-8").encode("gb2312")
>>> bb.decode("gb2312")
'东城天坛184臭氧4中度污染'
>>>

7. 360网页打开公司系统网页点登陆没反应,是我们公司的内网系统登录,用其它浏览器可以、怎么解决

360网页打开公司系统网页点登陆没反应是因为临时文件冲突造成的,解决方法如下:
1、首先打开浏览器的工具选项,打开Interent选项。

2、 在常规选项卡中的浏览历史记录的下面的栏中,选择删除选择。

3、就打开新的对话框了,在里面选择要删除的选项,建议第一项保留,因为这是收藏的网页的选项,如果删了,就不好复原了。

4、在回到常规选项卡,浏览历史记录删除选项的上面有一个可以打勾的地方。

5、可以勾上,每次退出浏览器的时候,就会删除这些多余的数据,再重新打开网页试试看。

360网页打开公司系统网页点登陆没反应,是我们公司的内网系统登录,用其它浏览器可以、怎么解决

8. 火狐浏览器不能右键查看网页的源代码,怎么解决

是所有网站都不可以还是个别网站不可以。
如果是所有的都不可以,那应该是该功能损坏,建议下载最新版火狐直接覆盖安装一遍以修改该问题。