matlab 有没有办法实现抓取网页实时跳动的实时数据？如果有请教下高手如何实现~谢谢！！

2024-05-12 01:28

1. matlab 有没有办法实现抓取网页实时跳动的实时数据？如果有请教下高手如何实现~谢谢！！

%打开并拿到figure的handleh_fig=open('1.fig');%如果h_fig是figure会返回'figure'get(h_fig, 'Type') %拿到figure里axes的handleh_axes = get(h_fig, 'children');%如果h_axes是axes会返回'axes'get(h_axes, 'Type') %拿到axes里曲线line的handle，可能会多于一个h_line = get(h_axes, 'children');%如果h_axes是line会返回'line'get(h_axes, 'Type') %假设有两条线x1 = get(h_line(1), 'XData');y1 = get(h_line(1), 'YData');x2 = get(h_line(2), 'XData');y2 = get(h_line(2), 'YData');

2. 如何把抓包得到的数据用到matlab中

先保存到文本

在matlab里读入

如果是网页，matlab直接用urlread

3. matlab正则表达式抓取网页数据，源码是这样的，怎么抓取呢

打开Chrome，在拉勾网搜索深圳市的“数据分析”职位，使用检查功能查看网页源代码，发现拉勾网有反爬虫机制，职位信息并不在源代码里，而是保存在JSON的文件里，因此我们直接下载JSON，并使用字典方法直接读取数据。

matlab正则表达式抓取网页数据，源码是这样的，怎么抓取呢

4. 如何学习爬虫技术抓取数据

学习任何一门语言都是从入门，通过不间断练习达到熟练水准，少数人最终能精通语言，成为执牛耳者，他们是金字塔的最顶层。 
当你决定学Python爬虫时，需要有一个清晰且短期内可实现的目标，比如通过学习找一份初级程序员工作。目标明确后，你需要知道企业对Python程序员的技能有哪些要求。
可能你会纠结是学Python2还是Python3，就像手里同时有包子和馒头，不知道先吃哪个，这种纠结完全就是徒增烦恼。
因为它们是同一种语言，只有少部分地方语法不兼容。Python3逐渐成为主流已是不争事实，毕竟后者性能方面更占有优势，官方也在力推Python3。所以选Python3吧，最多花一天的时间能把Python2中特有的内容搞懂。
至于有哪些资源现在可以用，你可以积极参与到相关的技术圈子中去，尝试去解答力所能及的新手问题，向圈子中的大牛们寻求帮助，善于总结自己所学到的东西，分享给更多的人。记住，你不是一个人在战斗!
只看书不会进步，思考和实践才有成长，自学编程是一个比较枯燥的过程，一定要坚持。
哦对了，目前我也在学习，你可以看一下这个基础视频，很有帮助的。
python基础视频教程

5. 如何利用matlab爬虫抓数据

直接利用MATLAB数据采集箱中提供的的函数命令进行采集,即wavrecord 。wavrecord是利用Windows 音频输入设备记录声

如何利用matlab爬虫抓数据

6. 如何从网站或者软件中抓取数据

我想谈谈我们可以采用的三种方法来从网站爬网数据。
1.使用网站API
许多大型社交媒体网站，例如Facebook，Twitter，Instagram，StackOverflow，都提供API供用户访问其数据。有时，您可以选择官方API来获取结构化数据。如下面的Facebook Graph API所示，您需要选择进行查询的字段，然后订购数据，执行URL查找，发出请求等。
2.建立自己的搜寻器
但是，并非所有网站都为用户提供API。某些网站由于技术限制或其他原因拒绝提供任何公共API。有人可能会提出RSS提要，但是由于限制了它们的使用，因此我不会对此提出建议或发表评论。在这种情况下，我想讨论的是我们可以自行构建爬虫来处理这种情况。

搜寻器如何工作？换句话说，搜寻器是一种生成可以通过提取程序提供的URL列表的方法。可以将搜寻器定义为查找URL的工具。首先，您要为搜寻器提供一个要启动的网页，它们将跟随该页面上的所有这些链接。然后，此过程将继续循环进行。
然后，我们可以继续构建自己的搜寻器。众所周知，Python是一种开放源代码编程语言，您可以找到许多有用的函数库。在这里，我建议使用BeautifulSoup（Python库），因为它易于使用并且具有许多直观的字符。更确切地说，我将利用两个Python模块来爬网数据。
BeautifulSoup无法为我们获取网页。这就是为什么我将urllib2与BeautifulSoup库结合使用的原因。然后，我们需要处理HTML标记，以找到页面标记和右表中的所有链接。之后，遍历每一行（tr），然后将tr（td）的每个元素分配给一个变量，并将其附加到列表中。首先让我们看一下表的HTML结构（我将不提取表标题的信息）。
通过采用这种方法，您的搜寻器是自定义的。它可以处理API提取中遇到的某些困难。您可以使用代理来防止它被某些网站等阻止。整个过程在您的控制之内。这种方法对于具有编码技能的人应该是有意义的。
3.利用现成的爬虫工具
但是，通过编程自行爬网网站可能很耗时。对于没有任何编码技能的人来说，这将是一项艰巨的任务。因此，我想介绍一些搜寻器工具。

7. 如何利用matlab爬虫抓数据

[data,status]=urlread('http:\\www.baidu.com');

如何利用matlab爬虫抓数据

8. 如何用python 爬虫抓取金融数据

获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。
本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。
一、网页源码的获取
很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。

import urllib.requesturl='ar.com/stock/ranklist_a_3_1_1.html'  #目标网址headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64)"}  #伪装浏览器请求报头request=urllib.request.Request(url=url,headers=headers)  #请求服务器response=urllib.request.urlopen(request)  #服务器应答content=response.read().decode('gbk')   #以一定的编码方式查看源码print(content)  #打印页面源码 

虽说抓一页的源码容易，不过在一个网站内大量抓取网页源码却经常遭到服务器拦截，顿时感觉世界充满了恶意。于是我开始研习突破反爬虫限制的功法。
1.伪装流浪器报头
很多服务器通过浏览器发给它的报头来确认是否是人类用户，所以我们可以通过模仿浏览器的行为构造请求报头给服务器发送请求。服务器会识别其中的一些参数来识别你是否是人类用户，很多网站都会识别User-Agent这个参数，所以请求头最好带上。有一些警觉性比较高的网站可能还会通过其他参数识别，比如通过Accept-Language来辨别你是否是人类用户，一些有防盗链功能的网站还得带上referer这个参数等等。
2.随机生成UA
证券之星只需带User-Agent这个参数就可以抓取页面信息了，不过连续抓取几页就被服务器阻止了。于是我决定每次抓取数据时模拟不同的浏览器发送请求，而服务器通过User-Agent来识别不同浏览器，所以每次爬取页面可以通过随机生成不同的UA构造报头去请求服务器，
3.减慢爬取速度
虽然模拟了不同浏览器爬取数据，但发现有的时间段可以爬取上百页的数据，有时候却只能爬取十来页，看来服务器还会根据你的访问的频率来识别你是人类用户还是网络爬虫。所以我每抓取一页都让它随机休息几秒，加入此句代码后，每个时间段都能爬取大量股票数据了。
4.使用代理IP
天有不测风云，程序在公司时顺利测试成功，回寝室后发现又只能抓取几页就被服务器阻止了。惊慌失措的我赶紧询问度娘，获知服务器可以识别你的IP，并记录此IP访问的次数，可以使用高匿的代理IP，并在抓取的过程中不断的更换，让服务器无法找出谁是真凶。此功还未修成，欲知后事如何，请听下回分解。
5.其他突破反爬虫限制的方法
很多服务器在接受浏览器请求时会发送一个cookie文件给浏览器，然后通过cookie来跟踪你的访问过程，为了不让服务器识别出你是爬虫，建议最好带上cookie一起去爬取数据；如果遇上要模拟登陆的网站，为了不让自己的账号被拉黑，可以申请大量的账号，然后再爬入，此处涉及模拟登陆、验证码识别等知识，暂时不再深究...总之，对于网站主人来说，有些爬虫确实是令人讨厌的，所以会想出很多方法限制爬虫的进入，所以我们在强行进入之后也得注意些礼仪，别把人家的网站给拖垮了。
二、所需内容的提取
获取网页源码后，我们就可以从中提取我们所需要的数据了。从源码中获取所需信息的方法有很多，使用正则表达式就是比较经典的方法之一。我们先来看所采集网页源码的部分内容。


为了减少干扰，我先用正则表达式从整个页面源码中匹配出以上的主体部分，然后从主体部分中匹配出每只股票的信息。代码如下。
pattern=re.compile('')  body=re.findall(pattern,str(content))  #匹配之间的所有代码pattern=re.compile('>(.*?)和<之间的所有信息
其中compile方法为编译匹配模式，findall方法用此匹配模式去匹配出所需信息，并以列表的方式返回。正则表达式的语法还挺多的，下面我只罗列所用到符号的含义。
语法    说明    
.    匹配任意除换行符“\n”外的字符    
*    匹配前一个字符0次或无限次    
？    匹配前一个字符0次或一次    
\s    空白字符：[\t\r\n\f\v]    
\S    非空白字符：[^\s]    
[...]    字符集，对应的位置可以是字符集中任意字符    
(...)    被括起来的表达式将作为分组，里面一般为我们所需提取的内容    
正则表达式的语法挺多的，也许有大牛只要一句正则表达式就可提取我想提取的内容。在提取股票主体部分代码时发现有人用xpath表达式提取显得更简洁一些，看来页面解析也有很长的一段路要走。
三、所得结果的整理
通过非贪婪模式(.*?)匹配>和<之间的所有数据，会匹配出一些空白字符出来，所以我们采用如下代码把空白字符移除。
stock_last=stock_total[:] #stock_total：匹配出的股票数据for data in stock_total:  #stock_last：整理后的股票数据if data=='':stock_last.remove('')
最后，我们可以打印几列数据看下效果，代码如下
print('代码','\t','简称','   ','\t','最新价','\t','涨跌幅','\t','涨跌额','\t','5分钟涨幅')for i in range(0,len(stock_last),13):        #网页总共有13列数据print(stock_last[i],'\t',stock_last[i+1],' ','\t',stock_last[i+2],'  ','\t',stock_last[i+3],'  ','\t',stock_last[i+4],'  ','\t',stock_last[i+5])