博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取xml数据之R
阅读量:7262 次
发布时间:2019-06-29

本文共 331 字,大约阅读时间需要 1 分钟。

生物信息很多时候要爬数据。最近也看了一些这些方面的。

url<-"要爬取的网址"

url.html<-htmlParse(url,encoding="UTF-8")

如果要获得部分信息,则使用XPath方法。

xpath<-"//*[@id='填写目标id']/span[@id='细分标签的id']

目标id.node<-getNodeSet(url.html,xpath)

//表示任意个html嵌套标签

*表示任意个标签

/表示下一级,span则表示细分标签

如果要读取节点下表签内的内容,则使用xmlValue;xmlGetAttr则可以读取某个属性值

 

转载于:https://www.cnblogs.com/ubiwind/p/9883151.html

你可能感兴趣的文章
三个应用案例——大数据挖掘潜在的威胁
查看>>
GEF常见问题7:计算字符串在画布上占据的空间
查看>>
JS不忘本之JS类篇~类,方法,属性,子类,扩展方法在JS里的实现
查看>>
【JSP EL】el表达式判断是否为null
查看>>
java的nio之:java的nio系列教程之SocketChannel
查看>>
强化学习之 免模型学习(model-free based learning)
查看>>
SQLite3日期与时间,常见函数
查看>>
排班知识点
查看>>
用U盘安装Ubuntu系统
查看>>
ASP.NET Core学习之三 NLog日志
查看>>
计算机常用端口一览表
查看>>
态度以及业余付出决定程序生涯
查看>>
Datapump数据迁移的实践总结
查看>>
为什么要避免标题关键词重复?
查看>>
高性能--解决mysql连接和进程故障
查看>>
搜索引擎网页去重算法解析
查看>>
C++对象模型(虽然在GCC下很大的不同,但是先收藏)
查看>>
[20150314]256列.txt
查看>>
SAP QM Partial Lot
查看>>
[20151201]备份迁移sql profile.txt
查看>>