当当页面数据抓取备案 - - ITeye博客

`

benni82

浏览: 122398 次
性别:
来自: 杭州

最近访客更多访客>>

zhaodengfeng1989

BobWaters

chappie

qifleaf

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lingqi1818： <New class="org.ecl ...
贪吃的jetty被撑死了
luyee2010：话说这个帖子好老，看了下3.5.9发现已经是JUC的Concu ...
关于NIO的讨论
ahgf： "之后去了Jboss",Trustin L ...
关于NIO的讨论

当当页面数据抓取备案

博客分类：

MetaStudio
excel宏
DataScraper

阅读更多

1.使用MetaStudio和DataScraper工具抓取当当图书畅销版内数据（书名，作者，出版社等）

工具下载地址 http://www.gooseeker.com/cn/node/download/front 按说明文档定制脚本

2. 抓取的数据为xml文件格式，每个xml文件对应一张页面的数据

3. 需要将所有xml文件合并成一个excel文件

使用宏

Sub xml2excel()
    Dim oxmlDoc As DOMDocument
    Dim Node As IXMLDOMNode
    Dim oXmlNodes As IXMLDOMNodeList
    Set oxmlDoc = New DOMDocument
    oxmlDoc.async = False
    'Rows("1:1").Select
    m = Dir(ThisWorkbook.Path & "\*.xml")
    Do While m <> ""
        oxmlDoc.Load ThisWorkbook.Path & "\" & m
        Set oXmlNodes = oxmlDoc.SelectNodes("/extraction/新书热卖榜/item")
        For j = 0 To oXmlNodes.Length - 1
           j2 = Range("a65536").End(xlUp).Row + 1
           For i = 0 To oXmlNodes(j).ChildNodes.Length - 1
              Cells(j2, i + 1) = oXmlNodes(j).ChildNodes(i).Text
           Next
        Next
        m = Dir
    Loop
            For i = 0 To oXmlNodes(0).ChildNodes.Length - 1
            Cells(1, i + 1) = oXmlNodes(0).ChildNodes(i).nodeName
            Next
End Sub

需要依赖Microsoft XML, 否则回报“用户自定义未找到”错误。

通过vba 工具--引入选项完成依赖。

分享到：

几个btrace例子 | commons compress 创建 tar.gz

2012-04-09 17:21
浏览 1579
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

当当购物车页面_当当购物车页面_html网页购物车_js当当购物车_: 当当购物车页面123123123651328156545156412354561654156

当当网数据（1.1G)快速检索: 使用QT做界面，采用索引文件技术，实现当当网数据（1.1G)快速检索。具体可见本人博客

京东卓越当当图书信息抓取工具: 本人自己用C#开发的，用于抓取京东当当卓越的图书信息。用于交流和研究，保证代码能够运行。

当当网页面源码: 这是我自己写的当当网页面代码，里面是我自己设计的，希望能帮到大家！

Jquery练习1：制作简易的当当购物车页面.zip: Jquery练习1：制作简易的当当购物车页面.zip

当当网注册页面网页作品: 学习作品《当当网注册页面》帮助页面，北大青鸟项目实战2

《初识HTML5—当当网图书分类页面》上机作业.rar_html作业当当_当当htmlcss_当当网_当当网html_当当网图书: 这是一个当当网主页的HTML+CSS代码实现，希望对大家有用

练习2：访问当当购物车页面节点: 北大青鸟，accp8.0,练习2：访问当当购物车页面节点。..

作业：完善当当购物车页面.zip_js_mud6y7_site:www.pudn.com_完善当当网页_完善当当购物: 新的文化文化部vwasxwerhrd撒擦SaaS

仿当当网页面: 仿当当网页面；很好的帮助文档，希望你喜欢！

一个简单的当当网购物车页面，可以实现简单购物: 一个简单的当当网购物车页面，可以实现简单购物

2011最新当当网aspx页面: 2011最新当当网aspx页面2011最新当当网aspx页面2011最新当当网aspx页面2011最新当当网aspx页面

html+css静态页面当当网案例: 非常经典的静态页面案例html代码和css代码很完整

当当网书籍数据可视化分析数据集: 当当网书籍数据可视化分析数据集是一个包含大量书籍信息的综合性数据集，旨在通过数据可视化技术将复杂的书籍数据转化为直观、易理解的图形和图像。这样的数据集对于图书行业从业者、市场分析师以及数据科学家来说，...

当当网条件筛选页面: 当当网条件筛选,展示页面 http://www.lanrenzhijia.com/famous/3572.html

javaweb开发实例当当网: javaweb开发，当当网，包含数据，可供学习使用。

当当网源代码: 用Asp.NetWeb编写的当当网源代码

基于python的当当网数据爬虫系统，有完整项目文档，非常详细: 使用python语言及第三方库，分析当当网的反爬机制，编写对应的请求页面数据策略，获取页面数据并分析数据，定位需要的数据标签，保存数据到文件中。读取文件数据并清洗，之后对数据进行可视化，生成图标进行需要分析...

大数据挖掘分析与管理—个性化精准营销方面的探索当当在个性化推荐&精准营销方面的探索共25页.pdf: 大数据挖掘分析与管理—个性化精准营销方面的探索当当在个性化推荐&精准营销方面的探索

Java 实现当当泄露数据快速检索: 采用索引技术，对当当网泄露的1.1G数据实现快速检索，具体可见本人的博客。

Global site tag (gtag.js) - Google Analytics