2026-3-4 21:34:18 周三
  忘记密码
帐号
密码
  
首  页 | 文化新闻 | 出版社 | 发行单位 | 出版观澜 | 馆配 | 图书 | 音像 | 报刊 | 电子出版物 | 文化艺术品 | 诗意名城 | 一字千金
动  漫 | 休闲游戏 | 手机小说报 | 视 频 | 文交会 | 文化焦点 | 名家名作 | 我新我秀 | BBS | EMBA | 29中 | 总平台
  购买本书的顾客还买过  
《幼儿园活动教材配套磁带》(大班秋冬版)
《幼儿园活动教材配套磁带》(...
优+金卷三年级数学下(人民教育教材适用)
优+金卷三年级数学下(人民教...
影响阅读影响家长的101个经典家教案例
影响阅读影响家长的101个经...
朝花夕拾·呐喊
朝花夕拾·呐喊
学生常用词造句词典
学生常用词造句词典
小升初分班测试数学
小升初分班测试数学
  销售排行  
 高效能人士的七个习惯(金版)
 景观设计基础
 体育与健康(中职)
 给生命涂上爱的底色
 桥牌逻辑
 若纪若离:小土豆启示录
 中医症状治疗学
 实验诊断学彩色图谱——医学..
江苏发行网 >> 图书 >> 教育
WEB数据挖掘超文本数据的知识发现
WEB数据挖掘超文本数据的知识发现
商品编号:JSFXW20090909095851 版号:9787115194046
开    本:16开 印张:344 装帧:平装
版    次:2009-2-1 1版
发行单位:江苏发行网
出版单位:人民邮电出版社
著 作 者:(印)查凯莱巴蒂
商品数量:100本 被浏览273次  热卖中
商品折扣:8 折  赠送积分:0分  共节省11.80元
商品价格: ¥59.00元
¥47.20元
市场价 会员价


 推荐理由


本书是Web挖掘与搜索引擎领域的经典著作,自出版以来深受好评,已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题,并以此为基础,深入阐述了解决Web挖掘各种难题所涉及的机器学习技术,提出了机器学习在系统获取、存储和分析数据中的许多应用,并探讨了这些应用的优劣和发展前景。 全书分析透彻,富于前瞻性,为构建Web挖掘创新性应用奠定了理论和实践基础,既适用于信息检索和机器学习领域的研究人员和高校师生,也是广大Web开发人员的优秀参考书。
“本书深入揭示了搜索引擎的技术内幕!有了它,你甚至能够自己开发一个搜索引擎。”
——searchenginewatch.com网站
“本书系统、全面而且深入,广大Web技术开发人员都能很好地理解和掌握其中内容。作者是该研究领域的领军人物之一,在超文本信息挖掘和检索方面有着渊博的知识和独到的见解。”
——Joydeep Ghosh,得克萨斯大学奥斯汀分校教授,IEEE会士
“作者将该领域的所有重要工作融合到这部杰作中,并以一种通俗易懂的方式介绍了原本非常
深奥的内容。有了这本书,Web挖掘终于有可能成为大学的一门课程了。”
——Jaideep Srivastava,明尼苏达大学教授,IEEE会士
本书是Web挖掘与搜索引擎领域的经典著作,自出版以来深受好评,已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题,并以此为基础,深入阐述了解决Web挖掘各种难题所涉及的机器学习技术,提出了机器学习在系统获取、存储和分析数据中的许多应用,并探讨了这些应用的优劣和发展前景。
全书分析透彻,富于前瞻性,为构建Web挖掘创新性应用奠定了理论和实践基础,既适用于信息检索和机器学习领域的研究人员和高校师生,也是广大Web开发人员的优秀参考书。


内容简介


本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。


 本书作者


Soumen Chakrabarti,Web搜索与挖掘领域的知名专家,ACM Transactions on the Web副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBM Almaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。


目录


 1 INTRODUCTION
  1.1 Crawling and Indexing
  1.2 Topic Directories
  1.3 Clustering and Classification
  1.4 Hyperlink Analysis
  1.5 Resource Discovery and Vertical Portals
  1.6 Structured vs. Unstructured Data Mining
  1.7 Bibliographic Notes
PART Ⅰ INFRASTRUCTURE
 2  CRAWLING THE WEB
  2.1 HTML and HTTP Basics
  2.2 Crawling Basics
  2.3 Engineering Large-Scale Crawlers
   2.3.1 DNS Caching, Prefetching, and Resolution
   2.3.2 Multiple Concurrent Fetches
   2.3.3 Link Extraction and Normalization
   2.3.4 Robot Exclusion
   2.3.5 Eliminating Already-Visited URLs
   2.3.6 Spider Traps
   2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages
   2.3.8 Load Monitor and Manager
   2.3.9 Per-Server Work-Queues
   2.3.10 Text Repository
   2.3.11 Refreshing Crawled Pages
  2.4 Putting Together a Crawler
   2.4.1 Design of the Core Components
   2.4.2 Case Study: Using w3c-libwww
  2.5 Bibliographic Notes
3 WEB SEARCH AND INFORMATION RETRIEVAL
  3.1 Boolean Queries and the Inverted Index
   3.1.1 Stopwords and Stemming
   3.1.2 Batch Indexing and Updates
   3.1.3 Index Compression Techniques
  3.2 Relevance Ranking
   3.2.1 Recall and Precision
3.2.2 The Vector-Space Model 
  3.2.3 Relevance Feedback and Rocchio?s Method  
   3.2.4 Probabilistic Relevance Feedback Models
   3.2.5 Advanced Issues 
  3.3 Similarity Search 
   3.3.1 Handling òFind-Similaró Queries 
   3.3.2 Eliminating Near Duplicates via Shingling 
   3.3.3 Detecting Locally Similar Subgraphs of the Web 
  3.4 Bibliographic Notes 
PART Ⅱ LEARNING
PART Ⅲ APPLICATIONS
References
Index

星级指数: ☆☆ ☆☆☆ ☆☆☆☆ ☆☆☆☆☆
标    题:
内    容:
 
配送范围 如何交款 我的订单 售后服务 需要帮助
运费收取标准
■ 配送时间和配送范围
付款方式
■ 汇款单招领
如何查询订单情况
■ 怎样下订单
■ 退换货原则
■ 退换货处理
忘记了密码
 
关于我们 | 友情链接 | 网站地图 | 汇款方式 | 帮助中心 | 合同下载
在线客服:江苏发行网温馨客服二 江苏发行网温馨客服四
中华人民共和国增值电信业务经营许可证号:苏B2-20100342 备案号:苏ICP备10223332号-2
网站服务电话:025-51861377 发行协会电话:025-83361842 服务邮箱:admin@jsfxw.com
版权所有 上书房 法律顾问团:鲍平 律师、邱宝军 律师