足球资料库数据/孙祥/nba五佳球/足球直播哪个平台好 - cctv5今日现场直播

首頁 > 知識庫 > 正文

雅虎開源解析HTML頁面數據的Web爬取工具Anthelion
2016-02-20 19:34:14   來源: 佚名 開源中國    評論:0 點擊:

12月14日,Yahoo宣布開源解析HTML頁面結構數據的Web爬取工具Anthelion。Web爬行工具是Yahoo很重要的核心,甚至超過了其他應用:Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr和Tumblr。Anthelion的代碼現在以Apache開源授權協議托管到GitHub:https: github com yahoo anthelion,包含Apache Nutch完整源代碼。

\

12月14日,Yahoo 宣布開源解析 HTML 頁面結構數據的 Web 爬取工具 Anthelion。Web 爬行工具是 Yahoo 很重要的核心,甚至超過了其他應用: Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr 和 Tumblr。

上一年在上海的一次會議中,Yahoo 也詳細提到了 Anthelion:“Anthelion 最初專注于語義數據,使用標記語言嵌入到 HTML 頁面,比如 Microdata,Microformat 或者 RDFa。”這次會議還提到了爬取技術是如何實現的,為什么能提供更高數量的特定搜索查詢相關的結果。

Microdata 和 RDFa 是結構數據關于不同主題的語法格式,兼容 schema.org 詞匯(一個 Google,Yahoo 和 Bing 搜索引擎都在研究的項目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代碼現在以 Apache 開源授權協議托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代碼。

Anthelion 可以根據設定目標爬取特定頁面,比如,包括標記描述影片和至少兩個不同屬性(比如電影標題和演員)。

via venturebeat.com

【編輯推薦】

  1. 微軟開源Windows Live Writer并更名為Open Live Writer
  2. Facebook開源AI所使用的硬件平臺Big Sur
  3. Windows Live Writer完成開源并推出開源分支
  4. 開源中國OSC源創會火熱開啟 點燃開發者的創業激情
  5. 另類開源工具:五套方案幫助你搞定音樂制作
【責任編輯:火鳳凰 TEL:(010)68476606】

相關熱詞搜索:雅虎 開源 工具

上一篇:運維人要理清運維產品的能力分層體系
下一篇:從QQ運維的歷史遺留問題看公司運維的進化過程

分享到: 收藏