達步社群專業網站 達步社群 (Dabutek Community)

RSS

社區設施





快速搜尋
»
進階搜尋» 技術支援官網
   
 

Table of Contents [Hide/Show]


      背景介紹
      使用說明
      文章結論

作者: Tomex Ou
版本歷史:
2008/08/07 PM 11:42:26 以ASP.NET 3.5 + RegEx改版而成。

背景介紹

看到網站上的心動圖檔,會想批次下載嗎? 一般的web批次下載軟件(如Flashget, Orbit)需要輸入一定格式的網址格式,但網頁上的圖片來源卻是夾雜在混亂的html code中,甚至有些防下載的jscript設計。為了突破且快速得到這些圖片的網址,並依自己的需要格式作輸出,我寫了以下的圖片網址過濾工具:
Image

當時的過濾技術是使用字串substring分析html code,來搜尋的靈活度上並不是很好,現在則會利用Regular Expression技術來處理字串過濾的部分,甚至可利用其Names Group來產生替代巨集變數,更方便user自訂其輸出格式。
Image

使用說明

新版的工具程式可在下方網址試用: http://www.dabutek.com/WebRegexExtractor/Default.aspx

使用方法為:
  1. 圈選並複製ie視窗上的圖片區塊,貼到最上方HTML文字方塊內。
  2. 輸入.NET的Regular Expression語法,或者利用Regex範本來產生語法(標準html圖片src,及MSN Space圖片src格式過濾)。這部分可能需要一些RegEx的語法概念,你可參考這篇文章: The 30 Minute Regex Tutorial
  3. 多利用Named Group方式來作match查詢,即可在輸出FormatString內輸入該替代巨集變數。

文章結論

自訂化輸出這些圖片網址,就可以轉貼至一般web批次下載的工具,下載你想要的檔案列表。簡言之,這工具幫你從一大堆混洧、被保護的html code中,分析出你想要的格式字串,再經過自訂格式的輸出,得到你想要的網址字串。

ScrewTurn Wiki version 3.0.5.600. Some of the icons created by FamFamFam.