作者: Tomex Ou
版本歷史:
2008/08/07 PM 11:42:26 以ASP.NET 3.5 + RegEx改版而成。
背景介紹
看到網站上的心動圖檔,會想批次下載嗎? 一般的web批次下載軟件(如Flashget, Orbit)需要輸入一定格式的網址格式,但網頁上的圖片來源卻是夾雜在混亂的html code中,甚至有些防下載的jscript設計。為了突破且快速得到這些圖片的網址,並依自己的需要格式作輸出,我寫了以下的圖片網址過濾工具:

當時的過濾技術是使用字串substring分析html code,來搜尋的靈活度上並不是很好,現在則會利用Regular Expression技術來處理字串過濾的部分,甚至可利用其Names Group來產生替代巨集變數,更方便user自訂其輸出格式。

使用說明
新版的工具程式可在下方網址試用:
http://www.dabutek.com/WebRegexExtractor/Default.aspx使用方法為:
- 圈選並複製ie視窗上的圖片區塊,貼到最上方HTML文字方塊內。
- 輸入.NET的Regular Expression語法,或者利用Regex範本來產生語法(標準html圖片src,及MSN Space圖片src格式過濾)。這部分可能需要一些RegEx的語法概念,你可參考這篇文章: The 30 Minute Regex Tutorial
- 多利用Named Group方式來作match查詢,即可在輸出FormatString內輸入該替代巨集變數。
文章結論
自訂化輸出這些圖片網址,就可以轉貼至一般web批次下載的工具,下載你想要的檔案列表。簡言之,這工具幫你從一大堆混洧、被保護的html code中,分析出你想要的格式字串,再經過自訂格式的輸出,得到你想要的網址字串。