- Scheduler - us.codecraft.webmagic.scheduler中的接口
-
Scheduler is the part of url management.
- scheduler - 类 中的变量us.codecraft.webmagic.Spider
-
- scheduler(Scheduler) - 类 中的方法us.codecraft.webmagic.Spider
-
set scheduler for Spider
- select(Selector, List<String>) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
-
- select(Selector) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
-
- select(String) - 类 中的方法us.codecraft.webmagic.selector.AndSelector
-
- select(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
-
- select(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
-
- select(Element) - 接口 中的方法us.codecraft.webmagic.selector.ElementSelector
-
Extract single result in text.
- select(Selector) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
-
- select(String) - 类 中的方法us.codecraft.webmagic.selector.JsonPathSelector
-
- select(String) - 类 中的方法us.codecraft.webmagic.selector.OrSelector
-
- select(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
-
- select(String) - 类 中的方法us.codecraft.webmagic.selector.ReplaceSelector
-
- select(Selector) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
-
extract by custom selector
- select(String) - 接口 中的方法us.codecraft.webmagic.selector.Selector
-
Extract single result in text.
- select(String) - 类 中的方法us.codecraft.webmagic.selector.SmartContentSelector
-
- select(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
-
- Selectable - us.codecraft.webmagic.selector中的接口
-
Selectable text.
- selectDocument(Selector) - 类 中的方法us.codecraft.webmagic.selector.Html
-
- selectDocumentForList(Selector) - 类 中的方法us.codecraft.webmagic.selector.Html
-
- selectElement(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
-
- selectElement(Element) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
-
- selectElement(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
-
- selectElement(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
-
- selectElements(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
-
- selectElements(Element) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
-
- selectElements(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
-
- selectElements(BaseElementSelector) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
-
select elements
- selectElements(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
-
- selectGroup(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
-
- selectGroupList(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
-
- selectList(Selector, List<String>) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
-
- selectList(Selector) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
-
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.AndSelector
-
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
-
- selectList(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
-
- selectList(Element) - 接口 中的方法us.codecraft.webmagic.selector.ElementSelector
-
Extract all results in text.
- selectList(Selector) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
-
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.JsonPathSelector
-
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.OrSelector
-
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
-
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.ReplaceSelector
-
- selectList(Selector) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
-
extract by custom selector
- selectList(String) - 接口 中的方法us.codecraft.webmagic.selector.Selector
-
Extract all results in text.
- selectList(String) - 类 中的方法us.codecraft.webmagic.selector.SmartContentSelector
-
- selectList(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
-
- Selector - us.codecraft.webmagic.selector中的接口
-
Selector(extractor) for text.
- Selectors - us.codecraft.webmagic.selector中的类
-
Convenient methods for selectors.
- Selectors() - 类 的构造器us.codecraft.webmagic.selector.Selectors
-
- selectRequestMethod(Request) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
-
- setAcceptStatCode(Set<Integer>) - 类 中的方法us.codecraft.webmagic.Site
-
Set acceptStatCode.
- setCharset(String) - 类 中的方法us.codecraft.webmagic.Site
-
Set charset of page manually.
- setCycleRetryTimes(int) - 类 中的方法us.codecraft.webmagic.Site
-
Set cycleRetryTimes times when download fail, 0 by default.
- setDomain(String) - 类 中的方法us.codecraft.webmagic.Site
-
set the domain of site.
- setDownloader(Downloader) - 类 中的方法us.codecraft.webmagic.Spider
-
set the downloader of spider
- setDuplicateRemover(DuplicateRemover) - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
-
- setEmptySleepTime(int) - 类 中的方法us.codecraft.webmagic.Spider
-
Set wait time when no url is polled.
- setExecutorService(ExecutorService) - 类 中的方法us.codecraft.webmagic.Spider
-
- setExecutorService(ExecutorService) - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
-
- setExitWhenComplete(boolean) - 类 中的方法us.codecraft.webmagic.Spider
-
Exit when complete.
- setExtras(Map<String, Object>) - 类 中的方法us.codecraft.webmagic.Request
-
- setFailedErrorType(List<Integer>) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
-
- setFailedNum(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
-
- setHtml(Html) - 类 中的方法us.codecraft.webmagic.Page
-
- setHttpProxy(HttpHost) - 类 中的方法us.codecraft.webmagic.Site
-
set up httpProxy for this site
- setHttpProxyPool(List<String[]>) - 类 中的方法us.codecraft.webmagic.Site
-
Set httpProxyPool, String[0]:ip, String[1]:port
- setLastBorrowTime(Long) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
-
- setMethod(String) - 类 中的方法us.codecraft.webmagic.Request
-
- setNeedCycleRetry(boolean) - 类 中的方法us.codecraft.webmagic.Page
-
- setPath(String) - 类 中的方法us.codecraft.webmagic.utils.FilePersistentBase
-
- setPipelines(List<Pipeline>) - 类 中的方法us.codecraft.webmagic.Spider
-
set pipelines for Spider
- setPoolSize(int) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientGenerator
-
- setPriority(long) - 类 中的方法us.codecraft.webmagic.Request
-
Set the priority of request for sorting.
- setProxyFilePath(String) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
-
- setProxyReuseInterval(int) - 类 中的方法us.codecraft.webmagic.Site
-
- setRawText(String) - 类 中的方法us.codecraft.webmagic.Page
-
- setRequest(Request) - 类 中的方法us.codecraft.webmagic.Page
-
- setRequest(Request) - 类 中的方法us.codecraft.webmagic.ResultItems
-
- setRetrySleepTime(int) - 类 中的方法us.codecraft.webmagic.Site
-
Set retry sleep times when download fail, 1000 by default.
- setRetryTimes(int) - 类 中的方法us.codecraft.webmagic.Site
-
Set retry times when download fail, 0 by default.
- setReuseInterval(int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
-
- setReuseTimeInterval(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
-
- setReviveTime(int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
-
- setSaveProxyInterval(int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
-
- setScheduler(Scheduler) - 类 中的方法us.codecraft.webmagic.Spider
-
set scheduler for Spider
- setSkip(boolean) - 类 中的方法us.codecraft.webmagic.Page
-
- setSkip(boolean) - 类 中的方法us.codecraft.webmagic.ResultItems
-
Set whether to skip the result.
- setSleepTime(int) - 类 中的方法us.codecraft.webmagic.Site
-
Set the interval between the processing of two pages.
- setSpawnUrl(boolean) - 类 中的方法us.codecraft.webmagic.Spider
-
Whether add urls extracted to download.
- setSpiderListeners(List<SpiderListener>) - 类 中的方法us.codecraft.webmagic.Spider
-
- setStatusCode(int) - 类 中的方法us.codecraft.webmagic.Page
-
- setThread(int) - 接口 中的方法us.codecraft.webmagic.downloader.Downloader
-
Tell the downloader how many threads the spider used.
- setThread(int) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
-
- setTimeOut(int) - 类 中的方法us.codecraft.webmagic.Site
-
set timeout for downloader in ms
- setUrl(Selectable) - 类 中的方法us.codecraft.webmagic.Page
-
- setUrl(String) - 类 中的方法us.codecraft.webmagic.Request
-
- setUseGzip(boolean) - 类 中的方法us.codecraft.webmagic.Site
-
Whether use gzip.
- setUserAgent(String) - 类 中的方法us.codecraft.webmagic.Site
-
set user agent
- setUUID(String) - 类 中的方法us.codecraft.webmagic.Spider
-
Set an uuid for spider.
- shouldReserved(Request) - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
-
- shutdown() - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
-
- SimplePageProcessor - us.codecraft.webmagic.processor中的类
-
A simple PageProcessor.
- SimplePageProcessor(String, String) - 类 的构造器us.codecraft.webmagic.processor.SimplePageProcessor
-
- Site - us.codecraft.webmagic中的类
-
Object contains setting for crawler.
- Site() - 类 的构造器us.codecraft.webmagic.Site
-
- site - 类 中的变量us.codecraft.webmagic.Spider
-
- Site.HeaderConst - us.codecraft.webmagic中的接口
-
已过时。
- sleep(int) - 类 中的方法us.codecraft.webmagic.Spider
-
- smartContent() - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
-
- smartContent() - 类 中的方法us.codecraft.webmagic.selector.PlainText
-
- smartContent() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
-
select smart content with ReadAbility algorithm
- smartContent() - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
-
- SmartContentSelector - us.codecraft.webmagic.selector中的类
-
Borrowed from https://code.google.com/p/cx-extractor/
- SmartContentSelector() - 类 的构造器us.codecraft.webmagic.selector.SmartContentSelector
-
- sourceTexts - 类 中的变量us.codecraft.webmagic.selector.PlainText
-
- spawnUrl - 类 中的变量us.codecraft.webmagic.Spider
-
- Spider - us.codecraft.webmagic中的类
-
Entrance of a crawler.
- Spider(PageProcessor) - 类 的构造器us.codecraft.webmagic.Spider
-
create a spider with pageProcessor.
- Spider.Status - us.codecraft.webmagic中的枚举
-
- SpiderListener - us.codecraft.webmagic中的接口
-
Listener of Spider on page processing.
- start() - 类 中的方法us.codecraft.webmagic.Spider
-
- startRequest(List<Request>) - 类 中的方法us.codecraft.webmagic.Spider
-
Set startUrls of Spider.
- startRequests - 类 中的变量us.codecraft.webmagic.Spider
-
- startUrls(List<String>) - 类 中的方法us.codecraft.webmagic.Spider
-
Set startUrls of Spider.
- stat - 类 中的变量us.codecraft.webmagic.Spider
-
- STAT_INIT - 类 中的静态变量us.codecraft.webmagic.Spider
-
- STAT_RUNNING - 类 中的静态变量us.codecraft.webmagic.Spider
-
- STAT_STOPPED - 类 中的静态变量us.codecraft.webmagic.Spider
-
- STATUS_CODE - 类 中的静态变量us.codecraft.webmagic.Request
-
- statusAccept(Set<Integer>, int) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
-
- stop() - 类 中的方法us.codecraft.webmagic.Spider
-
- SUCCESS - 类 中的静态变量us.codecraft.webmagic.proxy.Proxy
-
- successNumIncrement(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
-