$ A B C D E F G H I J L M N O P Q R S T U V X 

$

$(String) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
$(String, String) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
$(String) - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
$(String, String) - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
$(String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with css selector
$(String, String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with css selector
$(String) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
$(String, String) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 

A

AbstractDownloader - us.codecraft.webmagic.downloader中的类
Base class of downloader with some common methods.
AbstractDownloader() - 类 的构造器us.codecraft.webmagic.downloader.AbstractDownloader
 
AbstractSelectable - us.codecraft.webmagic.selector中的类
 
AbstractSelectable() - 类 的构造器us.codecraft.webmagic.selector.AbstractSelectable
 
addCookie(String, String) - 类 中的方法us.codecraft.webmagic.Site
Add a cookie with domain Site.getDomain()
addCookie(String, String, String) - 类 中的方法us.codecraft.webmagic.Site
Add a cookie with specific domain.
addHeader(String, String) - 类 中的方法us.codecraft.webmagic.Site
Put an Http header for downloader.
addPipeline(Pipeline) - 类 中的方法us.codecraft.webmagic.Spider
add a pipeline for Spider
addProxy(String[]...) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
addRequest(Request...) - 类 中的方法us.codecraft.webmagic.Spider
Add urls with information to crawl.
addStartRequest(Request) - 类 中的方法us.codecraft.webmagic.Site
已过时。 
addStartUrl(String) - 类 中的方法us.codecraft.webmagic.Site
已过时。 
addTargetRequest(String) - 类 中的方法us.codecraft.webmagic.Page
add url to fetch
addTargetRequest(Request) - 类 中的方法us.codecraft.webmagic.Page
add requests to fetch
addTargetRequests(List<String>) - 类 中的方法us.codecraft.webmagic.Page
add urls to fetch
addTargetRequests(List<String>, long) - 类 中的方法us.codecraft.webmagic.Page
add urls to fetch
addToCycleRetry(Request, Site) - 类 中的方法us.codecraft.webmagic.downloader.AbstractDownloader
 
addUrl(String...) - 类 中的方法us.codecraft.webmagic.Spider
Add urls to crawl.
all() - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
all() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
multi string result
allProxyStatus() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
and(Selector...) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
AndSelector - us.codecraft.webmagic.selector中的类
All selectors will be arranged as a pipeline.
AndSelector(Selector...) - 类 的构造器us.codecraft.webmagic.selector.AndSelector
 
AndSelector(List<Selector>) - 类 的构造器us.codecraft.webmagic.selector.AndSelector
 

B

BaiduBaikePageProcessor - us.codecraft.webmagic.processor.example中的类
 
BaiduBaikePageProcessor() - 类 的构造器us.codecraft.webmagic.processor.example.BaiduBaikePageProcessor
 
BaseElementSelector - us.codecraft.webmagic.selector中的类
 
BaseElementSelector() - 类 的构造器us.codecraft.webmagic.selector.BaseElementSelector
 
BloomFilterDuplicateRemover - us.codecraft.webmagic.scheduler.component中的类
BloomFilterDuplicateRemover for huge number of urls.
BloomFilterDuplicateRemover(int) - 类 的构造器us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
BloomFilterDuplicateRemover(int, double) - 类 的构造器us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
borrowNumIncrement(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 

C

canonicalizeUrl(String, String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
canonicalizeUrl
Borrowed from Jsoup.
checkAndMakeParentDirecotry(String) - 类 中的方法us.codecraft.webmagic.utils.FilePersistentBase
 
checkIfRunning() - 类 中的方法us.codecraft.webmagic.Spider
 
clearPipeline() - 类 中的方法us.codecraft.webmagic.Spider
clear the pipelines set
close() - 类 中的方法us.codecraft.webmagic.Spider
 
CollectorPipeline<T> - us.codecraft.webmagic.pipeline中的接口
Pipeline that can collect and store results.
compareLong(long, long) - 类 中的静态方法us.codecraft.webmagic.utils.NumberUtils
 
compareTo(Delayed) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
CONNECT - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 
ConsolePipeline - us.codecraft.webmagic.pipeline中的类
Write results in console.
ConsolePipeline() - 类 的构造器us.codecraft.webmagic.pipeline.ConsolePipeline
 
convertToRequests(Collection<String>) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
convertToUrls(Collection<Request>) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
CountableThreadPool - us.codecraft.webmagic.thread中的类
Thread pool for workers.
CountableThreadPool(int) - 类 的构造器us.codecraft.webmagic.thread.CountableThreadPool
 
CountableThreadPool(int, ExecutorService) - 类 的构造器us.codecraft.webmagic.thread.CountableThreadPool
 
create(String) - 类 中的静态方法us.codecraft.webmagic.selector.Html
 
create(String) - 类 中的静态方法us.codecraft.webmagic.selector.PlainText
 
create(PageProcessor) - 类 中的静态方法us.codecraft.webmagic.Spider
create a spider with pageProcessor.
css(String) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
css(String, String) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
css(String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with css selector
css(String, String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with css selector
CssSelector - us.codecraft.webmagic.selector中的类
CSS selector.
CssSelector(String) - 类 的构造器us.codecraft.webmagic.selector.CssSelector
 
CssSelector(String, String) - 类 的构造器us.codecraft.webmagic.selector.CssSelector
 
CYCLE_TRIED_TIMES - 类 中的静态变量us.codecraft.webmagic.Request
 

D

DELETE - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 
destroyWhenExit - 类 中的变量us.codecraft.webmagic.Spider
 
DISABLE_HTML_ENTITY_ESCAPE - 类 中的静态变量us.codecraft.webmagic.selector.Html
Disable jsoup html entity escape.
download(String) - 类 中的方法us.codecraft.webmagic.downloader.AbstractDownloader
A simple method to download a url.
download(String, String) - 类 中的方法us.codecraft.webmagic.downloader.AbstractDownloader
A simple method to download a url.
download(Request, Task) - 接口 中的方法us.codecraft.webmagic.downloader.Downloader
Downloads web pages and store in Page object.
download(Request, Task) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
Downloader - us.codecraft.webmagic.downloader中的接口
Downloader is the part that downloads web pages and store in Page object.
downloader - 类 中的变量us.codecraft.webmagic.Spider
 
downloader(Downloader) - 类 中的方法us.codecraft.webmagic.Spider
已过时。 
DuplicateRemovedScheduler - us.codecraft.webmagic.scheduler中的类
Remove duplicate urls and only push urls which are not duplicate.
DuplicateRemovedScheduler() - 类 的构造器us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
DuplicateRemover - us.codecraft.webmagic.scheduler.component中的接口
Remove duplicate requests.

E

ElementSelector - us.codecraft.webmagic.selector中的接口
Selector(extractor) for html elements.
enable(boolean) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
enableHttpProxyPool() - 类 中的方法us.codecraft.webmagic.Site
 
encodeIllegalCharacterInUrl(String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
equals(Object) - 类 中的方法us.codecraft.webmagic.Request
 
equals(Object) - 类 中的方法us.codecraft.webmagic.Site
 
ERROR_403 - 类 中的静态变量us.codecraft.webmagic.proxy.Proxy
 
ERROR_404 - 类 中的静态变量us.codecraft.webmagic.proxy.Proxy
 
ERROR_BANNED - 类 中的静态变量us.codecraft.webmagic.proxy.Proxy
 
ERROR_Proxy - 类 中的静态变量us.codecraft.webmagic.proxy.Proxy
 
execute(Runnable) - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
 
executorService - 类 中的变量us.codecraft.webmagic.Spider
 
exitWhenComplete - 类 中的变量us.codecraft.webmagic.Spider
 
Experimental - us.codecraft.webmagic.utils中的注释类型
Stands for features unstable.
extractAndAddRequests(Page, boolean) - 类 中的方法us.codecraft.webmagic.Spider
 

F

fail(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
FilePersistentBase - us.codecraft.webmagic.utils中的类
Base object of file persistence.
FilePersistentBase() - 类 的构造器us.codecraft.webmagic.utils.FilePersistentBase
 
FilePipeline - us.codecraft.webmagic.pipeline中的类
Store results in files.
FilePipeline() - 类 的构造器us.codecraft.webmagic.pipeline.FilePipeline
create a FilePipeline with default path"/data/webmagic/"
FilePipeline(String) - 类 的构造器us.codecraft.webmagic.pipeline.FilePipeline
 
fixAllRelativeHrefs(String, String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
fromValue(int) - 枚举 中的静态方法us.codecraft.webmagic.Spider.Status
 

G

get(String) - 类 中的方法us.codecraft.webmagic.ResultItems
 
get() - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
get() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
single string result
get(String) - 类 中的方法us.codecraft.webmagic.Spider
 
GET - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 
getAcceptStatCode() - 类 中的方法us.codecraft.webmagic.Site
get acceptStatCode
getAll() - 类 中的方法us.codecraft.webmagic.ResultItems
 
getAll(Collection<String>) - 类 中的方法us.codecraft.webmagic.Spider
Download urls synchronizing.
getAllCookies() - 类 中的方法us.codecraft.webmagic.Site
get cookies of all domains
getBorrowNum() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getCharset() - 类 中的方法us.codecraft.webmagic.Site
get charset set manually
getCharset(String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
getClient(Site) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientGenerator
 
getCollected() - 接口 中的方法us.codecraft.webmagic.pipeline.CollectorPipeline
Get all results collected.
getCollected() - 类 中的方法us.codecraft.webmagic.pipeline.ResultItemsCollectorPipeline
 
getCollectorPipeline() - 类 中的方法us.codecraft.webmagic.Spider
 
getContent(String, HttpResponse) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
getCookies() - 类 中的方法us.codecraft.webmagic.Site
get cookies
getCycleRetryTimes() - 类 中的方法us.codecraft.webmagic.Site
When cycleRetryTimes is more than 0, it will add back to scheduler and try download again.
getDelay(TimeUnit) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getDocument() - 类 中的方法us.codecraft.webmagic.selector.Html
 
getDomain() - 类 中的方法us.codecraft.webmagic.Site
get domain
getDomain(String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
getDuplicateRemover() - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
getElements() - 类 中的方法us.codecraft.webmagic.selector.Html
 
getElements() - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
getExtra(String) - 类 中的方法us.codecraft.webmagic.Request
 
getExtras() - 类 中的方法us.codecraft.webmagic.Request
 
getFailedErrorType() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getFailedNum() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getFailedType() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getFile(String) - 类 中的方法us.codecraft.webmagic.utils.FilePersistentBase
 
getFirstSourceText() - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
getHeaders() - 类 中的方法us.codecraft.webmagic.Site
 
getHost(String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
getHtml() - 类 中的方法us.codecraft.webmagic.Page
get html content of page
getHtmlCharset(HttpResponse, byte[]) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
getHttpHost() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getHttpProxy() - 类 中的方法us.codecraft.webmagic.Site
 
getHttpProxyFromPool() - 类 中的方法us.codecraft.webmagic.Site
 
getHttpProxyPool() - 类 中的方法us.codecraft.webmagic.Site
 
getHttpUriRequest(Request, Site, Map<String, String>) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
getIdleNum() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
getJson() - 类 中的方法us.codecraft.webmagic.Page
get json content of page
getLastUseTime() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getLeftRequestsCount(Task) - 接口 中的方法us.codecraft.webmagic.scheduler.MonitorableScheduler
 
getLeftRequestsCount(Task) - 类 中的方法us.codecraft.webmagic.scheduler.PriorityScheduler
 
getLeftRequestsCount(Task) - 类 中的方法us.codecraft.webmagic.scheduler.QueueScheduler
 
getMethod() - 类 中的方法us.codecraft.webmagic.Request
The http method of the request.
getPageCount() - 类 中的方法us.codecraft.webmagic.Spider
Get page count downloaded by spider.
getPath() - 类 中的方法us.codecraft.webmagic.utils.FilePersistentBase
 
getPriority() - 类 中的方法us.codecraft.webmagic.Request
 
getProxy() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
getProxyFilePath() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
getRawText() - 类 中的方法us.codecraft.webmagic.Page
 
getRequest() - 类 中的方法us.codecraft.webmagic.Page
get request of current page
getRequest() - 类 中的方法us.codecraft.webmagic.ResultItems
 
getResultItems() - 类 中的方法us.codecraft.webmagic.Page
 
getRetrySleepTime() - 类 中的方法us.codecraft.webmagic.Site
 
getRetryTimes() - 类 中的方法us.codecraft.webmagic.Site
Get retry times immediately when download fail, 0 by default.
getReuseInterval() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
getReuseTimeInterval() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getReviveTime() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
getSaveProxyInterval() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
getScheduler() - 类 中的方法us.codecraft.webmagic.Spider
 
getSite() - 类 中的方法us.codecraft.webmagic.processor.example.BaiduBaikePageProcessor
 
getSite() - 类 中的方法us.codecraft.webmagic.processor.example.GithubRepoPageProcessor
 
getSite() - 类 中的方法us.codecraft.webmagic.processor.example.OschinaBlogPageProcessor
 
getSite() - 接口 中的方法us.codecraft.webmagic.processor.PageProcessor
get the site settings
getSite() - 类 中的方法us.codecraft.webmagic.processor.SimplePageProcessor
 
getSite() - 类 中的方法us.codecraft.webmagic.Spider
 
getSite() - 接口 中的方法us.codecraft.webmagic.Task
site of a task
getSleepTime() - 类 中的方法us.codecraft.webmagic.Site
Get the interval between the processing of two pages.
getSourceTexts() - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
getSourceTexts() - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
getSourceTexts() - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
getSpiderListeners() - 类 中的方法us.codecraft.webmagic.Spider
 
getStartRequests() - 类 中的方法us.codecraft.webmagic.Site
 
getStartTime() - 类 中的方法us.codecraft.webmagic.Spider
 
getStartUrls() - 类 中的方法us.codecraft.webmagic.Site
已过时。 
getStatus() - 类 中的方法us.codecraft.webmagic.Spider
Get running status by spider.
getStatusCode() - 类 中的方法us.codecraft.webmagic.Page
 
getSuccessNum() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
getTargetRequests() - 类 中的方法us.codecraft.webmagic.Page
 
getText(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
 
getThreadAlive() - 类 中的方法us.codecraft.webmagic.Spider
Get thread count which is running
getThreadAlive() - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
 
getThreadNum() - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
 
getTimeOut() - 类 中的方法us.codecraft.webmagic.Site
 
getTotalRequestsCount(Task) - 类 中的方法us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
getTotalRequestsCount(Task) - 接口 中的方法us.codecraft.webmagic.scheduler.component.DuplicateRemover
Get TotalRequestsCount for monitor.
getTotalRequestsCount(Task) - 类 中的方法us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover
 
getTotalRequestsCount(Task) - 接口 中的方法us.codecraft.webmagic.scheduler.MonitorableScheduler
 
getTotalRequestsCount(Task) - 类 中的方法us.codecraft.webmagic.scheduler.PriorityScheduler
 
getTotalRequestsCount(Task) - 类 中的方法us.codecraft.webmagic.scheduler.QueueScheduler
 
getUrl() - 类 中的方法us.codecraft.webmagic.Page
get url of current page
getUrl() - 类 中的方法us.codecraft.webmagic.Request
 
getUrl(Request) - 类 中的方法us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
getUrl(Request) - 类 中的方法us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover
 
getUserAgent() - 类 中的方法us.codecraft.webmagic.Site
get user agent
getUUID() - 类 中的方法us.codecraft.webmagic.Spider
 
getUUID() - 接口 中的方法us.codecraft.webmagic.Task
unique id for a task.
GithubRepoPageProcessor - us.codecraft.webmagic.processor.example中的类
 
GithubRepoPageProcessor() - 类 的构造器us.codecraft.webmagic.processor.example.GithubRepoPageProcessor
 

H

handleResponse(Request, String, HttpResponse, Task) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
hasAttribute() - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
hasAttribute() - 类 中的方法us.codecraft.webmagic.selector.CssSelector
 
hasAttribute() - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
 
hashCode() - 类 中的方法us.codecraft.webmagic.Request
 
hashCode() - 类 中的方法us.codecraft.webmagic.Site
 
HashSetDuplicateRemover - us.codecraft.webmagic.scheduler.component中的类
 
HashSetDuplicateRemover() - 类 的构造器us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover
 
HEAD - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 
Html - us.codecraft.webmagic.selector中的类
Selectable html.
Html(String) - 类 的构造器us.codecraft.webmagic.selector.Html
 
Html(Document) - 类 的构造器us.codecraft.webmagic.selector.Html
 
HtmlNode - us.codecraft.webmagic.selector中的类
 
HtmlNode(List<Element>) - 类 的构造器us.codecraft.webmagic.selector.HtmlNode
 
HtmlNode() - 类 的构造器us.codecraft.webmagic.selector.HtmlNode
 
HttpClientDownloader - us.codecraft.webmagic.downloader中的类
The http downloader based on HttpClient.
HttpClientDownloader() - 类 的构造器us.codecraft.webmagic.downloader.HttpClientDownloader
 
HttpClientGenerator - us.codecraft.webmagic.downloader中的类
 
HttpClientGenerator() - 类 的构造器us.codecraft.webmagic.downloader.HttpClientGenerator
 
HttpConstant - us.codecraft.webmagic.utils中的类
Some constants of Http protocal.
HttpConstant() - 类 的构造器us.codecraft.webmagic.utils.HttpConstant
 
HttpConstant.Header - us.codecraft.webmagic.utils中的类
 
HttpConstant.Header() - 类 的构造器us.codecraft.webmagic.utils.HttpConstant.Header
 
HttpConstant.Method - us.codecraft.webmagic.utils中的类
 
HttpConstant.Method() - 类 的构造器us.codecraft.webmagic.utils.HttpConstant.Method
 

I

initComponent() - 类 中的方法us.codecraft.webmagic.Spider
 
INITIAL_CAPACITY - 类 中的静态变量us.codecraft.webmagic.scheduler.PriorityScheduler
 
isDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
isDuplicate(Request, Task) - 接口 中的方法us.codecraft.webmagic.scheduler.component.DuplicateRemover
Check whether the request is duplicate.
isDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover
 
isEnable() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
isExitWhenComplete() - 类 中的方法us.codecraft.webmagic.Spider
 
isNeedCycleRetry() - 类 中的方法us.codecraft.webmagic.Page
 
isShutdown() - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
 
isSkip() - 类 中的方法us.codecraft.webmagic.ResultItems
Whether to skip the result.
isSpawnUrl() - 类 中的方法us.codecraft.webmagic.Spider
 
isUseGzip() - 类 中的方法us.codecraft.webmagic.Site
 
isValidateWhenInit() - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 

J

Json - us.codecraft.webmagic.selector中的类
parse json
Json(List<String>) - 类 的构造器us.codecraft.webmagic.selector.Json
 
Json(String) - 类 的构造器us.codecraft.webmagic.selector.Json
 
jsonPath(String) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
jsonPath(String) - 类 中的方法us.codecraft.webmagic.selector.Json
 
jsonPath(String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
extract by JSON Path expression
JsonPathSelector - us.codecraft.webmagic.selector中的类
JsonPath selector.
JsonPathSelector(String) - 类 的构造器us.codecraft.webmagic.selector.JsonPathSelector
 

L

links() - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
links() - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
links() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select all links
logger - 类 中的变量us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
logger - 类 中的变量us.codecraft.webmagic.Spider
 

M

main(String[]) - 类 中的静态方法us.codecraft.webmagic.processor.example.BaiduBaikePageProcessor
 
main(String[]) - 类 中的静态方法us.codecraft.webmagic.processor.example.GithubRepoPageProcessor
 
main(String[]) - 类 中的静态方法us.codecraft.webmagic.processor.example.OschinaBlogPageProcessor
 
match() - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
match() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
if result exist for select
me() - 类 中的静态方法us.codecraft.webmagic.Site
new a Site
MonitorableScheduler - us.codecraft.webmagic.scheduler中的接口
The scheduler whose requests can be counted for monitor.

N

nodes() - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
nodes() - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
nodes() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
get all nodes
NumberUtils - us.codecraft.webmagic.utils中的类
 
NumberUtils() - 类 的构造器us.codecraft.webmagic.utils.NumberUtils
 

O

onError(Request) - 类 中的方法us.codecraft.webmagic.downloader.AbstractDownloader
 
onError(Request) - 类 中的方法us.codecraft.webmagic.Spider
 
onError(Request) - 接口 中的方法us.codecraft.webmagic.SpiderListener
 
onSuccess(Request) - 类 中的方法us.codecraft.webmagic.downloader.AbstractDownloader
 
onSuccess(Request) - 类 中的方法us.codecraft.webmagic.Spider
 
onSuccess(Request) - 接口 中的方法us.codecraft.webmagic.SpiderListener
 
or(Selector...) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
OrSelector - us.codecraft.webmagic.selector中的类
All extractors will do extracting separately,
and the results of extractors will combined as the final result.
OrSelector(Selector...) - 类 的构造器us.codecraft.webmagic.selector.OrSelector
 
OrSelector(List<Selector>) - 类 的构造器us.codecraft.webmagic.selector.OrSelector
 
OschinaBlogPageProcessor - us.codecraft.webmagic.processor.example中的类
 
OschinaBlogPageProcessor() - 类 的构造器us.codecraft.webmagic.processor.example.OschinaBlogPageProcessor
 

P

Page - us.codecraft.webmagic中的类
Object storing extracted result and urls to fetch.
Page() - 类 的构造器us.codecraft.webmagic.Page
 
PageProcessor - us.codecraft.webmagic.processor中的接口
Interface to be implemented to customize a crawler.
pageProcessor - 类 中的变量us.codecraft.webmagic.Spider
 
path - 类 中的变量us.codecraft.webmagic.utils.FilePersistentBase
 
PATH_SEPERATOR - 类 中的静态变量us.codecraft.webmagic.utils.FilePersistentBase
 
Pipeline - us.codecraft.webmagic.pipeline中的接口
Pipeline is the persistent and offline process part of crawler.
pipeline(Pipeline) - 类 中的方法us.codecraft.webmagic.Spider
已过时。 
pipelines - 类 中的变量us.codecraft.webmagic.Spider
 
PlainText - us.codecraft.webmagic.selector中的类
Selectable plain text.
PlainText(List<String>) - 类 的构造器us.codecraft.webmagic.selector.PlainText
 
PlainText(String) - 类 的构造器us.codecraft.webmagic.selector.PlainText
 
poll(Task) - 类 中的方法us.codecraft.webmagic.scheduler.PriorityScheduler
 
poll(Task) - 类 中的方法us.codecraft.webmagic.scheduler.QueueScheduler
 
poll(Task) - 接口 中的方法us.codecraft.webmagic.scheduler.Scheduler
get an url to crawl
POST - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 
PriorityScheduler - us.codecraft.webmagic.scheduler中的类
Priority scheduler.
PriorityScheduler() - 类 的构造器us.codecraft.webmagic.scheduler.PriorityScheduler
 
process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.pipeline.ConsolePipeline
 
process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.pipeline.FilePipeline
 
process(ResultItems, Task) - 接口 中的方法us.codecraft.webmagic.pipeline.Pipeline
Process extracted results.
process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.pipeline.ResultItemsCollectorPipeline
 
process(Page) - 类 中的方法us.codecraft.webmagic.processor.example.BaiduBaikePageProcessor
 
process(Page) - 类 中的方法us.codecraft.webmagic.processor.example.GithubRepoPageProcessor
 
process(Page) - 类 中的方法us.codecraft.webmagic.processor.example.OschinaBlogPageProcessor
 
process(Page) - 接口 中的方法us.codecraft.webmagic.processor.PageProcessor
process the page, extract urls to fetch, extract the data and store
process(Page) - 类 中的方法us.codecraft.webmagic.processor.SimplePageProcessor
 
processRequest(Request) - 类 中的方法us.codecraft.webmagic.Spider
 
Proxy - us.codecraft.webmagic.proxy中的类
Object has these status of lifecycle above.
PROXY - 类 中的静态变量us.codecraft.webmagic.Request
 
ProxyPool - us.codecraft.webmagic.proxy中的类
Pooled Proxy Object
ProxyPool() - 类 的构造器us.codecraft.webmagic.proxy.ProxyPool
 
ProxyPool(List<String[]>) - 类 的构造器us.codecraft.webmagic.proxy.ProxyPool
 
ProxyPool(List<String[]>, boolean) - 类 的构造器us.codecraft.webmagic.proxy.ProxyPool
 
ProxyUtils - us.codecraft.webmagic.utils中的类
Pooled Proxy Object
ProxyUtils() - 类 的构造器us.codecraft.webmagic.utils.ProxyUtils
 
push(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
push(Request, Task) - 接口 中的方法us.codecraft.webmagic.scheduler.Scheduler
add a url to fetch
pushWhenNoDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
pushWhenNoDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.PriorityScheduler
 
pushWhenNoDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.QueueScheduler
 
put(String, T) - 类 中的方法us.codecraft.webmagic.ResultItems
 
PUT - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 
putExtra(String, Object) - 类 中的方法us.codecraft.webmagic.Request
 
putField(String, Object) - 类 中的方法us.codecraft.webmagic.Page
store extract results

Q

QueueScheduler - us.codecraft.webmagic.scheduler中的类
Basic Scheduler implementation.
QueueScheduler() - 类 的构造器us.codecraft.webmagic.scheduler.QueueScheduler
 

R

rebuildBloomFilter() - 类 中的方法us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
recordResponse() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
REFERER - 接口 中的静态变量us.codecraft.webmagic.Site.HeaderConst
已过时。
 
REFERER - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Header
 
regex(String) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
regex(String, int) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
regex(String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with regex, default group is group 1
regex(String, int) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with regex
regex(String) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
regex(String, int) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
RegexSelector - us.codecraft.webmagic.selector中的类
Selector in regex.
RegexSelector(String, int) - 类 的构造器us.codecraft.webmagic.selector.RegexSelector
 
RegexSelector(String) - 类 的构造器us.codecraft.webmagic.selector.RegexSelector
 
removePadding(String) - 类 中的方法us.codecraft.webmagic.selector.Json
remove padding for JSONP
removeProtocol(String) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
replace(String, String) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
replace(String, String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
replace with regex
replaceByPattern(String, String, Pattern) - 类 中的静态方法us.codecraft.webmagic.utils.UrlUtils
 
ReplaceSelector - us.codecraft.webmagic.selector中的类
Replace selector.
ReplaceSelector(String, String) - 类 的构造器us.codecraft.webmagic.selector.ReplaceSelector
 
Request - us.codecraft.webmagic中的类
Object contains url to crawl.
Request() - 类 的构造器us.codecraft.webmagic.Request
 
Request(String) - 类 的构造器us.codecraft.webmagic.Request
 
resetDuplicateCheck(Task) - 类 中的方法us.codecraft.webmagic.scheduler.component.BloomFilterDuplicateRemover
 
resetDuplicateCheck(Task) - 接口 中的方法us.codecraft.webmagic.scheduler.component.DuplicateRemover
Reset duplicate check.
resetDuplicateCheck(Task) - 类 中的方法us.codecraft.webmagic.scheduler.component.HashSetDuplicateRemover
 
ResultItems - us.codecraft.webmagic中的类
Object contains extract results.
ResultItems() - 类 的构造器us.codecraft.webmagic.ResultItems
 
ResultItemsCollectorPipeline - us.codecraft.webmagic.pipeline中的类
 
ResultItemsCollectorPipeline() - 类 的构造器us.codecraft.webmagic.pipeline.ResultItemsCollectorPipeline
 
returnHttpProxyToPool(HttpHost, int) - 类 中的方法us.codecraft.webmagic.Site
 
returnProxy(HttpHost, int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
run() - 类 中的方法us.codecraft.webmagic.Spider
 
runAsync() - 类 中的方法us.codecraft.webmagic.Spider
 

S

Scheduler - us.codecraft.webmagic.scheduler中的接口
Scheduler is the part of url management.
scheduler - 类 中的变量us.codecraft.webmagic.Spider
 
scheduler(Scheduler) - 类 中的方法us.codecraft.webmagic.Spider
set scheduler for Spider
select(Selector, List<String>) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
select(Selector) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
select(String) - 类 中的方法us.codecraft.webmagic.selector.AndSelector
 
select(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
select(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
 
select(Element) - 接口 中的方法us.codecraft.webmagic.selector.ElementSelector
Extract single result in text.
select(Selector) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
select(String) - 类 中的方法us.codecraft.webmagic.selector.JsonPathSelector
 
select(String) - 类 中的方法us.codecraft.webmagic.selector.OrSelector
 
select(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
 
select(String) - 类 中的方法us.codecraft.webmagic.selector.ReplaceSelector
 
select(Selector) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
extract by custom selector
select(String) - 接口 中的方法us.codecraft.webmagic.selector.Selector
Extract single result in text.
select(String) - 类 中的方法us.codecraft.webmagic.selector.SmartContentSelector
 
select(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
 
Selectable - us.codecraft.webmagic.selector中的接口
Selectable text.
selectDocument(Selector) - 类 中的方法us.codecraft.webmagic.selector.Html
 
selectDocumentForList(Selector) - 类 中的方法us.codecraft.webmagic.selector.Html
 
selectElement(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
selectElement(Element) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
selectElement(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
 
selectElement(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
 
selectElements(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
selectElements(Element) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
selectElements(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
 
selectElements(BaseElementSelector) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
select elements
selectElements(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
 
selectGroup(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
 
selectGroupList(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
 
selectList(Selector, List<String>) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
selectList(Selector) - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.AndSelector
 
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.BaseElementSelector
 
selectList(Element) - 类 中的方法us.codecraft.webmagic.selector.CssSelector
 
selectList(Element) - 接口 中的方法us.codecraft.webmagic.selector.ElementSelector
Extract all results in text.
selectList(Selector) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.JsonPathSelector
 
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.OrSelector
 
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
 
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.ReplaceSelector
 
selectList(Selector) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
extract by custom selector
selectList(String) - 接口 中的方法us.codecraft.webmagic.selector.Selector
Extract all results in text.
selectList(String) - 类 中的方法us.codecraft.webmagic.selector.SmartContentSelector
 
selectList(Element) - 类 中的方法us.codecraft.webmagic.selector.XpathSelector
 
Selector - us.codecraft.webmagic.selector中的接口
Selector(extractor) for text.
Selectors - us.codecraft.webmagic.selector中的类
Convenient methods for selectors.
Selectors() - 类 的构造器us.codecraft.webmagic.selector.Selectors
 
selectRequestMethod(Request) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
setAcceptStatCode(Set<Integer>) - 类 中的方法us.codecraft.webmagic.Site
Set acceptStatCode.
setCharset(String) - 类 中的方法us.codecraft.webmagic.Site
Set charset of page manually.
setCycleRetryTimes(int) - 类 中的方法us.codecraft.webmagic.Site
Set cycleRetryTimes times when download fail, 0 by default.
setDomain(String) - 类 中的方法us.codecraft.webmagic.Site
set the domain of site.
setDownloader(Downloader) - 类 中的方法us.codecraft.webmagic.Spider
set the downloader of spider
setDuplicateRemover(DuplicateRemover) - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
setEmptySleepTime(int) - 类 中的方法us.codecraft.webmagic.Spider
Set wait time when no url is polled.
setExecutorService(ExecutorService) - 类 中的方法us.codecraft.webmagic.Spider
 
setExecutorService(ExecutorService) - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
 
setExitWhenComplete(boolean) - 类 中的方法us.codecraft.webmagic.Spider
Exit when complete.
setExtras(Map<String, Object>) - 类 中的方法us.codecraft.webmagic.Request
 
setFailedErrorType(List<Integer>) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
setFailedNum(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
setHtml(Html) - 类 中的方法us.codecraft.webmagic.Page
已过时。
since 0.4.0 The html is parse just when first time of calling Page.getHtml(), so use Page.setRawText(String) instead.
setHttpProxy(HttpHost) - 类 中的方法us.codecraft.webmagic.Site
set up httpProxy for this site
setHttpProxyPool(List<String[]>) - 类 中的方法us.codecraft.webmagic.Site
Set httpProxyPool, String[0]:ip, String[1]:port
setLastBorrowTime(Long) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
setMethod(String) - 类 中的方法us.codecraft.webmagic.Request
 
setNeedCycleRetry(boolean) - 类 中的方法us.codecraft.webmagic.Page
 
setPath(String) - 类 中的方法us.codecraft.webmagic.utils.FilePersistentBase
 
setPipelines(List<Pipeline>) - 类 中的方法us.codecraft.webmagic.Spider
set pipelines for Spider
setPoolSize(int) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientGenerator
 
setPriority(long) - 类 中的方法us.codecraft.webmagic.Request
Set the priority of request for sorting.
setProxyFilePath(String) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
setProxyReuseInterval(int) - 类 中的方法us.codecraft.webmagic.Site
 
setRawText(String) - 类 中的方法us.codecraft.webmagic.Page
 
setRequest(Request) - 类 中的方法us.codecraft.webmagic.Page
 
setRequest(Request) - 类 中的方法us.codecraft.webmagic.ResultItems
 
setRetrySleepTime(int) - 类 中的方法us.codecraft.webmagic.Site
Set retry sleep times when download fail, 1000 by default.
setRetryTimes(int) - 类 中的方法us.codecraft.webmagic.Site
Set retry times when download fail, 0 by default.
setReuseInterval(int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
setReuseTimeInterval(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
setReviveTime(int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
setSaveProxyInterval(int) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
setScheduler(Scheduler) - 类 中的方法us.codecraft.webmagic.Spider
set scheduler for Spider
setSkip(boolean) - 类 中的方法us.codecraft.webmagic.Page
 
setSkip(boolean) - 类 中的方法us.codecraft.webmagic.ResultItems
Set whether to skip the result.
setSleepTime(int) - 类 中的方法us.codecraft.webmagic.Site
Set the interval between the processing of two pages.
setSpawnUrl(boolean) - 类 中的方法us.codecraft.webmagic.Spider
Whether add urls extracted to download.
setSpiderListeners(List<SpiderListener>) - 类 中的方法us.codecraft.webmagic.Spider
 
setStatusCode(int) - 类 中的方法us.codecraft.webmagic.Page
 
setThread(int) - 接口 中的方法us.codecraft.webmagic.downloader.Downloader
Tell the downloader how many threads the spider used.
setThread(int) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
setTimeOut(int) - 类 中的方法us.codecraft.webmagic.Site
set timeout for downloader in ms
setUrl(Selectable) - 类 中的方法us.codecraft.webmagic.Page
 
setUrl(String) - 类 中的方法us.codecraft.webmagic.Request
 
setUseGzip(boolean) - 类 中的方法us.codecraft.webmagic.Site
Whether use gzip.
setUserAgent(String) - 类 中的方法us.codecraft.webmagic.Site
set user agent
setUUID(String) - 类 中的方法us.codecraft.webmagic.Spider
Set an uuid for spider.
shouldReserved(Request) - 类 中的方法us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler
 
shutdown() - 类 中的方法us.codecraft.webmagic.thread.CountableThreadPool
 
SimplePageProcessor - us.codecraft.webmagic.processor中的类
A simple PageProcessor.
SimplePageProcessor(String, String) - 类 的构造器us.codecraft.webmagic.processor.SimplePageProcessor
 
Site - us.codecraft.webmagic中的类
Object contains setting for crawler.
Site() - 类 的构造器us.codecraft.webmagic.Site
 
site - 类 中的变量us.codecraft.webmagic.Spider
 
Site.HeaderConst - us.codecraft.webmagic中的接口
已过时。 
sleep(int) - 类 中的方法us.codecraft.webmagic.Spider
 
smartContent() - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
smartContent() - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
smartContent() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select smart content with ReadAbility algorithm
smartContent() - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
SmartContentSelector - us.codecraft.webmagic.selector中的类
Borrowed from https://code.google.com/p/cx-extractor/
SmartContentSelector() - 类 的构造器us.codecraft.webmagic.selector.SmartContentSelector
 
sourceTexts - 类 中的变量us.codecraft.webmagic.selector.PlainText
 
spawnUrl - 类 中的变量us.codecraft.webmagic.Spider
 
Spider - us.codecraft.webmagic中的类
Entrance of a crawler.
Spider(PageProcessor) - 类 的构造器us.codecraft.webmagic.Spider
create a spider with pageProcessor.
Spider.Status - us.codecraft.webmagic中的枚举
 
SpiderListener - us.codecraft.webmagic中的接口
Listener of Spider on page processing.
start() - 类 中的方法us.codecraft.webmagic.Spider
 
startRequest(List<Request>) - 类 中的方法us.codecraft.webmagic.Spider
Set startUrls of Spider.
startRequests - 类 中的变量us.codecraft.webmagic.Spider
 
startUrls(List<String>) - 类 中的方法us.codecraft.webmagic.Spider
Set startUrls of Spider.
stat - 类 中的变量us.codecraft.webmagic.Spider
 
STAT_INIT - 类 中的静态变量us.codecraft.webmagic.Spider
 
STAT_RUNNING - 类 中的静态变量us.codecraft.webmagic.Spider
 
STAT_STOPPED - 类 中的静态变量us.codecraft.webmagic.Spider
 
STATUS_CODE - 类 中的静态变量us.codecraft.webmagic.Request
 
statusAccept(Set<Integer>, int) - 类 中的方法us.codecraft.webmagic.downloader.HttpClientDownloader
 
stop() - 类 中的方法us.codecraft.webmagic.Spider
 
SUCCESS - 类 中的静态变量us.codecraft.webmagic.proxy.Proxy
 
successNumIncrement(int) - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 

T

Task - us.codecraft.webmagic中的接口
Interface for identifying different tasks.
test(String...) - 类 中的方法us.codecraft.webmagic.Spider
Process specific urls without url discovering.
thread(int) - 类 中的方法us.codecraft.webmagic.Spider
start with more than one threads
thread(ExecutorService, int) - 类 中的方法us.codecraft.webmagic.Spider
start with more than one threads
threadNum - 类 中的变量us.codecraft.webmagic.Spider
 
threadPool - 类 中的变量us.codecraft.webmagic.Spider
 
toList(Class<T>) - 类 中的方法us.codecraft.webmagic.selector.Json
 
toObject(Class<T>) - 类 中的方法us.codecraft.webmagic.selector.Json
 
toString() - 类 中的方法us.codecraft.webmagic.Page
 
toString() - 类 中的方法us.codecraft.webmagic.proxy.Proxy
 
toString() - 类 中的方法us.codecraft.webmagic.Request
 
toString() - 类 中的方法us.codecraft.webmagic.ResultItems
 
toString() - 类 中的方法us.codecraft.webmagic.selector.AbstractSelectable
 
toString() - 类 中的方法us.codecraft.webmagic.selector.RegexSelector
 
toString() - 类 中的方法us.codecraft.webmagic.selector.ReplaceSelector
 
toString() - 接口 中的方法us.codecraft.webmagic.selector.Selectable
single string result
toString() - 类 中的方法us.codecraft.webmagic.Site
 
toTask() - 类 中的方法us.codecraft.webmagic.Site
 
TRACE - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Method
 

U

UrlUtils - us.codecraft.webmagic.utils中的类
url and html utils.
UrlUtils() - 类 的构造器us.codecraft.webmagic.utils.UrlUtils
 
us.codecraft.webmagic - 程序包 us.codecraft.webmagic
Main class "Spider" and models.
us.codecraft.webmagic.downloader - 程序包 us.codecraft.webmagic.downloader
Downloader is the part that downloads web pages and store in Page object.
us.codecraft.webmagic.pipeline - 程序包 us.codecraft.webmagic.pipeline
Pipeline is the persistent and offline process part of crawler.
us.codecraft.webmagic.processor - 程序包 us.codecraft.webmagic.processor
PageProcessor custom part of a crawler for specific site.
us.codecraft.webmagic.processor.example - 程序包 us.codecraft.webmagic.processor.example
 
us.codecraft.webmagic.proxy - 程序包 us.codecraft.webmagic.proxy
 
us.codecraft.webmagic.scheduler - 程序包 us.codecraft.webmagic.scheduler
Scheduler is the part of url management.
us.codecraft.webmagic.scheduler.component - 程序包 us.codecraft.webmagic.scheduler.component
Component of scheduler.
us.codecraft.webmagic.selector - 程序包 us.codecraft.webmagic.selector
Selectors for page extraction.
us.codecraft.webmagic.thread - 程序包 us.codecraft.webmagic.thread
 
us.codecraft.webmagic.utils - 程序包 us.codecraft.webmagic.utils
Static utils of webmagic.
USER_AGENT - 类 中的静态变量us.codecraft.webmagic.utils.HttpConstant.Header
 
uuid - 类 中的变量us.codecraft.webmagic.Spider
 

V

validateProxy(HttpHost) - 类 中的静态方法us.codecraft.webmagic.utils.ProxyUtils
 
validateWhenInit(boolean) - 类 中的方法us.codecraft.webmagic.proxy.ProxyPool
 
valueOf(String) - 枚举 中的静态方法us.codecraft.webmagic.Spider.Status
Returns the enum constant of this type with the specified name.
values() - 枚举 中的静态方法us.codecraft.webmagic.Spider.Status
Returns an array containing the constants of this enum type, in the order they are declared.

X

xpath(String) - 类 中的方法us.codecraft.webmagic.selector.HtmlNode
 
xpath(String) - 类 中的方法us.codecraft.webmagic.selector.PlainText
 
xpath(String) - 接口 中的方法us.codecraft.webmagic.selector.Selectable
select list with xpath
xpath(String) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
XpathSelector - us.codecraft.webmagic.selector中的类
XPath selector based on Xsoup.
XpathSelector(String) - 类 的构造器us.codecraft.webmagic.selector.XpathSelector
 
xsoup(String) - 类 中的静态方法us.codecraft.webmagic.selector.Selectors
 
$ A B C D E F G H I J L M N O P Q R S T U V X 

Copyright © 2016. All rights reserved.