易源数据_新闻、网页正文抽取
传入一个新网或网页地址,接口将返回此url地址的正文及图片列表。通常用于获取新网网页的正文。传入一个新网或网页地址,接口将返回此url地址的正文及图片列表。通常用于获取新网网页的正文。================================================
- 通常用于获取新网网页的正文
传入一个新网或网页地址,接口将返回此url地址的正文及图片列表。通常用于获取新网网页的正文。
================================================================
例如:在上传参数url中填入http://news.yesky.com/112/99481112.shtml
这个页面如下:
返回JSON示例:
{
"showapi_res_error": "",
"showapi_res_code": 0,
"showapi_res_id": "61af62a6179e41af9749ab2a0d01e4e4",
"showapi_res_body": {
"time": "2016-1-1",//匹配到的新闻发布时间
"title": "SurfaceHub延至2016年1月1日发货且全系涨价",//匹配到的新闻标题
"ret_code": 0,//调用结果标识,0表示成功
"img_list": [//新闻图片集合,如果新闻正文中没有图片,这里将返回一个空集合
{
"height": 0,
"width": 0,
"url": "http://image.tianjimedia.com/uploadImages/2015/357/13/7XFZ8BXOO15P_600.jpg"//新闻图片URL
},
{
"height": 0,
"width": 0,
"url": "http://www.yesky.com//uploadImages/2015/264/46/2OBRY213I2D8.jpg"
}
],
"all_list": [//all_list集合,注意:当请求参数中的needAll_list的值为0时,将没有这个字段返回,这个字段本质上是一个String集合,但当新闻中有图片时,图片将以JSON格式放入这个集合中
"【天极网IT新闻频道】【Yesky新闻频道消息】 微软在今年1月举行的“Windows 10下一篇章”发布会上,正式发布了巨型商务平板Surface Hub,55英寸版本6999美元,84英寸版本19999美元,并于7月开始接受预定,预装定制版Windows 10系统。",
"原计划,这款产品将于今年9月份出货。不过,日前微软再次推迟了发货日期到2016年1月1日,而且全系涨价2000美元,也就是55英寸Surface Hub售价为8999美元,而84英寸型号售价将达21999美元(约合人民币14万)。",
{
"height": 0,
"width": 0,
"url": "http://image.tianjimedia.com/uploadImages/2015/357/13/7XFZ8BXOO15P_600.jpg"
},
"对此微软发言人表示,我们评估了市场机会并考虑到Surface Hub能够为用户提供独特的协作场景,新的价格是正确的,对我们的业务和产品类别向前发展都有好处。",
"此前,微软合作伙伴公司的高管Angela Hlavka透露,自从7月1日接受预定以来,这款天价产品市场需求高涨。",
"配置方面,两个版本的Surface Hub都将搭载8GB RAM,128GB固态硬盘,支持100点触控。",
"其中,55寸的型号采用Intel四代i5处理器+核心显卡,显示屏分辨率为1080p,而84英寸型号则搭载是四代i7+NVIDIA Quadro K2200专业级显卡,屏幕的分辨率也提升到3840 x 2160(4K)。",
"此外,微软还为Surface Hub配备了两个Surface Pen和一个微软一体化媒体键盘。55英寸和84英寸版本均带有两个前置1080p摄像头,麦克风和双前置扬声器。",
"微软称,Surface Hub除了液晶屏,其他元件的设计全部参与,他们还在Wilsonville建设了面积7万平方英尺(约合6500平方米)的工厂自己生产。",
{
"height": 0,
"width": 0,
"url": "http://www.yesky.com//uploadImages/2015/264/46/2OBRY213I2D8.jpg"
}
]
}
}
个性化的定制参数:
当上传参数中的needHtml为1时(默认为0),返回的showapi_res_body中将返回字段html。
当上传参数中的needContent为1时(默认为0),返回的showapi_res_body中将返回content字段。
温馨提示:目前很多网页内容都使用了异步传输技术(例如AJAX技术),目前我们暂不能抽取这类网页的内容。
全部用户