主要工作内容:
互联网是由一个一个的超链接组成的,从一个网页的链接可以跳到另一个网页,在新的网页里,又有很多链接。理论上讲,从任何一个网页开始,不断点开链接、链接的网页的链接,就可以走遍整个互联网!这个过程是不是像蜘蛛沿着网一样爬?这也是“爬虫”名字的由来。
作为爬虫工程师,就是要写出一些能够沿着网爬的”蜘蛛"程序,保存下来获得的信息。一般来说,需要爬出来的信息都是结构化的,如果不是结构化的,那么也就设什么意义了(百分之八十的数据是非结构化的)。
爬虫的规模可达可小,小到可以爬取豆的op250电影,定时爬取一个星期的天气预报等。大到可以爬取整个互联网的网页(例如google)。
下面这些,我认为都可以叫做爬虫:
·爬问答网站的作者和回答
·爬百度网盘的资源,存到数据库中(当然,只是保存资源的链接和标题),然后制作一个网盘的搜索擎
·同上,种子网站的搜索引擎也是这样的
到这里,我们知道爬虫的任务是获取数据。现在比较流行大数据,从互联网方面讲,数据可以分成两种,一种是用户产生的(UGC),第二种就是通过一些手段获得的,通常就是爬虫。爬虫又不仅仅局限于从网页中获得数据,也可以从app抓包等。简而言之,就是聚合数据并让他们结构化。
那么,哪些工作需要爬虫呢?
总结来说,写爬虫需要经验积累,需要灵活的思路。比如说我之前就遇到过网站,需要验证码验证拿到一个token,可是通过看网路情求发现这个token长得很像一个时间戳,然后本地自己生成一个时间戳发现也是能用的!于是就这样绕过了验证码。
另外爬虫也不是和俄之前想的那样是一个枯燥无味的工作,比如我就发现了不少很垃圾,很搞笑的网站,乐趣也蛮多的。学到的东西也不少。万变不离其宗嘛。
工作内容
互联网时代信息无处不在,我们日常所接触的大量信息例放如微博、社交媒体网站的帖子、消费者点评、新闻、销售人员的拜访记录,这些都是常见的非结构化数据来源。非结构化数据分析能够揭示潜藏在文本当中的趋势和关联,为商业决策、研究行业趋势和热点内容分析提供有力支持。
纬横团队致力于打造最出色的中文语义分折技术,通过自主研发的中文分词、句法分析、搜素引擎和实体识别技术,结合海量行业语料的不断积累,为企业客户(营销、公关、客服、销售和产品部门)、研究机构和政府部门等提供数据监测和采集、分析和可视化以及专业服务,增强用户在大数据时代的亮净力。
岗位职责
1.分布式网页抓取平台的研发、完善和运维,每天支持数千万级的网页采集清洗和分析;
2.产品后端AP的开发,实现高性能、高可用及可扩展的后端代码;
3.线上分布式环境的自动化运维、监控、性能调优。
职位要求
1.扎实的算法与数据结构功底,对新的知识和技术有强烈热情;
2.具有较强的分折和解决问题的能力;
3.拥有良好的编程习惯;
4.熟悉至少一门高级编程语言(例如Python,/C++/Java)并有实际开发的经验。