第675章(1 / 5)
技术部经理一脸黑线:“废话!这点东西掉一调后台数据就知道,你们就研究这个研究了一宿?”
汇报人员定了定心神,揉了揉已经快要闭上的眼睛:“不是的,这件事情让我们确定了这一定是某一个群体在作祟!随后我们对昨晚进行评分的四万人提取了id。”
“头,你知道吧,很多人,在不同的平台习惯用一个id的。而且这批新用户注册的那么急,所以肯定有不少人用了常用的id。”
还是那句话,人走过,必留痕迹。
而且这痕迹里,往往带着很浓重的个人特色。
汇报人员继续说:“然后我们根据这四万个id,逐一在微博上进行了搜索,然后爬取了这些用户名的所有的发言,再利用这些用户动态的相似性,进行深度挖掘。”
这是个极大的工作量。
一个id在微博上有可能有成千上万个同名的账号。
这些帐号的动态内容都得爬下来(这不违法,在地球上,好像是在2017年12月份,微博才关闭了api接口的。)。
爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。
注意哦,这只是一个id的工作量。
比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。
那这些张三的人的所有的动态都得爬下来。
可是你怎么知道这一万个张三里面,哪一个是你想要的呢。
豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。
↑返回顶部↑
汇报人员定了定心神,揉了揉已经快要闭上的眼睛:“不是的,这件事情让我们确定了这一定是某一个群体在作祟!随后我们对昨晚进行评分的四万人提取了id。”
“头,你知道吧,很多人,在不同的平台习惯用一个id的。而且这批新用户注册的那么急,所以肯定有不少人用了常用的id。”
还是那句话,人走过,必留痕迹。
而且这痕迹里,往往带着很浓重的个人特色。
汇报人员继续说:“然后我们根据这四万个id,逐一在微博上进行了搜索,然后爬取了这些用户名的所有的发言,再利用这些用户动态的相似性,进行深度挖掘。”
这是个极大的工作量。
一个id在微博上有可能有成千上万个同名的账号。
这些帐号的动态内容都得爬下来(这不违法,在地球上,好像是在2017年12月份,微博才关闭了api接口的。)。
爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。
注意哦,这只是一个id的工作量。
比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。
那这些张三的人的所有的动态都得爬下来。
可是你怎么知道这一万个张三里面,哪一个是你想要的呢。
豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。
↑返回顶部↑