"51今日免费论文网|www.51jrft.com

社交网络数据采集客户端的设计与实现(附件)【字数:8519】

2023-06-27 21:47编辑: www.51jrft.com51今日论文网
摘 要本课题基于python语言实现了社交网络数据采集客户端的设计和实现。本论文一开始对课题的背景状况和研究现状做了一定的概括与描述,介绍使用Python语言作为开发这个数据采集的语言,先是大致简单的介绍一下环境变量如何配置的方法,然后介绍了Python语言来做社交网络数据抓取的主要原理,说明了具体的设计方案和实现方法,本课题主要以爬取知乎用户检索问答与关注为例,来对此内容进行爬取,并将爬取到的数据存放在Mysql数据库当中,然后对得到的数据用UCINET进行一定的可视化分析。最后,在数据库中录入大量知乎用户id,来验证此功能的可行性。
目 录
第一章 绪论 1
1.1 课题研究的背景与意义 1
1.2研究现状 1
1.3关键技术和难点 2
1.4拟采用的研究手段 2
1.5论文内容与结构 3
第二章 开发环境 4
2.1 Python语言概述 4
2.1.1Python语言简介 4
2.1.2开发环境 4
2.1.3 Python下载与安装 4
2.1.4 Python环境变量的配置 5
2.1.5安装并测试Mysql数据库 6
第三章 设计实现 7
3.1原理分析 8
3.1.1前期准备 8
3.1.2真实数据挖掘 9
3.1.3实现所有遍历用户入口 9
3.2数据挖掘 9
3.3反爬机制 10
3.4数据库设计 10
第四章 代码实现和量化分析 11
4.1代码实现 12
4.1.1配置请求头 12
4.1.2实例会话并链接到数据库 12
4.1.3从数据库中逐个取出id 12
4.1.4爬取问答 13
4.1.5爬取关注 14
4.2可视化分析 15
结束语 18
致 谢 19
参考文献 20
第一章 绪论
1.1 课题研究的背景与意义
社交网络顾名 *51今日免费论文网|www.51jrft.com +Q: #351916072
思义就是社交网络服务,源自于英文SNS(Social Network Service)的翻译。社交网络源自网络社交,网络社交的最开始的就是大家所熟知的电子邮件。互联网的本质其实就是计算机之间的联网,早期的Email就完美的解决了远程的邮件传输的问题,到目前为止它也是互联网上最为普及的应用,同时它也是我们所熟知的网络社交的起点。谈起社交网络,其中最重要的也就是网络。网络是什么东西?网络是将人与人通过某种物体相互连接起来,实现资源上面的共享,通俗易懂,这就是网络。社交网络,顾名思义,即为人们本来应该有的社交在网络上面淋漓尽致的呈现出来,形成一个庞大的网络用户群体。
而现在,社交网络的形式更为多样化,在我国,各式各样的社交网络存在在我们的周围和身边,微博、贴吧、论坛、空间,社交网络发展的形式多样化起来。可供人们选择的方式也已经越来越多。
现如今,社交网络已经完全覆盖了我们的生活,我们生活中的每一个点点滴滴都离不开社交网络,它已经是联系我们人和人之间沟通交流的一个纽带,几乎成为了我们每个人生活都必不可少的一部分,这就带来了人们对社交网络一股研究的热情,社交网络也就成为了当今时代必不可少的一种研究的对象,在这样一个研究的时代背景下,社交网络的研究也是如火如荼。
社交网络的意义大概可以归纳总结为八个字社交网络改变社会,即为社交网络的存在能改变我们的整个社会。通过对社会化数字信息的收集和整理,我们就可以得到个人在网络上的行为习惯和地理信息等,社会就是由人来组成的,如果能够得到这些信息,那不可谓不是一扇新的世界的大门在为我们打开。
1.2研究现状
在我国,随着互联网的发展,社交已经成为了互联网发展的必备要素 并且它已经不再仅仅是用来作为数据传递,目前为止已经基本与沟通交流、商务交易等一系列的应用融合,借助其他应用所存在的广泛的用户基础,形成一种更为强大的关系链,从而来实现对信息的广泛而又快速的传播。并且现如今,随着移动互联和数字化的不断发展,社交网络将是未来很长一段时间的发展重要对象。解释这一个现象最简单直接的就是我们生活中每个人都能接触到的软件——支付宝。
以支付宝为例,大家都知道最早支付宝刚出来的时候定义为钱包,装在手机里的钱包,伴随这移动互联的发展来提升移动支付功能,在人们的心中业潜移默化的早已经认为支付宝已经是支付工具。但是,最近好长一段时间,大家都可以关注得到支付宝它也在一心一意的推他们的社交板块,鼓励人们去多多的使用支付宝来聊天,像对待微信一样来对待支付宝,也作为一个甚至可以和微博、贴吧媲美的社交软件。咱们且不提它的成功与否,咱们关注的点就在为什么强如支付宝也在疯狂的推他们的社交网络板块呢?一个字概括——强,社交网络的发展已经不是早些时候的萌芽,早些时候的初生了,它的发展已经好比雨后春笋一样飞速发展起来,人们对于社交网络的研究那更是一片欣欣向荣的景象了。
现如今,对于社交网络的研究,大致可以理解为对社交网络的每个人的行为习惯和个人信息进行采集和分析,通过这些数据就能大体的了解到一个人他到底是什么性格,他的兴趣爱好,以及他近期的困扰或者需求。研究这些,就好比对症下药一样,帮助人们解决需要解决的问题,提供给他们所需要的东西,给他们推荐对他们的兴趣爱好有利的东西。所以,社交网络研究,势在必行。
本课题计划对知乎这个社交网络中用户检索问答与关注为例,在通过网络可视化分析工具来研究其中存在的一些联系。
1.3关键技术和难点
关键性技术问题主要有:
1.网络爬虫即为从服务器抓取数据,一般得到数据的方法就是典型的浏览器行为,而它一般是用户主动操作完成的http请求,而网络爬虫的话需要自行配置请求信息完成http请求,这里面存在一定的难点。

原文链接:http://www.51jrft.com/jsj/qrs/442970.html