Python分析5000+抖音大V,發(fā)現(xiàn)大家都喜歡這類視頻!
最近,小F在知乎上看到一個(gè)關(guān)于抖音的問題。 里面提到了,目前我國人均每天刷短視頻110分鐘。 看這數(shù)據(jù),看來小F又被平均了。 不過老實(shí)說,只要一打開抖音,小F確實(shí)是有一種停不下來的感覺~ 所以還是少刷抖音,多看書。要不然時(shí)間全流逝了。 本期就給大家用數(shù)據(jù)分析一下在抖音,什么類型的視頻最受歡迎。 / 01 / 數(shù)據(jù)獲取 數(shù)據(jù)來自于第三方監(jiān)測,一共是有5000+抖音大V的數(shù)據(jù)信息。 文件我已上傳公眾號,回復(fù)「抖音」即可獲取。 主要包含大V們的昵稱、性別、地點(diǎn)、類型、點(diǎn)贊數(shù)、粉絲數(shù)、視頻數(shù)、評論數(shù)、分享數(shù)、關(guān)注數(shù)、畢業(yè)學(xué)校、認(rèn)證、簡介等信息。 其中粉絲最多的是「人民日報(bào)」,接近1.2億?!?strong>央視新聞」也破億了,記得之前破億的時(shí)候還上過熱搜~ 粉絲最少的博主也有近 1 5 0 w +的粉絲,這5000多位大V累計(jì)236.5億粉絲,地球人口的三倍多!
/ 02 / 數(shù)據(jù)可視化
導(dǎo)入相關(guān)庫,然后讀取數(shù)據(jù)。
from pyecharts.charts import Pie, Bar, TreeMap, Map, Geo
from wordcloud import WordCloud, ImageColorGenerator
from pyecharts import options as opts
import matplotlib.pyplot as plt
from PIL import Image
import pandas as pd
import numpy as np
import jieba
df = pd.read_csv( 'douyin.csv', header= 0, encoding= 'utf-8-sig')
print(df) 01 性別分布情況
整體上看,男女比例差別不大。
除去未知的數(shù)據(jù),基本是1:1。 可視化代碼如下。
def create_gender(df):
df = df.copy()
# 修改數(shù)值
df.loc[df.gender == '0', 'gender'] = '未知'
df.loc[df.gender == '1', 'gender'] = '男性'
df.loc[df.gender == '2', 'gender'] = '女性'
# 根據(jù)性別分組
gender_message = df.groupby([ 'gender'])
# 對分組后的結(jié)果進(jìn)行計(jì)數(shù)
gender_com = gender_message[ 'gender'].agg([ 'count'])
gender_com.reset_index(inplace= True)
# 餅圖數(shù)據(jù)
attr = gender_com[ 'gender']
v1 = gender_com[ 'count']
# 初始化配置
pie = Pie(init_opts=opts.InitOpts(width= "800px", height= "400px"))
# 添加數(shù)據(jù),設(shè)置半徑
pie.add( "", [list(z) for z in zip(attr, v1)], radius=[ "40%", "75%"])
# 設(shè)置全局配置項(xiàng),標(biāo)題、圖例、工具箱(下載圖片)
pie.set_global_opts(title_opts=opts.TitleOpts(title= "抖音大V性別分布情況", pos_left= "center", pos_top= "top"),
legend_opts=opts.LegendOpts(orient= "vertical", pos_left= "left"),
toolbox_opts=opts.ToolboxOpts(is_show= True, feature={ "saveAsImage": {}}))
# 設(shè)置系列配置項(xiàng),標(biāo)簽樣式
pie.set_series_opts(label_opts=opts.LabelOpts(is_show= True, formatter= ":jplb7vf%"))
pie.render( "抖音大V性別分布情況.html")
02 點(diǎn)贊數(shù)
點(diǎn)贊數(shù)TOP10,除了「小團(tuán)團(tuán)」和「毒舌」,其他都是新聞媒體類的大V。
今年因?yàn)橐咔?,有很多新聞在抖音上都是第一時(shí)間傳播,所以影響力比較大,點(diǎn)贊也就比較多了。 記得「四川觀察」還被評論區(qū)調(diào)侃為四處觀察,意思是發(fā)布消息非常快。
好奇為什么會(huì)有100萬點(diǎn)贊數(shù)的大V,小F的抖音號都有20w+的贊。 最后發(fā)現(xiàn)是第三方監(jiān)測收錄的問題,下次可以直接剔除這批數(shù)據(jù)。
點(diǎn)贊破億的有500多個(gè)大V,1000萬到5000萬點(diǎn)贊數(shù)的大V人數(shù)最多。
可視化代碼如下。
def create_likes(df): 聲明:本站所有文章資源內(nèi)容,如無特殊說明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。