Social Network Analysis: Soundcloud -...

Post on 12-May-2020

7 views 0 download

transcript

Social Network Analysis: SoundcloudBy Alessandro Sperotti

Matricola 855331

Indice

▪ La Social Network: Soundcloud

▪ Acquisizione del dataset

▪ Distribuzione del degree

▪ Analisi della network

▪ Musicisti o Ascoltatori?

▪ I generi di Soundcloud

▪ Soundcloud nel mondo

La Social Network: Soundcloud

▪ Soundcloud nasce a Berlino nel 2007 come servizio di condivisione e di distribuzione di musica. Ad oggi conta circa 180 milioni di utenti iscritti.

▪ Soundcloud presenta una doppia natura:

1. È uno strumento per artisti emergenti (e non) che vogliono distribuire la propria musica

2. È una social network per chiunque voglia un servizio gratis di streaming audio, con

possibilità di seguire i propri artisti preferiti, e di commentare e condividere le loro

canzoni.

La Social Network: Soundcloud

▪ Ogni utente iscritto può:

1. Pubblicare sulla pagina personale i propri brani, o ripubblicare i brani di altri artisti

2. Seguire altri artisti, in maniera simile a come avviene su Instagram

3. Commentare un brano, o una determinata parte di esso

4. Condividere il proprio brano e quello di altri artisti su altre Social Network, come

Facebook, Twitter, Pinterest, ecc.

Acquisizione del Dataset

▪ I passi per l’acquisizione del dataset sono stati i seguenti:

▪ Sono stati acquisiti i dati da Soundcloud tramite lo script scraper.py, che si è occupato di

creare una edge list, e un altro file in cui sono stati memorizzati gli attributi dei vari nodi.

▪ I due file sono stati elaborati dallo script data_extractor.py, che si è occupato di:

▪ Creare il grafo a partire dalla edge list

▪ Aggiungere gli attributi ai vari nodi del grafo

▪ Esportare il grafo ottenuto in .gexf, per poterlo elaborare con Gephi.

Estrazione dati:

Scraper.py

Creazione grafico:

data_extractor.py

Analisi della Network:

Gephi e NetworkX

Acquisizione del DatasetDettagli Dataset

Utenti analizzati 1.303.500

Edges analizzati 2.151.285

Tempo di acquisizione ~ 7 giorni

Dettagli Grafo

Numero di nodi 753.893

Numero di edges 1.767.258

▪ Durante l’elaborazione dei dati sono stati scartati

circa 500.000 profili (utenti inattivi, errori di scrittura

nel file)

▪ Le informazioni di rilevanza che sono state acquisite

sono:

▪ Id dell’utente

▪ Paese di provenienza

▪ Numero di tracce pubblicate

▪ Numero di playlist

▪ Genere delle tracce ed etichetta discografica

Rappresentazione della Network

Metriche Network

Numero di Nodi 753.893

Numero di Edges 1.767.258

Degree Medio 4,68835

Degree Minimo 1

Degree Massimo 901

Densità 3.1094 * 10-6

Numero componenti

fortemente connesse610.415

Distribuzione del Degree

▪ Possiamo approssimare la distribuzione del degree della network ad una power law.

▪ Tuttavia possiamo notare un evidente “salto” all’interno del grafico: più precisamente, vi è un alto numero di utenti che ha un degree vicino a 50.

▪ Questo risultato può essere dato dalladimensione del campione: infatti, nonostanteil numero di nodi acquisito sia vicino al milione, il campione preso in considerazionerappresenta meno dell’1% di tutti gli utenti di Soundcloud.

▪ Possiamo vedere il “salto” anche nellaCCDF e nella PDF plottata su scalalogaritmica.

Distribuzione del Degree

Distribuzione del Degree

Analisi della Network

▪ La network presenta un coefficiente di clustering globale molto basso rispetto ad altre social network quali facebook, e twitter: possiamo quindi affermare che Soundcloud è una network poco transitiva.

▪ La network presenta una bassa reciprocity, che ci può suggerire che gli utenti seguano una persona solo per poter risalire velocemente a determinate canzoni.

Metriche Network

Global Clustering

Coefficient0,007038

Reciprocity 0,166345

Massima Eigenvector

Centrality0,06601

Massima Degree

Centrality0,00108

Analisi della Network

▪ L’utente con la degreecentrality più alta è The Noise Union, che conta ben 496 mila followers.

▪ Questo profilo, invece di un essere un singolo artista, sembra essere più un profilo che condivide musica di più artisti di generi simili.

▪ Il numero di followers non coincide con il grado massimo in quanto è stato preso solo un piccolo campione della network.

Componenti connesse

▪ La network è composta da grandissimo numero di componenti fortemente connesse di piccole dimensioni, ed una giant connected component.

▪ I nodi appartenenti alla GCC sono abbastanza eterogenei, sia in termini di paese di provenienza che in termini di canzoni pubblicate.

▪ Il Global Clustering Coefficient della componente è pari a circa 0,014: circa ildoppio del Clustering Coefficient dell’intera network analizzata.

▪ L’Average Path Length della giant connected component è pari a 6,34904. Questorisultato è vicino all’Average Path Length osservato in altre real networks. Possiamoaffermare, con una certa approssimazione, che lo Small World Phenomenonavviene anche nella network analizzata.

Giant Connected Component

Metriche GCC

Numero di Nodi 139.379

Numero di Edges 747.036

Degree Medio 10,7194

Diametro 17,790

Densità 1,8152 * 10-5

Global Clustering

Coefficient0,01490

Average Path Length 6,34904

Musicisti o Ascoltatori?

▪ Dai dati raccolti si può affermare che Soundcloud è una social network per musicisti: Infatti, il 63,3%degli utenti attivi ha pubblicato almeno una canzone.

▪ Si può anche notare che solo l’8,3% degli utenti ha pubblicato più di 50 tracce: ciò suggerisce che Soundcloud sia composta prevalentemente da musicisti emergenti.

▪ È possibile confermare questa affermazione andando ad osservare il numero di tracce pubblicate da un’etichetta discografica.

Musicisti o Ascoltatori?

▪ Dall’analisi dei dati risulta, come previsto, che la maggior parte delle tracce sono senza etichetta discografica.

▪ Le restanti etichette discografiche sono per la maggior parte etichette indipendenti, ossia etichette discografiche di piccole dimensioni che trattano generi musicali «underground»

▪ Quindi, concludiamo affermando che Soundcloud è una social network principalmente per musicisti emergenti.

Musicisti o Ascoltatori?

Generi Soundcloud

▪ Gli utenti del dataset acquisito hanno pubblicato complessivamente ben 16 milioni di tracce.

▪ Tuttavia, di queste tracce sono risultati ben 284 generi diversi!

▪ Possiamo osservare che il genere più popolare in Soundcloud è il Rap, seguito dall’Hip-hop, l’House, la musica elettronica, ecc.

▪ Generi più «classici», come il Rock ed il Jazz sono meno popolari.

Soundcloud Nel Mondo

Soundcloud nel mondo

▪ Nonostante Soundcloud sia un prodotto 100% europeo, si può notare che la maggior parte degli utenti proviene dagli Stati Uniti.

▪ La Germania, patria di Soundcloud è al terzo posto, mentre l’Italia è al settimo posto.

▪ L’Italia si classifica al quarto posto tra i paesi europei.

▪ Possiamo quindi affermare che escludendo gli Stati Uniti, l’Italia si ritrova ad essere uno dei paesi in cui Soundcloud è più popolare.

Utilizzatori di Soundcloud

per paese

Stati Uniti 37,38%

Regno Unito 5,23%

Germania 4,9%

Francia 4,24%

Canada 3,49%

Brasile 3,36%

Italia 3,35%

Australia 2,77%

Egitto 2,27%

Resto del mondo 33,90%

Souncloud nel mondo – Stati Uniti

Metriche Network

Numero di Nodi 137.505

Numero di Edges 102.424

Degree Medio 1,4897

Numero Componenti

Fortemente Connesse126.538

Densità 2,0411 * 10-6

Global Clustering

Coefficient0,006680

Souncloud nel mondo – Regno Unito

Metriche Network

Numero di Nodi 19.601

Numero di Edges 3.807

Degree Medio 0,388

Numero Componenti

Fortemente Connesse19.237

Densità 9,9094* 10-6

Global Clustering

Coefficient0,02524

Soundcloud nel mondo - Germania

Metriche Network

Numero di Nodi 18.314

Numero di Edges 6.088

Degree Medio 0,6648

Numero Componenti

Fortemente Connesse17.790

Densità 1,8152 * 10-5

Global Clustering

Coefficient0,001389

Soundcloud nel mondo - Francia

Metriche Network

Numero di Nodi 15.604

Numero di Edges 4.892

Degree Medio 0,6270

Numero Componenti

Fortemente Connesse15.124

Densità 2,0092* 10-5

Global Clustering

Coefficient0,002212

Soundcloud nel mondo - Canada

Metriche Network

Numero di Nodi 12.869

Numero di Edges 3.089

Degree Medio 0,4800

Numero Componenti

Fortemente Connesse12.443

Densità 1,8653 * 10-5

Global Clustering

Coefficient0.013071

Soundcloud nel mondo - Brasile

Metriche Network

Numero di Nodi 12.387

Numero di Edges 6.538

Degree Medio 1,0556

Numero Componenti

Fortemente Connesse11.911

Densità 4,2613 * 10-5

Global Clustering

Coefficient0,009383

Soundcloud nel mondo - Italia

Metriche Network

Numero di Nodi 12.312

Numero di Edges 5.903

Degree Medio 0.9589

Numero Componenti

Fortemente Connesse11.554

Densità 3,8944* 10-5

Global Clustering

Coefficient0.006524

Soundcloud nel mondo - Riepilogo

▪ Possiamo osservare che le sub-network dei paesi più popolari sono, a parte gliStati Uniti, poco connesse e poco “social”, in quanto hanno un grado medio minore di 1 (ad eccezione del Brasile) e un clustering coefficient basso.

▪ Possiamo cercare di interpretare questo fenomeno in due modi:

▪ La grandezza del campione è ancora una volta non sufficiente ad avere un quadro davverocompleto della situazione

▪ La maggior parte degli utenti dei vari paesi tendono a socializzare più con utenti di altri paesirispetto ai propri compaesani. Inoltre, considerando che la maggior parte degli utenti di Soundcloud è statunitense, possiamo inoltre intuire che gli utenti tendano a socliazzare di piùcon artisti statunitensi.

Grazie per l’attenzione