# Identifier les leaders d’opinion du domaine de l’IA sur Twitter

Auteur : Jiayue LIU (MSc Data Management, Paris School of Business)

Date : 18 Avril 2021 

In [None]:
# Installer toutes les librairies nécessaires à l'exercice
import tweepy
import pandas as pd
pd.options.mode.chained_assignment = None
import igraph as ig
import datetime

# Authentification API
auth = tweepy.OAuthHandler(
 'g5ktEfyoenGVaxGFbbz5Xt6CH', 
 'D5RFlzzO5FMDvFFkUf5piWFF1mNKpgzEZpZEjC40uP7ZA4QhrY')
auth.set_access_token(
 '1313171160973139973-eVa2VAFWUoha0lLgUzVwCQwQycWJ0c', 
 'c4DdmZV6DWV2NwjpBTy5cZlN9tdPvwACbUrwWQyj3RKfX')
api = tweepy.API(auth,wait_on_rate_limit=True)

In [None]:
# Extraire les tweets contenant les mots-clés définis
hashtags = ['#IA', '#IntelligenceArtificielle']
results = tweepy.Cursor(api.search, q=hashtags, lang='fr').items()

# Convertir les résultats de recherche du json en dataframe
json_data = [r._json for r in results]
results_df = pd.json_normalize(json_data)

results_df.to_csv("tweets_database.csv", sep=",")

In [None]:
# Garder des informations qui nous intéresseraient en renommant les colonnes
simple_results = results_df[['created_at',
 'user.location',
 'user.screen_name',
 'user.followers_count',
 'entities.user_mentions']]
simple_results.columns = ['time',
 'location',
 'user_id',
 'num_followers',
 'mentions']

# Afficher le résultat brute mais simplifié
today = datetime.date.today()
week_ago = today - datetime.timedelta(days=7)
print("Pendant la semaine du", week_ago.strftime("%d/%m/%Y"),
 "au", today.strftime("%d/%m/%Y"),
 ", les tweets en français et ayant pour hashtags #IA ou #IntelligenceArtificielle sont les suivants : \n",
 simple_results)

In [None]:
# Convertir la colonne "mentions" en liste simple
mentioned_users = []
for mention in simple_results.mentions:
 mentioned_users.append(list(map(lambda d: d['screen_name'], mention)))
simple_results['mentions'] = mentioned_users

# Stocker tous les edges et nodes dans des dataframes
edges_df = simple_results.loc[:, ['mentions', 'user_id', 'num_followers']]
edges_df = edges_df.explode('mentions').reset_index().drop('index',1)

mention_list = edges_df.mentions.to_list()
user_list = edges_df.user_id.to_list()
nodes_list = set(user_list + mention_list)

edges = edges_df.dropna().reset_index().drop('index',1)
nodes = pd.DataFrame(nodes_list)
nodes.columns = (['user_id'])
nodes = pd.merge(nodes, edges, on='user_id', how='left')
nodes = nodes.drop(columns=['mentions']).groupby(by='user_id').mean().reset_index()

print("La liste des mentions entre les utilisateurs : \n",
 edges)
print("La liste des utilisateurs Twitter ayant publié du contenu relatif à l'IA durant la semaine passée : \n",
 nodes)

In [None]:
# Générer le graphe représentant le réseau social avec le package iGraph

kol_map = ig.Graph.DataFrame(edges,
 directed = True,
 vertices = nodes)
kol_map.vs['name'] = nodes['user_id']
kol_map.vs['num_followers'] = nodes['num_followers']*0.001

In [None]:
# Comparer le nombre d'abonnés des utilisateurs du réseau
nodes['num_followers'] = nodes['num_followers'].astype(pd.Int64Dtype())
rank_followers = nodes.sort_values(by='num_followers',
 ascending=False)
rank_followers

In [None]:
# Calculer la centralité de degré en utilisant le package igraph
out_degrees = pd.DataFrame({'node': nodes['user_id'],
 'degree':kol_map.degree(mode="out")})
out_degrees = out_degrees.sort_values(by='degree',
 ascending=False)

print("Les dix comptes Twitter ayant été le plus mentionnés durant la semaine passée sont : \n",
 out_degrees.head(10))

In [None]:
# Apppliquer la méthode "Fruchterman-Reingold force-directed" pour construire le réseau
layout = kol_map.layout('fr')

visual_style = {}
visual_style["vertex_size"] = kol_map.degree()
visual_style["vertex_color"] = "#1DA1F2"
visual_style["vertex_label"] = kol_map.vs["name"]
visual_style["vertex_label_size"] = 5
visual_style["edge_arrow_size"] = 0.5
visual_style["layout"] = layout
visual_style["bbox"] = (500, 500)
visual_style["margin"] = 20

kol_map0 = kol_map.copy()
visual_style0 = visual_style.copy()
visual_style0["vertex_size"] = kol_map.vs['num_followers']

# Afficher et sauvegarder les graphes générés
print("Carte représentant le réseau d'influence des comptes Twitter du domaine de l'IA : \n",
 "(la taille des noeuds est proportionnelle à leur degré sortant) \n")
ig.plot(kol_map, "twitter_network_mapping_degree.pdf", **visual_style)

print("Carte représentant le réseau d'influence des comptes Twitter du domaine de l'IA : \n"
 "(la taille des noeuds est proportionnelle à leur nombre d'abonnés) \n")
ig.plot(kol_map0, "twitter_network_mapping_follower.pdf", **visual_style0)