[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

Knowledge Sharing and Yahoo Answers: Everyone Knows Something

Lada A. Adamic and Jun Zhang and Eytan Bakshy and Mark S. Ackeerman
Knowledge Sharing and Yahoo Answers: Everyone Knows Something
International World Wide Web conference 2008
pp.665-674
PDFのある場所へのリンク

概要

Yahoo Answer(海外版Yahoo!知恵袋)の解析。
とにかくいろいろ解析しているが、結局何が言いたいのかよくわからない。

ABSTRACT

Yahoo Answers(YA)は広く多様なquestion-answer forumで、technical knowledgeを共有するための媒体としてだけでなく、adviceをseekしたり、opinionsをgatherしたり、いろいろな好奇心を満たすための場所としても機能している。
この論文ではYAの知識の共有の活動(knowledge sharing activity)についての理解を求める。
forumのカテゴリーを解析し、その中身の特徴とユーザー同士のinteractionのパターンによってクラスタリングする。
いくつかのカテゴリーのinteractionはexpertise sharing forumに似ていたが、他はdiscussion、everyday advice、supportをincorporateしていた。
カテゴリーの多様性にもかかわらず、幾人かのユーザーは特定のtopicにかろうじてfocusすることがわかった。他はカテゴリーをまたいで参加している。
このことによりrelatedカテゴリーをmapできるだけでなく、ユーザーのinterestのentropyをcharacterizeできる。
factual expertiseが中心のカテゴリーでのみlower entropyはhigher answer ratingにcorrelateすることがわかった。
与えられたカテゴリーの中で、特定のanswerがbest answerに選ばれるかどうかを予測するためにユーザーattributeとanswer characteristicをcombineする。

1. INTRODUCTION

knowledge exchange communityで最大のものの一つがYA。
現在23Mの質問が解決されている。
もし誰か何か知っていれば、YAには確実にそれをshareするample opportunityがある。
knowledge sharingは伝統的に難しかったが、YAは社会全般のbootstrap knowledgeのメカニズムと恐らくcollective intelligenceを提供することにより達成したように思われる。
YAで共有される知識はとても幅広いが、一般的にあまりdeepではない。
質問と回答の多様性、回答の幅、回答のqualityをexamineする。それに従ってnetwork and non-network analyzeを用いてカテゴリーを分析することにより、いくつかはtechnical expertise sharing forumに似ていて、他は違ったdynamicsを持っていることがわかった。
ユーザーのカテゴリーをまたいだ回答パターンによる知識の広がりを計るためにentropyの概念を利用した。
低いentropyを持つ、つまり高いfocusを持つことは特定のカテゴリーでのベスト回答の割合に関係することがわかった。これは質問が事実を求めるカテゴリーでだけ。
最後に回答のqualityをexamineしてreplierとanswer attributeがどの回答がベストになりそうかを予測するのに使えることがわかった。

2. PRIOR WORK

sharing knowledgeは少なくとも15年以上はresearch topicで、最近ではインターネットスケールでのそれが面白い。
Wikipediaなども含まれる。*1
この分野には4つのperspectiveがある。
一つ目はforumの違いを知ること。
Whittakerらは膨大なUsenet newsgroupのデータでgeneral demographic patternを明らかにし、解析を行っている。*2
これにはsocial network analysisも利用されている。
たとえばKouとZhangはasking-replying networkを掲示板のシステムから構成して人々のオンラインでのinteractionがpersonal interest spaceに強く影響していることを研究した。*3
FischerらとTurnerらはonline interactionのvisualizationの研究をした。*4 *5
二つ目はユーザーレベルにfocusした研究。
Wengerは違う役割の重要性と、それがコミュニティのformationとcontinuationにどう影響しているかを議論した。*6
NonneckeとPreeceはlurkerの振る舞いについて研究した。*7
Donathはonline forumでユーザーのvirtual identityをmineしてdeceptionをdetectする技術を調査した。*8
最近ではWelserらがonline forumでユーザーのego-networkを"structural signature"として利用し"discussion person"と"answer person"をidentifyできることに関して議論した。*9
三つ目はthreadとmessageレベルにfocusした研究。
Sackはvisualizationを使ってdiscussion threadにおけるconversationのパターンが様々であることを示した。*10
JoyceとKrautはmesseageレベルで内容の分析をし、newcomerのpostとrelated responcesが彼らが参加を続けるか否かに影響を与えているかどうかを研究した。*11 *12
四つ目はなぜ人々がonline communityに参加し,貢献するのかの研究。
これはたいてい小さなdeta collectionとsurveyにより行われる。例えばLakhaniとvon Hippel*13やButlerら*14
our own workで、ある種類のonline forumの研究をした*15 *16。これらの研究のgoalはsharing knowledge and expertiseをinternet ageでサポートするためのより良いシステムとonline spaceをデザインすること。
研究を通して、online communityにおける大規模のknowledge sharing and expertiseのdistributionに関して比較的少ししか知られていないことを知った。
YAはその研究にちょうど良く、知る限りでは二つの研究しか行われていない。
SuらはYAのanswer ratingを使ってインターネットでのhuman reviewed dataのqualityについてテストした。*17
Kimらはhuman codingとcontent analysisを使ってベスト回答を選ぶ基準を研究した。*18

3. YAHOO ANSWERS AND DATA SET

YAでのinteractionは全てQ&A。
質問はtop-levelの25のカテゴリーと、lowerl levelの1002のカテゴリーに属する。
質問にはいろいろな種類がある。
"fact"を求めるもの。
助けや支援を求めるもの。
純粋にdiscussionが行われる場合もある。
ただ重要なのはこれらのthreadもYAのルールに支配されているということで、回答は2回以上できないし、自分自身には回答できない。この点は明らかに他のonline systemのthread interactionとは違う。
YA activityを1ヶ月分集めた。
8,452,337の回答と1,178,983の質問、433,402のuniqueな回答者と495,414のuniqueな質問者、質問・回答いずれもしていたのは211,372のユーザーだった。
この数字がすでにユーザーの多様性のヒントである。たくさんのユーザーによる少ないpost数。

4. CHARACTERIZING YA CATEGORIES

4.1 Basic characterics

それぞれのカテゴリーはfactual information、advice seeking、social converasationまたはdiscussionのrequestのミックスだと思う。
それを中身を読まずに正確に決めるのは難しいので、avarage thread length(1ポストあたりのreply数)、average post length(回答がどれだけ長いか)といった特徴を観察することで間接的に推定する。
プログラミング、科学、物理といったtechnical subjectsはreplyが少ないが、それらのreplyは比較的長いことが観察された。
超常現象など普通の科学からは飛び出しているものを扱ったsience subcategoryは多くのreplyがあった。
もう一つの極端なcategoryはJokes and Riddles categoryでreplyは短く、数は多かった。
discussion categoryでは普通の長さのreplyが多くあった。Wrestlingなどのスポーツのcategoryや、Philosophy、Religion、Politicsといったcategoryもそうだった。
またMarriage & Divorce Marriage、いくつかの育児に関するcategoryなどの個々の体験やアドバイスを探すようなcategoryもそうだった。
The Cats and Dogs categoryもそうだった。
他のcategory間での特徴の違いはasker/replier overlap。
ユーザーが技術的な専門知識を求めるようなforumでは大多数はnoviceであり、askerとreplierがかなり区別されることが予想される。*19
アドバイスやsupportが中心のforumではユーザーは求めも与えもし、askerいもreplierにもなりうるだろう。
discussion forumでは質問と回答はいずれもconversationを続けるための手段である。
それゆえにtechnical categoryのoverlapが低く、discussion forumが最も高かったのは驚くべきことではない。
このことに関してはSection 5.1で再び扱う。

4.2 Cluster analysis of categories

それぞれのカテゴリーに対していくつかのaggregate measurementをした。
それぞれのカテゴリーでのactivityはSingles & Datingで216,061の質問、Religion and Spiritualityで129,013の質問、Mathematicsで48,624の質問、Dining Out in Switzerlandではたったの5の質問と幅があった。
the most active categories(質問が1000以上のカテゴリー)の集合を、thread length、content length、asker/replier overlapの3つからなるベクトルによるk-means法でクラスタリングした。
thread length:1質問あたりの平均回答数
content length:1質問あたりの平均回答者数
asker/replier overlap:それぞれのユーザーの質問、回答の頻度を要素とする2つのベクトルのcosine similarity
解析したのは189のカテゴリーで全体の質問の91%を占める。
クラスターを3つにしたときに直感的に一番意味がありそうだった。
一つ目のクラスターはdiscussion forumからなっていて、質問も回答もするユーザーが多く、いろいろなスポーツのカテゴリーでは勝者についてdiscussしたり、Politicsではsquabble over partisanが行われていたり、Religion & Spiritualityではgodの本質についてdebateされたりしていて、そのような刺激的な質問は長いthread lengthの原因になっている。
二つ目のクラスターは、人々が、いくつか正解があったり唯一のfacutual answerが存在しないような質問でadviceyacommon-sense expertiseを探し、求めるようなカテゴリー。そこでは決定的な回答はほとんどなく、同時に多くがアドバイスをするのに適切に感じられるので、threadsは長くなる傾向があるのであろう。Fashion、Baby Names、Fast Food、Cats、Dogsなどがふくまれる。
三つ目のクラスターは多くの質問がfactual answerを含む。人々は質問も回答もし、thread lengthは短くなる傾向がある。Biology、Repairs、Programmingなどが含まれる。
次のセクションで質問と回答のdynamicsをそれぞれのクラスターを代表するカテゴリーのネットワーク構造の違いを解析することによりさらに調べる。

4.3 Network structure analysis

質問したユーザーをそれに回答したユーザーにつなぐことによりasker-replierグラフが構成でき、これをQAネットワークと呼ぶ。QAネットワークの解析はnon-network measureでは容易にcaptureできない重要なinterctionのaspectを解明する。このセクションでは三つのクラスターから典型的な3つのカテゴリー、Wrestling、Marriage & Divorce(Marriage)、Programming & Design(Programming)について調べる。

4.3.1 Detree distributions
それぞれのカテゴリーで出次数と入次数のcumulative distributionを観察した。
すべてのカテゴリーでユーザーのactivity levelの違いが観察された。
幾人かはたくさん回答し、他は1回か2回で質問や回答をやめてしまう。一方極端な例ではたくさんの質問に回答するユーザーもいた。
次にそれぞれのカテゴリーの違いも見えた。
3つともheavy tailed distributionであるが、入次数の分布においてMarrigeとWrestlingはよりbroaderであり、少数の人々は数千のresponseを1ヶ月間に貰っていた。
対照的にProgrammingでは最も質問をしているユーザーでも数十のreplyしか貰っていなかった。
一般的に、Yahoo answersのforumでは出次数の分布はbroadになる傾向がある。
Programingではこれはconsistentlyに他の人を助け、自分は助けを必要としないようなユーザーを反映している。
Marriageではこれらはregularlyにadviceを提供するようなユーザーあるいはWrestlingと同じようにdiscussionが好きなユーザー。
このroleのseparationはたとえユーザーが一つの質問か回答をしていると見なしても明らか。例えばProgrammingでは質問をしたユーザーの約57%は期間中一度も回答しておらず、同様に回答をしたユーザーの51%は質問していない。

4.3.2 Analysis of ego networks
Welserらがonline forumでの"answer person"と"discussion person"をego networkをみることにより見分けられると提案している*20
ego networkはユーザーと直接関係のある人とその人たちの間のエッジでされる。
3つのカテゴリーからそれぞれランダムに100のego networkを抽出して比べている。
Wrestlingではhighly activeユーザーの隣人は彼ら自身highly connectedでそれは彼らが"discussion persons"であることを示している。
反対にProgrammingでは最もactiveなユーザーは、helpしているユーザーは繋がっておらず、"answer people"である。

4.3.3 Strongly connected components
それぞれのカテゴリーのノード数、エッジ数、平均次数、mutual edge、最大強連結成分を調べ比べている。
Wrestlingは強連結成分を持ち、比較的多くのmutual edgeを持っており、core social groupがカテゴリー内に形成されていることを示している。
Programmingにはほとんど強連結成分はなく、reciprocal edgeは完全にない。これは"helpers"と"askers"に役割が分かれている事によると信じている。
Marriageは中間。mutual edgeは少ないがゼロではなく、最大強連結成分は小さいが存在する。
次のsectionでより詳しく調べる。

4.3.4 Motif analysis
motif analysisにより特有のsocial dynamicsを示すinteractionのsmall localパターンを見つけられる。
それぞれのカテゴリーの全てのトライアドに注目して割合を数え、ランダムなネットワーク*21 *22 *23と比べた。
ランダムネットワークに比べどのカテゴリーでもfeed forward loopが多かった。これは一人が2人を助け、そのうちの一人がもう一人を助けるというmotif。Programmingで多くこれは、high levelのexpertiseがすべてのlevelの人々を助けlower expertiseもよりlowerな人を助ける、というhelp-seeking online communityでよく見られる*24特徴を示している。
WrestlingとMarriageではfully reciprocal triadが多く見られ、symmetricな関係がわかった。この二つのカテゴリーのもう一つの重要なtriadは2人のmutual edgeを持ったユーザー(たぶんforumのregular)とそのどちらにも回答しているユーザー(たぶんただ単に質問に答えるために参加しただけ)からなる。
Programmingではこれは少なく、これはお互いに質問に答えるチャンスを持っているregularはよりactiveでないユーザーから回答を得ていることをimplyしている。

4.4 Expertise depth

質問のdepthを決めるためにProgrammingからランダムに100の質問を抽出し、5つのlevelにrateした。
level3は数年プログラムについて学んだ学生くらいのexpertise。
level4はプロのプログラマーくらいのexpertise。
Programmingではlevel3を超えるexpertiseを必要とする質問は1%しかなかった。
手短に言えば、質問はとてもshallow。

5. EXPERTISE AND KNOWLEDGE ACROSS CATEGORIES

このsectionでは2つの視点からYAの広がりについて記述する。
最初はあるカテゴリーで活発に回答しているなユーザーが他のカテゴリーでも同様に総であるような範囲について考える。
次はユーザーのentropy、すなわち彼らの回答が落ちるtopicの幅を計る。

5.1 Relationships between categories

回答のパターンを追跡することにより関係のあるカテゴリーを見つけ出すことは簡単。
カテゴリー間の距離を、カテゴリー内で回答しているユーザーの集合のcosine similarityを用いて計り、階層クラスタリングしている。
コンピューター中心のカテゴリー、Computer & Internet、Consumer Electronics、Yahoo! Products、Games & Recreationなどは同じクラスターに含まれる。
同じようにPolitics & GovermnmentはNews & Eventsは繋がっている。
Home & GardenはFood & Drinkと繋がりFood & DrinkはDining Outと繋がり、Dining OutはLocal Businessesと繋がっている。
これらのカテゴリーをまたいだ関係はユーザー側からの興味のfocusを示唆している。
あるカテゴリーで回答したユーザーが同じカテゴリーあるいは他のどのカテゴリーで回答する傾向があるのかを質問と回答のパターンから調べる。
Sports、Politics、Society & Culture(Religionを含む)のようなdiscussionしがちなtopicを扱うforumではユーザーは質問と回答を同じforumで行うことが多いことをobserveした。
Education & Reference、Sience & Mathのサブカテゴリーに見られるような事実にdominateされたtopicでは質問も回答もするユーザーは少ない。
車と輸送に関して回答している人が、他のカテゴリーで回答していて、車について質問している人にほどには他のカテゴリーで質問しない傾向があることがわかった。
スポーツと政治での回答者は美容とスタイルに関してほとんど質問しない。
回答したカテゴリーに関係なく、ユーザーは一様にYahoo productsに関して質問していた。
回答したカテゴリーに関わらずHealthで質問するユーザーは多かった。しかし回答の多いカテゴリーでもあった。
Faimly & relationshipsもHealthと同じようであったが、relationshipに関する質問は概して他のカテゴリーでの回答とは関係なかった。
technicalカテゴリーとsupportカテゴリーでも非対称な関係があった。Relationships、Health、Parentingで回答しているユーザーはComputers & Internetでも質問するが、逆は少ない。
少なくとも数名のユーザーは全てのカテゴリーでランダムに回答している訳ではないので前述のカテゴリー間の関係はapparent。
なので無数のtopicでknowedgeを共有する機会があるが、ユーザーは範囲を限定する傾向がある。

5.2 User entropy

特定のtopicにどれだけユーザーが集中しているかの指標としてentropyを使う。集中していれば低くなる。
カテゴリーの階層も反映されるようなentropyの定義にした。
回答の頻度にはかなり差があり、topicにfocusしているのかただほとんど回答していないのかを考慮しなければならないので、40以上の回答をした41,266のユーザーにしぼって分析した。
これらのユーザの中でもentropyにはかなり幅があった。あるユーザーは自らを犬のトレーナーと称し、全ての回答はDogサブカテゴリーで、ゆえにentropyは0だった。
一方で40の質問が25あるtop-levelカテゴリーのうち17のカテゴリー、26のサブカテゴリーに散らばっていた。彼はどのカテゴリーでも僅か4つの回答しかしておらず、entropyは5.75だった。
entropyの分布は驚いたことにflatだった。何人かはとても低いentropyだが、高いentropyもYAの階層による限界まで比較的普通だった。
ユーザーのbest answerの確率を調べたところ、その分布は非対称でbest answer率6-8%のユーザーが一番多かった。次のsectionでユーザーのfocusとbest answerに選ばれることとの関係をdetermineするために二つのmetricをcorrelateする。

5.3 Correlating focus to best answers

直感的に回答が限られた範囲のカテゴリーにfocusしている場合、best answerに選ばれる頻度は大きい気がする。面白いことにentropyとbest answerに選ばれる確率には相関が無かった。
いくつかのdiscussion forumでの回答ではそうだろうが、場合によっては相関があると期待する。
カテゴリーにも違いがあり、factual informationを扱うカテゴリーは一部であることは既に学んだ。
support forumではbest answerは最もempathyあるいはcaringなadviceであろう。
discussion forumではbest answerは最も質問者の意見に賛成している回答であろう。
entertainment categoryでは最もwitな回答が勝つだろう。
先行研究で正確さや詳細さなどのcontent valueはbest answerを決める要素の17%でしかない、agreement、afferct、emotinal suppportなどのsocio-emotionalは33%をしめるのに対して*25
best answerを選ぶことのもう一つの特徴は他の多くの良い回答が選ばれないということ。先行して行った実験ではProgramming、Cancer、Celebrityからそれぞれ100の質問をとって来て、回答に採点したが、本当のbest answerはたしかにbestであったが、best answerに選んだ者とは違っており、2番目、3番目にした回答だった。
つまり良い回答ばかりするユーザーを見つけ出すことができない。回答の多いカテゴリーではbest answerに選ばれる確率が小さくなってしまう。
それでも技術的なことや事実についてのカテゴリーでは低いentropyがperformanceに関係するとexpectする。
これを証明するためにentropyを2つ目の階層を分けて計算した。
その結果技術的なカテゴリーであるComputers & InternetとScience & Mathではあきらかな関係が見られた。
弱まりはするがadvice-ladenのカテゴリーであるFamily & Relationshipsでも関係が見られた。
Sportsでは関係はなかった。
最後にカテゴリー内でのユーザーの回答の割合とbest answerに選ばれた率をすべてのカテゴリーで関係づけた。
技術的なカテゴリーではfocusはbetterなscoreと関係していた。回答に知識が必要なカテゴリーでも弱まりはしたが明らかな関係があった。discussionカテゴリーでは全く関係がなかった。
asker-repliier overlapが低く、thread lengthが短いカテゴリーが高い関係を持っている。

6. PREDICTING BEST ANSWERS

いくつかの方法でその回答がbest answerに選ばれるかとどうかを予測することができるかテストする。conplementaryでconcurrentに、質問と回答のqualityに関する研究がAgichiteinらにより行われている*26
ランダムにbest answerとそうでないものがbalanceするように回答を抽出し、very likelyにbestに選ばれそうな回答を除外した上で、いくつかの変数でロジスティック回帰を行った。
回答者の大半は回答数が少なすぎるのでentropyとfocusのmeasuerは使わなかった。
予測精度を得るために10倍のクロス確認をrandom guessesで0.5のbaselineで行った。
ProgrammingとMarriageとWrestlingで行った。
回答の長さと、他の回答の多さが大きく影響した。
回答の長さだけで62%の予測精度を得た。質問者がより長い回答が好きなことを示している。
ユーザーがそのカテゴリーで回答している数とbest answerに選ばれている数も良い予測を生み、これはProgrammingで他のカテゴリーより顕著だった。他のカテゴリーでbest answerに選ばれている数は関係なかった。
単純なユーザーの回答数はほんの僅かに改善させたが、best answerの数を考慮するとnegativeな影響を及ぼす。
この結果は以前に行ったSun's Java Forumでの結果と際立った対象をなしていた。Java Forumでは回答の数はexpertise levelと強く関係していた。
ユーザーの選んだbest answerとその領域のexpertが選んだ回答とを競争させるのは面白そう。回答の頻度とexpertise levelの関係があるのか、Java Forumのような専門的なcommunityと違いYahoo Answerのような一般的なcommunityではexpertise levelに大きな違いがあるのかなどを調べるのも面白そう。それらはfuture work。

7. CONCLUSIONS

まず
content propertyとカテゴリーをまたいだsocial network interactionを比較し、thread lengthとoverlapによりカテゴリーをクラスタリングできることをfindした。
discussion topicや事実に基づく回答を求めていないようなtopicでは長いthreadでactivity levelの分布は幅広く、ユーザーは質問も回答もする傾向があった。
事実を求める質問の多いカテゴリーではthread lengthは短く、典型的にユーザーは同じforumでhelperかaskerに徹していた。
これらの異なるdynamicsにdiffering interaction motifがcorrespondすることをfindした。
online forumでの先行研究と同じように、ego-networkがdiscussion threadが支配する傾向のあるYA categoryを、question-answer形式に縛られている中でさえ、簡単にrevealすることをfindした。
次に
関係のあるカテゴリーをidentifyした。あるカテゴリーで回答したユーザーが他のカテゴリーでも回答しやすいかをしらべることにより。
質問と回答を別々に考えたとき面白い非対称が見つかった。familiar topicに関する質問には多くのユーザーが回答する、多く質問するのがどこでも。specializedでtechnicalなカテゴリーで回答するようなユーザーは他のカテゴリーでは質問が少ない。
ユーザーがどれだけカテゴリーをまたいでknowledgeをshareしているかを調べ、多くのユーザーは多くの違ったカテゴリーで回答しており、specializedでtechnicalなカテゴリーではその傾向が少なかった。そのようなカテゴリーではそのカテゴリーにfocusしているユーザーの方がbest answerに選ばれやすかった。
最後に
best answerを予測しようと試みた。その質問への回答の数と回答者のtrack recordと同様に単純に回答の長さがもっとも予測に使えた。ユーザーのbest answerの数(expertizeのpotentialなindicator)は役に立ったがそれが最も総だったのはtechnically focused Programming categoryだった。
future workとしてYAでshareされているexpertiseのlevelをもっと調べたい。民主化したknowledge sharingによりYAは大きな偉業を達成した。みんな何かをしっている。そして解析により多くの人がいくつかのことを知っていてそれをYAでshareできることを知った。しかしその幅広さがdepthを犠牲にしているかどうかは未だunclear。我々が日々単純な質問の回答を得ているのに対して、top levelのexpertが違ったincentive mechanismによりYAに参加しているのかどうかを知りたい。

*1:T. Holloway, M. Bozicevic, and K. B¨orner. Analyzing and visualizing the semantic coverage of wikipedia and its authors: Research articles. Complexity, 12(3):30-40, 2007.

*2:S. Whittaker, L. Terveen, W. Hill, and L. Cherny. The dynamics of mass interaction. Proceedings of the 1998 ACM conference on Computer supported cooperative work, pages 257-264, 1998.

*3:K. Zhongbao and Z. Changshui. Reply networks on a bulletin board system. Phys. Rev. E, 67(3):036117, Mar 2003.

*4:D. Fisher, M. Smith, and H. Welser. You Are Who You Talk To: Detecting Roles in Usenet Newsgroups. In HICSS’06, 2006.

*5:T. Turner, M. Smith, D. Fisher, and H. Welser. Picturing Usenet: Mapping Computer-Mediated Collective Action. Journal of Computer-Mediated Communication, 10(4), 2005.

*6:E. Wegner. Communities of Practice: Learning, Meaning, and Identity, 1998.

*7:J. Preece, B. Nonnecke, and D. Andrews. The top five reasons for lurking: improving community experiences for everyone. Computers in Human Behavior, 20(2):201-223, 2004.

*8:J. S. Donath. Identity and deception in the virtual community. Communities in Cyberspace, pages 29-59, 1999.

*9:H. T. Welser, E. Gleave, D. Fisher, and M. Smith. Visualizing the signatures of social roles in online discussion groups. Journal of Social Structure, 8(2), 2007.

*10:W. Sack. Conversation map: a content-based Usenet newsgroup browser. In IUI’00, pages 233-240, 2000.

*11:J. Arguello, B. S. Butler, L. Joyce, R. Kraut, K. S. Ling, and X. Wang. Talk to me: foundations for successful individual-group interactions in online communities. In CHI’06, pages 959-968, 2006.

*12:E. Joyce and R. Kraut. Predicting Continued Participation in Newsgroups. Journal of Computer-Mediated Communication, 11(3):723-747, 2006.

*13:K. Lakhani and E. von Hippel. How open source software works:“free” user-to-user assistance. Research Policy, 32(6):923-943, 2003.

*14:B. Butler. Membership Size, Communication Activity, and Sustainability: A Resource-Based Model of Online Social Structures. Information Systems Research, 12(4):346-362, 2001.

*15:J. Zhang, M. Ackerman, and L. A. Adamic. Expertise networks in online communities: structure and algorithms. In WWW’07, pages 221-230, 2007.

*16:J. Zhang, M. S. Ackerman, and L. A. Adamic. Communitynetsimulator: Using simulations to study online community networks. In C & T’07, 2007.

*17:Q. Su, D. Pavlov, J. Chow, and W. Baker. Internet-scale collection of human-reviewed data. In WWW’07, pages 231-240, 2007.

*18:S. Kim, J. S. Oh, and S. Oh. Best-Answer Selection Criteria in a Social Q&A site from the User-Oriented Relevance Perspective. presented at ASIST, 2007.

*19:T. Turner, M. Smith, D. Fisher, and H. Welser. Picturing Usenet: Mapping Computer-Mediated Collective Action. Journal of Computer-Mediated Communication, 10(4), 2005.

*20:H. T. Welser, E. Gleave, D. Fisher, and M. Smith. Visualizing the signatures of social roles in online discussion groups. Journal of Social Structure, 8(2), 2007.

*21:R. Milo, S. Shen-Orr, S. Itzkovitz, N. Kashtan, D. Chklovskii, and U. Alon. Network Motifs: Simple Building Blocks of Complex Networks. Science, 298(5594):824–827, 2002.

*22:R. Milo, S. Itzkovitz, N. Kashtan, R. Levitt, S. Shen-Orr, I. Ayzenshtat, M. Sheffer, and U. Alon. Superfamilies of evolved and designed networks. Science, 303:1538–1542, 2004.

*23:S. Wernicke and F. Rasche. FANMOD: a tool for fast network motif detection. Bioinformatics, 22(9):1152–1153, 2006.

*24:J. Zhang, M. Ackerman, and L. A. Adamic. Expertise networks in online communities: structure and algorithms. In WWW’07, pages 221–230, 2007.

*25:S. Wernicke and F. Rasche. FANMOD: a tool for fast network motif detection. Bioinformatics, 22(9):1152–1153, 2006.

*26:E. Agichtein, C. Castillo, D. Donato, A. Gionis, and G. Mishne. Finding High-Quality Content in Social Media. WDSM’08, 2008.