[0] A Word at a Time: Computing Word Relatedness using Temporal Semantic Analysis (2011)
Kira Radinsky, Eugene Agichtein, Evgeniy Gabrilovich and Shaul Markovitch
WWW2011
Israel Institute of Technology, and Yahoo! Research
「戦争」と「平和」、「株価」と「石油」などの語の関係性を、時系列に計算する方法。
[1] Web scale NLP: A case study on URL word breaking (2011)
Kuansan Wang, Chris Thrasher and Bo-june Hsu
WWW2011
[2] Towards Semantic Knowledge Propagation from Text to Web Images (2011)
Guo-Jun Qi, Charu Aggarwal and Thomas Huang
WWW2011
[3] Mark my words! Linguistic style accommodation in social media (2011)
Cristian Danescu-Niculescu-Mizil, Michael Gamon and Susan Dumais
WWW2011
Cornell Univ. and MSR
コミュニケーションをしていると似てくる、という現象を、twitter上で検証。冠詞(an, the), 必然性(always, never)などの次元ごとにどのくらい出現するかを比較。
[4] Layered LPA: A MultiResolution Coordinate-Free Ordering for Compressing Social Networks (2011)
Sebastiano Vigna, Paolo Boldi, Massimo Santini and Marco Rosa
WWW2011
[5] Adaptive Policies for Selecting Groupon Style Chunked Reward Ads in a Stochastic Knapsack Framework (2011)
Michael Grabchak, Narayan Bhamidipati, Rushi Bhatt and Dinesh Garg
WWW2011
[6] Modeling the Temporal Dynamics of Social Rating Networks using Bidirectional Effects of Social Relations and Rating Patterns (2011)
Mohsen Jamali, Gholamreza Haffari and Martin Ester
WWW2011
[7] Milgram-Routing in Social Networks (2011)
Silvio Lattanzi, Alessandro Panconesi and D. Sivakumar
WWW2011
[8] Information Spreading in Context (2011)
Dashun Wang, Zhen Wen, Hanghang Tong, Ching-Yung Lin, Chaoming Song and Albert-László Barabási
WWW2011
IBM T.J. Watson, Harvard Univ. etc
Linさんの研究。(おそらく) IBMの8900人のメールの送受信のデータ。それと、組織図の正式なデータの比較。
[9] Supporting Synchronous Social Q&A Throughout the Question Lifecycle (2011)
Matthew Richardson and Ryen White
WWW2011
[10] The Design and Usage of Tentative Events for Time-based Social Coordination in the Enterprise (2011)
Mikhil Masli, Werner Geyer, Casey Dugan and Beth Brownholtz
WWW2011
[11] Differences in the Mechanics of Information Diffusion Across Topics: Idioms, Political Hashtags, and Complex Contagion on Twitter (2011)
Daniel Romero, Brendan Meeder and Jon Kleinberg
WWW2011
[12] We Know Who You Followed Last Summer: Inferring Social Link Creation Times In Twitter (2011)
Brendan Meeder, Brian Karrer, Amin Sayedi, R Ravi, Christian Borgs and Jennifer Chayes
WWW2011
[13] Like like alike -- Joint friendship and interest propagation in social networks (2011)
Shuang-hong Yang, Bo Long, Alex Smola, Narayanan Sadagopan, Zhaohui Zheng and Hongyuan Zha
WWW2011
[14] Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures (2011)
Wei Dong, Moses Charikar and Kai Li
WWW2011
[15] Emergence of hierarchy in directed social networks (2011)
Mangesh Gupte, Pravin Shankar, Jing Li, Muthukrishnan and Liviu Iftode
WWW2011
[16] Who Says What to Whom on Twitter (2011)
Shaomei Wu, Jake M. Hofman, Winter Mason and Duncan J. Watts
WWW2011
[17] Limiting the Spread of Misinformation in Social Networks (2011)
Ceren Budak, Divyakant Agrawal and Amr El Abbadi
WWW2011
[18] Estimating Sizes of Social Networks via Biased Sampling (2011)
Liran Katzir, Edo Liberty and Oren Somekh
WWW2011
[19] Recent Developments in Deep Learning
Geoffrey Hinton
Google Tech Talks
University of Toronto, Canada
ディープラーニングのとてもよい解説。
[20] Semi-Supervised Learning for Imbalanced Sentiment Classification (2011)
S. Li, Z. Wang, G. Zhou, and S. Lee
IJCAI2011
Soochow Univ. and Hong Kong Polytechnic Univ.
ランダムにサンプリングして半教師あり学習をする。
[21] Large-scale Learning with SVM and Convolutional Nets for Generic Object Categorization
F.J. Huang and Y. LeCun
New York Univ.
CVPR'06
SVMとConvolutional(畳み込み(脳回))ネットを融合する。Convolutionalネットの最終レイヤーのひとつ前のレイヤーの値を素性として、SVMで使う。
[22] Network resorce combinations in the international venturing of small biotech firms (2010)
D. Tolstoy and H. Agndal
Technovation 2010
Stockholm School of Economics
上野山さん関連の論文
[23] An Introduction to Variable and Feature Selection
I. Guyon and A. Elisseeff
Journal of Machine Learning Research
Max Planck
[24] Purified Sentiment Indicator for the Stock Market (2009)
David R. Aronson, and John R. Wolberg
Journal of Technical Analysis 2009
?
PSIという市場のセンチメントを計る指標を定義した。5つの既存の指標をもとに、それを純粋化(purified)したものであり、従来のものよりプロフィットファクターが高い。
[25] Forecasting the belief of the population: Prediction Markets, Social Media & Swine Flu (2009)
Daniel Kristopher Harvey
Mater thesis, 2009
U. Edinburgh
[26] Deep Learning via Semi-Supervised Embedding (2009)
Jason Weston, Frederic Ratle, Ronan Collobert
NIPS2009
NEC Labs
教師なし学習のアルゴリズムと、深いアーキテクチャのモデルを選ぶ。教師なし学習は、アーキテクチャのレイヤーのいずれかに「副問題」として接続される。教師なし、教師ありタスクを、同時に訓練する。LapSVMやTSVM、LDSなどと近い。とても面白い。
[27] EigenTransfer: A Unified Framework for Transfer Learning (2009)
Wenyuan Dai, Ou Jin, Gui-Rong Xue, Qiang Yang and Yong Yu
ICML2009
Shanghai Jiao Tong Univ., and Hong Kong Univ. of Sci. and Tech.
インスタンス群の間の類似性を示したグラフを書く。ノードは、インスタンス群や素性やクラスラベルであり、エッジはそれらの間の関係である。(例えば、対象問題と補助問題での共起の数).
このグラフ上で固有値を求めて、問題を解く。
[28] A Convex Formulation for Learning Shared Structures from Multiple Tasks (2009)
Jianhui Chen, Lei Tang, Jun Liu and Jieping Ye
ICML2009
Arizona State Univ.
Andoらの研究を進めている。改良型代替構造最適化(iASO)を、非凸の関数として定義する。
[29] Unsupervised Search-based Structured Prediction (2009)
Hal Daume III
ICML2009
U. Utah
ツリーやラベルシーケンスなどの構造化された出力を出すのが、構造化予測。これの教師なしバージョン。
[30] Nonparametric Latent Feature Models for Link Prediction (2009)
Kurt Miller, Thomas Griffiths, Michael Jordan
NIPS2009
UC Berkeley
エンティティを、素性からなるベクトルと考える。この素性のインタラクションでリンクができる。素性は与えられるものではなく、潜在的なものとして推定する。すばらしい。
[31] Unsupervised feature learning for audio classification using convolutional deep belief networks (2009)
Honglak Lee Yan Largman Peter Pham Andrew Y. Ng
NIPS2009
Stanford Univ.
低いレイヤーで簡単な素性を学習し、さらに複雑な素性を高いレイヤーで学習する「深い学習」のアプローチが研究されている。ここではそれを音声データに当てはめる。素性として、音素が得られる。そして、これがベースラインの素性よりも、音声分類のタスクにおいて良いことを示す。
[32] Measuring Invariances in Deep Networks (2009)
Ian Goodfellow, Quoc Le, Andrew Saxe, Andrew Ng
NIPS2009
[33] Kernel Methods for Deep Learning (2009)
Youngmin Cho and Lawrence K. Saul
NIPS2009
UC San Diego
[34] Network resource combinations in the international venturing of small biotech firms (2010)
D. Tolstoy and H. Agndal
Technovation, 2010
Stockholm School of Economics
企業の資源として、ネットワーク的側面を分析する。小さなバイオ技術のベンチャーを対象に、6つのケーススタディを行う。国際的な製品のベンチャー(NIPV)は、製品を再定義したり、市場を再定義したりするような、幅広いネットワーク資源を探索することが分かり、国際的な市場のベンチャー(NIMV)は、より狭い範囲のネットワークに依存することが分かった。
[35] Two-Stage Learning Kernel Algorithms (2010)
C. Cortes, M. Mohri, and A. Rostamizadeh
ICML2010
Google and Courant Inst. of Math. Sci.
2段階のカーネルアルゴリズム。最初の段階で、p個のカーネルの組み合わせのカーネルを学習する。次に、そのカーネルを使って、SVM等の通常のカーネル学習アルゴリズムで仮説を選択する。
[36] Unsupervised Transfer Learning: Application to Text Categorization (2010)
T. Yang, R. Jin and A. Jain
KDD2010
Michigan State Univ.
(i)求めたいクラスではない、補助クラスのラベルつき例がある、
(ii)補助クラスと求めたいクラスの相関が分かっている
このとき、転移学習によって、求めたいクラスの分類を行う。
一般化最大エントロピーモデルを使う。
[37] The community-search problem and how to plan a successful cocktail party (2010)
M. Sozio and A. Gionis
KDD'10
Max-Planck-Inst., Yahoo! Research
グラフGと、複数のクエリーノードが与えられたとき、クエリーノードを含む密に結合したサブグラフを見つける問題。
[38] Suggesting Friends Using the Implicit Social Graph (2010)
N. Leiser, Y. Matias, R. Merom
KDD'10
Google
[39] Semi-supervised Feature Selection based on Manifold Regularization (2010)
Z. Xu, I. King, M. Lyu, and R. Jin
Neural Networks, 2010
Michigan State Univ.
ほぼ同じ論文がIJCAI09に。ノード間にエッジがあるような多様体を仮定して、SVMで素性選択をする。USPSのデータで実験。コサイン類似度、バイナリーの重みでグラフを作る。フィッシャー、L1, L0などよりよい結果。
[40] Semi-supervised Feature Selection for Graph Classification (2010)
X. Kong and P. Yu
KDD2010
U. Illinois at Chicago
グラフ分類で、例えばノードAとノードBがつながっているなどの部分グラフの構造を使った素性選択を、半教師学習で行う。
[41] Scalable Influence Maximization for Prevalent Viral Marketing in Large-Scale Social Networks
[42] Mining Advisor-Advisee Relationships from Research Publication Networks
C. Wang, J. Han, Y. Jia, J. Tang, D. Zhang, Y. Yu, and J. Guo
KDD'10
U. Illinois Urbana-Champaign, and Tsinghua Univ.
指導者、指導を受ける者の関係性を、取り出す。共著の時系列データを使う。ちゃんと確率モデルでモデル化している。
[43] Text Mining for Product Attribute Extraction
R. Ghani, K. Probst, Y. Liu, M. Krema, and A. Fano
Accenture and CMU
SIGKDD Explorations, 2006
製品の明示的/暗黙的属性を取り出す。EMで解く。
[44] Interfaces for Collaborative Exploratory Web Search: Motivations and Directions for Multi-User Designs
M. R. Morris
CHI 2007 Workshop on Exploratory Search and HCI
Microsoft Research
2人から4人の学生がひとつのコンピュータを囲む"joint search"と、別々だが隣り合ったワークステーションに座って話し合う"coordicated search"の2つがある。後者は検索結果を比べたり、何かを見つけるのを競ったり、スクリーンを覗き込んだりする。
とても分かりやすいサーベイ。204人のマイクロソフト社員による調査。
[45] Dialog-Based User Models (1986)
W. Wahlster, A. Kobsa
IEEE Special Issue on Natural Language Processing 1986
[46] Generating Discourse Structures for Written Texts (2004)
H. LeThanh, G. Abeysinghe, and C. Huyck
COLING 2004
Middlesex Univ., London
3.1の最後のほうに textual adjacency constraint という表現。4つの主要な制約のひとつ。
文レベルとテキストレベルの2つのレベルで対話文を分析。
[47] Incremental Parsing Models for Dialog Task Structure (2009)
S. Bangalore and A. Stent
ACL 2009
AT&T Labs
対話分析(discourse parsing)には、統計的ボトムアップな方法、階層的クラスタリング、語彙ツリーの結合分布による方法、ルールベースな方法や会話手がかりによる方法がある。
[48] Mashing Up Search Services (2008)
D. Braga, S. Ceri, F. Daniel, and D. Martinenghi
IEEE Internet Comp., 2008
[49] Speech and sound for in-car infotainment systems
I. Tashev, M. Seltzer and Y. Ju
First International Conference on Automotive User Interfaces and Interactive Vehicular Applications (AutomotiveUI 2009) (ポスター)
Microsoft Research
決まった文法ではなく、言語モデルにもとづいて音声認識をする。音楽を探す、テキストメッセージに返信する、車のマニュアルを読むという応用例。
[50] Searching the Web by Voice (2002)
A. Franz and B. Milch
COLING 2002
Google Inc. and UC Berkeley
[51] Class-Driven Attribute Extraction (2008)
B. Van Durme, T. Qian, and L. Schubert
Coling 2008
U. Rochester
代表的インスタンスがある場合、ない場合の、大規模なクラスの属性獲得を行う。KNEXTというのに基づいている。
[52] Support Exploratory Search (2006)
R. White
CACM 2006
探索的検索の概要。
[53] A comparison of information seeking using search engines and social networks.
[54] Co-located Collaborative Web Search: Understanding Status Quo Practices (2009)
S. Amershi and M. Morris
CHI2009, poster, 2009
Microsoft Research
同場所共同ウェブ検索についての調査。家や職場でとか、1時間以上続くのはほぼ情報探索だとか。
参考になるのでもう一度読んだ方がいいかも。
[55] WeSearch: Collaborative web search for tabletop displays. (2010)
a
CSCW 2010
a
[56] CoSearch: a system for co-located collaborative web search using a shared computer augmented by multiple mice or mobile phones (2008)
S. Amershi and M. Morris
CHI 2008
U. Washington and Microsoft Research
204人のマイクロソフトの従業員へのアンケートでは87.7%が「後部座席運転手」検索、つまりほかの人にクエリーやリンクを指示しながら検索したことがある。検索すると結果が結果ペインに出る。それを誰でもクリックすることができるが、クリックするとその人用のタブができる。
[57] TeamSearch: a system for co-located collaborative search using a tabletop display
Tabletop 2006
[58] マイクロソフト研究所のCollaborative Searchのリンク集
a
a
a
[59] Exploratory Search: From Finding to Understanding (2006)
Gary Marchionini
CACM 2006
a
探索的検索のコンセプトについて。学ぶことと調査するの反復。知識獲得や概念/スキルの理解、アイディアの解釈やデータ/概念の比較、集積など。またコミュニティや新しい友人の検索も。Open Video Digital Libraryというのの紹介。
[60] Latent Dirichlet Allocation (2003)
D. Blei, A. Ng, and M. Jordan
Journal of Machine Learning Research, 2003
U. Cal Berkeley and Stanford U.
LDAの提案。トピックの混合θが決まって、トピックzが決まり、単語wが決まる。θとwのパラメータがαとβ。推論の方法、パラメータの推定法やスムージングなどが5章にある。
[61] A User Browsing Model to Predict Search Engine Click Data from Past Observations (2008)
Georges Dupret and Benjamin Piwowarsk
SIGIR'08
Yahoo! Research Latin America
[62] User-centric, Adaptive and Collaborative Information Filtering
[63] Information Retrieval Using Collaborating Multi-User Agents
[64] An approach to customized end-user views in multi-user information retrieval systems
[65] Personalized Web Exploration with Task Models (2008)
Jae-wook Ahn, Peter Brusilovsky, Daqing He, Jonathan Grady, Qi Li
WWW2008
University of Pittsburgh
[66] Unsupervised Query Categorization using Automatically-Built Concept Graphs (2009)
Eustache Diemert, Gilles Vandelle
WWW2009
Yahoo!
[67] Understanding User's Query Intent with Wikipedia (2009)
Jian Hu, Gang Wang, Fred Lochovsky, Jian-tao Sun, Zheng Chen
WWW2009
MSRA
[68] Incorporating Site-Level Knowledge to Extract Structured Data from Web Forums (2009)
Jiang-Ming Yang, Rui Cai, Yida Wang, Jun Zhu, Lei Zhang, Wei-Ying Ma
WWW2009
MSRA
[69] Towards Context-Aware Search by Learning a Very Large Variable Length Hidden Markov Model from Search Logs (2009)
Huanhuan Cao, Daxin Jiang, Jian Pei, Enhong Chen, Hang Li
WWW2009
MSRA and University of Science and Technology of China
[70] Ranking Specialization for Web Search: A Divide-and-Conquer Approach by Using Topical RankSVM (2010)
Jiang Bian, Xin Li, Fan Li, Zhaohui Zheng, Hongyuan Zha
WWW2010
クエリーによって適切なランキングが変わるのを学習する。
[71] Collaborative Location and Activity Recommendations with GPS History Data (2010)
Vincent W. Zheng, Yu Zheng, Xing Xie, Qiang Yang
WWW2010
Hong Kong Univ. of Science and Technology
GPSの履歴とウェブのデータを使って、旅行等の活動のおすすめをする。
[72] Equip Tourists with Knowledge Mined from Travelogues
Qiang Hao, Rui Cai, Changhu Wang, Lei Zhang
[73] Highlighting Disputed Claims on the Web
Rob Ennals, Beth Trushkowsky and John Mark Agosta
[74] Actively Predicting Diverse Search Intent from User Browsing Behaviors
Zhicong Cheng, Bin Gao, Tie-Yan Liu
[75] Exploiting Query Reformulations for Web Search Result Diversification
Rodrygo Santos, Craig Macdonald, Iadh Ounis
[76] A Contextual Bandit Approach to Personalized News Article Recommendation
Lihong Li, Wei Chu, John Langford, Robert Schapire
[77] A Characterization of Online Search Behavior
Ravi Kumar, Andrew Tomkins
[78] Liquid Query: Multi-domain Exploratory Search on the Web ** (2010)
Alessandro Bozzon, Marco Brambilla, Stefano Ceri, Piero Fraternali
WWW2010
Politecnico Di Milano
関連するニュース、場所の近くのレストラン、組み合わせられるイベントなどを見つける。複数の検索結果を集積する。汎用の検索と、特定の検索をつないでいる。
[79] Atomate It! End-user context-sensitive automation using heterogeneous information sources on the Web
Max Van Kleek, Brennan Moore, Paul André, David Karger, mc schraefel

A Plan Recognition Model for Clarification Subdialogues
D. Litman and J. Allen
Cognitive Science 1987
U. of Rochester
プランに基づくタスクと会話の構造を利用した自然言語システム
[80] Towards Natural Question Guided Search * (2010)
Alexander Kotov, ChengXiang Zhai
WWW2010
U. Illinois at Urbana-Champaign
システムが面白い質問をすることで検索を進める
自然言語文による入力、インタラクションが必要というIntroductionのところは参考になる。
[81] Clustering Query Refinements by User Intent * (2010)
Eldar Sadikov, Jayant Madhavan, Lu Wang, Alon Halev
WWW2010
Stanford, Google
クリックの共起から作ったユーザの興味にもとづいて、クエリーのクラスタを洗練するアルゴリズム。
[82] Classifying Ellipsis in Dialogue: A Machine Learning Approach (2004)
R. Fernandez, J. Ginzburg, and S. Lappin
Coling 2004
King's College London
単文をwhen, whoなどに分ける
[83] Using Machine Learning for Non-Sentential Utterance Classification (2005)
R. Fernandez, J. Ginzburg, and S. Lappin
SIGDial 2005
King's College London
[84] Collaboration, Cooperation and Dialogue Classification (1997)
C. Reed and D. Long
IJCAI 1997
U. College London
対話のタイプを、説得、交渉、質問、熟考、情報探索、Eristic(?)に分類している。
議論だけの論文。
[85] Learning the Structure of Task-Driven Human–Human Dialogs (2008)
S. Bangalore, G. Di Fabbrizio, A. Stent
IEEE Transactions on Audio, Speech and Language Processing, 2008
AT&T Labs
[86] Collaborative Web Search
B. Smyth et al.
a
a
複数ユーザのコンテクストを使って検索するという話。
[87] Mining Clickthrough Data for Collaborative Web Search (2006)
J. Sun, X. Wang, D. Shen, H. Zheng, and Z. Chen
WWW2006
MSRA
[88] Browsing is a Collaborative Process (1997)
M. Twidale, D. Nichols, and C. Paice
Information Processing & Management, 1997
Lancaster Univ.
3.1節に、図書館で観察された例として「Joint Search」「 Cordinated Search」などを挙げている。
[89] SearchTogether: An Interface for Collaborative Web Search (2007)
M. Morris and E. Horvitz
UIST 2007
MSR
遠隔で一緒に検索するインタフェース
[90] Identifying Subjective Adjectives through Web-based Mutual Information (2004)
Marco Baroni, and Stefano Vegnaduzzo
Proc. KONVENS2004 (Verarbeitung naturlicher Sprache: Germanyの学会), 2004
[91] Retrieving Japanese specialized terms and corpora from the World Wide Web (2004)
M. Baroni and M. Ueyama.
Proceedings of KONVENS 2004
[92] Learning invariant features using the Transformed Indian Buffet Process (2010)
J. Austerweil and T. Griffiths
NIPS 2010
UC Berkely
2つの素性が異なるものか、同じものを変換したものかを、tIBPというモデルを使って説明する。40人の被験者による2つの実験で、直観と合うかを比較している。
[93] Predicting the Importance of Newsfeed Posts and Social Network Friends (2010)
Tim Paek, Michael Gamon, Scott Counts, David Maxwell Chickering, Aman Dhesi
AAAI2010
facebookのフィードごとの重要性を判別するモデルを学習する。
[94] 身体知解明へのアプローチ (2005)
古川康一、尾崎知伸、植野研
JSAI2005
身体知の解明の難しさは、不良設定問題(文脈依存性)、スキル自身が発展を続けていること。「低速上下弓返し弓元テヌート」は、体伸び∧肩柔軟∧・・・∨体伸び∧肩やや柔軟∧・・・」と表される。
[95] Visualizing multiplex relations
[96] Visual Mining of Multi-Modal Social Networks at Different Abstraction Levels
George Town Univ.
Lisa Singh, Mitchell Beard, Lise Getoor, M. Brian Blake
IV2007
[97] Generating Abstract Networks Using Multi-relational Biological Data (2009)
Paul Caravelli, Mitch Beard, Brian Gopolan, Lisa Singh, Zhang-Zhi Hu
IV2009
[98] Networks of Spiking Neurons: The Third Generation of Neural Network Models (1996)
Wolfgang Maass
1996
Technische Univ. Graz, Austria
第一世代、パーセプトロン等。第二世代 重み付き(発火頻度)。第三世代 タイミング。
[99] Predicting Every Spike: A model for the Responses of visual neurons (2001)
Justin Keat, Pamela Reinagel, R Clay Reid, Markus Meister
Neuron 2001
Harvard Univ.
初期視覚システムにおける神経細胞の反応はとても正確である。網膜や視床の細胞の発火は、ミリ秒の精度での再現性がある。ここでは、視覚的入力を与えられると、それぞれのスパイクを適切に予測する数学的記述について述べる。
[100] Making Ontologies Talk: Knowledge Interoperability in the Semantic Web
[101] Natural Language Processing and the Web (2008)
IEEE Intelligent Systems, Vol. 23, No. 5, pp. 16-17 , September/October 2008
[102] Interlinking the Social Web with Semantics
[103] Games with a Purpose for the Semantic Web
[104] Near-Term Prospects for Semantic Technologies
[105] Informed Recommender: Basing Recommendations on Consumer Product Reviews
[106] Structure Paves the Way to the Semantic Web
[107] When Will It Be Done? Machine Learner Answers to the 300-Billion-Dollar Question
[108] MatSeek: An Ontology-Based Federated Search Interface for Materials Scientists (2009)
K. Cheung, J. Hunter, and J. Drennan
IEEE Intelligent systems 2009
U. of Queensland
材料科学分野での複数データベースの検索システム。中でオントロジーを規定している。材料、性質(機械的、電気的、温度的、科学的、磁気的、生化学的、音響的、光学的、放射線的)、構造(クリスタル、アモルファス)、測定データ(材料性質、パフォーマンス、モデリング・シミュレーション)など。STBSの参考になる。
keyword: 濱崎さん
[109] Informed Recommender: Basing Recommendations on Consumer Product Reviews (2007)
S. Aciar, D. Zhang, S. Simoff, and J. Debenham
IEEE Intelligent systems, 2007
U. of Girona and U. of Technology Sydney
ユーザの評判を用いたレコメンデーション。キャノンのデジカメを例にしている。レビューサイトからとってきた195の文を、goodとかbad、qualityのカテゴリに分ける。オントロジーといっているが、ちゃんと使っている感じではない。セマンティックレコメンデーションの参考になる。
keyword: 濱崎さん
[110] ハイタワーさんのリンク集
Jeffrey Hightower
位置推定関係。
[111] An upper ontology for event classification and relations (2007)
K. Iwazume, M. Iwazume, and K. Fukuda
AI 2007 (Australian Joint Conference on Artificial Intelligence 2007)
NICT, AIST (Japan)
いい論文だけど学会が…。
[112] Research on Twitter and Microblogging
danah
ダナさんのリンク集。
[113] Microblogging: A Semantic and Distributed Approach
[114] Particle Filters for Location Estimation in Ubiquitous Computing: A Case Study (2004)
J. Hightower, and G. Borriello
Ubicomp2004
Intel and U. Washington
粒子フィルターを使っての位置推定。
[115] On assigning place names to geography related web pages. (2005)
W. Zong, D. Wu, A. Sun, E.-P. Lim, and D. H.-L. Goh.
In JCDL ’05
[116] Identifying regional sensitive queries in web search (2008)
S. Vadrevu, Y. Zhang, B. Tseng, G. Sun, and X. Li.
Proceedings of WWW'08, 2008.
Yahoo!
地名との共起で、クエリーの地域性を測る。ポスター。
[117] Towards automatic extraction of event and place semantics from flickr tags (2007)
T. Rattenbury, N. Good, and M. Naaman.
In SIGIR '07, 2007.
Yahoo! Research Berkeley
Flickrのデータを、時間間隔、もしくは空間ごとにブロックに分けて、特定のところでどのくらい数が多いかで関連性を検出する。場所(place)と出来事(event):場所はspatialで、出来事がtemporal。サンフランシスコ付近にサンフランシスコのタグが多い。
[118] Applications of location-based services: A selected review. (2007)
J. Raper, G. Gartner, H. Karimi, and C. Rizos.
Journal of Location Based Services, 1(2), 2007.
[119] Context data in geo-referenced digital photo collections. (2004)
M. Naaman, S. Harada, Q. Wang, H. Garcia-Molina, and A. Paepcke.
In MULTIMEDIA ’04
[120] Generating diverse and representative image search results for landmarks. (2008)
L. Kennedy and M. Naaman.
In WWW'08, 2008.
Columbia Univ. and Yahoo! Inc.
ランドマーク(例えばゴールデンゲートブリッジ)に対して代表的な画像を見つける。画像の特徴量でクラスタリングし、代表的なクラスタを選ぶ。
[121] Computing geographical scopes of web resources. (2000)
J. Ding, L. Gravano, and N. Shivakumar.
In VLDB ’00,
[122] Mapping the world's photos. (2009)
D. Crandall, L. Backstrom, D. Huttenlocher, and J. Kleinberg.
WWW 2009, 2009
[123] Web-a-where: geotagging web content (2004)
E. Amitay, N. Har’El, R. Sivan, and A. Soffer.
SIGIR ’04,
[124] Explorer: Visualizing aggregate data from unstructured text in geo-referenced collections. (2007)
S. Ahern, M. Naaman, R. Nair, and J. Yang. World
JCDL '07, 2007.
[125] A probabilistic approach to spatiotemporal theme pattern mining on weblogs (2006)
Q. Mei, C. Liu, H. Su, and C. Zhai.
WWW'06, 2006.
ブログの著者の場所の同定とトピックの時間的遷移を組み合わせて分析している。トピックと場所から語が生成される確率モデル。ちゃんとした論文。
[126] Mining geographic knowledge using location aware topic model. (2007)
C. Wang, J. Wang, X. Xie, and W.-Y. Ma.
In GIR ’07, 2007.
[127] Mapping geographic coverage of the web (2008)
Robert Pasley , Paul Clough , Ross S. Purves , Florian A. Twaroch,
Proceedings of the 16th ACM SIGSPATIAL international conference on Advances in geographic information systems, 2008
6374のtoponymリスト(約8000のロケーション)を使って、ウェブのヒット件数を調べ、それを地図上にマッピングしている。
[128] Placing flickr photos on a map, (2009)
Pavel Serdyukov , Vanessa Murdock , Roelof van Zwol,
Proceedings of the 32nd international ACM SIGIR, 2009
Yahoo! Research
Flickrの写真に位置を割り当てる。言語モデルを使う。かなりしっかりした論文。
[129] A probabilistic topic-based ranking framework for location-sensitive domain information retrieval (2009)
Huajing Li , Zhisheng Li , Wang-Chien Lee , Dik Lun Lee,
Proceedings of the 32nd international ACM SIGIR 2009
[130] Comparing the performance of us college football teams in the web and on the field, (2009)
Martin Klein , Olena Hunsicker , Michael L. Nelson,
Proceedings of the 20th ACM conference on Hypertext and hypermedia, 2009
Old Dominion Univ. (USA)
大学フットボール25チームのコーチによる投票(専門家の判断)と、検索エンジンのランキングの相関を調べている。少し相関あるがシーズンが進むに従って下がっていく。
[131] Spatial Variation in Search Engine Queries (2008)
L. Backstrom, J. Kleinberg, R. Kumar, and J. Novak
WWW2008
Cornell Univ. and Yahoo! Research
クエリーのIPから中心を見つける。野球のチーム、州知事、台風など。C d^(-alpha)という単純なモデル。いくつかの簡単な手法と比較している。(位置の重み和、緯度・軽度の中間地、密度の最も高いところ)。面白いけど、モデルは単純。
[132] Optimal Marketing Strategies over Social Networks (2008)
J. Hartline, V. Mirrokni, and M. Sundararajan
WWW2008
Microsoft Research, and Stanford
買う人やその価格をモデル化し、最適な戦略を求める。定式化と簡単なシミュレーションだけで、実データはない。
[133] Learning Transportation Mode from Raw GPS Data for Geographic Applications on the Web
Yu Zheng, Like Liu, Longhao Wang, Xing Xie
Microsoft Research Asia
WWW2008
GPSのデータから移動モード(散歩とか電車とか)を判別する。SVMとかCRFを使う。45ユーザの6ヶ月のデータを利用。
[134] Bayesian Filtering for Location Estimation
Dieter Fox, Jeffrey Hightower, Lin Liao and Dirk Schulz
IEEE Pervasive computing
Univ. of Washington
カルマンフィルターでの位置推定から始まり、複数仮説トラッキング、グリッドベース、トポロジカルベース、粒子フィルター等、分かりやすく紹介されている。
[135] Inferring High-Level Behavior from Low-Level Sensors (2003)
D. Patterson, L. Liao, D. Fox, and H. Kautz
UbiComp 2003
U. of Washington
[136] How People are using Twitter during Conferences (2009)
W. Reinhardt, M. Ebner, G. Beham, and C. Costa
Proc. EduMedia conf, 2009
U. of Paderborn, Graz Univ. of Tech. (Germany and Austria)
オンラインの質問システムで、5つの会議の41人にアンケート。どのくらいtwitterを使っているか、何のために使っているかなど。
[137] Social networks that matter: Twitter under the microscope.
Huberman, B.A., Romero, D.M., & Wu, F.
First Monday 14, (1.5). (2009).
HP Lab
30万9740ユーザ、平均255ポストで85フォロワーのデータを使っている。@を使って書く「友達(friedn)」の数と、つぶやきの数が比例している。(当たり前。)要するに友達が大事ということ。よくある分析のみ。
[138] Brave new world of digital intimacy
Thompson, C. (2008, 5 September).
[139] Seven rules for establishing a corporate presence on Twitter.
Postman, J. (2008).
企業のtwitterアカウントをすればよいかの話。7つのルール。会社とのつながりを明示せよとか、誰に話してるか分かるようにせよ、など。
[140] Fiftyways to useTwitter for business.
Brogan, C. (2008).
[141] Can we use Twitter for educational activities? (2008)
Grosseck, G., & Holotesch, C.
Fourth International Scientific Conference eLearning and Software for Education, 2008
[142] In Microblogging.more than fun?
Ebner, M., & Schiefner, M.
Proceedings of the IADIS Mobile Learning Conference (2008).
Graz Univ. of Tech., U. of Zurich
Jaikuで23人のユーザに対して、e-learningに関するユーザ調査。質問の回答を分析してるだけ。
[143] Twitter and the micro-messaging revolution: Communication,connections, and immediacy.140 characters at a time. (2008)
Milstein, S., Chowdhury, A., Hochmuth, G., Lorica, B., & Magoulas, R.
O’Reilly Media, 2008
[144] Technically speaking: All a-Twitter (2007)
P. McFedries
IEEE Spectrum, 2007
Twitterの紹介。
[145] Why we Twitter: Understanding microblogging usage and communities (2007)
A. Java, X. Song, T. Finin, B. Tseng
SNA-KDD2007
[146] Twitter: CS4803: Design of Online Communities
P. Stamatiou, J. McCree, T. Marshall, and M. Robertson
授業のレポート
George Tech
授業でやったリサーチっぽい。11名の学生に電話インタビュー。
[147] Twitter Power:Tweets as ElectronicWord of Mouth (2009)
Bernard J. Jansen, Mimi Zhang, Kate Sobel, and Abdur Chowdury
Journal of the American Society for Information Science and Technology, 2009
Penn. State Univ., and Twitter Inc.
Twitterでのブランドへの言及、それがpositiveかnegativeかを調べている。単語の解析等。サーベイは参考になる。Summarizeという既存のシステムを使って分析。1万4200のtweetをAPIでダウンロードして使っている。
[148] Mining the Web for relations (2000)
N. Sundaresan and J. Yi
Computer Networks, VOl.33, 2000
IBM Almaden, and UCLA
パターンと関係の双対性。Acronymを見つける。WWW9に掲載。
[149] Unsupervised Query Categorization using Automatically-Built Concept Graphs
[150] Large Scale Integration of Senses for the Semantic Web (2009)
J. Gracia, M. d'aquin, and E. Mena
WWW2009
U. of Zaragoza (Spain) and The Open Univ. (UK)
appleとかの意味の冗長性に対処するために、オントロジーをクラスタリングする。
[151] A Search-based Method for Forecasting Ad Impression in Contextual Advertising (2009)
X. Wang, A. Broder, M. Fontoura, and V. Josifovski
WWW2009
U. Mass Amherst, and Yahoo! Research
コンテンツ連動広告で、インプレッションを予測する方法を提案する。1)アドの選択プロセス、2)パブリッシャーのトラフィックの経時変化、3)大規模スケールを考えないといけない。
[152] Why is the Web Loosely Coupled? A Multi-Faceted Metric for Service Design
[153] Automated Construction of Web Accessibility Models from Transaction Click-streams (2009)
J. Mahmud, Y. Borodin, I.V. Ramakrishnan, and C. R. Ramakrishnan
WWW2009
Stony Brook Univ.
ユーザの操作から、意味的なセグメントを抽出する。例えば、add_to_cartとかcheck_outとか。
[154] Rapid Development of Spreadsheet-based Web Mashups (2009)
W. Benatallah, J. Vayssiere, R. Saint-Paul, and F. Casati
WWW2009
U. of New South Wales (Australia), SAP (Australia), Create-net (Italy), and U. of Trento (Italy)
マッシュアップするときにプログラムを書けない人も多いので、表計算の形でマッシュアップを実現する。
[155] Constructing Folksonomies from User-Specified Relations on Flickr
[156] Ranking and Classifying Attractiveness of Photos in Folksonomies
[157] The Slashdot Zoo: Mining a Social Network with Negative Edges
[158] Network Analysis of Collaboration Structure in Wikipedia
[159] A Measurement-driven Analysis of Information Propagation in the Flickr Social Network (2009)
M. Cha, A. Mislove, K. Gummadi
WWW2009
Campus E1 4 (Germany)
Flickrのデータを分析。どのくらい写真が広まるか。
[160] Social Search in "Small-World" Experiments
[161] Triplify ? Light-Weight Linked Data Publication from Relational Databases
[162] SOFIE: A Self-Organizing Framework for Information Extraction
[163] Evaluating Similarity Measures for Emergent Semantics of Social Tagging
[164] Tagommenders: Connecting Users to Items through Tags
[165] Personalized Recommendation on Dynamic Content Using Predictive Bilinear Models
[166] Learning Consensus Opinion: Mining Data from a Labeling Game (2009)
P. Bennet, D. Maxwell, and A. Mityagin
WWW2009
Microsoft Live Labs
ランキングされたリストの中から最もよいものを2人が選んで、
それが一致したときにだけ報酬が出るシステム。
34日間の1800万のデータを分析。
[167] Learning to Recognize Reliable Users and Content in Social Media with Coupled Mutual Reinforcement (2009)
J. Bian, Y. Liu, D. Zhou, E. Agichtein, and H. Zha
WWW2009
Georgia Tech, Emory Univ., and Facebook Inc.
QAサイトで過去の質問・回答は重要な情報源だが、それを再利用するためには
教師つき学習が必要になる。これを、半教師つき学習にする。
質問の質と、答えの質を計算し、これでユーザの評判を計算する。
[168] Spatio-Temporal Models for Estimating Click-through Rate (2009)
Deepak Agarwal, Bee-Chung Chen, and Pradheep Elango
WWW2009
Yahoo! Labs
CTRを推測するための時空間モデル。動的ガンマ-ポアソンモデル。
Yahoo! Front PageのToday Moduleでのデータを使う。
keyword: 山本くん
[169] Click Chain Model in Web Search (2009)
F. Guo, C. Liu, A. Kannan, T. Minka, M. Taylor, Y. Wang, and C. Faloutsos
WWW2009
CMU, Microsoft Research
ベイジアンに基づくクリック鎖モデル。1ヶ月間の商用検索エンジンのクエリーセッションの情報を使い、従来よりも10%近い予測精度の向上が見られた。
keyword: 山本くん
[170] How much can Behavioral Targeting Help Online Advertising? (2009)
J. Yan, N. Liu, G. Wang, W. Zhang, Y. Jiang, and Z. Chen
WWW2009
Microsoft Research Asia
行動ターゲティングの実データの分析。
ある商用検索エンジンからのログを得ている。7日間で、
600万ユニークユーザ、33万の広告。ユーザを表す4つの方法。1)長期(7日)のページ閲覧、2)長期の検索語、3)短期(1日)のページ閲覧、4)短期の検索語。これにクラスタリングの方法を組み合わせて評価している。
keyword: 山本くん
[171] A Class-Feature-Centroid Classifier for Text Categorization (2009)
H. Guan, J. Zhou, and M. Guo
WWW2009
Shanghai Jiao Tong Univ.
単なるテキスト分類。ロイター新聞記事とニュースグループで評価。なぜ採択されているか不思議。
[172] Latent Space Domain Transfer between High Dimensional Overlapping Distributions (2009)
S. Xie, W. Fan, J. Peng, O. Verscheure, J. Ren
WWW2009
Sun Yat-Sen Univ., IBM T.J. Watson
転移学習。2つのデータから欠損値を埋めた後、潜在空間の構造を見つける。SRAA(Simulated Real Auto Aviation)、20ニュースグループ、ロイターのデータ。(ウェブじゃない!)
[173] Using Transactional Information to Predict Link Strength in Online Social Networks (2008)
IndikaKahanda and Jennifer Neville
ICWSM 2008
Purdue Univ., Indiana, USA
SNS上で、実際には弱いつながりも多い。コミュニケーションやファイル転送などの処理データを用いることで、
本当のリンクの強さを予測する。これをFacebookのネットワークにも適用して、強い関係(top friends)を推測する。
[174] Towards Context-Aware Search by Learning A Very Large Variable Length Hidden Markov Model from Search Logs (2009)
H. Cao, D. Jian, J. Pei, E. Chen, and H. Li
WWW2009
U. of Science and Technology of China, and Microsoft Research Asia
サーチのログから、可変HMMで文脈依存の検索を実現する。18億クエリー、26億クリック、8億4000万セッション。リランキング、クエリー提示、URL推薦のタスクで評価。
keyword: 山本くん
[175] Smart Miner: A New Framework for Mining Large Scale Web Usage Data (2009)
M. A. Bayir, I. H. Toroslu, A. Cosar, and G. Fidan
WWW2009
U. at Buffalo (US), METU NCC(Turkey)
ユーザのログからセッションを出し、Apriori-All法で頻度の高いパスを見つける。
keyword: 山本くん
[176] Exploiting Web Search to Generate Synonyms for Entities (2009)
Surajit Chaudhuri, Venkatesh Ganti, and Dong Xin
WWW2009
Microsoft Research
エンティティとその文字列の対応を学習する。検索エンジンで相関を測る。
[177] Efficient Overlap and Content Reuse Detection in Blogs and Online News Articles (2009)
J. W. Kim, K. S. Candan, and J. Tatemura
WWW2009
Arizona State U., and NEC Labs America
ブログのエントリがどこの情報に由来しているかを検知する。qSignというアルゴリズムで、10倍から100倍高速化しても、再利用判定の精度が90%にしか落ちない。
インデキシングを工夫する。
[178] StatSnowball: A Statistical Approach to Extracting Entity Relationships (2009)
J. Zhu, Z. Nie, X. Liu, B. Zhang, and J. Wen
WWW2009
Tsinghua Univ., Microsoft Research Asia
マルコフ論理ネットワークを使ってブートストラップ的に関係抽出の問題を解く。人立方でも使われている。
keyword: Liさん
[179] Enhancing Diversity, Coverage and Balance for Summarization through Structure Learning (2009)
L. Li, K. Zhou, G. Xue, H. Zha, and Y. Yu
WWW2009
Shanghai Jiao-Tong Univ.
要約の問題をstructure SVMを使って解く。多様性、網羅性、バランスという3点を考慮。
[180] Fast Dynamic Reranking in Large Graphs (2009)
Purnamrita Sarkar and Andrew W. Moore
WWW2009
CMU and Google
検索の結果を、ユーザのフィードバックを使ってリランキングする。DBLPから作ったE-Rグラフを使う。半教師つき学習。
[181] Extracting Key Terms From Noisy and Multi-theme Documents (2009)
Maria Grineva, Maxim Grinev, and Dmitry Lizorkin
WWW2009
Programming of the Russian Academy of Sciences
キーワードを抽出するために、Wikipediaから作った関連性でグラフを作る。Newman法で中心のコミュニティの語をキーワードとして取り出す。
[182] Time Series Prediction by Using a Connectionist Network with Internal Delay Lines (1994)
Eric A Wan
Time Series Prediction. Forecasting the Future and Understanding the Past, 1994
Stanford
[183] How Opinions are Received by Online Communities: A Case Study on Amazon.com Helpfulness Votes (2009)
Cristian Danescu-Niculescu-Mizil, Gueorgi Kossinets, Jon Kleinberg, and Lillian Lee
WWW2009
Cornell Univ. and Google
Amazonの「役に立ちましたか」をいろいろ調べてる。
[184] Rated Aspect Summarization of Short Comments (2009)
Yue Lu, ChengXiang Zhai, and Neel Sundaresan
WWW2009
U. of Illinois and eBay
商品に対する評価をいくつかの側面に分解する。構造化PLSAを用いる。eBayのデータを使う。
[185] Requirement of an Allosteric Kinetics of NMDA Receptors for Spike Timing-Dependent Plasticity
Hidetoshi Urakubo,Minoru Honda,Robert C. Froemke,and Shinya Kuroda
Journal of Neuroscience
2008
[186] From many tweets, one loud voice on the internet. (2007)
J. Pontin
The New York Times, April 22, 2007
[187] Exploiting Feature Hierarchy for Transfer Learning in Named Entity Recognition (2008)
Andrew Arnold, Ramesh Nallapati andWilliam W. Cohen
ACL-08
CMU
属性を階層的に作る。論文、ニュース、e-mailなどから
transferする。
[188] Text Categorization with Knowledge Transfer from Heterogeneous Data Sources
Rakesh Gupta, and Lev Ratinov
Honda Research Institute USA Inc.
AAAI08
WIkipedia, Openディレクトリー、Yahoo! Answersなど、
複数の情報源を用いて、短い文の分類の精度を上げる。
[189] Transferring Naive Bayes Classifiers for Text Classification (2007)
Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu
AAAI07
Shanghai Jiao Tong U., Hon Kong U. of Science and Technology
ニュースグループで学習してブログに適用するときなどに分布が違うので分類器の精度が落ちる。Kullbuck-Leiblerダイバージェンスを使って、訓練データと学習データの差を測る。
[190] Identifying Potentially Important Concepts and Relations in an Ontology (2008)
ISWC2008
人が理解するために、重要な概念と関係を取り出す。重みを計算する。
[191] Using Semantic Distances for Reasoning with
Inconsistent Ontologies
ISWC2009
Google距離を使って、矛盾のあるオントロジーの矛盾部分を探す。
[192] idMesh: Graph-Based Disambiguation of Linked Data (2009)
www2009
[193] Exploring Semantic Social Networks Using Virtual Reality (2008)
ISWC2008
特許のネットワークを見る。
[194] Semantic Relatedness Measure Using Object Properties in an Ontology (2008)
a
ISWC2008
[195] Term Dependence on the Semantic Web (2008)
ISWC2008
[196] Extracting Semantic Networks from Text via Relational Clustering
Stanley Kok, Pedro Domingos
[197] A Fast Algorithm to Find Overlapping Communities in Networks
Steve Gregory
[198] Hierarchical, Parameter-Free Community Discovery (2008)
S. Papadimitriou, J. Sun, C. Faloutsos, and P. S. Yu
PKDD2008
IBM T.J. Watson Research Center, CMU, and U. Illinois, Chicago
コミュニティのなかのコミュニティを見つける。
[199] Improving Maximum Margin Matrix Factorization (2008)
M. Weimer, A. Karatzoglou, and A. Smola
PKDD 2008
Technische Universitat Darmstadt, Germany
推薦システム等の協調フィルタリングなどで用いられる行列Fに対して、
UとMのフロベニウスノルムが最小になるようなF=UMを求める。
この基本的なアルゴリズムに対して、オフセット(ユーザごとの傾向を加える)、
適応的正則化(過学習を避ける)、グラフカーネルなどの拡張をして、
この拡張が有効であることを、EachMovie, MovieLens等のデータで示している。
[200] The BellKor 2008 Solution to the Netflix Prize
R. Bell, Y. Koren, and C. Volinsky
レポート
AT&T and Yahoo! Research
Netflixのコンテストで1位をとったシステムのレポート。
SVD基本で、いろんな要素をつなぎあわせている。
[201] On the Gravity Recommendation System (2007)
G. Takacs, I. Pilaszy, B. Nemeth, and D. Tikk
KDD-cup 2007
Budapest U. of Technology and Economics
ユーザと商品の評価マトリックスXを、分解する。(ここではSVD)。
時間の要素をいれたり、パーセプトロンで解いたりしている。
Netflixのコンテストで、一時的に1位になったシステム。
[202] A Survey on Transfer Learning (2008)
Sinno Jialin Pan and Qiang Yang
November 2008
Hong Kong Univ.
[203] Ontology Summarization Based on RDF Sentence Graph (2007)
X. Zhang, G. Cheng, and Y. Qu
WWW2007
Southeast Univ.
RDFグラフの要約を作るのに、RDF文の中心性を(さまざまな指標で)求める。
[204] Summarization and Information Loss in Network Analysis
Jamie F. Olsony Kathleen M. Carley
不明
ノードを削除し、ネットワークの情報量を計算する。出典、出版年不明。
[205] An Algorithm to Find Overlapping Community Structure in Networks (2007)
Steve Gregory
Proc. PKDD2007
U. of Bristol
ノードを分割することで、重なったコミュニティを見つける。
[206] SCAN: A Structural Clustering Algorithm for Networks (2007)
X. Xu, N. Yuruk, Z. Feng, and T. Schweiger
KDD07
U. of Arkansas at Little Rock, Acxiom Corporation
ネットワーククラスタリング。
[207] Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents (2008)
T. Iwata, T. Yamada, and N. Ueda
KDD2008
[208] Weighted graphs and disconnected components: Patterns and a generator (2008)
M. McClohon, L. Akoglu, and C. Faloutsos
KDD2008
[209] Family of Dissimilarity Measures between Nodes Generalizing both the Shortest-Path and the Commute-time Distances (2008)
L. Yen, A. Mantrach, M. Shimbo, and M. Saerens
KDD2008
Universite catholique de Louvain (Belgium) and NAIST (Japan)
RSP(ランダム最短パス)非類似度を定義する。パラメータθを調整することで、
標準的な最短距離、もしうは通勤時間距離になる。
[210] Microscopic Evolution of Social Networks (2008)
J. Leskovec, L. Backstrom, R. Kumar, and A. Tomkins
KDD2008
Flickr, Delicious, Yahoo! Answers, LinkedInのデータ分析。
時系列の発展の分析。次数分布や優先選択が起こっているか、など。
[211] Structured Learning for Non-Smooth Ranking Losses (2008)
R. Khanna, U. Sawant, S. Chakrabarti, and C. Bhattacharyya
KDD2008
IIT Bombay
Learning to Rankの話。
[212] Combinational Collaborative Filtering for Personalized Community Recommendation (2008)
W. Chen, D. Zhang, and E. Chang
KDD2008
[213] Hypergraph Spectral Learning for Multi-label Classification (2008)
L. Sun, S. Ji, and J. Ye
KDD2008
[214] Influence and Correlation in Social Networks (2008)
A. Anagnostopoulos, R. Kumar, and M. Mahdian
KDD2008
[215] Reconstructing Chemical Reaction Networks: Data Mining meets System Identification (2008)
KDD2008
[216] Community Evolution in Dynamic Multi-Mode Networks (2008)
KDD2008
[217] Information Extraction from Wikipedia: Moving Down the Long Tail (2008)
F. Wu, R. Hoffmann, and D. Weld
KDD2008
U. of Washington
[218] Can Complex Network Metrics Predict the Behavior of NBA Teams? (2008)
P. Vaz de Melo, V. Almeida, and A. Loureiro
KDD2008
Federal Univ. of Minas Gerais
[219] SAIL: Summation-based Incremental Learning for Information-Theoretic Clustering (2008)
J. Wu, H. Xiong, and J. Chen
KDD2008
Beihan Univ., State Univ. of New Jersey, and Tsinghua Univ.
情報理論的なK-Meansクラスタリング。
[220] The Structure of Information Pathways in a Social Communication Network (2008)
G. Kossinets, J. Kleinberg, and D. Watts
KDD2008
Cornell Univ. and Yahoo! Research
ソーシャルネットワークで、情報が流れる時間を考慮して距離を定義。
さすがに読みやすくて面白い。SNS分析に使えそう。
[221] Mobile Call Graphs: Beyond Power-Law and Lognormal Distributions (2008)
M. Seshadri, S. Machiraju, A. Sridharan, J. Bolot, C. Faloutsos, and J. Leskovec
KDD2008
Sprint and CMU
携帯電話のコールのネットワーク分析。次数の分布の分析。
[222] Using Ghost Edges for Classification in Sparsely Labeled Networks (2008)
B. Gallagher, H. Tong, T. Eliassi-Rad, and C. Faloutsos
KDD2008
Lawrence Livermore National Laboratory and CMU
ネットワーク内の分類に、「ゴーストエッジ」をつけることで
ラベルありのノードの情報が流れるようにする。
[223] Bridging Centrality Graph Mining from Element Level to Group Level (2008)
KDD2008
[224] Colibri: Fast Mining of Large Static and Dynamic Graphs (2008)
H. Tong, S. Papadimitriou, J. Sun, P. Yu, and C. Faloutsos
KDD2008
CMU
Colibri法というグラフマイニングの方法。
[225] Weighted Graphs and Disconnected Components -- Patterns and a Generator -- (2008)
M. McGlohon, L. Akoglu, and C. Faloutsos
KDD2008
CMU
[226] Feedback Effects between Similarity and Social Influence in Online Communities (2008)
D. Crandall, D. Cosley, D. Huttenlocher, J. Kleinberg, and S. Suri
KDD2008
Cornell Univ.
松尾の論文と似てる。
[227] Multi-Task Feature Learning (2007)
A. Argyriou, T. Evgeniou, and M. Pontil
NIPS 2007
U. College London
[228] Multi-task feature selection (2006)
Guilaume Obozinski and Ben Taskar
In the workshop of structural Knowledge Transfer for Machine Learning (ICML 06)
[229] Semi-Supervised Learning Literature Survey (2008)
Xaojin Zhu
2008
U. of Wisconsin
とてもよいサーベイ。
[230] BOOSTING LINEAR DISCRIMINANT ANALYSIS FOR FACE RECOGNITION (2003)
Juwei Lu, K.N. Plataniotis, A.N. Venetsanopoulos
Proc. Image Processing, 2003
U. of Toronto, Canada
[231] Searching for Interacting Features (2007)
Zheng Zhao and Huan Liu
IJCAI-07
Arizona State Univ.
相互作用する素性は、単独では関連性が低いが、組み合わせると関連性が高くなることもある。例えば、(A1=A2) or (A5=1)というコンセプトでは、A1とA2が相互作用している。フルセットの素性から探索的に削っていく。
[232] Feature Selection and Kernel Design via Linear Programming
[233] Change of Representation for Statistical Relational Learning (2007)
Guang Dai & Dit-Yan Yeung
IJCAI-07
Hong Kong Univ. of Sci. and Tech
[234] Efficient and Robust Independence-Based Markov Network Structure Discovery (2007)
Facundo Bromberg, Dimitris Margaritis
IJCAI-07
マルコフネットワークの構造を学習する。
[235] Supervised and Unsupervised Discretization of Continuous Features (1995)
James Dougherty, Ron Kohavi, and Mehran Sahami
ICML-95
Stanford Univ.
素性を離散化したほうが精度があがることについて。
[236] Open Information Extraction from the Web (2007)
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni
IJCAI07
U. of Washington
KnowItAllとかのプロジェクトの全体像的な論文。
[237] Learning by Analogy : a Classification Rule for Binary and Nominal Data (2007)
Sabri Bayoudh, Laurent Miclet and Arnaud Delhay
IJCAI07
Universit de Rennes 1, France
a対bは、c対dのアナロジーを見つける。
[238] Soft Clustering on Graphs
K. Yu, S. Yu, and V. Tresp
U. of Munich, Germany
ネットワークのグラフ分割(graph-factorization clustering)によるソフトクラスタリング。行列の式展開が参考になる。
[239] Yes, There is a Correlation - From Social Networks to Personal Behavior on the Web (2008)
Parag Singla and Matthew Richardson
WWW2008
U. Washington, Microsoft Research
マイクロソフトのインスタントメッセンジャーのログと、MSNの検索エンジン(Windows Live Search)のログを用いている。ユーザのプロファイル(郵便番号、性別、年)なども分かる。1億6千万人の250億セッションのIMデータ。行数だけは分かる。3000万人の5億のクエリー。ユーザのidが分かってるものだけjoinすると、1300万ユーザになる。あとはよく話すペアでの類似度を測っているだけ。まあ、分析はいいとして、とにかくデータがすごい。
[240] Knowledge Sharing and Yahoo Answers: Everyone Knows Something (2008)
L. Adamic, J. Zhang, E. Bakshy, and M. Ackerman
WWW2008
U. Michigan
Yahoo! Answerを分析して、どの答えがベストアンサーに選ばれるかを予測。
他にカテゴリーのエントロピーを分析している。
[241] Statistical analysis of the social network and discussion threads in Slashdot (2008)
Vincenc Gomez, Andreas Kaltenbrunner, and Vincente Lopez
WWW2008
Barcelona Media Centre d'Innovacio, and Universitat Pompeu Fabra, Spain
スラッシュドットのネットワーク分析。本当に社会ネットワーク分析っぽい論文で、正確で上品な分析だけど、特に新規の手法とかはない。
[242] FacetNet: A Framework for Analyzing Communities and Their Evolutions in Dynamic Networks (2008)
Y. Lin, Y. Chi, S. Zhu, H. Sundaram, and B. Tseng
WWW2008
Arizona State Univ., NEC lab America, Yahoo! Inc.
FacetNetというので、コミュニティとその時間発展を分析している。各時間で切るとノイズが多いので、時系列を統合的に扱う必要がある。ソフトコミュニティ(複数のコミュニティに所属してもよい)のアプローチを取る。
[243] Statistical Properties of Community Structure in Large Social and Information Networks
Jure Leskovec, Kevin Lang, Anirban Dasgupta, and Michael Mahoney
CMU and Yahoo! Research
コンダクタンスとコミュニティの分析
[244] Why Web 2.0 is Good for Learning and for Research: Principles and Prototypes
[245] Lock-Free Consistency Control for Web 2.0 Applications
[246] Birds of a Feather: Homophily in Social Networks (2001)
McPherson, Miller; Lynn Smith-Lovin; James Cook.
Annual Review of Sociology 27: 415-444, 2001
U. of Arizona, Duke Univ.
ホモフィリーのサーベイ。
アリストテレスやプラトンから始まって、1920年代のBottやAlmackらの研究、1900年代中期の人種や民族性の研究、正の影響、負の影響の研究、70年代、80年代のより大きなスケールでの研究、職場環境での成果に関する最近の研究など。
Lazarfeldらは、ホモフィリーを2つに分けた。Status homophily(状態による)、Value homophily(価値や態度、信念による)。ホモフィリーは、次のような次元がある。人種・民族性、性、年齢、宗教、教育・職業・社会クラス、ネットワーク上の位置、行動(behavior)、態度・能力・信念・あこがれ、など。
また、その原因について、地理的要因、家族、組織的な焦点、同一の情報源、認知プロセスなど。
将来の研究に必要なものとして、動的なデータ、焦点とネットワークのco-evolutionの研究が必要だと述べられている。(重要)
[247] Homophily of Network Ties and Bonding and Bridging Social Capital in Computer-Mediated Distributed Teams (2006)
Y. Connie Yuan and Geri Gay
Journal of Computer-Mediated Communication, 2006
Cornell Univ.
32人の学生に対して社会ネットワークデータを集め、
MQAP回帰分析をしたところ、姓や人種のホモフィリーは、有益で表現的な紐帯の発展と関係ないことが分かった。グループの割り当てや位置におけるホモフィリーが、紐帯の形成に需要である。
[248] Controversial Users Demand Local Trust Metrics: an Experimental Study on Epinions.com Community (2005)
Paolo Massa and Paolo Avesani
AAAI-05
ITC-iRST, Italy
論議的割合(controversiality percentage)というのを定義している。
[249] Trust metrics on controversial users: balancing between tyranny of the majority and echo chambers
Paolo Massa and Paolo Avesani
ITC-iRST, Italy
[250] Trust management for the semantic web. (2003)
M. Richardson, R. Agrawal, and P. Domingos.
ISWC2003
U. Washington, and IBM Almaden
BibServの文献データとEpinionsのデータを使って実験。
信念(人のある主張に対する値)と、人への信頼の値を使って、
ある信念の信頼度を出す。基本的に、経路上の信念の値(0から1)をかけあわせて、
複数経路についてたし合わせるモデル。0-1にランダムにつけた信念の値と、Epinionsの信頼のデータ(を実数値化したもの)を使っている。
[251] The eigentrust algorithm for reputation management in P2P networks (2003)
S. D. Kamvar, M. T. Schlosser, and H. Garcia-Molina.
WWW2003
Stanford Univ.
P2Pのネットワークでの信頼性の評価。信頼値を伝播させていく方法。
[252] Propagation of Trust and Distrust (2004)
R. Guha, R. Kumar, P. Raghavan, and A. Tomkins
WWW2004
IBM
トラストの予測をする。トラストネットワークと、ディストラストネットワークを作って、
その組み合わせ方や伝播のさせかたを検討している。Epinionsのデータを使っている。
参考文献は参考になる。
[253] Mining, Indexing, and Searching for Textual Chemical Molecule Information on the Web (2008)
B. Sun, P. Mitra, and C. Giles
WWW2008
Penn State Univ.
化学の式を検索する方法。HCRF(階層CRF)を使っている。タギングの分類精度と、検索の平均適合率で評価している。
[254] Optimal Marketing Strategies over Social Networks (2008)
J. Hartline, V. Mirrokni, and M. Sundararajan
WWW2008
Northwestern Univ., Microsoft, and Stanford
ソーシャルネットワーク上で、収入を最大化する戦略を見つける。
[255] Extracting Social Networks and Biographical Facts From Conversational Speech Transcripts (2007)
H. Jing, N. Kambhatla, and S. Roukos
ACL2007
IBM Watson
[256] What to be? - Electronic Career Guidance Based on Semantic Relatedness
[257] Benefits of the Massively Parallel Rosetta Stone: Cross-Language Information Retrieval with over 30 Languages
[258] A Multi-resolution Framework for Information Extraction from Free Text
[259] Using Corpus Statistics on Entities to Improve Semi-supervised Relation Extraction from the Web
[260] Learning to Extract Relations from the Web using Minimal Supervision (2007)
R. Bunescu and R. Mooney
ACL2007
U. of Texas at Austin, USA
MII(Multiple Instance Learning)とSVMを、関係抽出に適用。
[261] Semantic Transliteration of Personal Names (2007)
?
ACL2007
中国語の人名の翻訳
[262] Fully Unsupervised Discovery of Concept-Specific Relationships by Web Mining (2007)
?
ACL 2007
[263] Visualization of Knowledge Structures
IV'07
Lin and Zhang
Drexel Univ., John Hopkins Univ.
[264] Tracking Multiple Topics for Finding Interesting Articles (2007)
?
KDD2007
[265] Show me the Money! Deriving the Pricing Power of Product Features by Mining Consumer Reviews (2007)
N. Archak, A. Ghose, and P. Ipeirotis
KDD2007
New York Univ.
ある製品評価が実際のセールスにどのくらいの影響を与えるか(+5%増加とか)を素性の重みとしたモデル。Amazonの製品レビューを使っている。
[266] SCAN: A Structural Clustering Algorithm for Networks (2007)
X. Xu, N. Yuruk, Z. Feng, and T. Schweiger
KDD2007
U. of Arkansas at Little Rock
クラスターとハブ、アウトライアーを同時にみつける。
[267] Dynamic hybrid clustering of bioinformatics by incorporating text mining and citation analysis (2007)
F. Janssens, W. Glnzel and B. De Moor
KDD2007
tfidf等のキーワードとcitationの両方を使うクラスタリング
[268] Detecting Research Topics via the Correlation between Graphs and Texts (2007)
Y. Jo, C. Lagoze, and C. Lee Giles
KDD2007
Cornell U.
トピックとcitationのグラフ。
[269] Cost-effective Outbreak Detection in Networks (2007)
Jure Leskovec, Andreas Krause, Carlos Guestrin, Christos Faloutsos, Jeanne VanBriesen, and Natalie Glance
KDD2007
超面白い論文。ネットワークの伝播の爆発を、初期に少ないセンサーで検出する。
[270] Association Analysis-based Transformations for Protein Interaction Networks: A Function Prediction Case Study (2007)
G. Pandey, M. Steinbach, R. Gupta, T. Garg, and V. Kumar
KDD2007
U. Minnesota
たんぱく質のインタラクションネットワーク。たんぱく質の機能を予測する。
[271] A Framework For Community Identification in Dynamic Social Networks (2007)
C. Tantipathananandh, T. Berger-Wolf, D. Kempe
KDD2007
U. Illinois
動的なソーシャルネットワークからコミュニティを抽出する。NP困難。
[272] Combining Labeled and Unlabeled Data with Co-Training (1998)
A. Blum and T. Mitchell
ICML98
CMU
[273] On the Existence of LinearWeak Learners and Applications to Boosting (2002)
S. Mannor and R. Meir
Machine Learning, 48, 219-251, 2002
Israel
ブースティングは、弱い学習器(エラーが1/2-γで抑えられる)を集めて実現できるが、線形分類器が実際に弱い学習器であることを示す。
[274] Feature extraction based on ICA for binary classification problems (2003)
Nojun Kwak; Chong-Ho Choi
Transactions on Knowledge and Data Engineering (TKDE), 2003
[275] Unlabeled Data Can Degrade Classification Performance of Generative Classifiers (2001)
F. Cozman and I. Cohen
Tech Report 2001
HP lab
テクニカルレポートなので適当だが、結構読みやすくてよい。
[276] Towards Large Scale Argumentation Support on the Semantic Web (2007)
Iyad Rahwan, Fouad Zablith, and Chris Reed
AAAI2007
World Wide Argument Web (WWAW)を作ろうというもの。例えば、イラク戦争に誰がどういっているか。面白そう。マイニングするというよりは、記述できる枠組みとシステム。
[277] A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data (2005)
Rie Kubota Ando and Tong Zhang
Journal of Machine Learning Research, 2005
IBM
非常に面白い。unlabeledデータから副問題を作り、解くことで仮説空間を小さくし、labeled問題に対するパフォーマンスを上げる。
[278] Two-view Feature Generation Model for Semi-supervised Learning (2007)
Rie Kubota Ando, and Tong Zhang
ICML2007
unlabeledなデータから、少ない数のfeatureを作って、それらの組み合わせとしてlabeled dataにとって有用な属性とする。重要そうだが、難しい。
[279] Semi-supervised learning using gaussian fields and harmonic functions. (2003)
Zhu, X., Ghahramani, Z., & Lafferty, J. (2003).
ICML 2003.
CMU
ランダムフィールド(データがノードで類似度を表すネットワーク)上でのセミスーパーバイズドのアルゴリズム。
[280] Dynamic Feature Generation for Relational Learning (2004)
Alexandrin Popescul.. and Lyle H. Ungar
MRDM2004
U. of Pennsylvania
リンク予測を、動的な属性生成を用いておこなう。アグリゲーションして属性生成するが、詳細はよくわからない。
[281] Collaborative Prediction Using Ensembles of Maximum Margin Matrix Factorizations (2006)
Arik Azran, and Zoubin Ghahramani
ICML 2006
University College London, Univ. of Cambridge
クラスタリングをグラフの分割と考えて、マルコフランダムウォークの遷移行列で定義する。KL-divergenceを最小化しながらくっつけていく。
[282] A New Approach to Data Driven Clustering (2006)
ICML2006
[283] Graph Model Selection using Maximum Likelihood (2006)
ICML2006
[284] Uncovering Shared Structures in Multiclass Classification (2007)
Y. Amit, M. Fink, N. Srebro, and S. Ullman
ICML2007
Hebrew Univ. (Israel)
[285] Predictive Linear-Gaussian Models of Controlled Stochastic Dynamical Systems (2006)
Matthew Rudary and Satinder Singh
ICML2006
Univ. of Michigan
未来の状態の予測も含めてアクションを決める。
[286] How Boosting the Margin Can Also Boost Classifier Complexity (2006)
Lev Reyzin, and Robert Schapire
ICML2006
Yale Univ., Princeton Univ.
ブースティングがなぜoverfitしにくいかをマージンから説明した従来研究をさらに詳細に調べたもの。
[287] Spectral Clustering for Multi-type Relational Data (2006)
B. Long, Z. Zhang, X. Wu, P. Yu
ICML2006
SUNY Binghampton, Yahoo, IBM Watson
複数の関係を使ったスペクトラルクラスタリング。
[288] Semi-Supervised Learning on Riemannian Manifolds (2004)
Mikhail Belkin, and Partha Niyogi
Machine Learning, 2004
U. of Chicago
グラフを作って、グラフラプラシアンの固有ベクトルとかを属性にする。
多様体(manifold)を使って属性化する手法。
手書き文字の認識、ニュースグループの文書分類、音素の分類に適用。
[289] Structural Link Analysis from User Profiles and Friends Networks: A Feature Construction Approach (2007)
William Hsu, Joseph Lancaster, Martin Paradesi and Tim Weninger
ICWSM 2007
Kansas State Univ.
LiveJournalで、link prediction。
[290] Scatter Networks: A New Approach for Analyzing Information Scatter (2007)
L. Adamic, S. Bhavnani, and X. Shi
2007
事実とWebページから成るbipartite graphの分析。
[291] Diversity of graphs with highly variable connectivity (2007)
D. Anderson and L. Li
2007
[292] Exploring the assortativity-clustering space of a networks degree sequence (2007)
P. Holme and J. Zhao
Physical Review E, 2007
AT&T
Cycle free effective conductance (CFEC)というノードの近さのメジャーを定義。
[293] Measuring and Extracting Proximity in Networks (2006)
Yehuda Koren, Stephen North, Chris Volinsky
KDD2006
AT&T
cycle-free effective conductance (CFEC)によってproximityを求める方法。同じ内容。
[294] Capital and benefit in social networks (2005)
L. Licamele, M. Bilgic, L. Getoor, and N. Roussopoulos
Proc. 3rd International Workshop on Link Discovery, 2005
U. Maryland
友人関係とイベントのネットワークを作る。FE(friendship-event)ネットワーク。で、キャピタルというのは、イベントをオーガナイズしてそこでどのくらい周りにベネフィットを与えたかで定義する。学術コミュニティの比喩で書かれていて、イベントがカンファレンス、ベネフィットがそこで発表された論文の数、となっている。設定は面白い。
[295] Probabilistic models for discovering e-communities (2006)
D. Zhou, E. Manavoglu, J. Li, C. Giles, and H. Zha
WWW2006
Penn State Univ. (US)
コミュニティ内でのやりとりや類似性を分析する。
Community-User-Topicモデルというのを作る。
[296] Identifying early buyers from purchase data (2004)
P. Rusmevichientong, S. Zhu, and D. Selinger
Poster session, SIGKDD 2004
[297] Network data mining: methods and techniques for discovering deep linkage between attributes (2006)
J. Galloway, S. Simoff
Asia-Pacific conference on Conceptual Modelling, 2006
[298] Is seeing believing?: how recommender system interfaces affect users' opinions (2003)
D. Cosley, S. Lam, I. Albert, J. Konstan, and J. Riedl
SIGCHI 2003
[299] Why collective inference improves relational classification (2004)
D. Jensen, J. Neville, and B. Gallagher
Poster Session, KDD2004
U. of Mass Amherst
PRM(確率関係モデル)をいくつかに分類。Intrinsic(属性だけ使ってクラスの予測)、R1(1ホップのクラス情報も使う)、R2(2ホップのクラス情報も使う)、CI(Collective Inference: クラスの相互依存)、RCI(クラスの相互依存と、1ホップのクラス情報を使う)。
これはポスターだが、他にも重要な論文がたくさん。
[300] Graph clustering with network structure indices. (2007)
Matthew J. Rattigan, Marc Maier, David Jensen
ICML2007
U. Mass Amherst
Girvan-Newmanクラスタリングとか、k-メドイド法とか、計算が大変。そこで、最短パスを高速に求められるネットワーク構造索引(NSI)というのを用いて、効率化する。
[301] Finding tribes: identifying close-knit individuals from employment patterns. (2007)
Lisa Friedland, David Jensen
KDD 2007
[302] Using structure indices for efficient approximation of network properties. (2007)
Matthew J. Rattigan, Marc Maier, David Jensen
KDD 2006: 357-366
[303] Relational data pre-processing techniques for improved securities fraud detection. (2007)
Andrew Fast, Lisa Friedland, Marc Maier, Brian Taylor, David Jensen, Henry G. Goldberg, John Komoroske
KDD 2007
[304] Mining hidden community in heterogeneous social networks (2005)
D. Cai, Z. Shao, X. He, X. Yan, and J. Han
Proc. 3rd International Workshop on Link Discovery, 2005
[305] Summarizing Email Conversations with Clue Words
[306] Demographic Prediction based on User's Browsing Behavior
[307] The Complex Dynamics of Collaborative Tagging
[308] Internet-Scale Collection of Human-Reviewed Data (2007)
Q. Su, D. Pavlov, J. Chow, and W. Baker
WWW2007
Yahoo! Inc
人間がレビューしたデータの収集、活用等。Yahoo! Answersとか。
[309] A Content-Driven Reputation System for the Wikipedia
[310] Google News Personalization: Scalable Online Collaborative Filtering
[311] Exploring in the Weblog Space by Detecting Informative and Affective Articles
[312] Efficient Search Engine Measurements
[313] The Discoverability of the Web
[314] Extraction and Classification of Dense Communities in the Web (2007)
Y. Dourisboure, F. Geraci, and M. Pellegrini
WWW2007
Instituto di Informatica e Telematica, Pisa, Italy
ウェブグラフのコミュニティを見つける。公開されたWebのクロールデータ(1億2000万ノード、1兆リンク)を使ってスケーラブルに見つける。濃い部分=コミュニティという、よくある定義。
[315] Optimizing Web Search Using Social Annotations
[316] Answering Relationship Queries on the Web (2007)
G. Luo, C. Tang, and Y. Tian
WWW2007
IBM TJ Watson Research Center
固有名詞間のつながりを見つける。両方が出てくるページでトップにランクされるものを見つけ、関係を表す単語を出す。
[317] Dynamic Personalized Pagerank in Entity-Relation Graphs (2007)
Soumen Chakrabarti
WWW2007
IIT Bombay
ノードがエンティティ(email, paper, person, 会議、会社)、エッジが関係(書いた、引用した、働いている)というEntyti-Relationグラフを対象に、Pagerankの計算を行って、ノードの近くにあるエンティティを探す。この計算は計算量が高く、これを早くやる。
[318] A Large-Scale Study of Web Password Habits
[319] Hierarchical, Perceptron-like Learning for Ontology-Based Information Extraction
[320] Yago: A Core of Semantic Knowledge - Unifying WordNet and Wikipedia
[321] Ontology Summarization Based on RDF Sentence Graph
[322] The Two Cultures: Mashing Up Web 2.0 and the Semantic Web (2007)
A. Ankolekar, M. Krotzsch, T. Tran, and D. Vrandecic
WWW2007
AIFB, U. of Karlsruhe (German)
Semantic Weblogのビジョン。ポジションペーパー。
[323] P-TAG: Large Scale Automatic Generation of Personalized Annotation TAGs for the Web (2007)
P. Chirita, S. Costache, S. Handschuh, and W. Nejdl
WWW2007
L3S / University of Hannover (Germany)
キーワードを抽出してタグをつける。
[324] Towards Effective Browsing of Large Scale Social Annotations (2007)
Rui Li, Shenghua Bao, Ben Fei, Zhong Su, and Yong Yu
WWW2007
IBM China Research Lab and Shanghai Jiao Tong Univ.
現在は、キーワード検索、タグクラウド。だけど意味的じゃないし、カテゴライズされていない。
ELSABer (Effective Large Scale Annotation Browser)を提案。意味的な類似度を使う。階層的なブラウジングができる。量が増えても効率的。
[325] Effort Estimation: How Valuable is it for a Web company to Use a Cross-company Data Set, Compared to Using Its Own Single-company Data Set? (2007)
E. Mendes, S. Di Martino, F. Ferruci, and C. Gravino
WWW2007
U. of Salemo (Italy)
単一の企業のプロジェクトのデータと、複数の企業にまたがるプロジェクトのデータのどちらを使うのがよいか。前者のほうが予測精度が高い。
[326] Improved annotation of the blogosphere via autotagging and hierarchical clustering (2006)
C. H. Brooks and N. Montanez
WWW2006
UCSF
ブログにタグをどう使うか。同じタグがつけられたブログエントリーがどのくらい近いか。タグやキーワードを類似度に使ってクラスタリングする。タグは広いカテゴリには向いているが、内容を特定するには向いていない。Technoratiを使っている。
タグの関係性のことなどもFuture directionで言及されている。
[327] Using Annotations in Enterprise Search (2006)
P. A. Dmitriev, N. Eiron, M. Fontoura, and E. Shekita.
WWW2006
[328] Automated Tag Clustering Improved search and exploration in the tag space (2006)
G. Begelman, P. Keller and F.Smadja
Proc. of Collaborative Web Tagging Workshop at WWW2006.
[329] Expertise Networks in Online Communities: Structure and Algorithms (2007)
Jun Zhang, Mark S. Ackerman, and Lada Adamic
WWW2007
U. of Michigan
CEN(community expertise network)。Javaフォーラムで、質問-返信の関係をネットワーク化したもの。まず前分析として、蝶ネクタイの構造分析, 次数分布, degreeの相関。
次に、専門性のランキングの手法。回数、Zスコア、専門性ランクアルゴリズム(PageRankっぽい)、HITS。135ユーザを5段階に分けたデータを作って評価。結果は、Zスコア、専門性ランク、HITSであまり変わらない。で、シミュレーション。
内容はどこもすごいところはないけど、総合的に良く書けてるという感じ。
[330] Analysis of Topological Characteristics of Huge Online Social Networking Services (2007)
Yong-Yeol Ahn, Seungyeop Han, Haewoon Kwak, Sue Moon, and Hawoong Jeong
WWW2007
KAIST
CyworldとMySpace、Orkutを比較している。特に次数分布の分析。
[331] Recommender Systems (2007)
Alexander Felfernig, Gerhard Friedrich, and Lars Schmidt-Thieme
IEEE Inteligent Systems, May/June 2007
U. of Klagenfurt, U. of Hildesheim
[332] Natural Language Generation for dialogue: system survey (2003)
Mariet Theune
2003
U. of Tente
大きく分けて、逆パーシング、文法に基づく言語生成、テンプレートに基づく言語生成、(分布もしくはテンプレートによる)「完全」な言語生成がある。完全な言語生成とは、例えば入力(言語でもそうでなくても)を受け取って、文書プランニング(何を伝えるか、どういう順序で伝えるか)、マイクロプランニング(どういう語彙を使うか、一文にどう入れるか、参照表現をどう使うか)、表層生成(文法的に正しい文をどう作るか、最終的な表現(テキストでよいかhtmlかなど)。文書プランニングは言語非依存だがドメイン依存、表層生成は言語依存でドメイン非依存である。マイクロプランニングは両方必要。
[333] NOMOS: A Semantic Web Software Framework for Annotation of Multimodal Corpora (2006)
John Niekrasz, and Alexander Gruenstein
Proc. LREC 2006
CSLI, Stanford
多くのグループでマルチモーダルなコーパスを共有するためのアノテーションツール。OWLを使っている。トピックの分離や意思決定の時点、アクションアイテムなどを付与できる。
[334] Resolving “You” in Multi-Party Dialog (2007)
Surabhi Gupta, John Niekrasz, Matthew Purver, Dan Jurafsky
SIGDIAL07
Stanford
Youという表現を解消する。まず一般的なyouなのか、referentialなyouなのかを分け、次に誰を指しているのかを当てる。後半部分は、AとBの発話数やAとBの間の発話者の数(構造的属性)、AとBの発話間隔(継続時間属性)、発話に含まれる語のの共通性(語彙的属性)などの属性を使って、47%の精度。
[335] Social Network and Content Analysis of Interactions in a Video-Mediated Virtual Community (2006)
Poon, N. Daniel, B.K.
International Conference on Advanced Learning Technologies, 2006
University of Saskatchewan Saskatoon, Canada
[336] Politeness (2003)
Richard James Watts
book, 2003
面白そう。6章:A social model of politeness。言語学的な話もたくさんある。
[337] Combining Topic Models and Social Networks for Chat Data Mining (2004)
Ville H. Tuulos and Henry Tirri
Proc. WI 2004
Helsinki Institute for Information Technology, Finland
[338] Symbol Grounding for the Semantic Web (2007)
Anne Cregan.
ESWC2007
U. of New South Wales(オーストラリア)
シンボルグラウンディング、意味に関するさまざまな話題とセマンティックウェブ。あんまり有用じゃないが読んでて楽しい。外延と内包、entailmentなど。
[339] Integrating Folksonomies with the Semantic Web (2007)
Lucia Specia and Enrico Motta.
ESWC2007
Open University, UK
タグの間の関係を、検索エンジンやWikipediaを使って求める。Fig. 1が全体図だけど、結構統合的なシステム。has-mention-ofとか、in-eventとか。
[340] Acquisition of OWL DL Axioms from Lexical Resources (2007)
Johanna Voelker, Pascal Hitzler and Philipp Cimiano.
ESWC2007
AIFB, U. Karlsruhe (Germany)
Wikipediaの自然言語文からDescription logicの公理を作る。へぇ。
Data = (Fact ∩ ∃result_from.(Measurement ∪ Observation))とか。
[341] A Generic Methodology for Deriving OWL and RDF-S Ontologies from Hierarchical Classifications, Thesauri, and Inconsistent Taxonomies (2007)
Martin Hepp and Jos de Bruijn. GenTax
ESWC2007
[342] SPARQLeR: Extended Sparql for Semantic Association Discovery (2007)
Krys Kochut and Maciej Janik
ESWC2007
[343] Simple Algorithms for Predicate Suggestions using Similarity and Co-Occurrence (2007)
Eyal Oren, Sebastian Gerke and Stefan Decker
ESWC2007
[344] Learning Disjointness (2007)
Johanna Voelker, Denny Vrandecic, York Sure and Andreas Hotho.
ESWC2007
[345] Minimal Deductive Systems for RDF (2007)
Sergio Munoz, Jorge Perez and Claudio Gutierrez.
ESWC2007
best paper
[346] Ontology-Driven Semantic Ranking for Natural Language Disambiguation in the OntoNL Framework (2007)
Anastasia Karanastasi and Stavros Christodoulakis.
ESWC2007
[347] Web-Annotations for Humans and Machines (2007)
Norbert Fuchs and Rolf Schwitter.
ESWC2007
[348] Mining the web through verbs: a case study (2007)
Peyman Sazedj and Helena Sofia Pinto.
ESWC2007
[349] What have Innsbruck and Leipzig in common? Extracting Semantics from Wiki Content (2007)
Soren Auer and Jens Lehmann.
ESWC2007
[350] SALT - Semantically Annotated LaTeX for scientific publications (2007)
Tudor Groza, Siegfried Handschuh, Knud Hinnerk Moller and Stefan Decker.
ESWC2007
[351] Emerging Sciences of the Internet: Some New Opportunities (2007)
Ron Brachman
ESWC2007
[352] Distributed Knowledge Representation on the Social Semantic Desktop: Named Graphs, Views and Roles in NRL (2007)
Michael Sintek, Ludger van Elst, Simon Scerri and Siegfried Handschuh.
ESWC2007
DFKI and DERI
NEPOMUKプロジェクト。NEPOMUK Representation Language (NRL)。
RDFグラフに関する表現のオントロジー。
[353] IdentityRank: Named Entity Disambiguation in the Context of the NEWS Project (2007)
Norberto Fernandez Garcia, Jose Maria Blazquez del Toro, Luis Sanchez Fernandez and Ansgar Bernardi.
ESWC2007
U. of Madrid, DFKI
セマンティックアノテーションの際、固有名詞の曖昧性解消のために、特定のエンティティに関連したインスタンスのランキングを返す。Alonso(F1ドライバー、大臣など)やGeorgia(アメリカの州、国(グルジア))を用いた例。
[354] Feature Selection Using Linear Support Vector Machines (2002)
Janez Brank, Marko Grobelnik, Nata.a Mili.-Frayling, Dunja Mladeni.
Tech report, Microsoft, 2002
Microsoft
2/1, 4/1, 8/1などのデータを使って重みを計算し、feature selectionする方法。
従来のlog oddsやinformation gainと比較し、良いことを示している。
[355] A Multi-relational Network to Support the Scholarly Communication Process (2007)
Marko A. Rodriguez
International Journal of Public Information Systems, 2007
Los Alamos National Laboratory
面白そう。イベント空間のコンセプトに近い。paper, author, journalのレイヤー。
[356] Discovering Knowledge from Relational Data Extracted from Business News (2002)
A. Bernstein, S. Clearwater, S. Hill, C. Perlich, and F. Provost
MRDM2002
New York Univ.
共起で会社の関係を認識。ネットワークの表示、中心性の分析。金さんの研究のpreliminary versionな感じ。
[357] Multi-relational data mining: an introduction (2003)
Saso Dzeroski
SIGKDD Explorations Newsletter, 2003
複数の関係があるネットワークの紹介記事。
[358] Multi-Relational Data Mining 2005: workshop report (2005)
Hendrik Blockeel, Saso Dzeroski
SIGKDD Explorations Newsletter 2005
ワークショップを継続的に開催している。
[359] Community Mining from Multi-relational Networks (2005)
Deng Cai, Zheng Shao, Xiaofei He, Xifeng Yan, and Jiawei Han
PKDD2005
U. of Illinois at Urbana Champaign
コミュニティ内でのリンクを多く、コミュニティ間のリンクを少なくするように、
複数のリンクを重みつき線形和で足し合わせる方法。
[360] TD(λ) Networks: Temporal-Difference Networks with Eligibility Traces (2005)
Brian Tanner, Richard S. Sutton
ICML2005
U. of Alberta, Canada
Temporal-difference(TD)ネットワーク。ひとつのノードがひとつの値の予測を表す。他のノードや観測へリンクを持つ。予測のためにλステップさかのぼっての学習? 簡単な実験。
[361] Variable selection by rank-one updates for least squares support vector machines
Fabian Ojeda, Johan A.K. Suykens and Bart De Moor
[362] Statistical Models for Social Networks with Application to HIV Epidemiology (2007)
Mark Handcock
NIPS2007
Statistics, University of Washington
[363] The Google Similarity Distance (2007)
Rudi Cilibrasi and Paul Vitanyi
IEEE Transactions on Knowledge and Data Engineering, 2007
正規化グーグル距離(NGD)や正規化情報距離(NID)などを詳細に検討している。Jaccardなどの類似尺度との比較は分からないが、ちゃんと把握しておくほうが良さそう。
[364] Neural Network Realization of Support Vector Methods for Pattern Classification (2000)
Ying Tan, Youshen Xia, and Jun Wang
Int. Joint Conf Neural Networks (IJCNN 2000), 2000
U. of Science and Technology of China (China)
SVMをニューラルネットワークで実装する方法。双対問題を解く。
[365] The Interplay of Optimization and Machine Learning Research (2006)
K. Bennett, E. Parrado-Hernandez
Journal of Machine Learning Research 2006
Rensselaer Polytechnic Institute (NY, USA), U. Carlos III de Madrid (Spain)
[366] Support-vector networks (1995)
C. Cortes and V. Vapnik
Machine Learning 1995
[367] A Feature Selection Newton Method for Support Vector Machine Classification (2004)
G. Fung and O. L. Mangasarian
Computational Optimization and Applications, 2004
[368] Learning Structured Prediction Models: A Large Margin Approach (2005)
B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin
ICML2005
[369] Structured Prediction, Dual Extragradient and Bregman Projection (2005)
B. Taskar, S. Lacoste-Julien, and M. Jordan
Journal of Machine Learning Research (JMLR), 2005?
TaskarはUC Berkeley
[370] Max-margin markov networks (2006)
B. Taskar, C. Guestrin, V. Chatalbashev, and D. Koller
Journal of Machine Learning, 2006
[371] B. Taskar, S. Lacoste-Julien, and M. Jordan
Structured prediction, dual extragradient and Bregman projections
Journal of Machine Learning Research
[372] A Tutorial on o-Support Vector Machines
[373] ユーザの評価と音響的特徴との確率的統合に基づくハイブリッド型楽曲推薦システム (2006)
吉井, 後藤, 駒谷, 尾形, 奥乃
情報処理学会 研究報告, 2006
京都大学、産業技術総合研究所
[374] Probabilistic models for unified collaborative and content-based recommendation in sparse-data environment (2001)
A. Popescul, L. Ungar, D. Pennock and S. Lawrence
UAI2001
[375] Web-collaborative filtering: Recommending music by crawling the Web (2000)
W. Cohen and W. Fan
Computer Networks, 2000
[376] Foafing the music: A music recommendation system based on RSS feeds and user preferences (2005)
O. Celma, M. Ramirez, and P. Herrera
ISMIR 2005
[377] Iterative Classification in Relational Data (2000)
Jennifer Neville and David Jensen
AAAI Workshop on Learning Statistical Models from Relational Data, 2000
U. Massachusetts
ベイジアン分類器を反復的に使って、関連するオブジェクトの分類をする。クラスを反復ごとにだんだん絞っていく。US securities exchange commisionの会社間の取引データ。ボードメンバーやストックホルダー、支店など。会社を銀行業か化学業に分けるタスク。反復ごとに精度が上がっていくことを示している。
[378] Machine Learning Techniques for Annotating Semantic Web
[379] Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval (1998)
David Lewis
Proc. ECML-98
AT&T
ナイーブベイズの独立性の仮定にする議論、研究の紹介が分かりやすくまとめられている。
[380] Considering Multiple Options when Interpreting Spoken Utterances
Sarah George, Ingrid Zukerman, Michael Niemann and Yuval Marom
IJCAI2007 Workshop
Monash University
Scusi?というシステム。SowaのCG(Conceptual Graph)を使っている。
[381] First Steps towards Dialogue Modelling from an Un-annotated Human-Human
Corpus
Sudeep Gandhe and David Traum
IJCAI2007 Workshop
University of Southern California
TFIDFっぽいのを使っている。
[382] AAAI, HLT/NAACL, ACL, SEMDIAL, MLMI, ACL, INTERSPEECH, EMNLP
LAW(ACL), IEEE HumanCOmputing, SIGDial, SRSL7, ASRU
SIGDialのページにはコーパスあり。
[383] Not so naive Bayes: Aggregating one-dependence estimators (2005)
Geoffrey I. Webb, Janice R. Boughton, Zhihai Wang
Machine Learning, 2005
Monash University
[384] Viewpoints on Emergent Semantics (2006)
P. Cudre-Mauroux, K. Aberer, A. Abdelmoty, T. Catarci, E. Damiani, A. Illaramendi, M. Jarrar, R. Meersman, E. Neuhold, C. Parent, K. Sattler, M. Scannapieco, S. Spaccapietra, P. Spyns, and G. Tre
Journal on Data Semantics, 2006
EPFL, Cardiff Univ. (UK), U. Milan(Italy), Vrije Univ. Brussel (Belgium), Tech. U. Ilmenau (German)
創発的意味が、分散した情報システム間でどのように創られるか。かなり抽象的な話。
[385] Tree-structured Conditional Random Fields for Semantic Annotation (2006)
J. Tang, M. Hong, and J. Li
ISWC2006
[386] Using Ontologies for Extracting Product Features from Web Pages (2006)
W. Holzinger, B. Krupl, and M. Herzog
ISWC2006
Vienna Univ.
製品に関する情報をテーブルから抜き出す。
[387] How Co-occurrence can Complement Semantics?
Atanas Kiryakov and Borislav Popov
ISWC2007 industry track talk
Ontotext
共起の重要性を言う上ではよい材料。videolectures.netにある。co-occurrenceから関係をとったり属性値をとったりする?Ontotextの製品っぽい。
[388] SemKey: A Semantic Collaborative Tagging System
A. Marchetti, M. Tesconi, F. Ronzano, M. ROsella, and S. Minutoli
WWW2007 workshop
IIT, Pisa, Italy
要するにdouble tagging.
hasAsTopic, hasAsKind, myOpinionIsなどの関係をつけてタグをつける。statementと考えることができる。
wordnet、Wikipediaなどを使う。
[389] SPARQ2L: Towards Support For Subgraph Extraction Queries in RDF Databases (2007)
Kemafor Anyawu, Angela Maduko, Amit Sheth
WWW2007
[390] Investigating Behavioral Variability in Web Search (2007)
Ryen White, and Steven Drucker
WWW2007
[391] GeoTracker: Geospatial and Temporal RSS Navigation (2007)
Y. Chen et al.
WWW2007
[392] Web Object Retrieval (2007)
Z. Nie, Y. Ma, S. Shi, J. Wen, and W. Ma
WWW2007
Microsoft Research Asia
人や製品、論文、組織などがオブジェクト。Windows Live Product SearchとかLibra Academic Search。画像、名前、特徴を取る。オブジェクトの情報抽出, オブジェクトの同定/統合、オブジェクトの検索。
[393] Dynamic Personalized Pagerank in Entity-Relation Graphs (2007)
Soumen Chakrabarti
WWW2007
IIT Bombay
とても面白そう。
[394] Organizing and Searching the World Wide Web of Facts - Step Two: Harnessing the Wisdom of the Crowds (2007)
M. Pasca
WWW2007
Google
クエリーログを使って属性を取り出す。車の属性、ワインの属性、大学の属性など。
[395] Towards DomainIndependent Information Extraction from Web Tables (2007)
Wolfgang Gatterbauer, Paul Bohunsky, Marcus Herzog, Bernhard Krupl and Bernhard Pollak
WWW2007
Vienna University of Technology (オーストリア)
視覚的な処理をして表から情報を取り出す。
[396] Optimizing Web Search Using Social Annotation (2007)
Shenghua Bao, Xiaoyuan Wu, Ben Fei, Gui-Rong Xue, Zhong Su, and Yong Yu
WWW2007
Shanghai Jiao Tong University, IBM China Research Lab
[397] Optimizing Scoring Functions and Indexes for Proximity Search in Typeannotated Corpora (2006)
S. Chakrabarti, K. Puniyani, S. Das
WWW2006
IIT Bombay
type=distance NEAR Hamburg Munichというタイプのクエリーを処理する。
[398] Efficient discriminative learning of Bayesian network classifier via Boosted Augmented Naive Bayes (2005)
Y. Jing, V. Pavlovic, J. Rehg
ICML2005
Georgia Tech (USA)
[399] Stochastic Relational Models for Discriminative Link Prediction (2006)
Kai Yu, Wei Chu, Shipeng Yu, Volker Tresp, and Zhao Xu
NIPS2006
NEC lab America, Columbia U. (USA), Siemens (Germany)
[400] Inferring network structure from co-occurrences (2006)
Michael G. Rabbat, Mario A.T. Figueiredo, and Robert D. Nowak
NIPS2006
U. of Wisconsin
共起を背後にあるネットワークのランダムウォークによるサンプリング(のpemutation)だと考える。要するに、シャッフルされたマルコフモデル。そうすると、共起からもとのネットワークのパラメータ(初期状態の分布と遷移行列)を考える問題ととらえることができる。
[401] Supplement to inferring network structure from co-occurrences
a
たぶん、ネットワークを外部指標で評価するという話。
[402] Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning (1995)
D. Heckerman, D. Geiger, and D. Chickering
Machine Learning, 1995
[403] Being Bayesian about Bayesian network structure: A Bayesian approach to structure discovery in Bayesian networks. (2003)
N. Friedman and D. Koller.
Machine Learning, 50(1.2):95.125, 2003.
[404] When are links useful? experiments in text classification. (2003)
M. Fisher and R. M. Everson.
Proc. European Conference on IR Research, 2003
[405] Learning structured prediction models: A large margin approach (2005)
B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin
ICML2005
[406] Why collective inference improves relational classification (2004)
D. Jensen, J. Neville, and B. Gallagher
KDD2004
[407] Inferring Network Structure from Co-Occurrences (2006)
Michael G. Rabbat, Mario A.T. Figueiredo, and Robert D. Nowak
NIPS2006
U. Wisconsin
遺伝子から信号伝達の経路のネットワークを出している。難しい定式化。
[408] Information Bottleneck for Non Co-Occurrence Data (2006)
Y. Seldin, N. Slonim and N. Tishby
NIPS2006
[409] Efficient Structure Learning of Markov Networks using L1-Regularization (2006)
Su-In Lee, Varun Ganapathi, and Daphne Koller
NIPS2006
Stanford U.
マルコフネットワークを学習する。
4章 Incremental Feature Introduction
[410] Tempering for Bayesian C&RT (2005)
Nicos Angelopoulos and James Cussen
ICML2005
U. York, UK
[411] Link-based classification using Laveled and Unlabeled Data (2003)
Q. Lu and L. Getoor
ICML2003 Workshop on The Continuum from Labeled to Unlabeled Data, 2003
U. Maryland
Naive Bayesモデルではなく、ロジスティック回帰によるlink-based classificationの手法。同名の論文(using以降がない)が同年の本会議にある。mode-link(最頻のカテゴリにする), count-link, binary-linkという属性を定義していて、唐門くんオペレータで実現できる。
Coraデータセット、Citeseerのデータセット。
ベースライン(Content-Only)とリンク(Mode-link, Binary-link, Count-link)を組み合せた方法で比較している。トレーニングセットとテストセットの間のリンクを全部削除するTest Links Only、それを保持したままにするComplete Link(当然こちらの方が精度が高い)。Count-Linkがやや精度が高い。
[412] Link-based classification

Tech report, 2007
[413] Learning the Structure of Markov Logic Networks (2005)
Stanley Kok and Pedro Domingos
ICML2005
U. of Washington
[414] Online Learning over Graphs
Mark Herbster, Massimiliano Pontil, and Lisa Wainer
University College London (UK)
ICML2005
[415] Feature Subset Selection Bias for Classification Learning (2007)
Surendra K. Singhi, Huan Liu
ICML 2007
Arizona State Univ.
属性選択に、分類の学習と同じ学習データを使うのはバイアスがかかる。それを解決する。
[416] Full Bayesian Network Classifiers (2007)
Jing Su and Harry Zhang
ICML 2007
U. of New Brunswick
[417] Bayesian Learning of Measurement and Structural Models (2007)
Ricardo Silva, Richard Scheines
ICML 2007
Catsby Computational Neuroscience Unit, UK
[418] Hierarchical Classification: Combining Bayes with SVM (2006)
Nicolo Cesa-Bianchi, Claudio Gentile, Luca Zaniboni
ICML2006
U. Milano
[419] Ranking on Graph Data (2006)
Shivani Agarwal
ICML2006
MIT
エンティティのランキング。
[420] Graph Model Selection using Maximum Likelihood (2006)
Ivona Bezakova, Adam Kalai, Rahul Santhanam
ICML2006
U. Chicago
Monte Carlo Markov Chain (MCMC)
Power lowランダム、優先選択、スモールワールド、一様ランダム等に適用している。
[421] Higher Order Learning with Graphs (2006)
Sameer Agarwal, Kristin Branson, and Serge Belongie
ICML2006
UCSD
[422] Fisher Kernels for Relational Data (2006)
Uwe Dick, Kristian Kersting
ECML2006
U. Freiburg (Germany)
リレーショナルフィッシャーカーネルは、(生成モデルの)確率P(x|λ*, M)の勾配を使ったカーネル関数である。フィッシャーカーネルとSVMを使うと、精度が大幅にあがることを示す。Webページ分類タスク(KDD Cup 2001)で62.34%が75.28%に。
syntax-drivenカーネルとmodel-drivenカーネルがある。
[423] Improving Bayesian Network Structure Search with Random Variable Aggregation Hierarchies (2006)
John Burge, Terran Lane
ECML2006
[424] Bayesian Learning of Markov Network Structure (2006)
Aleks Jakulin, Irina Rish
ECML2006
Columbia Univ., IBM T.J. Watson Research Center
方向なし確率的分類モデル(マルコフネットワーク)を効率的に構築するアプローチを示す。
[425] Bayesian Active Learning for Sensitivity Analysis (2006)
Tobias Pfingsten
ECML2006
[426] Exploring Multiple Communities with Kernel-Based Link Analysis (2006)
Takahiko Ito, Masashi Shimbo, Daichi Mochihashi, Yuji Matsumoto
PKDD2006
[427] Tractable Models for Information Diffusion in Social Networks (2006)
Masahiro Kimura, Kazumi Saito
PKDD2006
[428] Improving Functional Modularity in Protein-Protein Interactions Graphs Using Hub-induced Subgraphs (2006)
Duygu Ucar, Sitaram Asur, Umit Catalyurek, Srinivasan Parthasarathy
PKDD2006
Ohio state univ.
タンパク質間の相互作用ネットワーク(PPIグラフ)で、ハブを複製することでクラスタリングのモジュラリティを高める。
[429] Bayesian Inference for Transductive Learning of Kernel Matrix Using the Tanner-Wong Data Augmentation Algorithm (2004)
Z. Zhang, D. Yeung, J. Kwok
ICML 2004
Hon Kong U. of Science and Technology
適切なカーネルを選ぶ方法。カーネル行列を学習する。
[430] Network Flow for Collaborative Ranking (2006)
Ziming Zhuang, Silviu Cucerzan, C. Lee Giles
PKDD2006
[431] Graph Based Semi-Supervised Learning with Sharper Edges (2006)
HyunJung (Helen) Shin, College of Medicine, Nicholas Jeremy Hill, Gunnar Ratsch
ECML2006
Max Planck Institute (Germany)
エッジに方向性を考えるグラフのsemi-supervised learning
[432] Distributional Features for Text Categorization (2006)
Xiao-Bing Xue, Zhi-Hua Zhou
ECML2006
[433] Web Communities Identification from Random Walks (2006)
Jiayuan Huang, Tingshao Zhu, Dale Schuurmans
PKDD2006
スペクトラルクラスタリングについて分かりやすく書かれている。スペクトラルクラスタリングは、滞留確率を対角成分とした行列をΠとするとΘ=(Π^0.5 P Π^-0.5 + Π^-0.5 P^T Π^0.5)/2で、このΘの第2固有値の固有ベクトルの正負を見る。このときの遷移確率行列Pを、one-stepにしたりtwo-stepにしたりして、オーソリティやハブだけをクラスタリングしたりする。
[434] Finding patterns in blog shapes and blog evolution (2007)
Mary McGlohon, Jure Leskovec, Christos Faloutsos, Matthew Hurst and Natalie Glance
ICWSM 2007
blogの引用のカスケード。カスケードのタイプをたくさん列挙して、PCAをする。
カスケードモデルをいろいろ調べている。時系列のフラクタル性。
[435] Large-Scale Sentiment Analysis for News and Blogs (2007)
Namrata Godbole, Manja Srinivasaiah and Steven Skiena
ICWSM 2007
UMBC
blogのリンク(エントリ間)のpositive/negativeを判定。
bag-of-wordsでプラス/マイナスをつける。さらにトラストと考えて、トラストを伝播するモデルを比較。
隣接行列をMとすると、M, M^T, M^T*M, M*M^Tなどを足し合わせる。
結構面白い。
[436] Looking at the Blogosphere Topology through Different Lenses (2007)
Xiaolin Shi, Belle Tseng and Lada Adamic
ICWSM 2007
U. Michigan
いろんなデータセットのネットワークがconsistentかどうか。異なるデータ、異なる収集方法、異なる時間などを比較。次数分布、C, WCC/SCCなどの値で比較。
[437] MySpace is *my* space (2007)
danah boyd,
ICWSM 2007
UC Berkeley
面白い。Frendsterの話、バンドをはじめユーザがmyspaceに移行した。
teens、breakup, メールは大人との会話、8人のbest friendsの機能
symbiotic behavior
[438] QA with Attitude: Exploiting Opinion Type Analysis for Improving Question Answering in On-line Discussions and the News (2007)
Swapna Somasundaran, Theresa Wilson, Janyce Wiebe and Veselin Stoyanov
ICWSM 2007
U. Pittsburg, U. Edinburgh, Cornell Univ.
positive/negativeのpolarityや**などを、単純なbag of words + SVMよりもきちんと取る。
[439] Sentiment Analysis: Adjectives and Adverbs are Better than Adjectives Alone (2007)
Farah Benamara, Carmine Cesarano, Antonio Picariello, Diego Reforgiato and VS Subrahmanian
ICWSM 2007
形容詞の前にある副詞で、形容詞のスコアを調整して、positive/negativeのスコアを修正。単純。deadなどはどうするのか。
[440] Building Trust with Corporate Blogs (2007)
Paul Dwyer
ICWSM 2007
Texas A&M Univ.
結構面白いかも。tribalism。コメントを良く返すという性質。flocking。
[441] Impact Facotors: Use and Abuse
M. Amin & M. Mabe
Elsevier Science
[442] How to build a webfountain: An architecture for very large-scale text analytics. (2004)
D. Gruhl, L. Chavet, D. Gibson, J. Meyer, P. Pattanayak, A. Tomkins, and J. Zien.
IBM Systems Journal, 2004
IBM
[443] Semtag and seeker: Bootstrapping the semantic web via automated semantic annotation (2003)
S. Dill, N. Eiron, D. Gibson, D. Gruhl, R. Guha, A. Jhingran, T. Kanungo, S. Rajagopalan, A. Tomkins, J. Tomlin, and J. Y. Zien.
WWW2003
IBM
[444] Maximum entropy discrimination
[445] Structure and Evolution of Online Social Networks (2006)
R. Kumar, J. Novak, A. Tomkins
poster KDD2006
Yahoo! Research
良いメンバーの論文だが、内容はポスターだけあって、完成度が低い。
[446] How to upgrade propositional learners to first order logic: A case study. (2001)
W. V. Laer and L. D. Raedt.
In S. Dzeroski and N. Lavrac, editors, Relational Data Mining. Springer-Verlag, 2001.
[447] Statistical Relational Learning for Document Mining
Alexandrin Popescul, Lyle H. Ungar, Steve Lawrence, and David M. Pennock
U. Pennsylvania, Google, Overture
ICDM-2003
Structural Logistic Regression (SLR)というタスク。2つのプロセスから成る。属性の生成、統計的モデル選択基準による選択。ILPとほぼ同様。赤池情報量基準(AIC)やBICなど。CiteSeerのデータで検証。
[448] Propositionalization-based relational subgroup discovery with RSD (2006)
Filip Zelezy, and Nada Lavra
Machine Learning, 2006
Institute Jozef Stefan, Slovenia
Relational Subgroup Discovery (RSD). East-West Train問題では、西行き、東行きの電車というかたまりを見つける。WRA_cc search heuristicで重み付ける。
[449] Distribution-based aggregation for relational learning with identifier attributes (2006)
Claudia Perlich, and Foster Provost
Machine Learning 2006
[450] PRL: A probabilistic relational language (2006)
Lise Getoor, and John Grant
Machine Learning, 2006
U. of Maryland
PRMを論理プログラミングの枠組みで解釈している。PRLはpearlと読むらしい。対応付けるための定義がずーっと並んでいる。内容はPRMのほかの論文と同じ。entity uncertaintyとかreference uncertaintyなど。
[451] Introduction to the Special Issue on Link Mining (2005)
Lise Getoor, and Christopher Diehl
SIGKDD Explorations, 2005
[452] Introduction to the Special Issue on Multi-Relational Data Mining and Statistical Relational Learning (2006)
Hendrik Blockeel, David Jensen, Stefan Kramer
Machine Learning, Volume 62, Numbers 1-2, 2006
Jozef Stefan Institute (Slovenia)
複数のテーブルからのデータマイニング(Multi-Relational Data Mining)。例えば、ユーザテーブルと購買テーブルなど。
ILPの概説とそれとの関係が述べられている。わりといい解説。
Relational association rules, Relational decision tree, Relational distance-based approach。
[453] Probabilistic Frame-based Systems (1998)
D. Koller and A. Pfeffer
AAAI98
Stanford
PRMの最初の構想のような論文。Bayesian Networkとframe表現を結びつける。slot chain、reference uncertaintyなどの話。
[454] ObjectRank: Authority-based Keyword Search in Databases (2004)
A. Balmin, V. Hristidis, and Y. Papakonstantinou
VLDB 2004
IBM Almaden, Florida Univ, UC San Diego
DBのスキーマから、authority transfer schema graphを作る。キーワードを入れてObjectを得るみたいだが。
[455] Learning Parameters in Entity Relationship Graphs from Ranking Preferences (2006)
Soumen Chakrabarti and Alekh Agarwal
PKDD 2006
IIT, Bombay
ER(Entity-Relation)グラフのランキング。
PageRank (もしくはUnweighted Conductance)の詳細な計算が4ページにあり。
SynthDBLP(21000ノード), SynthIMDB(21000ノード)。隠れ変数βを設定する。unweightedのPageRankと隠れ変数を用いたもので、結果が異なるペアを1:1で混ぜて、テストセットを作る。グラフと訓練データの選好(<)を与え、βを推定する。
[456] Cluster-based concept invention for statistical relational learning (2004)
Alexandrin Popescul , Lyle H. Ungar
KDD 2004
U. Pennsilvania
CiteSeerのデータで、venue(会議等)を予測する、citationがあるかどうかを予測するという2つのタスク。k-meansでクラスタリング。新しい属性を作る。
ClustDocsByAuthorsとかClustDocsByCitingDocs、ClustDOcsByWordsなど。(wordはTFIDFを用いる。)手法は非常にシンプル。評価もそんなに大したことない。
[457] Gene classification: issues and challenges for relational learning (2005)
Claudia Perlich , Srujana Merugu
the 4th international workshop on Multi-relational mining, 2005
IBM T.J. Watson Research Center, and U. Texas at Austin
Yeast genome Sachharomyces Cerevisiaeという分類問題にSRLを適用する。ACORAというシステム(既存のもの)を使う。ドメインにあわせた説明と結果が中心。
[458] Mining product reputations on the Web (2002)
Satoshi Morinaga, Kenji Yamanishi, Kenji Tateishi, Toshikazu Fukushima
KDD 2002
NEC
特徴語、共起、典型的な文、コレポン等の分析を統合したもの。PDA、携帯などのcase studyが評価代わりになっている。
[459] Aggregation Based Feature Invention and Relational Concept Classes
Claudia Perlich, and Foster Provost
New York Univ
KDD 2003
非常に重要な論文。関係を使った属性生成。IPOのデータに対して、提案手法をgeneralizationのパフォーマンスで比べている。ILPのシステム:FOIL, Tidle, Lime, Progolと比較。most common categorical, vector distance, negative gategoriesなどをどんどん追加してパフォーマンスがあがることを示している。唐門くん論文と非常に似た構成。
[460] Dynamic Social Network Analysis using Latent Space Models (2005)
Purnamrita Sarkar and Andrew Moore
SIGKDD Explorations: Special Edition on Link Mining, 2005
CMU, Autonlab
Dynamicモデル。2次元(多次元)平面状に点があるとして、点が動いていく。近い点にはリンクが張られやすいというモデル。アイディアとしては面白い。式は複雑。
[461] Fast Discovery of Connection Subgraphs (2004)
Christos Faloutsos, Kevin S. McCurley, and Andrew Tomkins (IBM)
Proc. 10th ACM SIGKDD Conference, 2004
大規模なネットワークを簡単に表示する方法。
Webから得られた人名のネットワーク(1500万人)が使われている。
10語以内に出てくるものはエッジとする。抽出自体は主眼ではない。
[462] Maximizing the Spread of Influence through a Social Network (2003)
David Kempe, Jon Kleinerg, Eva Tardos
SIGKDD 2003
最適化問題はNP困難。近似解法を提案する。
[463] Enhanced Word Clustering for Hierarchical Text Classification (2002)
Inderjit Dhillon, Subramanyam Mallela, and Rahul Kumar
In Proceedings of the 8th ACM SIGKDD, 2002
U. of Texas, Austin
文書をクラスに分けるときの相互情報量の損失がもっとも少なくなるように、語をクラスタリングしていく。Jensen-Shannonを使ったdivisive clustering。2章の関連研究は非常に参考になる。20 Newsgroups dataと、Open Directoryの5000ページ(3階層)のデータ
[464] Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations (2005)
J. Leskovec, J. Kleinberg, and C. Faloutsos
Proc. KDD 2005
CMU, Cornell Univ.
いろいろなネットワークを調べると、ネットワークの成長とともに(i)degreeが増える(つまりエッジの数がノードの数の線形以上に増える)、 (ii)直径が小さくなるという傾向がある。
これを説明するCommunity Guided Attachment(コミュニティ内ではリンクしやすい)、Forest Fire Model(どこかに向かって火が燃え移っていく。前方向と逆方向の確立が定義される)を提案している。詳細なデータ、プロフェッショナルな分析。
[465] Evaluating similarity measures: a large-scale study in the orkut social network (2005)
E. Spertuxs, M. Sahami, O. Buyukkokten
KDD 2005
Millis College and Google
すばらしい。Orkutのデータで、コミュニティの推薦。どの類似度のメジャーが優れているか。L1, PMI, Log-oddsなど。結果的にL2がいい。明快な構成、きちんとしたデータ、言うことなし。
[466] Mining Knowledge-Sharing Sites for Viral Marketing (2002)
M. Richardson and P. Domingos
KDD'02
U. of Washington
ユーザのnetwork valueを確率モデルで定義。Epinionのデータで検証している。
[467] Mining the network value of customers (2001)
P. Domingos and M. Richardson.
In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, CA, 2001
KDD02のものの前のバージョン。
[468] Learning to Rank Networked Entities (2006)
A. Agrawal, S. Chakrabarti, S. Aggarwal
KDD2006
IIT Bombay
ネットワークでのランキングの学習。面白い。
[469] Group Formation in Large Social Networks: Membership, Growth, and Evolution (2006)
L. Backstrom, D. Huttenlocher, J. Kleinberg, and X. Lan
KDD2006
Cornell Univ.
MySpaceとLive Journalの分析。知り合いのコミュニティ内でのリンクが強いほうが、そのコミュニティに入りやすい。
[470] The predictive power of online chatter (2006)
D. Gruhl, R. Guha, R. Kumar, J. Novak, A. Tomkins
SIGKDD 2006
IBM Almaden Research / Google
面白い。amazonでのランキングとblogでの言及を比較している。
[471] Using Structure Indices For Efficient Approximation of Network Properties (2006)
Matthew Rattigan, Marc Maier, David Jensen
KDD2006
U. of Massachusetts Amherst
Closeness centralityとBetweenness centralityを高速に出すindexを作る。正確な値ではなくて、approximation。10000ノードの共演グラフ。
[472] Simultaneous Record Detection and Attribute Labeling in Web Data Extraction (2006)
Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, Wei-Ying Ma
KDD2006
Tsinghua Univ., Microsoft Research Asia (Beijing)
かなり良さそうな論文。Hierarchical Conditional Random Fieldモデルを用いて、レコードの検出と属性のラベリングを行う。
[473] Acclimatizing Taxonomic Semantics for Hierarchical Content Classification (2006)
Lei Tang, Jianping Zhang, Huan Liu
KDD2006
[474] Hierarchical Topic Segmentation of Websites (2006)
Ravi Kumar, Kunal Punera, Andrew Tomkins
KDD2006
[475] Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends (2006)
Xuerui Wang, Andrew McCallum
KDD2006
[476] Beyond Streams and Graphs: Dynamic Tensor Analysis (2006)
Jimeng Sun, Dacheng Tao, Christos Faloutsos
KDD2006
[477] Extracting Key-Substring-Group Features for Text Classification (2006)
Dell Zhang, W. S. Lee
KDD2006
[478] A Unified Knowledge Based Approach for Sense Disambiguation and Semantic Role Labeling (2006)
Peter Z. Yeh, Bruce Porter, and Ken Barker
AAAI 2006
U. of Texas, Austin (USA)
Semantic Role Labelingを利用して、word-sense disambiguationをする。
Bakerらによって作られたCLib (Component Library)というのを用いる。CLibでは、2500以上のドメインスペシフィックな概念から構成される。イベントとエンティティ、エンティティ間、イベント間の関係などが記述される。
Shallow parserでsyntactic relationshipを出して、CLibのコンセプトから可能なものをすべて列挙する。で、invalidなものを省く。
[479] Inexact Matching of Ontology Graphs Using Expectation-Maximization (2006)
Prashant Doshi and Christopher Thomas
AAAI 2006
U. of Georgia, Athens
Ontologyのマッピングを見つける方法。アルゴリズムの数学的な説明が中心。
[480] OntoSearch: A Full-Text Search Engine for the Semantic Web (2006)
Xing Jiang and Ah-Hwee Tan
AAAI 2006
[481] Social Network-based Trust in Prioritized Default Logic (2006)
Yarden Katz and Jennifer Golbeck
AAAI 2006
[482] Trust Representation and Aggregation in a Distributed Agent System (2006)
Yonghong Wang and Munindar P. Singh
AAAI 2006
[483] Bookmark Hierarchies and Collaborative Recommendation (2006)
Ben Markines, Lubomira Stoilova, and Filippo Menczer
AAAI 2006
Indiana Univ. Bloomington (USA)
GiveALinkというシステム。ブックマークを入れると、それに近いURLを返してくれる。リンクの類似度を用いる。
[484] Mixed Collaborative and Content-Based Filtering with User-Contributed Semantic Features (2006)
Matthew Garden and Gregory Dudek
AAAI 2006
[485] Overcoming the Brittleness Bottleneck using Wikipedia: Enhancing Text Categorization with Encyclopedic Knowledge (2006)
Evgeniy Gabrilovich and Shaul Markovitch
AAAI 2006
Israel Institute of Technology, Haifa (Israel)
Wikipediaの知識を用いてテキスト分類の精度を上げる。feature generationのひとつだと説明されている。
[486] WikiRelate! Computing Semantic Relatedness Using Wikipedia (2006)
Michael Strube and Simone Paolo Ponzetto
AAAI 2006
Semantic Relatednessを測る。Google countsやWordnetよりもWikipediaを使ったほうが良いことを示す。データセットは、例のMiller & Charles, Rubenstein & Goodenough, あと、353 Test Collectionというもの。WordNetは小さいデータセットには良いが、大きなデータセットにはWikipediaがいいそうだ。GoogleCountの関連度はJaccardを用いている。でも他のがいろいろ設定してるのに、GoogleCountはひとつの設定だけで、平等な比較ではない。ダヌ論文と比較するべき。
[487] Organizing and Searching the World Wide Web of Facts Step One: The One-Million Fact Extraction Challenge (2006)
Marius Pasca, Dekang Lin, Jeffrey Bigham, Andrei Lifchits, and Alpa Jain
AAAI 2006
[488] Mining Comparative Sentences and Relations (2006)
Nitin Jindal and Bing Liu
AAAI 2006
U. of Illinois at Chicago
「キャノンの光学はソニーやニコンのより良い」というような比較文をWebから探す。(,,,)という用言。
[489] Table Extraction Using Spatial Reasoning on the CSS2 Visual Box Model (2006)
Wolfgang Gatterbauer and Paul Bohunsky
AAAI 2006
[490] Using Semantics to Identify Web Objects (2006)
Nathanael Chambers, James Allen, Lucian Galescu, Hyuckchul Jung, and William Taysom
AAAI 2006
Florida Institute for Human and Machine Cognition, FL, USA
Webオブジェクトというのは、テキストフィールドとか、リンク、ボタンなど。なので、関係ない。
[491] Cross-Domain Knowledge Transfer Using Structured Representations (2006)
Samarth Swarup and Sylvian R. Ray
AAAI 2006
[492] Identification and Evaluation of Weak Community Structures in Networks (2006)
Jianhua Ruan and Weixiong Zhang
AAAI 2006
Washington Univ.
Newmanらのコミュニティ抽出の方法を改良。weak communityでもstrong communityでも抽出できる。spectral clusteringと組み合せる。重みつきグラフも扱う。良さげ。
[493] From Pigeons to Humans: Grounding Relational Learning in Concrete Examples (2006)
Marc T. Tomlinson and Bradley C. Love
AAAI 2006
[494] Names and Similarities on the Web: Fact Extraction in the Fast Lane (2006)
M. Pasca, D. Lin, J. Bigham, A. Lifchits, A. Jain
ACL 2006
Google, U. Washington, UBCなど
Seed factを与えると、candidate factsを返す。Person-BornIn-Yearのデータで評価。パターンの取得とデータの取得を繰り返すのではなくて、よいパターンをrankingする。そのために語の類似度を使う。PMIで他の語との共起を取り、コサイン類似度。
[495] A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features (2006)
Min Zhang Jie Zhang Jian Su Guodong Zhou
ACL 2006
Institute of Infocomm Research
Relation extractionとKernel法。難しいけどとても重要そうな論文。
[496] Semantic Role Labeling via FrameNet, VerbNet and PropBank (2006)
Ana-Maria Giuglea and Alessandro Moschitti
ACL 2006
Univ. of Rome
[497] A Study on Automatically Extracted Keywords in Text Categorization (2006)
Anette Hulth and Be´ata B. Megyesi
ACL 2006
Uppsala Univ.
自動的に抽出したキーワード(タイトルやフルテキストではなく)がテキスト抽出にどのように役立つか。
[498] A Comparison of Document, Sentence, and Term Event Spaces (2006)
Catherine Blake
ACL 2006
U. of North Carolina
IDFではなくISF(Inverse Sentence Frequency)の方が良い。
[499] Selection of Effective Contextual Information for Automatic Synonym Acquisition (2006)
Masato Hagiwara, Yasuhiro Ogawa, and Katsuhiko Toyama
ACL 2006
Nagoya Univ.
[500] Expressing Implicit Semantic Relations without Supervision (2006)
Peter D. Turney
ACL 2006
National Research Council Canada
X=ostrich, Y=birdとすると、X is the largest Yとか Y such as the Xとかのパターンが上位に来るようにする。どちらかというとダヌシカくんの方法に近い。
[501] Automated Japanese Essay Scoring System based on Articles Written by Experts (2006)
Tsunenori Ishioka and Masayuki Kameda
ACL 2006
[502] Efficient Unsupervised Discovery ofWord Categories Using Symmetric Patterns and High Frequency Words (2006)
D. Davidov and Ari Rappoport
ACL2006
Hebrew Univ. (Jerusalem)
High Frequency Word (HFW)とContent Word(CW)の組み合わせでメタパターンを作る。
[503] Novel Association Measures Using Web Search with Double Checking (2006)
Hsin-Hsi Chen, Ming-Shun Lin and Yu-Chuan Wei
ACL2006
National Taipei Univ.
コンセプトは悪くないけど。引用してくれてるから感謝。再試すると、この精度は出ない。(f(Y@X)+f(X@Y)) / (f(X) + F(y))
[504] An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources (2003)
Yuhua Li, Zuhair Bandar, David McLean
IEEE TKD, 2003
[505] Methods and techniques of adaptive hypermedia (1996)
Peter Brusilovsky
User Modeling and User Adapted Interaction, 1996
CMU
[506] Formal Models for Expert Finding in Enterprise Corpora (2006)
K. Balog, L. Azzopardi, and M. de Rijke
SIGIR 2006
U. Amsterdam (Amsterdam), U. Strathclyde (Glasgow)
Expertを見つける方法には、人の知識を登録しておくこと、それから文書をみつけてそれに関連した方法を見つける方法の2つがある。ここでは後者。TRECのEnterpriseコーパスを用いて評価している。人(ca)とquery(q)の結びつきp(ca|q)を文書を介して計算する。候補抽出の方法、smootingの方法など、さまざまな角度から評価している。よい論文。
[507] Unraveling the Taste Fabric of Social Networks (2006)
Hugo Liu, Pattie Maes, Glorianna Davenport
International Journal on Semantic Web and Information Systems, 2006
Media Lab., MIT
SNSのプロファイルのテキストをとってきて、taste fablic(嗜好が織り成されたもの?)を出している。
[508] Social Networks and Social Networking (2005)
Elizabeth F. Churchill, and Christine A. Halverson
IEEE Internet Computing, 2005
PARC and IBM
特集記事、3篇。
- Using Egocentric Networks to Understand Communication
- Social Networks as Health Feedback Displays
- P3 Systems: Putting the Place Back into Social Networks
[509] danahのブログ
danah boyd
UC Berkeley
よいまとめになってる。
[510] Integrating Open User Modeling and Learning Content Management for the Semantic Web
[511] Exploiting Probabilistic Latent Information for the Construction of Community Web Directories
[512] Task-Oriented Web User Modeling for Recommendation
[513] Non-intrusive User Modeling for a Multimedia Museum Visitors Guide System
[514] An Economic Model of User Rating in an Online Recommender System (2005)
F. Maxwell Harper, Xin Li, Yan Chen, and Joseph A. Konstan
Proc. User Modeling 2005
[515] Modeling User’s Opinion Relevance to Recommending Research Papers* (2005)
Marco Degemmis, Pasquale Lops, Gianni Semeraro, University of Bari
Proc. UM2005
[516] GUMO The General User Model Ontology
[517] Social Navigation Support Through Annotation-Based Group Modeling (2005)
UM05
[518] Evaluation of a System for Personalized Summarization of Web Contents*
[519] From customization to ubiquitous personalization: digital identity and ambient network intelligence (2004)
Norman Lewis
Interactions, 2004
Wanadoo SA (part of the France Telecom Group)
なんか漠然とした話。
[520] Accurate is not always good: How Accuracy Metrics have hurt Recommender Systems (2006)
S. McNee, J. Riedl, and J. Konstan
CHI2006
U. of Minnesota
[521] Amazon.com Recommendations -- Item-to-Item Collaborative Filtering (2003)
G. Linden, B. Smith, and J. York
IEEE Internet Computing, 2003
Amazon.com
[522] Web Mining for Web Personalization (2003)
MAGDALINI EIRINAKI and MICHALIS VAZIRGIANNIS
ACM Transactions on Internet Technology, 2003
Athens University of Economics and Business
Web Usage Miningをパーソナライゼーションに生かす。
3章 User Profiling: Cookieを使う方法、identd, IPアドレスを使う方法。各Webサイトの概要。(Yahoo, Alta-vista, DouleClickなど)
4章 Log analysisとWeb usage mining。Webのログ、相関をとったりクラスタリング、分類をする。
[523] Improving recommendation lists through topic diversification (2005)
Cai-Nicolas Ziegler , Sean M. McNee , Joseph A. Konstan , Georg Lausen,
WWW2005
[524] Taxonomy-driven computation of product recommendations (2004)
Cai-Nicolas Ziegler , Georg Lausen , Lars Schmidt-Thieme,
Proc. ACM international conference on Information and knowledge management, 2004
[525] Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, (2005)
Gediminas Adomavicius , Alexander Tuzhilin
IEEE Transactions on Knowledge and Data Engineering, v.17 n.6, p.734-749, June 2005
Content-based methods, collaborative methods, ハイブリッド。この分け方は定着しているものの、特に新しくない。
一般的な問題として、New User Problem, New Item Problem, Sparcityを指摘している。
最近の話題:Multidimensionality of Recommendation(複数の文脈に関する要素を入れる)、Multicriteria Ratings(レストランの推薦などいくつかの評価項目がある)、Nonintrusiveness(たとえば滞在時間を評価の代わりに用いるなど)、Flexibility(カスタマイズできること)、Recommendationの効果など。
[526] A New Approach of Shannon Entropy in Recommender Systems (2006)
J. Lopez Herrera
Artificial Intelligence and Soft Computing 2006
[527] A Collaborative Filtering Algorithm and Evaluation Metric that Accurately Model the User Experience (2004)
M. R. McLaughlin and J. L. Herlocker
SIGIR 2004
Oregon State Univ.
従来の評価法には2つの欠点がある。ひとつは、良く使われる評価指標Mean Absolute Error (MAE)は、予測したアイテムごとに計算するので、たくさんアイテムを出す手法に有利である。(トップアイテムをうまく出す手法には向いていない。)2つ目は、ほとんどの文献はオフラインのデータセットを用いていて、実ユーザの反応ではない。
この論文では、MAEに加えて、Precision/Recallを用いることが重要であることを述べる。
[528] An Automatic Weighting Scheme for Collaborative Filtering (2004)
R. Jin, J. Chai, L. Si
SIGIR 2004
Michigan State University
ユーザをクラスタリングしてから推薦する。Memory-basedでよく使われるのはPearson Correlation Coefficient(PCC)とベクトルスペース類似度(VS)アルゴリズム。
Model-basedでよく使われるのはaspect model(AM)とpersonality diagnosis model(PD)。
AMは、ユーザがクラスに属する確率p(z|y)とそのクラスでのアイテムの評価p(r|z,x)をかけあわせる。ユーザy, アイテムx, 評価r, クラスz。
PDは、評価の違いによって正規分布を仮定して、そのユーザに近いユーザ(=モデル)を見つける。それの重ね合わせでッ評価を決める。(k-NNに近いのでは。)
PDが良いのが知られているらしい[5]。
重みをつける方法で知られているのは、IDFと、分散を用いる方法。(3章)
[529] Using Bayesian Priors to combine Classifiers for Adaptive Filtering (2004)
Y. Zhang
SIGIR04
CMU
[530] Multi-Layered Ontology-Based User Profiles and Semantic Social Networks for Recommender Systems (2006)
Ivan Cantador, Pablo Castells
2nd International Workshop on Web Personalization, Recommender Systems, and Intelligent User Interfaces, 2006
映画の嗜好が似ている人でもスポーツに嗜好が似ているとは限らない。multi-layeredのソーシャルネットワークを作って、それを使って推薦をする。
[531] A Nonparametric Hierarchical Bayesian Framework for Information Filtering (2004)
K. Yu, V. Tresp, and S. Yu
SIGIR04
U. of Munich, Germany
[532] Scalable Collaborative Filtering Using Cluster-based Smoothing (2005)
G. Xue, C. Lin, Q. Yang, W. Xi, H. Zeng, Y. Yu, and Z. Chen
SIGIR05
Microsoft Research Asia and Shanghai Jiao-Tong University
ユーザのクラスタを作ってからcollaborative filteringをする。Hamaモデルに近い。MovieLens, EachMovieのデータセットによる評価。
[533] Unifying User-based and Item-based Collaborative Filtering Approaches by Similarity Fusion (2006)
Jun Wang, Arjen de Vries, Marcel Reinders
SIGIR 2006
Delft University of Technology
User-basedとitem-basedの協調フィルタリングをマージする方法。
[534] Using Web Graph Distance for Relevance Feedback in Web Search
Sergei Vassilvitskii, and Eric Brill
Stanford University, Microsoft research
Relevance feedbackを使って検索結果を良くする際に、Webグラフ上の距離が効くこと。Avarage-clickを似た内容。
[535] Personalized Recommendation Driven by Information Flow (2006)
Xiaodan Song, Belle L. Tseng, Ching-Yung Lin, Ming-Ting Sun,
SIGIR 2006
University of Washington, NEC Labs America
[536] Analysis of a Low-Dimensional Linear Model Under Recommendation Attacks (2006)
S. Zhang, Y. Ouyang, J. Ford, and F. Makedon
SIGIR 2006
Dartmouth College
[537] Social networks, incentives, and search (2006)
J. Kleinberg
SIGIR 06
Cornell Univ., Ithaca, NY
キーノート。Social netowrkの重要性を書いている。
[538] Consumer Taste Sharing Is Driving the Online Music Business and Democratizing Culture (2005)
M. McGuire and D. Slater
2005
[539] Using viewing time to infer user preference in recommender systems. (2004)
Parsons, J., Ralph, P., & Gallagher K.
AAAI Workshop in Semantic Web Personalization, 2004
[540] Social Information Filtering: Algorithms for Automating "Word of Mouth" (1995)
U. Shardanand, P. Maes, P.
Proceedings of ACM CHI'95
[541] Empirical Analysis of Predictive Algorithms for Collaborative Filtering (1998)
J. Breese, D. Heckerman, and C. Kadie
Technical Report, Microsoft Research, 1998
よいレビューペーパーらしい。
[542] Collaborative Filtering by Personality Diagnosis: A Hybrid Memory- and Model-Based Approach (2000)
D. M. Pennock, E. Horvitz, S. Lawrence and C. L. Giles,
Proc. the Sixteenth Conference on Uncertainty in Artificial Intelligence (UAI), 2000.
memory-basedとmodel-basedのハイブリッドなアプローチ。
[543] Combining Collaborative Filtering With Personal Agents for Better Recommendations (1999)
N. Good, B. Schafer, J. Konstan, A. Borchers, B. Sarwar, J. Herlocker, and J. Riedl
AAAI99, 1999
[544] Application of Dimentionality Reduction in Recommender System -- A case Study (2000)
B. Sarwar, G. Karypis, J. Konstan, J. Riedl
ACM WebKDD 2000 workshop, 2000
LSIを使っているようだ。
[545] Item-based Collaborative Filtering Recommendation Algorithms (2001)
B. Sarwar, G. Karypis, J. Konstan, and J. Riedl
WWW10, 2001
U. of Minnesota
1章はサーベイ。Sparsity problemや次元を圧縮する方法について1.1の最後に書かれている。k-NNでは、SparsityとScalabilityの問題がある。
3.1はItem間の関連を(良い評価をつけたユーザの)コサイン類似度、ピアソン相関等をつかってもとめる。(k-NNでは、ユーザ同士の関連を見つけていることになる。)
3.2はこの関連を使って出力を決める。行列の概念、入力、出力の定義が非常に分かりやすい。
MovieLensデータセットを使って評価。
[546] Evaluation of Item-based Top-N Recommendation Algorithms (2000)
G. Karypis
Technical Report CS-TR-00-46, Univ. of Minnesota, 2000
[547] User profiling for web page filtering (2005)
Godoy Daniela, and Amandi Analia
IEEE Internet Computing, 2005
[548] Recommender Systems: Special issue of Communications of the ACM (1997)
P. Resnick and H. R. Varian
CACM 1997
AT&T, UC Berkeley
一般的な解説。いくつかのシステムが表になっている。だれが評価を作るか、そのコスト。free riderが起こる。また誰でも評価してよいようにすると、コンテンツホルダーが良い評価ばかり作る。プライバシーの問題。(ユーザはあまり習慣を知られたくない。)ビジネスモデル。ユーザの評価と広告は区別しなければいけない。ひとつのシステムが他を排除することなど。
[549] GroupLens: Applying Collaborative Filtering to Usenet News (1997)
J. Konstan, B. Miller, D. Maltz, J. Herlocker, L. Gordon, and J. Riedl
CACM, 1997
[550] Evaluating Collaborative Filtering Recommender Systems (2004)
J. Herlocker, J. Konstan, L. Tervenn, and J. Riedl
ACM Transactions on Information Systems (TOIS), 2004
[551] Recommending and Evaluating Choices in a Virtual Community of Use (1995)
W. Hill, L. Stead, M. Rosenstein, and G. Furnas
CHI 95
[552] Coauthorship networks and patterns of scientific collaboration (2004)
M. E. J. Newman
PNAS (Proceedings of the National Academy of Sciences), 2004
U. Michigan
[553] Scientific collaboration networks. I. Network construction and fundamental results (2001)
M. E. J. Newman
Physical Review E, 2001
[554] Clustering and preferential attachment in growing networks (2001)
M. E. J. Newman
Physical Review E, 2001
[555] Application of Semantic Technology for Social Network Analysis in the Sciences (2006)
Peter Mika, Tom Elfring, and Peter Groenewegen
Scientometrics, 2006
Free Univ.
2章はContextでSemantic Webについて。3章が手法。
4章が分析。4.1は中心性の分析など。(descriptive analysis)
4.2は、パフォーマンスとの相関を見ている。
仮説1a: tieの数は、パフォーマンスに正の相関がある。
仮説1b: closed networkはパフォーマンスに負の相関がある。
仮説2a: 認知的な多様性へのアクセスは、(特に若い研究者の)パフォーマンスに正の相関がある。
簡単な仮説を立てた検証だけという感じ。
[556] Academic communication and Internet Discussion Groups: transfer of information or creation of social contacts? ? (2004)
Uwe Matzat
Social Networks 2004
[557] The Invasion of the Physicists
Phillip Bonacich
バラバシのLinkedとWattsのSix Degreeの書評。2モードネットワークを「発見した」など、関連研究を引いていないことなどについて、皮肉たっぷり。
[558] Structure and time evolution of an Internet dating community (2004)
P. Holme, C. Edling, and F. Lijeros
Social networks 2004
Umea Univ., Stockholm Univ. (Sweden)
オンラインのデートコミュニティの分析。スウェーデンのpussokram.com (英語ではkiss'n'hugという感じ)のコミュニティ。2002年春夏の時点で3万ユーザ。2001年のはじめから約1年半の期間。比較のために、nioki.com(フランスのコミュニティ)とscientific collaboration(共著関係)のネットワークを使う。(いずれもスナップショット)。時系列のリンク数、平均次数の変化(図2)。Reciprocity(両方向のタイがどのくらいあるか):図3。次数相関、assortative mixing。次数分布。geodesic (shortest path) distanceの平均。short circuitsの密度。で、議論で終わり。
一連の分析は非常に初歩的。特に仮説もない。
[559] Friends and neighbors on the Web (2003)
L. Adamic and E. Adar
Social networks, 2003
HP lab
次数分布。きれいなグラフ。少なくとも1本のリンクのある人の数などの集計。簡単なケーススタディ。
リンクのあるなしの予測。similarityを共通アイテムの数(の対数の逆数)で計る。(Likeness score)。パフォーマンスと実例を少し。で終わり。
やはり、ざっといろいろ分析して解釈して終わりという印象。
[560] Tribal regimes in academia: a comparative analysis of market structure across disciplines (2003)
Shin-Kap Han
Social networks, 2003
[561] Statistical analysis of network data?an application to diffusion of innovation (2003)
J. Nyblom, S. Borgatti, J. Roslakka, and M. Salo
Social networks 2003
[562] VIP-club phenomenon: Emergence of elites and masterminds in social networks (2006)
Naoki Masuda and Norio Konno
Social networks 2006
[563] A Graph-theoretic perspective on centrality (2006)
S. P. Borgatti and M. G. Everett
Social networks 2006
[564] Consumer referral in a small world network (2006)
T. Jun, J. Kim, B. Kim, and M. Choi
Social networks 2006
[565] Actor network utilities and network evolution (2006)
P. Doreian
Social networks 2006
[566] Are social networks technologically embedded?: How networks are changing today with changes in communication technology (2005)
C. Licoppe and Z. Smoreda
Social networks 2005
[567] How to search a social network (2005)
L. Adamic and E. Adar
Social networks, 2005
分かりやすい説明。モデルを立てて、実データで検証。2つのネットワークを使っている。1つはHP labのe-mailのネットワーク(Pajekで描画)。もうひとつはsocial networking site(Club Nexus)から取ったもの。物理的距離でどう変わるかなど。
[568] Toward ethical guidelines for network research in organizations (2005)
S. P. orgatti and J. Molina
Social networks, 2005
[569] Who benefits from network analysis: ethics of social network research (2005)
C. Kadushin
Social networks 2005
[570] Modeling social influence through network autocorrelation: constructing the weight matrix (2002)
R. Leender
Social networks, 2002
[571] Distance and cosine measures of niche overlap (2001)
M. Sohn
Social networks, 2001
[572] Utility and dynamic social networks (2000)
N. Hummon
Social networks, 2000
[573] Dynamical systems to define centrality in social networks (2000)
R. Poulin, M. Boily and B. Masse
Social networks, 2000
[574] Some analyses of Erds collaboration graph (2000)
V. Batagelj and A. Mrvar
Social networks, 2000
簡単なコンポネント等の図示。Core、Lordの分析。Blockmodel。Clustering(7章にJaccard, Dice等の記述あり。)Cluster分析。
[575] Personal network integration: transitivity and homophily in strong-tie relations (2000)
H. Louch
Social networks, 2000
[576] Alex Popescul
Alex Popescul
U. of Pennsylvania
Yahoo! inc. にいるらしい。2004年ごろPhD終了?
Feature constructionの論文等。Lyle Ungarという人が教授でデータマイニングの研究。
[577] http://www.cis.upenn.edu/~popescul/home.html
[578] Application of Semantic Technology for Social Network Analysis in the Sciences (2006)
P. Mika, Tom Elfring, and Peter Groenewegen
Scientometrics, 2006
[579] Trust and Nuanced Profile Similarity in Online Social Networks (2006)
Jennifer Golbeck
JAIR, 2006
[580] Googlearchy: How a Few Heavily-Linked Sites Dominate Politics on the Web (2003)
M. Hindman, K. Tsioutsiouliklis, and J. A. Johnson
Annual Meeting of the Midwest Political Science Association, 2003
[581] Structure and evolution of blogspace (2004)
R. Kumar, J. Novak, P. Raghavan, and A. Tomkins
CACM 2004
IBM Almaden
100万人以上のLivejounalのbloggerの分析。
主に、年齢や国などの分析。興味のクラスタができること、地理的なクラスタができることなど。後半は、時系列の変化。
[582] The quality of online social relationships (2002)
J. Cummings, B. Butler, and R. Kraut
CACM 2002
MIT, U. of Pittsburgh, and CMU
オンラインの関係は、オフラインの関係を形成・維持するには弱いことが書かれている。1991年の979人の銀行従業員の調査。81%がe-mailを使っている。ピッツバーグの93人の主婦の調査。204のメーリングリストの分析。
[583] Computer networks as social networks
B. Wellman
Science,
[584] Relationship formation on the Internet: What's the big attraction? (2002)
K. McKenna, A. Green, and M. Gleason,
Journal of Social Issues, 2002
[585] Blogging as a social activity, or would you let 900 million people read your diary? (2004)
B. Nardi, D. Schiano, and M. Gumbrecht
CHI 2004
ブロガー23人にサーベイ調査。ブログを書く目的についてなど。
1. 他の人に自分の活動や状況を知らせる。
2. 他人に影響させるように意見を書く。
3. 他の人の意見やフィードバックを求める。
4. 書くことで考える。
5. 感情の高まりを発散する。
[586] Internet paradox revisited (2002)
R. Kraut, S. Kiesler, B. Boneva, J. Cummings, V. Helgeson, and A. Crawford,
Journal of Social Issues, 2002
[587] Expressing Social Relationships on the Blog through Links and Comments (2006)
Noor Ali-Hasan, and Lada A. Adamic
たぶん2006
U. of Michigan
面白い!Kuwaitブログ、Dallas/Fort Worthブログ、United Arab Emiratesブログのコミュニティで、リアルライフの関係とオンラインの関係を調べる。blogrollとコメントを調べた。その結果、オンラインの関係は実世界の関係を反映してないこと、オンラインの関係はbloggingを通じて形成されることがわかった。
分析はそれほどしっかりしてない感じ。
[588] How Blogging Software Reshapes the Online Community (2004)
Rebecca Blood
CACM 2004
Weblog Handbookという本を書いた人らしい。A-listのblogger。Weblogの歴史など。特に内容なし。
[589] How Do Blog Gardens Grow? Language Community Correlates with Network Diffusion and Adoption of Blogging Systems (2006)
Gu, L., P. Johns, T. M. Lento and M. A. Smith.
AAAI symposium on computational approaches to analyzing weblogs, 2006
[590] Conversations in the Blogosphere: An Analysis "From the Bottom Up" (2005)
Susan C. Herring, Inna Kouper, John C. Paolillo, Lois Ann Scheidt, Michael Tyworth, Peter Welsch, Elijah Wright, and Ning Yu
Proc. of HICSS-38, 2005
Indiana University Bloomington
A-listのblogではなくて、普通のblogをランダムにピックアップして、どのくらいつながっているかなど、ネットワーク分析をしている。A-listは、中心的だが、他のブログは密に固まっている。他のサンプルのblogはほとんど参照してない。つまり、局部的に固まっているが、それぞれはばらばらになっている。
[591] Discovering the iceberg of knowledge work: A weblog case (2004)
Lilia Efimova
OKLC2004
Telematica Instituut, オランダ
[592] Finding the life between buildings: An approach for defining a weblog community (2005)
Lilia Efimova, Stephanie Hendrick, and Anjo Anjewierden
2005
Telematica Instituut (Netherlands)
バーチャルな空間でのコミュニティの定住という比喩。研究の方法論自体についていくつか議論したあと、コミュニティのメンバーを同定する研究が少し書かれている。
Regular reading of a weblogについて5ページに少し記述がある。
[593] On the bursty evolution of blogspace (2003)
R. Kumar, J. Novak, P. Raghavan, and A. Tomkins
WWW2003
[594] Experiments on Persian Weblogs
Kyumars Sheykh Esmaili, Mohsen Jamali, Mahmood Neshati, Hassan Abolhassani and Yasaman Soltan-Zadeh
Sharif Univ of Technology (Teheran, Iran)
ペルシャのblog分析。次数分布、ページランク等。
[595] Online personal networks: Size, composition and media use among distance learners. New Media (2000)
Haythornthwaite, C
Society 2(2):19526, 2000
[596] Investment and Attention in the Weblog community (2006)
Cameron Marlow
AAAI symposium on computational approaches to analyzing weblogs, 2006
MIT
面白い。readership relationと実際の関係をサーベイしている。
[597] Information Diffusion through Blogspace (2004)
D. Gruhl, R. Guha, D. Liben-Nowell, and A. Tomking
WWW2004
長大な論文。
[598] Leave a Reply: An Analysis of Weblog Comments
Gilad Mishne, Natalie Glance
?
U. Amsterdam, Nielsen BuzzMetrics
コメントの分析。誰が投稿したかは分からない。68万ポスト、そのうちコメントがあるのが10万ポスト(15%)。3万6千Weblog, そのうちコメントがあるのが1万(28%)。次数分布、キーワードで検索したときの分析、コメントと人気の関係など。
[599] Implicit Structure and the Dynamics of Blogspace (2004)
E. Adar and L. Zhang and L. Adamic and R. Lukose
Workshop on the Weblogging Ecosystem, 2004
HP Information Dyanmics Lab
blogrollとurlの言及のネットワーク。iRankを提案。
[600] The Political Blogosphere and the 2004 U.S. Election: Divided They Blog (2005)
Lada Adamic and Natalie Glance
LinkKDD-2005, 2005
HP labs, and Inteliseek Applied Research Center (Pittsburgh)
Blogrollのスナップショット。
1494のブログ(759が自由、735が保守)のネットワーク。
特に40のA-listブログ(20ずつ)を選んで、40日間観察。詳細に分析している。
[601] Audience, structure and authority in the weblog community (2004)
Cameron Marlow
CA 2004
MIT media labo
Blogdexというプロジェクトでblogを収集してくる。このデータで、
permalink, blogrollのソーシャルネットワークを作る。degreeの中心性のランキング、次数分布、2つのソーシャルネットワークの中心性の相関など。3ページ目に、4つのsocial tie(permalink, blogroll, comment, trackback)があることを述べている。まあ、大したことないが参考になる。
[602] Discovery of Blog Communities Based on Mutual Awareness
Yu-Ru Lin, Hari Sundaram, Yun Chi, Jun Tatemura and Belle Tseng
WWW2006 Workshop
NEC labs
面白い。Mutual awarenessを測る。それによって、コミュニティを同定する。やり方は、コメント、引用、blogrollの変更など。時間も見ている。
[603] The Ties that Blog: Examining the Relationship Between Social Ties and Continued Participation in the Wallop Weblogging System (2006)
Thomas Lento, Howard T. Welser, Lei Gu, and Marc Smith
WWW2006 workshop on weblog, 2006
Cornell Univ., U. of Washington, and Microsoft
Wallopというホスティングサービス。中国人が多い。commentネットワーク、invitationネットワーク、その組み合わせの3つのネットワークを調べている。中心性の分析、やめるかどうかの予測など。
[604] Memeta: A Framework for Multi-Relational Analytics on the Blogosphere. (2006)
Pranam Kolari, Tim Finin:
AAAI 2006
[605] Characterizing the Splogosphere (2006)
P. Kolari, A. Java, and T. Finin
WWW2006
U. Maryland
splogをSVMを使って検出。blog同定のF1は97%、splog検出は90%。BlogPulseの130万エントリ(2005/7の3週間のデータ)
確率でAuthenticBlog, Splog度を出している。時間帯の分析、次数分布の分析など。
[606] The TREC Blogs06 Collection : Creating and Analysing a Blog Test Collection (2006)
Craig Macdonald, ladh Ounis
Univ. Glasgow Technical Report, 2006
Univ. Glasgow Scotland, UK
Blogs06のテストコレクションをどうやって集めたか。Top blogs(7万), Splog(1万8千), その他(1万2千)。2005/12/6-2006/2/21まで。期間ごとの集計、時間ごとの集計(splogとの違い)、offensive wordがどのくらい含まれるか(splogのほうが多い)、次数分布など、簡単な統計分析。
[607] SVMs for the Blogosphere: Blog Identification and Splog Detection (2006)
Pranam Kolari et al.
AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs, 2006
SVMを使ったsplogの同定。
[608] Tracking Information Epidemics in Blogspace (2005)
Eytan Adar and Lada A. Adamic
WI2005
HP Labs, Information Dynamics Lab
1.2のRelated Worksはすばらしい。
Blog BとBlogAが同じ話題(URLを引く)であって、しかもその周りにそれに言及したBlogがないときに、
infectしたとみなしている。direct linkがあるか(双方、片方、ない)、infectしているかなどを分類する。
属性としては、テキストの類似度(共通のURL、TFIDF)やタイミングを用い、SVMやロジスティック回帰を使う。
可視化についても4章で言及されている。
[609] Quantitive and sociological analysis of blog networks
W. Bachnik他
ACTA PHYSICA POLONICA B
Gdansk University (Poland)
ポーランド語のブログの分析。Small worldであるとか。質は低いので引く必要なし。

[610] Exploring Social Annotations for the Semantic Web (2006)
Xian Wu, Lei Zhang, Yong Yu, Shanghai
WWW2006
Shanghai JiaoTong University, IBM China Research Lab,
tagging guyの論文。
[611] Emergent Semantics (2002)
S. Staab eds. (Simone Santini (UC San Diego), Frank Nack (CWI Amsterdam), Luc Steel (U. Brussels), Alexander Maedche (U. of Karlsruhe))
IEEE Intelligent Systems 2002
すばらしい。
前書きと3番目の記事にヴィトゲンシュタイン、
4番目の記事にソシュールが出てくる。
[612] On How to Perform a Gold Standard Based Evaluation of Ontology Learning (2006)
K. Dellschaft, and Steffen Staab
ISWC2006
Univ. Koblenz-Landau
オントロジの評価について。(i)アプリケーションでの評価、(ii)エキスパートによる評価、(iii)Gold standardによる評価。3つの基準があって、複数の評価尺度を重ね合わせたものでなければいけない、木の根元のエラーは大きくなければならない、エラーを付け加えると評価尺度が下がらないといけない。4章は木のマッチングの方法。
[613] Ontology-driven Information Extraction with OntoSyphon (2006)
Luke McDowell and Michael Cafarella
ISWC2006
US Naval Academy and U. of Washington
検索エンジンを使ってインスタンスを見つける研究。
[614] A Method for Learning Part-Whole Relations (2006)
Willem Van Hage, Hap Kolb, and Guus Schreiber
ISWC2006
TNO science and industry Delft, and Virije Univ. Amsterdam
[615] Mining Information for Instance Unification (2006)
Niraj Aswani, Kalina Bontcheva, and Hamish Cunningham
ISWC2006
U. of Sheffield
[616] A Framework for Schema-Driven Relationship Discovery from Unstructured text (2006)
C. Ramakrishnan, K. Kochut, and A. Sheth
ISWC2006
LSDIS, U. of Georgia
Bio-medicalのテキストからエンティティ間の関係を見つける。RDFに変換。
[617] Augmenting Navigation for Collaborative Tagging with Emergent Semantics (2006)
M. Aurnhammer, Peter Hanappe, and Luc Steels
ISWC2006
Sony Paris, Vrije Universiteit Brussel
タグと画像の特徴を合わせた画像の閲覧ナビゲーション。タグの可視化。輪郭(colour)とテクスチャの特徴を組み合わせた特徴量を用いる。
[618] Ontology-Driven Automatic Entity Disambiguation in Unstructured Text (2006)
J. Hassel, B. Aleman-Meza, and I. Budak Arpinar
ISWC2006
LSDIS, U. of Georgia
前にメリーランド大で聞いたやつかも。
[619] Toward Knowledge Acquisition from Information Extraction (2006)
Chris Welty and J. William Murdock
ISWC2006
IBM
KITEというシステム。テキストからOWLやRDFを生成。きちんとした議論、大まかな枠組み。ケーススタディをしている。かなり小さい規模。
[620] Toward Principles for the Design of Ontologies Used for Knowledge Sharing (1993)
Thomas R. Gruber
In Formal Ontology in Conceptual Analysis and Knowledge Representation, 1993
Stanford Kwnoledge Systems Laboratory
オントロジの定義。"An ontology is an explicit specification of a conceptualization. "(p.1)
オントロジのデザイン基準。1. Clarity, 2. Coherence, 3. Extendibility, 4. Minimal encoding bias, 5. Minimal ontological commitment. 2つのケーススタディ(物理量のモデル、書誌データの共有)について書かれている。
[621] Knowing the User's Every Move - User Activity Tracking for Website Usability Evaluation and Implicit Interaction (2006)
Richard Atterer, Monika Wnuk, and Albrecht Schmidt
WWW2006
proxyをいれて、mouseの動きなんかもとる。それで、implicit interaction(つまリ躊躇しているとか)を把握する。
[622] Inducing Ontology from Flickr Tags (2006)
Patric Schmitz
Workshop at WWW2006
UC Berkeley and Y! Research Berkeley
集合の確率的な重なりだけで、flickrのタグのオントロジを出そうとしている。San Francisco ->ferrybuilding, fishermanswharf, goldengateparkなど。
[623] Automated Tag Clustering: Improving search and exploration in the tag space (2006)
Grigory Begelman, Philipp Keller, and Frank Smadja
Workshop at WWW2006
Technion Israel Institute of Technology (Israel)
インスタンスでの共起(つまりOic)に基づいてタグをクラスタリングする。
data sparcityについて、最初に少しだけ言及がある。
[624] Semantic Analysis for Data Sparsity Compensation (SPARSE) (2003)
Workshop, 2003
Johns Hopkins Universityで2003年にやったワークショップの報告書
[625] The power of collective intelligence
[626] Ontology of Folksonomy: A Mash-up of Apples and Oranges
Tom Gruber
1章、オントロジーが情報共有に必要であること。
3章、トップダウンのオントロジと、
ボトムアップのフォークソノミーを比べるのは、アップルとオレンジを比べるようなものである。Shirkyによるオントロジーの非難は、非常に特殊なオントロジ、つまり中央集権システムでのタキソノミックな分類を対象としている。つまり、オントロジーへの攻撃は、
情報を見つけ組織化するための、トップダウンの分類に対する攻撃である。
4章はタグについての考察。複数のアプリケーションでのコラボレイティブタギングが必要、タギングによるコラボレイティブフィルタリング、タグオントロジー(3部グラフor4部グラフ)、タギングの制約、否定的なタグ、タグのアイデンティティ。
[627] Ontology extraction and conceptual modeling for web information (2003)
Hyoil Han and Ramez Elmasri
Information modeling for internet applications, 2003
U. of Texas at Arlington
[628] Folksonomies - Cooperative Classification and Communication Through Shared Metadata (2004)
Adam Mathes
December 2004
CMU
概説。なぜfolksonomyがうまくいくか。今後の重要な研究など。synonymやambiguityにも言及がある。
[629] Ontology is Overrated: Categories, Links, and Tags
Clay Shirky
Clay Shirky's Writings About the Internet
論文じゃないみたいだけどちゃんとしてる。と思ったら、いろいろなカテゴライゼーションをオントロジーとの関連で紹介している。O'Reilly ETech conferenceでのスピーチと、IMCExpoでのスピーチを混ぜたもの。
[630] Folksonomies Tidying up Tags? (2006)
Marieke Guy and Emma Tonkin
D-Lib magazine, 2006
UKOLN.ac.jp (イギリス)
3節に、personal meaningだけでなくsocial shared meaningをもつタグも確かにあって、それが有益であると述べられている。
folksonomyのシステム的な話、タグの分布などの話、ユーザをトレーニングするなど。概念的な話もあって参考にはなるが、示唆に富んでいるわけではない。
[631] Automatic Organization for Digital Photographs with Geographic Coordinates
Google countを一部使っているようだ。
[632] Wiki and Semantic Web (2005)
Max Volkel
WikiSym '05
AIFB, Germany
Google hitを使ったサーベイが3.4.1に少しあり。
[633] Web Services: Been There, Done That? (2003)
S. Staab, W. Aalst, V. Benjamins, A. Sheth, J. Miller. et al.
IEEE Intelligent Systems 2003
U. Karlsruhe, U. Georgia他
Google countについての言及があるようだ。(買わないといけない)
[634] Random Sampling from a Search Engine's Index (2006)
Z. Bar-Yossef, and M. Gurevich
WWW2006
Technion (Israel)
BharatとBroderの10年前の論文の問題「検索エンジンのインタフェースだけをつかってランダムなページをどのようにサンプリングするか」を再び取り上げる。モンテカルロ法: rejection sampling and Metropolis-Hastings algorithm. 検索エンジンについて確率的に考えるには非常に良さそう。
[635] Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling (2005)
Jenny Rose Finkel, Trond Grenager, Christopher D. Manning
ACL2005
[636] Sampling Search-Engine Results (2005)
Aris Anagnostopoulos, Andrei Z. Broder, David Carmel
WWW2005,
ブラウン大、IBM
例えば、ORのヒット件数を知りたいときなど、ヒットした文書群からのsamplingが有効である。その方法について述べている。インデキシングをどう利用するかの話なので、検索エンジンの中に組み込む機能のようだ。
[637] Semtag and seeker: bootstrapping the semantic web via automated semantic annotation (2003)
S. Dill, N. Eiron, D. Gibson, D. Gruhl, R. Guha, A. Jhingran, T. Kanungo, S. Rajagopalan, A. Tomkins, J.A. Tomlin, and J.Y. Zien
WWW2003
[638] Modeling supply chain formation in multiagent systems.
Walsh, William E., and Michael P. Wellman. 1999b.
In IJCAI-99 Workshop on Agent-Mediated Electronic Commerce, Stockholm.
[639] Agent-organized networks for dynamic team formation (2005)
M. E. Gaston, M. Desjardins
AAMAS05
[640] Social Networks and Multi-agent Organizational Performance
Matthew E. Gaston and Marie desJardins
Traffic dynamics based on local routing protocol on a scale-free network
W. Wang, B. Wang, C. Yin, Y. Xie, and T. Zhou
Physical Review E, 2006
[641] Modeling Traffic of Information Packets on Graphs with Complex Topology (2003)
Bosiljka Tradic
2003
[642] Urban Traffic Dynamics: A Scale-Free Network Perspective (2006)
M. Hu, W. Wang et al.
2006
U. of Science and Technology of China
roadネットワーク。
[643] Game Theory for Networks
Workshop on Game Theory for Networks (GameNets), 2006
関係してるワークショップ。
[644] Growing network with local rules: Preferential attachment, clustering hierarchy, and degree correlations
Alexei Vazquez
U. of Notre Dame
Connecting Nearest Neighborのモデル。次数相関。
[645] Consensus formation on a triad scale-free network
Authors: Sousa, A. O.
良さそう。
[646] Prisoners’ dilemma in real-world acquaintance networks: Spikes and quasi-equilibbria induced by the interplay between structure and dynamics. (2003)
Holme, P.; Trusina, A.; Kim, B. J.; and Minnhagen, P.
Phys. Rev. E 68, 2003
[647] Adapting network structure for efficient team formation.
Gaston, M., and desJardins, M. 2004.
In Proceedings of the AAAI 2004 Fall Symposium on Artificial Multi-agent Learning.
[648] Effects of interaction topology and activation regime in several multi-agent systems (2000)
R. Axtel
Multi-agent based simulation (LNAI), 2000
Brookings Institution, Washington D.C.
周りの人がやめたら自分もやめるimitatorがいるエージェントモデル。ソーシャルネットワークを、レギュラー、ランダム、スモールワールドと変えて、大部分がやめるまでの期間がどう変わるかなど。もうひとつは、会社のネットワークと賃金。
[649] Social games in a social network (2001)
G. Abramson, M. Kuperman
Phys. Rev. E 63, 2001
[650] Social network structures and their impact on multi-agent system dynamics. (2005)
M. Gaston and M. desJardins.
In Proc. 18th International Florida Artificial Intelligence Research Society Conference (FLAIRS), 2005.
UMBC
エージェント間にネットワークを仮定し、スケールフリー、ランダム、ラティスなどを比べる。タスクは、ディフュージョン、意見形成、チーム形成など。このとき、仮定したネットワークのトポロジの違いによって、結果が変わることをいっている。当たり前。
[651] E-mail reveals real leaders (2003)
Ball, P.
Nature, 2003
[652] Learning Trust Strategies in Reputation Exchange Networks (2006)
Karen Fullam, K. Suzanne Barber
AAMAS2006
University of Texas, Austin
ART(Agent Reputation and Trust) Testbed。trustを、reputationや経験からどう計算するのかを学習するエージェントの方が、そうでないものより良かったとのこと。Q-learning。reputationの値は、reputation providerからもらえて、q値に相当するそうだ。
[653] Multi-Agent System that Facilitates Scientific Publications Search (2006)
Aliaksandr Birukou, Enrico Blanzieri, Paolo Giorgini
AAMAS2006
U. of Treno (Italy)
パブリケーションの情報を共有するマルチエージェントモデル。Expert AgentとかDirectory FacilitatorとかAgent Resource Brokerとかを使ったアーキテクチャ。10個のエキスパートを使った評価実験。ちょっとしょうもない。
[654] Trust-based Agent Community for Collaborative Recommendation (2006)
J. Weng, C. Miao, and A. Goh
AAMAS2006 (short paper), 2006
Nanyang Technological Univ., Singapore
たぶん、今までの評価が似てる人を集めて(コミュニティ)、それを推薦(予測)に用いる。itemの推薦の計算方法など。MovieLensのデータセットでの評価実験。
[655] The Emergence of Global Properties from Local Interactions --Static Properties and One Dimensional Patterns-- (2006)
Daniel Yamins
AAMAS2006 (short paper), 2006
1次元のラティス。引用は弱い。SOMっぽい。定理ばかりで意義が良く分からん。
[656] Towards a theory of local to global in distributed multi-agent systems (2005)
Daniel Yamins
AAMAS2005
Yaminsさんはこのネタらしい。
[657] Formation of cooperation structure by interaction network in directed multi-agent (2005)
Kosuke Sekiyama, Yukihisa Okade
AAMAS2005
[658] Optimal design in collaborative design network (2005)
Y. Xiang, J. Chen, William S. Havens
AAMAS2005
[659] AAMAS2005 (2005)
AAMAS2005
AAMAS2005にはVotingのセッションあり。3件論文。Reputationの論文は5件。
[660] Foundations of organizational structures in multiagent systems (2005)
Davide Grossi, Frank Dignum, Mehdi Dastani, Lamber M. M. Royakkers
AAMAS2005
Utrecht Univ.
power, coordination, controlという3つの次元から社会構造を捉えるべきだとの議論。組織の論理(logic of organization)という論理体系も出てきて、難しい。
[661] Trust evaluation through relationship analysis (2005)
Ronald Ashri, Sarvapali D. Ramchurn, Jordi Sabater, Michael Luck, Nicholas R. Jennings:
AAMAS2005
U. of Southampton
ちょっとSemantic Webっぽくて面白い。多様な関係の表現とトラストの計算。
[662] Searching social networks (2003)
Bin Yu, Munindar P. Singh:
AAMAS2003
North Carolina State University
マルチエージェント(ピアツーピアっぽい)でreferralのパスを探す。Referral Webを引いている。
keyword: 武田先生
[663] Agent network topology and complexity (2003)
Xiaolong Jin, Jiming Liu
AAMAS2003(poster), 2003
Hong Kong Baptist Univ.
SAT問題をマルチエージェント的に考えたときのトポロジ。WalshのSearch in the small worldを引いている。
[664] Extracting reputation in multi agent systems by means of social network topology (2002)
Josep M. Pujol, Ramon Sanguesa, Jordi Delgado
AAMAS2002
ソーシャルネットワークからのランキング。中心性みたいな感じで、引くべき論文だが、ちょっと質は低い。
[665] Reputation and social network analysis in multi-agent systems (2002)
Jordi Sabater, Carles Sierra
AAMAS2002
[666] Emergence of agent-based referral networks
Bin Yu, Munindar P. Singh
AAMAS2002 (poster)
翌年にsearching social networksの論文。
[667] Study of Social Consciousness in Stochastic Agent-Based Simulations: Application to Supply Chains
T. Moyaux, B. Chaib-draa, S. D'Amours
AAMAS2006 (short paper)
[668] Certified reputation: how an agent can trust a stranger (2006)
T. D. Huynh, N. R. Jennings, N. Shadbolt
AAMAS2006
U. Southampton
CR(Certified Reputation)。reputation networkなど。でも、ネットワークが直接でてくるわけではない。
[669] Junta Distributions and the Average-case Complexity of Manipulating Elections (2006)
A. D. Procaccia, and J. S. Rosenschein
AAMAS2006
Hebrew Univ. of Jerusalem, Israel
選挙のプロトコルの話。Borda方式やコンデルセ条件についても少し言及あり。
[670] Information Retrieval on the Semantic Web. (2005)
Timothy W. Finin, James Mayfield, Anupam Joshi, R. Scott Cost, Clay Fink
HICSS 2005
UMBC
[671] Using the Semantic Web to Integrate Ecoinformatics Resources. (2006)
Cynthia Sims Parr, Andriy Parafiynyk, Joel Sachs, Rong Pan, Lushan Han, Li Ding, Tim Finin, David Wang
AAAI 2006
UMBC
2ページのポスター。生態系、食物連鎖などのオントロジをOWLで連結してSPARQLクエリーエンジンでクエリーを投げられるようにしたシステム。よい試みだと思うが、まだ実装しただけのイメージ。
[672] The structure of scientific collaboration networks. (2001)
M. E. J. Newman.
Proceedings of the National Academy of Sciences USA, 98:404{409, 2001.
[673] The structure and function of complex networks. (2003)
M. E. J. Newman.
SIAM Review, 2003
[674] ネットワーク構造解析
鹿島 久嗣
Getoorさんの研究も紹介されている。よい。
[675] The Link Prediction Problem for Social Networks, (2004)
Liben-Nowelly & Kleinberg
CIKM 2004
とても面白い。いろいろな属性を定義して、どれが一番予測に効くか。Katzという指標(パスの数)が良い。
予測の精度はあまり高くないみたいだが、いろいろな分野の共著関係について分析している。
[676] Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead (2006)
Cameron Marlow, Mor Naaman, danah boyd, Marc Davis
Hypertext 2006
UC Berkeley, and Yahoo! Research Berkeley
Flickrのデータ。タグのオーバーラップ、時系列変化等。分析自体はたいしたことなさそうだが、前書き等の流れは良い。いろいろなソーシャルブックマークの紹介が参考になる。
[677] SemRank: Ranking complex semantic relationship search results on the semantic Web (2005)
K. Anywanwu, A. Maduko, and A. Sheth.
WWW 2005
[678] Learning Structured Prediction Models: A Large Margin Approach (2005)
B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin
ICML 2005
UC Berkeley, Stanford Univ. and CMU
Ph.D論文。Kollerさんのところ。associativeマルコフネットワーク(AMN)、relationalマルコフネットワーク(RMN)
[679] Playing multiple roles: discovering overlapping roles in social networks (2004)
A. Wolfe, D. Jensen
SRL workshop 2004
U. Massachusetts
[680] Learning Probabilistic Models of Link Structure (2002)
Lise Getoor, N. Friedman, D. Koller, B. Taskar
2002
教科書的なもの。PRM, Reference uncertainty, Existence uncertainty。
[681] Learning Probabilistic Relational Models
Lise Getoor
U. Maryland
パワポ。 HPにあるもの。すごい。。。
http://www.cs.umd.edu/~getoor/Talks/lprm-tutorial.ppt
[682] Statistical Relational Learning for Link Prediction (2003)
A. Popescul and L. H. Ungar
IJCAI03 workshop on learning statistical modeling from relational data, 2003
Univ of Pennsylvania
最初の導入が分かりやすい。feature generationやnoisy dataについて。citeseerのデータで、新しいオブジェクトのリンクが一部分かっているとき、残りを予測する。関係の属性を組み合わせて設計している。citation recommendationに使えると述べている。
[683] Social Network Caught in the Web (2003)
Lada A. Adamic, Orkut Buyukkokten, and Eytan Adar, A
First Monday, 8(6), 2003.
StanfordのNexus Net。2470人のNexusユーザと10100本のリンクのデータ。
Association by similarityの節に同属性関係について述べられている。
[684] Empirical analysis of an evolving social network (2006)
G. Kossinets, D. Watts.
Science, 311:88 ィC 90, 2006.
[685] Geographic routing in social network (2005)
D. Liben-Nowell, J. Novak, R. Kumar, P. Raghavan, and A. Tomkins
Acad. Sci USA 2005
[686] Learning Systems of Concepts with an Infinite Relational Model (2006)
C. Kemp, J. Tenenbaum, T. Griffiths, Takeshi Yamada, Naonori Ueda
AAAI-06,
MIT, NTT cslab
ブロックモデルを確率的に解釈して、グラフ上のクラスタリングを行なう話。難しい。
[687] kFOIL: Learning Simple Relational Kernels (2006)
N. Landwehr, A. Passerini, L. Raedt, P. Fransconi
AAAI-06
Albert-Ludwigs Universitat, Germany
機能学習のシステムFOILのカーネルバージョン。前年にNaive BaysバージョンをAAAIに出している。
[688] A Survey of Kernels for Structured Data
[689] A Hybrid Discriminative/Generative Approach for Modeling Human Activities (2005)
J. Lester, T. Choudhury, N. Kern, G. Borriello, and B. Hannaford
IJCAI-05
U. of Seattle, Intel
肩にかつぐセンサーでSitting, Standing, Walkingなどを判定する。BoostingとHMM。
[690] Credible and Inexpensive Rating of Routine Human Activity (2005)
D. H. Wilson and M. Philipose
IJCAI05
CMU and Intel
RFIDを使っているが、その話はほとんど出てこない。HMMとTrace repairを用いるHSMM(Hidden Semi-Markov Models), 時相論理。
[691] Location-Based Activity Recognition using Relational Markov Networks (2005)
L. Liao, D. Fox and H. Kautz
IJCAI-05
U. of Washington
GPSとマルコフモデル(Relational Activity Model)
[692] On Clusterings: Good, Bad and Spectral
[693] The Structure of Collaborative Tagging Systems (2005)
Golder, S, and Huberman, B.A.
2005
HP Lab. (USA)
folksonomyについて書かれている。その意義、分けることと必要性、なぜカテゴリでなくタグなのかについても言及されている。polysemy, synonymy, basic levelの問題(人がどのレベルのタグを最も自然だと思うか。)
Deliciousの分析。2005年6月23日から27日まで。特定のユーザや特定のタグについての頻度の分析。タグをつける意図の分類(3.3)。タグの安定化。
質問:いまも分析しているのか、データ量を増やすのか? Peterの論文との関係、何が言えると面白いのか。
keyword: タグ, 武田先生
[694] Evolving semantic web with social navigation
[695] Collaborative tagging as a tripartite network (2005)
R. Lamibiotte and M. Ausloos
2005
Universite de Liege (Belgium)
Peterのとはまた違った表現(projection)でのtripartiteモデル。
Structure analysisで方向つきの相関のグラフを出している。www.audioscrobbler.com、www.citeulike.orgのデータ。
[696] Semantic social network portal for collaborative online communities (2005)
Sebastian R. Kruk and Stefan Decker
J. of European Industrial Training, Vol.29, No. 6 (2005)
DERI
セマンティックソーシャル協調フィルタリング。FOAFのknowsを使う。分散でユーザプロファイルの管理。FOAFRealmという参考文献の共有システム。P2P(D-FOAFと呼ばれる)上に実装されている。濱崎さんの研究に近い感じ。アルゴリズムなどはしっかり書かれている。
[697] Recommendation as Classification: Using Social and Content-Based Information in Recommendation (1998)
C. Busu, H. Hirsh, and W. Cohen
AAAI/IAAA 1998
[698] Where are the semantics in the semantic web? (2003)
Michael Uschold
AI magazine, 2003
ちょっと古い。
[699] Dogerar: Social bookmarking in the enterprise (2006)
D. Millen, J. Feinberg, B. Kerr
SIGCHI conference on Human Factors in computing systems, 2006
IBM Research, Cambridge
[700] Collaborative Tagging and Semiotic Dynamics (2006)
C. Cattuto, V. Loreto, and L. Pietronero
2006
Universita di Roma
1章の後半に言語との関連の記述。rich-get-richerの簡単なモデルを使って、それがdeliciousとconnoteaのデータによくあてはまることを示している。
[701] Why do tagging systems work? (2006)
G. Furnas(U. of Michigan), C. Fake(Yahoo!), L. Ahn(CMU), J. Schachter(delicious), S. Golder(HP lab), K. Fox(Google), M. Davis(Yahoo! Research Berkeley), C. Marlow(Y! Research Berlkeley), M. Naaman(Y! Research Berkeley)
ACM CHI'06
Yahoo!が多い。
パネル。
[702] Technically Speaking: Folk Wisdom (2006)
Paul McFedries
IEEE Spectrum, 2006
読者に読みやすい1ページの記事。Web2.0やfolksonomyの解説など。基本的な用語は参考になるので引くときにはよさそぅ。collective intelligence, wisdom of crowdsなど言及されている。
[703] Collaborative thesaurus tagging the Wikipedia way (2006)
Jakob Voss
2006
Wikimedia Deutshland, ドイツ
Wikipediaとtaggingの分類の比較のような感じだけど、よく分からない。変な論文。
[704] Finding Scientific Gems with Google (2006)
P. Chen, H. Xie, S. Maslov, and S. Render
2006
Boston Univ., CUNY, and Brookhaven National Laboratory(NY)
Physical Reviewについて、Googleのヒット件数、PageRankと、引用の回数を調べている。
[705] Folksologies: de-idealizing ontologies
[706] Semantic Wikipedia (2006)
Max Volkel, Markus Krotzsch, Denny Vrandecic, Heiko Haller, Rudi Studer
WWW2006
U. Karlsruhe, Germany
Semanticな情報を埋め込めるようにWikipediaを設計する話。自動での認識ではない。概念論文。
[707] Wikipedia and the Semantic Web The Missing Links (2005)
Markus Krotzsch, Denny Vrandecic, Max Volkel
Proceedings of Wikimania 2005
U. Karlsruhe, Germany
[708] Automatic Evaluation of Ontologies (AEON)
[709] Bloug: Folksonomies? How about Metadata Ecologies?
[710] Folksonomies: Tidying up Tags?
[711] Experiments in academic social book marking with Unalog
[712] Integrating Communication and Information Through ContactMap (2002)
B. Nardi, S. Whittaker, E. Isaacs, M. Creech, J. Johnson, J. Hainsworth
Communications of the CACM, 2002
[713] Recommending Collaboration with Social Networks (2003)
David W. McDonald
Proc. ACM CHI'03
U. of Washington
なんか大量に参考文献はあるが、単なるケーススタディのような感じ。うーむ。
[714] On the Recommending of Citations for Research Papers (2002)
S. M. McNee, I. Albert, D. Cosley, P. Gopalkrishnan, S. K. Lam, A. M. Rashid, J. A. Konstan, and J. Riedl.
CSCW '02
Group Lens Research Project, U. of Minnesota, USA
[715] Small-World Link Structures across an Academic Web Space: A Library and Information Science Approach (2004)
L. Bjorneborn
PhD thesis. 2004
Royal School of Library and Information Science, Denmark
[716] Analysis of Recommendation Algorithms for E-Commerce (2000)
B. Sarwar, G. Karypis, J. Konstan, J. Riedl
ACM Conference on E-Commerce, 2000
U. Minnesota
[717] Modeling Interdependent Consumer Preferences (2003)
Sha Yang and Greg M. Allenby
Journal of Marketing Research, 2003
[718] SNACK: Incorporating Social Network Information in Automated Collaborative Filtering (2004)
C. P. Lam
EC'04
Stanford Univ.
ポスター。人の近さをあわせて推薦。
[719] Fab: Content-based, collaborative recommendation (1997)
Marko Balabanovic and Yoav Shoham
Communications of the ACM, 1997
Stanford Univ.
Contentと協調フィルタリングをあわせた推薦。Hama論文に重要。
[720] Internet Recommendation Systems (2000)
Ansari, Asim, Essegaier, Skander and Kohli, Rajeev
Journal of Marketing Research.37, 363-375, 2000
山本さんのパワポでよく引いていたもの。
[721] Learning by Collaborative and Individual-Based Recommendation Agents (2004)
D. Ariely, J. Lynch, Jr., M. Aparicio
Journal of Consumer Psychology, 2004
MIT, Duke Univ. and Saffron Inc.
協調フィルタリングと個々のエージェントによる推薦について、学習曲線をシミュレーションで比較。いろいろ実験していて良さそう。
[722] The Happy Searcher: Challenges in Web Information Retrieval (2004)
M. Sahami, V. Mittal, S. Baluja, H. Rowley
PRICAI04
Google
薄く広い紹介。検索エンジン(Web IR)、短いテキストの類似度、UseNetの検索、イメージ検索、クエリーの利用(スペルチェックやOpen Directoryへの利用)など。
[723] Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping. (2005)
Mikhail Bilenko, Sugato Basu, Mehran Sahami
ICDM 2005
[724] Folksonomyマイニングに基づくWebページ推薦システム
丹羽 智史、土肥 拓生、本位田 真一
情報処理学会誌
東大、NII
はてなから5800人分のデータを取って、タグ間の親和度を出しクラスタリング。ユーザとタグの親和度をもとに、タグクラスタとの親和度を出す。
ページとタグの親和度は、ページにおけるタグのtfidfで定義。ユーザとタグの親和度は、ブックマークしている全てのページについてのタグの親和度(tfidf)の合計。タグ同士の親和度は、タグがついてるページの親和度(tfidf)の掛け算の和。クラスタリングはよく分からんヒューリスティック。
ユーザにページを推薦する。再現率は5%くらい、適合率は最大でも14%だが、ブックマーク数が増えるとともに適合率がちゃんと上がってるのは読み取れる。10人のユーザによる評価実験もあり。関連研究も比較的しっかりしている。
[725] 対象モデリングの視点から見た知識表現 (2003)
溝口 理一郎、池田 満、来村 徳信
人工知能学会誌 VOl.18, No.2, (解説), 2003
すばらしい。すばらしい。
[726] 工学ドメインオントロジー (2004)
来村 徳信
人工知能学会誌 2004
阪大
オントロジーの必要性、構築上の問題点、オントロジー自体の説明、使われ方など。関連文献が詳しい。機能のis-a関係とpart-of関係(方式)。
[727] オントロジー理論に基づく情報教育目標の体系的記述
笠井 俊信、山口 晴久、永野 和男、溝口 理一郎
電子情報通信学会
岡山大、聖心女子大、阪大
情報教育目標に対する体系的記述をするためのオントロジーを構築する。オントロジ中の各概念の説明。is-a階層、part-of階層がある。これを利用した展望を述べた後、オントロジの有効性の評価を21人に対するアンケートで行っている。(自身がつきましたか、役立つと思いますかなどの当たり前の項目。アンケートの有効性は疑問。)
[728] Evaluating Ontological Decisions with OntoClean (2002)
Nicola Guarino and Christopher Welty
CACM, Vol 45, No. 2, 2002
本質的な属性、identity(どんなときに同一であるとみなすのか)とunify(どんなときにpartとwholeであると分かるのか)。subsume (is-a)が誤用されていること、part/wholeも誤用されがちであることなど。
[729] デバイスオントロジーに基づくシグナル伝達パスウェイの統一的記述枠組みの開発 (2005)
高井 貴子、溝口 理一郎
人工知能学会誌 VOl. 20, No. 6, 2005
東大、阪大
生物における分子間の化学反応の因果連鎖(パスウェイ)を表すために、
シグナル伝達の知識を対象としたオントロジー(CSNO)を開発した。
パスウェイデータベースの現状と問題点、表現モデルに関する考察、定義する概念、
デバイスオントロジーの導入と、デバイスオントロジによるシグナル伝達の表現、基盤的機能の定義、組織的機能の定義、Is-a階層、
オントロジに基づくシグナル伝達表現の統一(これが一応、応用)、
関連研究。
基本的には、空間の意味表現もこのような構成になるはずなので、参考になる。
[730] コンテキスト依存性に基づくロール概念組織化の枠組み (2005)
砂川 英一、古崎 晃司、来村 徳信、溝口 理一郎
人工知能学会誌, Vol. 20, No. 6, 2005
阪大
新人教員ロールは、新人ロールや教員ロールなどプリミティブなロール概念から構成される複合ロール概念である。これを扱うために、ロールを、コンテキスト、ホルダー、ロールパートという3つのスロットを持つ概念として定義する。ロール概念の組織化の方法、指針などを議論した後、4章では組織化例を示している。さらにロール概念のインスタンスについて議論し、ロール概念組織化の意義を述べている。詳細な関連研究がある。
[731] An exponential family of probability distributions for directed graphs (1981)
HOLLAND, P., and LEINHARDT, S.
Journal of the American Statistical Association, 76, 33 -- 50, 1981
P1モデル
[732] Learning to construct knowledge bases from the world wide web (2000)
M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, and S. Slattery.
Artificial Intelligence, 118(1{2):69{114, 2000.
CMU, Just Research
Web→KBシステム。CMUドメインで、instructors_ofやmembers_of_projectなどの関係を見つけ出す。問題設定としては、オントロジと訓練例が与えられたきに、新たなインスタンスをWebから見つけ出す。かなりいろいろやっている。ページ内の語とリンクを使っている。
[733] Statistical Relational Learning
?
WISC
コースのシラバス。関係を表すモデルとしては、
plateモデル
PRMモデル(Probabilistic relational models: GetoorやKoller, Pfefferなど)
PERモデル(Probabilistic entity-relationship)
などがある。
[734] Link prediction in relational data (2003)
B. Taskar, M.-F.Wong, P. Abbeel, and D. Koller.
Neural Information Processing Systems Conference, 2003
[735] Link mining: a survey
Lise Getoor, and Christopher P. Diel
SIGKDD
U. of Maryland and Johns Hopkins Univ.
すばらしいサーベイ。Link-based object ranking, Link-based object classification, Group detection, Entity resolution, Link prediction, Subgraph discovery, Graph classification, Generative models for graphsについて解説。
[736] 重要人物集
Lee-Feng Chien (WWWにLiveClassifier、ACLにmultilingual translation lexiconsなど。)
Lapata (bigramの頻度をWebで測る)
Culotta, Bekkerman, McCallum(マサチューセッツ大)
Turney(カナダ)
[737] Automatic Thesaurus Generation through Multiple Filtering (2000)
Kyo Kageura, Keita Tsuji, and Akiko Aizawa
Coling 2000
NII
パラレルコーパスの共起(日・英)でグラフを作る。英単語、日本語の単語、英単語という順でつながるグラフ(つまり2mode)。その後、minimum edge cutで、クラスタリングする。
[738] Utilizing the World WideWeb as an encyclopedia: Extracting term descriptions from semi-structured texts. (2000)
A. Fujii and T. Ishikawa.
ACL 2000
[739] Retrieving Japanese specialized terms and corpora from the World Wide Web (2004)
Marco Baroni and Motoko Ueyama
KONVENS 2004
Univ. of Bologna
Seed termから始めて、その組み合わせを検索エンジンにかけて、得られた文書から語を得る。これを繰り返すからbootstrap
[740] Automatic Acquisition of Concept Relations from Web Documents with Sense Clustering (2004)
Kenji Miura, Yoshimasa Tsuruoka, and Jun'ichiro Tsujii
IJCNLP04
Hearstのパターンを使って、Webからhypernym, hyponymを取り出す。英語。Self annotated...と同じかな。
[741] A corpus-based approach for building semantic lexicons (1997)
Ellen Riloff and Jessica Shepherd. 1997.
EMNLP-97, 1997
Univ. of Utah
名詞に注目したlexiconの構築。カテゴリごとのseed wordsとテキスト(カテゴリ情報あり)を与える。すると、カテゴリごとに、ランク付けされた語のリストが得られる。これを人が見ることで、カテゴリに日も付けられたlexiconを作ることができる。human judgeによる評価。
[742] Word sense disambiguation using statistical models of Roget's categories trained on large corpora. (1992)
Yarowsky, D.
In Proceedings of the Fourteenth International Conference on Computational Linguistics (COLING-92), 1992
Word sense disambiguationでは重要な論文のようだ。
[743] Noun-phrase co-occurence statistics for semiautomatic semantic lexicon construction. (1998)
Brian Roark and Eugene Charniak.
COLING-ACL, 1998.
名詞に注目したlexicon。
[744] Frequency estimates for statistical word similarity measures (2003)
Egidio L. Terra and Charles L.A. Clarke.
HLT/NAACL 2003, 2003.
すごい論文。TurneyのPMIを拡張させて、MI, Likelihood ratio、χ2乗、L1, contexutualのcosine, MI, L1, Jensen-Shannonなどひととおりやっている。contextは、PMIがもっとも大きい語を取っており、Turneyもこの語を増やすとよくないと言っているが同様の結果が得られている。
[745] Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora (2004)
Pu-Jen Cheng, Yi-Cheng Pan, et al.
ACL2004
Institute of Information Science, Taiwan
検索エンジンのsnippetを使って多言語の翻訳レキシコンを作ること。方言など地域的な要素も考慮できる。Chi-squareやcontext-vectorを使っており、書き方が参考になる。
[746] Using the Web to Overcome Data Sparseness (2003)
Frank Keller and Maria Lapata, Olga Ourioupina
Proc. EMNLP 2002, (Computer Linguistics, Vol. 29, Issue 3, 2003)
U. of Edinburgh (UK), Saarland Univ. (Germany)
コーパスで見たことのないunseen bigramの頻度をWebで得る。コーパスの頻度とWebの頻度の相関が高いことを示す。
[747] Creating and using Web corpora (2005)
Thelwall, M.
International Journal of Corpus Linguistics 10(4), 517-541, 2005
U. of Wolverhampton
Web as Corpusの話を整理した感じ。コーパスとしてのWeb, Search engineの欠点、従来のコーパス(BNC)との頻出語の比較。
[748] Word clustering and disambiguation based on co-occurrence data (1998)
Li, H. and Abe, N.
In Proceedings of the 17th international conference on Computational linguistics (Coling-ACL), 1998
NEC
MDLを使ったクラスタリングで、パラメータの推定を動詞と名詞の共起で行っている。
[749] Measuring Semantic Similarity by Latent Relational Analysis (2005)
Peter D. Turney
IJCAI-05, 2005
National Research Council Canada, Canada
面白い。
1. AとBのペアに対し、thsaurusでalternatesであるA'やB'を見つける。
2. A:B(alternate含む)に対し、検索エンジンにクエリーを出す。Aで始まりBで終わるフレーズを見つける。最も頻出するのを見つけ、残りを捨てる。
3. 各ペアに対して、そのペアを含むフレーズのリストをコーパスから作る。検索エンジンにかける。
4. パターンを見つける。各フレーズごとに各部分をワイルドカードで置き換えたパターンを作る。
5-7. wordのペアから行への変換を作る。パターンから列への変換を作る。行列を作る。
8-10. エントロピーを計算する。特異値分解を行う。射影を行う。
12. 関係の類似度を計算する。A:BとC:Dの類似度。
cause(flu:virus), location(home:town), part(printer:tray), topic(weather:report), 他にも(student:protest), (oak:tree)などを出す。
keyword: 辻下くん
[750] Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews. (2002)
Peter D. Turney.
In Proceedings of ACL-02, 2002
PMI-IRを使って、語がexcellentやpoorと共起が高いかを調べ、reviewが肯定的か否定的かを判定する。
[751] Word Sense Disambiguation by Web Mining for Word Co-Occurrence Probabilities (2004)
Turney, P
Prc. 3rd International Workshop on the Evaluation of Systems for the Semantics of Text (SENSEVAL-3) 2004
(PMI, TOFELの人)
[752] Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. (2001)
P. D. Turney.
In Proceedings of the Twelfth European Conference on Machine Learning, 2001.
PMIはPointwise Mutual Information。つまり、検索エンジンを使って共起を相互情報量で計る。これでTOEFLのsynonymのタスクで73.75%の正答率になった。(non-English speakingの人は平均で64.5%)問題problemと選択肢choiceがあったとき
・一番シンプルなスコア score1(choice_i) = hits(problem AND choice_i) / hits(choice_i)
・複雑なスコア(4番目)
score4(choice_i) =hits((problem NEAR choice_i) AND context AND NOT ((problem OR choice_i) NEAR "not"))
----------------
hits(choice_i AND context AND NOT (choice_i NEAR "not"))
ダヌシカくんが紹介してた気がする。
[753] A Search Engine for Natural Language Applications (2005)
M. Cafarella, and O. Etzioni
WWW2005, 2005
(ワシントン大学)
現在のNLPはWeb文書を扱ったり、Webをコーパスとして統計を取るときに、検索エンジンを使っている。ところが、検索エンジンは人間のクエリーを得るために最適化されているため、この目的に適していない場合もあるため、何百万回もクエリーを出す必要があったりする。この論文では、Binding Engine(BE)を提案する。タイプ変数とstring処理関数を持ったもので、例えば、"powerful "とやると、powerfulに続く名詞を頻度順に並べてくれる。また、"Cities such as ProperNoun(Head())"とやると、cityの名前が返ってくる。BEのneighborhood indexは、kをクエリー中の語とするとO(k)のランダムディスクシークと、O(k)のシリアルディスクシークで処理される。
[754] Lexical Affinities and Language Applications (2004)
Egidio Terra
COLING 2004
University of Waterloo, Canada
カナダの学生の博士論文。長い記述だが、co-occurrenceについていろいろな文献が引かれている。
[755] Ensemble Methods for Automatic Thesaurus Extraction (2002)
Curran, J.
In Proceedings of the 2002 Conference on Empirical Methods in NLP, 2002
3億語までのシソーラスの構築ができる。
[756] Improvements in Automatic Thesaurus Extraction (2002)
James R. Curran and Marc Moens  
In Proc. the Workshop of the ACL SIGLEX, 2002
University of Edinburgh (Lapataらと近いグループ)
1章は分かりやすいoverview。コンテキストの類似性、Hearstのパターン。
この論文では、BNCコーパスを用い、コンテキストを表すのに(w, r, w')というtupleを用いる。例えば、(dog, direct-obj, walk)など。
その上で、コンテキストを「文内で共起する語と文法関係のセットのベクトル」で表現する。例えば、ideaは、{(adj, good) 2005, (adj, faintest) 89, (dir-obj, have) 1836, ...}と表現される。
その際、属性の重みを決めるのがweighting function, similarityを計算するのがmeasuring functionである。9種類のmeasuring function, χ2乗も含めて9種類のweght functionの比較をしている。JaccardとT-testがよい。
[757] Scaling Web-based Acquisition of Entailment Relations (2004)
Szpektor, I., Tanev, H., Dagan, I., and Coppola, B
In Proceedings of EMNLP 2004
Italy (U. of Trentoなど) and Israel
重要な論文のひとつ。paraphrase recognition。"Yahoo acquired Overture"と"Yahoo bought Overture"が同じリンク先であることから、"X buy Y"と"X acquire Y"が同じであると見つける。
[758] A Graph Model for Unsupervised Lexical Acquisition (2002)
Widdows, D. and Dorow, B. (2002).
COLING 2002
BNCのコーパスを使う。99454ノード、58万リンク。Noun-Verb, Verb-Noun, Adjective-Noun, Noun-Noun, Noun and/or Noun。この論文が基本になりそう。automatic lexical acquisionと言っている。
[759] Introduction to the Special Issue on the Web as Corpus (2003)
Adam Kilgarriff
Computer Linguistics, Vol. 29, Issue 3, 2003
前半はWebの言語の基本的な統計について書かれており、British National Corpusより語の頻度が格段に多く、統計が安定することが書かれている。
Webが何を代表してるかについては、それ自身しか代表していないが、そもそもコーパスは何を代表しているのか、話し言葉と書き言葉はどっちが重要か、読むことはイベントか、ラジオに流れてくる声を聞く(聞いていない)のはイベントか、など本質的な疑問を逆に提示している。
[760] Distributional clustering of English words. (1993)
F. Pereira, N. Tishby, and L. Lee.
In 31st Annual Meeting of the ACL, 1993
Distributional clusteringの文献
[761] Distributional Clustering of Words for Text Classification (1998)
Baker, D. and McCallum, A.
In Proceedings of SIGIR-98, 1998
CMU, and Justsystem Pittsburgh Research Center
文書分類のために、語のクラスタリングをする。teamとteammateなどは同じグループにしても文書分類上問題ない。よい論文。Newsgroupデータ、Reutersデータ、Yahoo!Scienceのデータを使って評価を行っている。
[762] The Web as a Baseline: Evaluating the Performance of Unsupervised Web-based Models for a Range of NLP Tasks (2004)
Mirella Lapata, Frank Keller
HLT-NAACL 2004: 121-128, 2004
Web countを使って、いろいろなタスクに適用している。その結果、2つのタスクでよい結果がでた。翻訳先の言語選択、スペルチェック、形容詞並び替え、複合語ブラケッティング、複合語解釈、可算名詞検出。Web-based modelは、代替物ではなくベースラインだという結論。

[763] Word clusteringの説明
[764] Document Clustering Using Word Clusters via the Information Bottleneck Method. (2000)
Noam Slonim and Naftali Tishby.
In Proceedings of the 23d Annual International ACM Conference on Research and Development in Information Retrieval, (SIGIR), pages 208--215, Athens, Greece, 2428 July 2000.
[765] Automatic Thesaurus Construction Using Word Clustering, (2003)
Minoru Sasaki, Hiroyuki Shinnou:
Pacific Association for Computational Linguistics(PACLING03), pp.55-62 (2003)
[766] Mining the web to create minority language corpora (2001)
Ghani, R. Jones, and D. Mladenic.
CIKM 2001, 2001
スロベニア語、クロアチア語、チェコ語、Tタガログ語など、マイナーな言語のWeb文書を収集するために、クエリーを工夫する。初期文書から始めて、その対象言語のページに含まれてそうでない語に含まれない語を使う。その際、tf, prf, rtfidf, odds-ratio, probabilistic odds ratioなどを比べている。
(rtfidfというのは、関連した文書におけるtfとidfをかけたもので、カテゴリの特徴語に近い。)
[767] Automatic Word Clustering for Text Categorization Using Global Information (2004)
Chang Xinghi, Wang Huizhen, Zhu Jingbo, and Yao Tianshun
First Asia Information Retrieval Symposium (AIRS2004)
Webではなく、一般のコーパス。特によい論文ではなさそう。
[768] Knowledge discovery for automatic query expansion on the world wide web (1999)
M.Hatem, Haddad Mathias.G.
WWWCM'99
[769] Web as Huge Information Source for Noun Phrases Integration in the Information Retrieval Process
Mathias Gery, M. Hatem Haddad, and Dominique Vaufreydaz
France
たいしたことなさそう。
[770] Scaling to very very large corpora for natural language disambiguation (2001)
Banko, M., and Brill, E.
Proceedings of ACL-01. (2001)
Microsoft Research
オンラインのテキストは数兆語にもぼるのに、ほとんどの自然言語のタスクでは、100万語以下のものしかあつかっていない。この論文では、(confusion set) disambiguationのタスクに対して、いくつかの学習法での評価を示している。訓練データの量が増えれば、学習のパフォーマンスはかなりよくなることを示した。(そんなに関係ない。)
[771] Web-based models for natural language processing (2005)
Mirella Lapata, Frank Keller
TSLP 2(1): 1-31 (2005)
baseline論文のジャーナル版。図や結果が詳しい。
[772] Mining the Web for relations (2000)
Neel Sundaresan, and Jeonghee Yi
Proc. 9th WWW conf., 2000
IBM Almaden, UCLA
関係とパターンのdualityについて書かれている。例えば、(著者、タイトル)のペアをあたえ、これを検索することでパターンを学習し、新たな(著者、タイトル)ペアを見つける。これを繰り返す。ネットワークの視点はないが、参考になる。
[773] Thesauruses for Natural Language Processing. (2003)
Kilgarriff, Adam.
Proceedings of NLP-KE 03
[774] Clustering Co-occurrence Graph based on Transitivity
Kumiko Ishii-Tanaka, Hideya Iwasaki
Proc. 5th Workshop on Very Large Corpora (WVLC'97),
[775] Building general- and special-purpose corpora by Web crawling
M. Baroni and M. Ueyama.
Proc. NIJL International Workshop on Language Corpora
Univ. of Bologna
Webを使った言語処理のよい点、悪い点、どのような処理が可能か(ヒット件数、ヒットした文書を使う、自分で検索エンジンを作る)が述べられている。後半は、イタリア語と日本語のコーパスを作る説明。
[776] Reliable measures for aligning Japanese-English news articles and sentences (2003)
Utiyama, M., and Isahara, H.
Proceedings of ACL 2003
読売新聞の日本語と英語の記事を対応付けるために、AVSIMという尺度を提案している。Webは関係ない。
[777] Distributional Thesaurus vs. WordNet: A Comparison of Backoff Techniques for Unsupervised PP Attachment. (2005)
Hiram Calvo, Alexander Gelbukh, and Adam Kilgarriff
Proc. CICLING, 2005
Prepositional Phraseを取り出す。"see with telescope"など。大規模なコーパスが必要になる。自動で作ったコーパスは、WordNetよりカバーが広いが精度が低い。WordNetからbackoffで確率を求める。
[778] Using cooccurrence statistics and the web to discover synonyms in a technical language (2004)
M. Baroni and S. Bisi. 2004.
Proceedings of LREC 2004
TurneyのPMIをもとに、AVMIを提案。
[779] Domain Specific Word Extraction from Hierarchical Web Documents: A First Step Toward Building Lexicon Trees from Web Corpora (2005)
Chang, J.
In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, 2005
National Chi-Nan University
ディレクトリ構造をもつWeb文書から語を切り出す。それに特徴的な語(DSW)を出すだけ。IDF(Inter-Domain Entropy)という尺度を提案している。
論旨の立て方は似ているが、内容はしょぼい。Domain specific Word (DSW)という説明のしかたをしている。
[780] Word Association Norms, Mutual Information, and Lexicography (1990)
Church, K. and P. Hanks,
Computational Linguistics, vol. 16, pp. 22-29, Mar. 1990.
1990年の論文。citationは40。相互情報量でword associationが測れるという基本的なことが提案されている。OCRやSpeech recognition、語の曖昧性解消、検索などに応用できるとされている。
[781] Experiments in automatic statistical thesaurus construction (1992)
Crouch, C. J. and Yang, B.
SIGIR '92, 1992
[782] An Association Thesaurus for Information Retrieval (1994)
U. of Massachusetts
Proc. RIAO94, 1994
地味な国際会議だが、51citation
[783] Explorations in Automatic Thesaurus Discovery. Kluwer Academic (1994)
Grefenstette, G.
Publishers, 1994
本。古いけど56サイテーション。
[784] Mining Associative Meanings from the Web: from word disambiguation to the global brain (2001)
Heylighen, F.
In Proceedings of the International Colloquium: Trends in Special Language Language Technology, 2001
検索エンジンを使って共起を測ること、活性伝播を行うことも含めて応用と可能性について書かれている
[785] Hierarchical word clustering -- automatic thesaurus generation (2002)
Hodge, V. and Austin, J.
Neurocomputing, 2002
テキストはWebにない。あまり重要ではなさそう。
[786] Roget's Thesaurus and Semantic Similarity (2003)
Jarmasz, M. and Szpakowicz, S.
In Proceedings of Conference Recnet Advances in NLP (RANLP), 2003
Univ. of Ottawa
1987年のRogetのシソーラスと、Wordnetをもとにしたいくつかの方法による類似度を比べている。
[787] Automatic retrieval and clustering of similar words (1998)
Lin, D.
In Proc. 17th international conference on Computational linguistics, (COLING-ACL98), 1998
(w, r, w')で語wの周りの語を表現する。情報量で類似度を定義。6400万語のWall Street Journal, San Jose Mercury, AP Newswireを使う。Rogetのシソーラス、WordNetと比較している。
[788] Exploiting the WWW as a corpus to resolve PP attachment ambiguities (2001)
Volk, Martin.
Proceeding of Corpus Linguistics 2001,
[789] Identifying Synonyms among Distributionally Similar Words. (2003)
Dekang Lin, Shaojun Zhao, Lijuan Qin and Ming Zhou.
In Proceedings of IJCAI-03, (poster) 2003.
[790] Concept Discovery from Text. (2002)
Dekang Lin and Patrick Pantel
In Proceedings of Conference on Computational Linguistics 2002
[791] Digraph Analysis of Dictionary Preposition definition (2002)
Litkowski, C.
In Proceedings of the SIGLEX/SENSEVAL Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, (2002)
[792] Topology of the conceptual network of language (2002)
Motter, A., Moura, A., Lai, Y., and Dasgupta, P.
Physical Review E, 65, 2002
Arizona State Univ.
同じ概念を表していれば、2つの語をつなげる。こうして得られたネットワークはsmall worldである。英語のシソーラスを使っている。(Gutenberg?)
[793] Deriving concept hierarchies from text (1999)
Sanderson, M. and Croft, B.
Proc. In SIGIR '99: 1999
U. of Sheffield, and U. of Massachusetts
出現確率(包摂関係)で概念(語)の簡単な階層関係を作る。ちょっとしたシステムになっている。
[794] Global organization of the Wordnet lexicon (2002)
Sigman, M. and Cecchi, G.
PNAS, 2002
[795] What's in a thesaurus? (2000)
Adam Kilgarriff and Colin Yallop
Proc. 2nd LREC, 2000
Thesaurusについて。ためになる。
[796] Thesauruses for natural language processing
Adam Kilgarriff
[797] Computation of word associations based on the co-occurrences of words in large corpora (1993)
Wettler, M.; Rapp, R.
In Proceedings of the 1st Workshop on Very Large Corpora: Academic and Industrial Perspectives, Columbus, Ohio, 84-93. 1993
2語が共起すると、ちょっとだけ関連度を強めるへんなモデル。Brown corpusやWall Street Journalなど3300万語のコーパスを使った結果をRussel&Jenkinsの実験結果(1970)と比較している。1008人の学生に100この語を与えて連想語を聞いた実験である。
Citationは3。
[798] A Domain Adaptive Approach to Automatic Acquisition of Domain Relevant Terms and their Relations with Bootstrapping (2002)
Xu, F., Kurz, D., Piskorski, J., and Schmeier, S.
In Proceedings of the 3rd International Conference on Language Resources an Evaluation (LREC'02)
KFIDFという指標をつかっている。カテゴリを1つの文書と見たTFIDF
[799] Thesaurus Construction based on Grammatical Relations. (1995)
Takenobu Tokunaga, Makoto Iwayama, Hozumi Tanaka
IJCAI 95
[800] ‘BootCaT: Bootstrapping corpora and terms from the web’ (2004)
Baroni, M., and Bernardini, S.
Proc. Fourth Language Resources and Evaluation Conference, 2004
[801] 2nd Web as Corpus Workshop
Adam Kilgarriff and Marco Baroni
Univ. of Sussex (もとU. of Brighton), Univ. of Bologna(イタリア)
[802] Web as Corpus workshop
ワークショップのGOALは、松尾ぐみと非常に似ています。
Googleのヒット数、snippet, downloadを使うことが書かれていて、大変面白い。
[803] Discovering Relations among Named Entities form Large Corpora (2004)
Takaaki Hasegawa, Satoshi Sekine, Ralph Grishman
ACL2004
[804] Classifying Semantic Relations in Bioscience Texts (2004)
Barbara Rosario, Marti Hearst
ACL2004
[805] Building Verb Predicates: A Computational View (2004)
Fernando Gomez
ACL2004
[806] Discovering Relations between Named Entities from a Large Raw Corpus Using Tree Similarity-based Clustering (2005)
Min ZHANG, Jian Su, Danmei WANG, Guodong ZHOU, Chew Lim TAN
IJCNLP 2005
Institute for Infocomm Research, U. of Singapore
[807] Mining metalinguistic activity in corpora to create lexical resources using Information Extraction techniques: the MOP system (2004)
Carlos Rodriguez Penagos
ACL2004
[808] An empricial study of Information Synthesis task (2004)
Enrique Amigo, Julio Gonzalo, Victor Peinado, Anselmo Penas, Felisa Verdejo
ACL2004
[809] Automatic Knowledge Retrieval from the Web (2005)
Yali GE, Rafal RZEPKA, and Kenji ARAKI
Proc. International IIS:IIPWM05, 2005
北大
[810] Detecting the Countability of English Compound Nouns Using Web-based Models (2005)
Jing Peng, and Kenji Araki
IJCNLP 2005
北大
[811] Improving Name Tagging by Reference Resolution and Relation Detection (2005)
Heng Ji, and Ralph Grishman
ACL 2005
name tagger -> reference resolver -> relation taggerという流れで、relation taggerの情報をつかって、もう一度name taggingをやり直すとパフォーマンスがあがる。relationで、語をクラスタリングする。
[812] Extracting Relations with Integrated Information Using Kernel Methods (2005)
Shubin Zhao, and Ralph Grishman
ACL 2005
Ner York University
NSFがスポンサーをしているACE(Automatic Content Extraction) Relation Detection Task。表層的および統語的な特徴つかったカーネルを使って、それを合わせる。
[813] Combining Various Knowledge in Relation Extraction (2005)
GuoDong Zhou
ACL 2005
[814] Inducing Ontological Co-occurrence Vectors (2005)
Patrick Pantel
ACL 2005
U. of Southern California
共起を使ってWordNetのようなオントロジを作る。web-miningについて言及されているが、直接扱っているわけではない。
[815] Accurate Unsupervised Learning of Field Structure Models for Information Extraction (2005)
Trond Grenager, Dan Klein, Christopher D. Manning
ACL2005
[816] Semantic Role Labeling Using Different Syntactic Views (2005)
Sameer Pradhan, Wayne Ward, Kadri Hacioglu, James H. Martin, Dan Jurafsky
ACL 2005
[817] Joint Learning Improves Semantic Role Labeling (2005)
Kristina Toutanova, Aria Haghighi, Chris Manning
ACL 2005
[818] Ontology Learning and Reasoning -- Dealing with Uncertainty and Inconsistency
Peter Haase, Johanna Volker
Univ. of Karlsruhe, Germany
[819] Learning Taxonomic Relations from Heterogeneous Evidence (2004)
Philipp Cimiano, Aleksander Pivk, Lars Schmidt-Thieme, Steffen Staab
2004
(Karlsruhe大学)
Toward the Self-annotating Webの次回作。Webの情報(Hearstパターン)、corpusの情報(Hearstパターン)、WordNetなどの情報を組み合わせて、is-a関係を得る。
[820] Building a Web Thesaurus from Web Link Structure (2003)
Zheng Chen, Shengping Liu, Liu Wenyin, Geguang Pu, Wei-Ying Ma
SIGIR'03
Microsoft Research Asia, Peking Univ.
Zhen chenは、SIGIR, ICDM, WWWなどに出しまくってる。
[821] Text Garden
?
J. Stefan Institute, Slovenia
わりと大きなプロジェクトみたい。Project Intelligenceも同じ人かな。
[822] Sensing and Modeling Human Networks using the Sociometer (2003)
Tanzeem Choudhury and Alex Pentland
ISWC (Wearable Computer), 2003
MIT
Sociometer (人のインタラクションを測るwearable sensor package)音声、HMMを使って、ソーシャルネットワークの図を描いている。
[823] Using egocentric networks to understand communication (2005)
D. Fisher
Internet Computing, IEEE, Vol. 9, No. 5. (2005)
emailやUsenet newsgroupsを使って、小規模なego-centric networkで、社会的インタラクションのパターンを調べている。
[824] Social Network Computing (2003)
Nathan Eagle and Alex (Sandy) Pentland
UbiComp 2003
MIT
研究の背景(1章、2章)がとても参考になる。メインの話は、audioでキーワードを切り出すことによるコンテキストの同定。
[825] Dynamic Personal Social Networks: a new perspective for CSCW research and design (2003)
G. Henri ter Hofte, Ingrid Mulder
ACM SIGGROUP Bulletin, 2003
Telematica Instituut, Netherlands
Position paper。関連研究はよくかけているが、提案どまり。
2章のRESEARCH: MEASURING AND ANALYSING DYNAMIC PERSONAL SOCIAL NETWORKSは参考になる。Logging physical proximity, logging physical location, and logging communicationという3つの方法に分けている。
この論文は最終的にきちんとしたpaperになってない。
[826] IntelliBadge: Towards Providing Location-Aware Value-Added Services at Academic Conferences (2003)
Donna Cox, Volodymyr Kindratenko, and David Pointer
UbiComp 2003: Ubiquitous Computing, 5th International Conference, 2003
Univ. of Illinois at Urbana-Champaign
IEEE SC2002での支援について。サーベイは少ないが、商用の関連製品について詳しい。7000人の会議(テクニカルプログラムの登録者2000人)で800人以上にバッジをくばって、トラッキングする。Kioskでユーザ登録制。どれだけ歩いたかなども分かる。3日間で毎日賞を出したらしい。この辺の運用の部分は面白い。Lesson learnedの8章も喜んで歩き回る人、文句を言う人の話があって、面白い。
[827] Meme tags and community mirrors: Moving from conferences to collaboration. (1998)
Borovoy, R., Martin, F., Vemuri, S., Resnick, M., Silverman, B., and Hancock, C.
Conference on Computer Supported Cooperative Work. 1998
有名な研究らしい。
[828] Social net: Using patterns of physical proximity over time to infer shared interests. (2002)
Terry, M., Mynatt, E.D., Ryall, K., and Leigh, D.:
In Extended Abstracts of the ACM Conference on Human Factors in Computing Systems (2002)
George Tech
2ページだけ。この後、やめたようだ。
[829] Augmenting the Social Space of an Academic Conference
Joseph F McCarthy, David W McDonald, Suzanne Soroczak, David H Nguyen, Al M Rashid
Intel Research, Univ. of Washington, Univ. of Minnesota
CSCW2004
proactive displayをつかった学会支援。one-to-oneよりはone-to-many, many-to-many。関連研究は、one-to-one型と、大型ディスプレイをつかったもので分けている。AutoSpeakerIDとTicket2Talkというシステム。
[830] Ontologies are us: A unified model of social networks and semantics (2005)
Peter Mika
ISWC 2005, 2005
Free Univ., Amsterdam
ISWCベストペーパー。アクター、クラス、リソースのTripartiteモデル。
[831] Trust network-based filtering of aggregated claims (2006)
Jennifer Golbeck and Bijan Parsia
International Journal of Metadata, Semantics and Ontologies, 2006
U. of Maryland
trustを計算するだけでなく、それによって言明を重み付けて取捨選択するところまで試している。
[832] How the Semantic Web is Being Used:An Analysis of FOAF Documents (2005)
Li Ding, Lina Zhou, Tim Finin, and Anupam Joshi
Proc. 38th International Conf. on System Sciences, 2005
U. of Maryland
FOAF文書を集めてくる方法(同定の仕方)、どのプロパティがよく使われているか、次数分析、ネットワーク図など。
[833] Social Net: Using Patterns of Physical Proximity Over Time to Infer Shared Interests (2002)
M. Terry et al.
CHI 2002
[834] A survey of socially interactive robots (2003)
Terrence Fong, Illah Nourbakhsh, and Kerstin Dautenhahn
Robotics and Autonomous Systems, 2003
CMU, EPFL, U. of Hertfordshire
1.2にはsocial robot, sociable robot, socially intelligentなどいろんな定義が書かれている。これらをまとめる形でsocially interactive robotという語を使っている。(1.3)
Social networkについては言及なし。
[835] Socially Aware Computation and Communication (2005)
Alex (Sandy) Pentland
IEEE Computer, 2005
MIT
主に音声を使って、activity level, engagement, stressなどを測る。
Laibowitz and Paradiso Uberbadge: バッジのようなもので、IR、音声、動きで面白い人やデモをブックマークできる。
GroupMedia system: Zaurus PDAを使う。デートや他のイベントで、どのくらい引き込まれているかのシグナルを測定する。他の会話で面白いのをちょっとだけ聞いたりすることができる。
Serendipity system: Nokiaの携帯を使って、近くにいるほかの人との興味が近いか計算して、適切な紹介を行う。FriendsterやOrkutの言及もある。
5ページのBuilding social captalのあたりにsocial networkに関する記述。
[836] Mapping Human Networks (2006)
Jonathan Gips, Alex (Sandy) Pentland
Int'l Conf. Pervasive Computing and Communications, 2006
Human Dynamics Group, The Media Lab, MIT
学会でバッジを使ってコミュニケーションのサポート。UbER-Badgeというシステム。2004年にMIT Media Labでのsponsor meetingで使った。130人がバッジをつけて約8時間。また2005年には84人が使った。Infraredのbeacon(Squirts)を76プロジェクトのデモンストレーションにつけた。明示的にボタンを押すことで、人や発表をブックマークできる。これで、affiliationの推定を行っている。
[837] Bootstrapping the FOAF-Web: An Experiment in Social Network Mining (2004)
Peter Mika
1st Workshop on Friend of a Friend, Social Networking and the Semantic Web, 2004
Free University, Amsterdam
Semantic Webの有効性を言うには、多くの人が記述する必要があり、鶏と卵である。。SNSやFOAFが広まる中で、一方を簡単にするためにWeb miningを用いる。mindshare(人の名前とコンセプトの共起)もあり。
2章は簡単なアーキテクチャ、3章がネットワーク分析(中心性、クラスタ分析)。
[838] Controversial Users demand Local Trust Metrics: an Experimental Study on Epinions.com Community (2005)
Paolo Massa and Paolo Avesani
AAAI-05, 2005
ITC-iRST
周りからtrustと評価されると同時にdistrustと評価されることがある。これをcontroversial userというが、むしろ、こういったことは普通である。こういったことを考えるには、Global trustとLocal trustを分けて考えないといけない。
ここでは、Local trustとしてMoleTrustというのを考える。その人からのエッジに沿ってTrust値を掛け合わせて行くもの(最初にサイクルができないようにする)。Global trustとして、周りからの良い評価の割合(ebayとよぶ)を使っている(他にもいろいろやったらしいが良くなかったようだ)。Epinions.comは、製品のレビューを書けてそのratingをつけられる。13万ユーザ、84万statement(71万がtrust, 12万がdistrust)のデータを使っている。その結果、distrustを予測するのにMoleTrustを使うほうがebayを使うより良いことを示した。(でも評価はやや苦しそう)
[839] Constraint-Based Entity Matching (2005)
Warren Shen, Xin Li, and AnHai Doan
AAAI-05, 2005
[840] AI Meets Web 2.0: Building The Web of Tomorrow Today (2005)
Jay Martin Tenenbaum
AAAI-05, 2005
CommerceNet
Travel, Meeting, Supply chainなどの具体例を挙げて、Web2.0の技術がAIと融合することでこういった問題に適用できることを述べている。
4章ではWeb2.0ツアーとして、More participatory(Blog, Syndication Feeds, Wiki), Semantics (Tagging & Folksonomies, Microformats, Vertical Search), Real time Web, Community Enpowermentを挙げている。Case studyとしてzBay(blogとmicroformatを利用した個人取引)、supply chain, insurance, E-science, E-life(知り合い情報やスケジュールを利用してのディナーの手配の例)など。
AIとWeb2.0の結びつきを強調しようとしており、Newellの知性の基準を引き合いに出して議論しているが、ちょっと無理がある。しかしAIの少しの技術がWeb2.0に貢献するというのはその通りだろう。全体に面白いが、どのくらい真面目に引用してよいのかは微妙。
[841] Clustering and Classifying Person Names by Origin (2005)
Fei Huang, Stephan Vogel, and Alex Waibel
AAAI-05, 2005
本文はなし。人の地理的な出身は重要である。名前と地名の複数の言語による候補を与えられれば、91%の確率で当てることができる。
[842] Searching for Common Sense: Populating Cyc. from the Web (2005)
C. Matuszek et. al
AAAI-05, 2005
Cyc corp.
CycのKBを、Googleを使って増強する。GAFs(Ground Atomic Formulae)を見つける。CycLは、Cycの形式表現言語。まず
・(foundingAgent AlQaida ?WHO) (foudingAgent ?WHAT Terrorist-Salamat)などのようなqueryを作る。(3.1)
・Googleにおくる検索クエリーを作る。(foundingAgent PalestinelslamicJihad ?X)なら、"Palestine Islamic Jihad founder ___"など。これをGoogle APIで検索する。(3.2)
・"___"の部分を探して、CycLのコンセプトで型の制約に合うものを探す。たとえば、foundingAgentであればpersonでなければならないなど。これで候補を作る(3.3)
・Cyc KBの一貫性チェック:既存のCyc KBとあわせて、矛盾や冗長性がないかチェック(3.4)
・"PIJ founder Bashir Nafi"+"Palestine"のようなクエリをGoogleに出して確かめる。1件もヒットがなければ排除。後ろにつける語は、略語のdisambiguationのためで、Google hit countsが最も少ない語をくっつける。(3.5)
・最後に人間が確かめる。(3.6)
false positiveは25%, false negativeは7%。
[843] A Live-User Evaluation of Collaborative Web Search (2005)
Barry Smyth, Evelyn Balfe, Oisin Boydell, Keith Bradley, Peter Briggs, Maurice Coyle, and Jill Freyne
IJCAI-05, 2005
University College Dublin, Ireland
検索に他の人のクエリーも利用するcommunity-based Web search。検索結果に、他の関連するクエリーやそのクエリーに対する結果を考慮したページなどが表示される。ちょっと前のUser Modeling的でWeb2.0的ではない。
[844] Beyond TFIDF Weighting for Text Categorization in the Vector Space Model (2005)
Pascal Soucy and Guy W. Mineau
IJCAI-05, 2005
Univ. of Laval, Canada
情報検索の重み付けではTFIDFがよいが、文書分類に使う重み付けでもそれがいいわけではない。ConfWeightという重み付けを提案している。でもNLPの論文ほどちゃんとした感じがしない。
ConfWeight_{t,d} = log (tf_{t,d} +1 ) maxstr(t)
maxstr(t) = (max_{c ∈Categories} (str_{t,c}) ) ^2
str_{t,c} = log_2 (2 MinPosRelFreq)
MinPosRelFreq = MinPos / (MinPos+MaxNeg)
MinPosやMaxNegは、統計的信頼区間に基づいている。x_tが語tを含む数、nが全部の数とすると、
p = ( x_t + 0.5 z^2_α/2 ) / ( n + z^2_α/2 )
pはWilson比例推定という。z^2はt-distributionによる値。これの下限、上限をつかってMinPosやMaxNegを定義する。評価の結果、tfidfやGainRatioより多少よい結果。
[845] 教師なし学習による関係抽出に基づくパラフレーズの獲得 (2005)
長谷川 隆明, 関根 聡, Ralph Grishman
言語処理学会第11回年次大会発表, 2005
NTT, New York University
[846] Extraction of Hierarchies Based on Inclusion of Co-occurring Words with Frequency Information (2005)
Eiko Yamamoto, Kyoko Kanzaki, and Hitoshi Isahara
IJCAI-05, 2005
[847] The Necessity of Syntactic Parsing for Semantic Role Labeling (2005)
Vasin Punyakanok, Dan Roth, and Wen-tau Yih
IJCAI-05, 2005
[848] Shallow Semantics for Relation Extraction (2005)
Sanda Harabagiu, Cosmin Adrian Bejan, and Paul Morarescu
IJCAI-05, 2005
U. of Texas, Dallas
述語とその項、もしくはフレームで文を表すshallow semantic informationは、semantic parserで得られる。Jurafskyが開拓したものであるが、そこから関係の情報を見つける。
keyword: ダットさん
[849] Feature Generation for Text Categorization Using World Knowledge (2005)
E. Gabrilovich and S. Markovitch
IJCAI-05, 2005
Technion, Israel
2ページにFeature generationに関するサーベイあり。
[850] Word Sense Disambiguation with Distribution Estimation (2005)
Yee Seng Chan and Hwee Tou Ng
IJCAI-05, 2005
National University of Singapore
[851] Maps for Verbs: The Relation Between Interaction Dynamics and Verb Use (2005)
Paul Cohen, Clayton Morrison, and Erin Cannon
IJCAI-05, 2005
USC Information Sciences Institute and Univ. of Massachusetts
[852] Topic and Role Discovery in Social Networks (2005)
A. McCallum, A. Corrada-Emmanuel, and Xuerui Wang
IJCAI-05, 2005
U. of Massachusetts Amherst
文書の生成モデルとして今まで、LDAモデル、Authorモデル、Author Topicモデルなどがあった。ここでは、Author-Recipient-Topicモデルを提案する。つまり、authorとrecipientとtopicを考慮した語の生成モデルである。EnronのコーパスとMcCallum dataset(McCallumに来た/が送ったメール集合)を用いた分析。さらに、教授や学生などといったRoleも考慮したRole-Author-Recipient-Topicモデルを提案とpreliminary experimentを行っている。
[853] Automatic Labeling of Semantic Roles (2002)
Daniel Gildea, Daniel Jurafsky
Computational Linguistic, 2002
UC Berkeley, Univ. of Colorado (JurafskyはBerkeley->Colorado->Stanford)
Semantic Role Labelingの包括的な解説。45ページ。
[854] Building the Semantic Web Tower from RDF Straw (2005)
Peter F. Patel-Schneider
IJCAI-05,
Bell labs research
なんか良くわからんけど、RDFにいちゃもんをつけてる。すごい口語なのが気になる。
[855] Social Networking on the Semantic Web (2005)
Tim Finin, Li Ding, and Lina Zou
The Learning Organization, December, 2005
U. of Maryland
FOAF, Social network onlineの導入、FOAFファイルを見つける、FOAFネットワークの分析。
[856] Semantic Analytics on Social Networks: Experiences in Addressing the Problem of Conflict of Interest Detection (2006)
B. Aleman-Meza, M. Nagarajan, C. Ramakrishnan, A. Sheth, I. Arpinar, L. Ding, P. Kolari, A. Joshi, and Tim Finin
WWW2006
U. of Georgia (Athens)と U. of Maryland
COI(Conflict of Interest)に焦点を当てている。研究のコミュニティでもPeer Review Processなどで重要だが、融合領域が増えてそれを把握するのが難しくなっている。FOAFとDBLPのデータを使って、これを自動的に把握する。EntityのDisambiguationのために、foafの各プロパティがどのくらい効いているかを調べる。COIを計算する方法を提案し、潜在的な応用例、実験(例)について示している。
[857] Swoogle: A Semantic Web Search and Metadata Engine (2005)
Li Ding, Tim Finin, A. Joshi, Y. Peng, R. Cost, J. Sachs, R. Pan, P. Reddivari, V. Doshi
AAAI05 (Intelligent systems demo), 2005
U. of Maryland
Semantic Web document (SWD)を検索するエンジン。適切なオントロジを見つける、インスタンスのデータを見つける、文書間の関連によりSemantic Webを特徴付ける。Ontology Rankでランキングする。
.rdf, .owl, .daml, .n3などのファイルをGoogleを使ってSWDを見つける。クエリーは多少工夫する。focused crawlerを使って、既存のSWDから新しいのも見つける。SWD間の関係は、TM/IN (term reference), IM (imports), EX (extends), PV (prior version)など。これに基づいてランキングを計算する。評価は特になさそう。
[858] Tim Finin
Tim Finin
ここにたくさんある。
[859] Analyzing Social Networks on the Semantic Web (2005)
Li Ding, Tim Finin, Anupam Joshi
IEEE Intelligent Systems, 2005
U. of Maryland
DS(DataSet)-SWOOGLEとDS-FOAFを使っている。FOAFのネットワークを使った簡単な次数分析とネットワークの表示。ConclusionにDBLPを使ったongoing workについて書かれている。
[860] The SOUPA Ontology for Pervasive Computing (2005)
Harry Chen, Tim Finin, and Anupam Joshi
InBook, Ontologies for Agents: Theory and Experiences, 2005
U. of Maryland
SOUPA(Stand