Getting Aligned on Representational Alignment Ilia Sucholutsky, Lukas Muttenthaler, Adrian Weller, Andi Peng, Andreea Bobu, Been Kim, Bradley C. Love, Erin Grant, Iris Groen, Jascha Achterberg, Joshua B. Tenenbaum, Katherine M. Collins, Katherine L. Hermann, Kerem Oktar, Klaus Greff, Martin N. Hebart, Nori Jacoby, Qiuyi Zhang, Raja Marjieh, Robert Geirhos, Sherol Chen, Simon Kornblith, Sunayana Rane, Talia Konkle, Thomas P. O'Connell, Thomas Unterthiner, Andrew K. Lampinen, Klaus-Robert Müller, Mariya Toneva, Thomas L. Griffiths 2023 Princeton U., Google DeepMind, Google Research, UCB, MIT UCL, etc 認知科学、神経科学、機械学習の研究領域における表現のアラインメントが重要である。ここでは、統一的なフレームワークを提供する。 Curiosity-Driven Learning of Joint Locomotion and Manipulation Tasks Clemens Schwarke, Victor Klemm, Matthijs van der Boon, Marko Bjelonic, Marco Hutter 2023 ETH Zurich, Switzerland 報酬を作り込まない。タスクが成し遂げられたときには+1の報酬。内的な動機が、探索を疎な報酬のほうに向ける。ランダムネットワーク蒸留(RND)というアイディアを採用し、移動と操作の両方を含む動きの方策を学習する。(なので、ドアを押しながら開けるとかできる。) Large Language Models Understand and Can be Enhanced by Emotional Stimuli The Impact of Depth and Width on Transformer Language Model Generalization GPT-4 Technical Report OpenAI 2023 OpenAI GPT-4の性能等。著者リストあり。 NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation Shengming Yin, Chenfei Wu, Huan Yang, Jianfeng Wang, Xiaodong Wang, Minheng Ni, Zhengyuan Yang, Linjie Li, Shuguang Liu, Fan Yang, Jianlong Fu, Gong Ming, Lijuan Wang, Zicheng Liu, Houqiang Li, Nan Duan 2023 U. Science and Tech. China, MSRA, Microsoft Azure AI 非常に長い動画の生成。既存研究は、セグメントごとに順番に生成していた。ここでは、「粗いものから細かく」のプロセスで、同じ粒度で並行して生成する。大域的な拡散モデルが、全時間に渡ってキーフレームを生成するのに用いられ、局所的な拡散モデルが、近くのフレームを埋める。これによって、3376フレームの長い動画を訓練することができた。 FACTOOL: Factuality Detection in Generative AI A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios I-Chun Chern, Steffi Chern, Shiqi Chen, Weizhe Yuan, Kehua Feng, Chunting Zhou, Junxian He, Graham Neubig, Pengfei Liu 2023 上海交通大学、CMU, etc タスクや領域に非依存で、事実のエラーを検出する方法を提案する。 1. 主張の抽出、2. クエリーの生成、3. ツールでの問い合わせ、4. 証拠の収集、5. 検証 Explaining grokking through circuit efficiency Vikrant Varma, Rohin Shah, Zachary Kenton, János Kramár, Ramana Kumar 2023 DeepMind グロッキングは、タスクが汎化解と丸覚え解の両方を許すときに起こり、汎化解のほうが遅いが効率的である。丸覚えはデータセットのサイズが大きくなるほど非効率になるので、丸覚えと汎化のクリティカルなデータセットの大きさがあるはずである。本研究では4つの予測を行い、この説明が正しいらしいことを示す。さらに、アングロッキングという現象があり、ネットワークが完全から不正確に進展すること、セミグロッキングという現象では、ネットワークは部分的に遅れた汎化を示すことなどを見つけた。 Language Modeling Is Compression Grégoire Delétang, Anian Ruoss, Paul-Ambroise Duquenne, Elliot Catt, Tim Genewein, Christopher Mattern, Jordi Grau-Moya, Li Kevin Wenliang, Matthew Aitchison, Laurent Orseau, Marcus Hutter, Joel Veness 2023 DeepMind 大規模モデルの圧縮能力を評価する。主にテキストで訓練されたChinchilla 70Bは、ImageNetのパッチを43.4%圧縮し、LibriSpeechのサンプルを16.4%圧縮することができる。(PNG(58.5%)とかより高い。) Physion: Evaluating Physical Prediction from Vision in Humans and Machines Daniel M. Bear, Elias Wang, Damian Mrowca, Felix J. Binder, Hsiao-Yu Fish Tung, R.T. Pramod, Cameron Holdaway, Sirui Tao, Kevin Smith, Fan-Yun Sun, Li Fei-Fei, Nancy Kanwisher, Joshua B. Tenenbaum, Daniel L.K. Yamins, Judith E. Fan 2021 Stanford, US San Diego, MIT 時間発展する物理的なシナリオのためのデータセットとベンチマーク。硬いものやソフトなものの衝突、回転、スライド、斜方投射など。人間の性能には遠く及ばないが、物体中心の表現がそうでないものよりも性能で優ることを発見した。グラフニューラルネットは、より人間に近い性能を示した。こうした結果から、物理的な表現を得ることが、人間レベルの物理理解の上で主要なボトルネックである。 RT-1: Robotics Transformer for Real-World Control at Scale Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Kuang-Huei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Vuong, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich 2022 Google ロボティクストランスフォーマーというモデルクラスを提案。スケーラブルなモデルの性質を示した。 FiLM EfficientNet(画像言語混合の事前モデル)と、トークン学習器、トランスフォーマを組み合わせる。 Multimodal Foundation Models: From Specialists to General-Purpose Assistants Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao 2023 Microsoft 2章 視覚、視覚言語事前モデル、3章 テキスト画像生成におけるアラインメント、4章 表現からインタフェースへ、5章 大規模マルチモーダルモデル、6章 マルチモーダルエージェント。 Do Language Models Know When They’re Hallucinating References? Ayush Agrawal, Mirac Suzgun, Lester Mackey, Adam Tauman Kalai 2023 Microsoft Research India, Stanford, Microsoft Research ハルシネーションの問題で、直接クエリーは、生成された引用が本物かどうか聞く。間接クエリーは、引用の著者などの詳細情報を聞く。これは有効な方法なのだが、言語モデルはしばしば著者を変更してしまうことがあるが、本当の引用の著者は正しく同定することがわかった。 Chain-of-Verification Reduces Hallucination in Large Language Models Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston 2023 Meta AI 生成AIがドラフトを書いて、事実確認の質問を生成し、その質問の独立に答えて、最後に確認された答えを生成する。 RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi 2023 Google AIフェードバックからのRL。RLFHと同程度にRLAIFを人間の評価者は好む。AIを使ったラベルでも十分に役に立つということ。PALM2を使ってラベル付けする。OpenAIのReddit TL;DRデータセットを使って報酬モデルの学習をする。 Scaling Forward Gradient With Local Losses Mengye Ren, Simon Kornblith, Renjie Liao, Geoffrey Hinton 2023 NYU, Google, Vector Inst. 前方勾配のアルゴリズムを、多くの局所貪欲損失関数を導入することで改善した。MLPMixerに触発された新しいアーキテクチャである局所混合器(LocalMixier)を提案する。MNISTやCIFAR-10での誤差逆伝播に匹敵し、誤差逆伝播を使わない従来手法を凌駕する。 トークン混合、チャネル混合、ReLUを繰り返す残余ブロックのアーキテクチャの途中に、局所損失を入れる。 Teach LLMs to Personalize -- An Approach inspired by Writing Education Cheng Li, Mingyang Zhang, Qiaozhu Mei, Yaqing Wang, Spurthi Amba Hombaiah, Yi Liang, Michael Bendersky 2023 Google マルチステージでマルチタスクのスレ‐無ワークで、LLMを個人化生成のために教える。書くタスクは通常、見つける、評価する、要約する、合成する、統合するというような複数のステップから成る。我々のアプローチも、検索、ランク、要約、合成、生成というステージからなる。 主観的な本の感想文のようなものを出力できる。 Better Zero-Shot Reasoning with Role-Play Prompting Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou 2023 南開大学, Lenovo Research, etc. ロールプレイングの能力について調査。12の異なる推論ベンチマークで検証。ロールプレイプロンプティングは、通常のゼロショットのアプローチで多くの場合上回る。思考の連鎖トリガーを引くのではないか。数学の先生ですとか、クイズの挑戦者ですとか。(人ですらなく)コインやレコーダーですとか。 DayDreamer: World Models for Physical Robot Learning Philipp Wu, Alejandro Escontrela, Danijar Hafner, Ken Goldberg, Pieter Abbeel 2022 UCB Dreamerは良い性能を示すが、物理的なロボットで早い学習が可能か良く分かっていなかった。本研究では、Dreamerを使って、4つのロボットをオンラインと実世界で訓練する。 Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou 2023 Alibaba 大規模な視覚言語モデル。9.6Bパラメータ。学習のさせ方(事前学習、マルチタスク事前学習、教師ありファインチューニング)が書かれている。 Retrieval meets Long Context Large Language Models Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, Zihan Liu, Sandeep Subramanian, Evelina Bakhturina, Mohammad Shoeybi, Bryan 2023 NVIDIA 検索拡張と、長いコンテキストは、どちらがダウンストリームタスクに良いのか。両者のいいとこ取りはできるか。43BのGPTとLLaMA2-70Bを用いて検証する。4Kのウィンドウで検索拡張したものは、16Kのウィンドウで位置の内挿をしたファインチューニング済みのモデルと同等である。さらに、検索は、コンテキストウィンドウの大きさに関わらず、LLMの性能を大きくあげる。 Large Language Models for Software Engineering: Survey and Open Problems Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang 2023 華中科技大学, Monash U., SMU, etc サーベイ論文。 RQ1: ソフトウェアエンジニアリング(SE)のタスクを解くのにどのLLMが使われているか。 RQ2: SEに関連したデータセットはどのように集められ前処理され使われているか。 RQ3: SEのためのLLMにはどのような技術が最適化や評価のために使われているか。 RQ4: SEのためのLLMを使ってどのようなタスクに効果的に適用されているか。→ 要求工学、ソフトウェアデザイン、ソフトウェア開発、品質保証、メンテナンス、管理。ソフトウェア開発で使われており、管理ではあまり使われていない。コード生成とプログラム修復が最もよくあるタスク。 Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg 2023 Harvard U., etc LLMは、表面的な統計を単に記憶しているだけなのか、それとも系列を生成するプロセスの内部表現に頼っているのか。オセロでの正しい動きを予測するタスクに対してGPTを適用した。オセロのボードの状態を表す非線形な内部表現が現れることを見つけた。潜在顕現性マップを作った。 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang, Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang, Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang 2023 Wetlake U., Perdue U., Fudan U., Yale U., etc LLMの事実性に関して。ここで事実性の問題とは、LLMが、確認された事実に反してコンテンツを生成する確率の問題と定義する。この問題の含意について野辺、次にLLMが事実を貯蔵し処理するメカニズムを分析する。そして、LLMの事実性を評価する方法について述べる。また、特定ドメインに向けてLLMの事実性を促進する戦略についても述べる。検索ベースとスタンドアロンと両方について議論している。 Evaluating Cognitive Maps in Large Language Models with CogEval: No Emergent Planning Ida Momennejad · Hosein Hasanbeig · Felipe Vieira Frujeri · Hiteshi Sharma · Nebojsa Jojic · Hamid Palangi · Robert Ness · Jonathan Larson 2023 MSR ここでは、CogEvalという、認知科学にインスパイアされた、LLMの認知能力をシステマティックに評価するプロトコルを提案する。そして、CogEvalに従って、8つのLLMの認知マップとプランニングの能力をシステマティックに評価する。 Auto-Regressive Next-Token Predictors are Universal Learners Eran Malach 2023 Hebrew University 自己回帰の次のトークン予測の理論的フレームワークについて述べる。線形な次のトークン予測器であっても、思考の連鎖データで訓練すれば、チューリングマシンで計算できるどんな関数も近似できることを示す。(要するに、データの側に仕込めるから。) TidyBot: Personalized Robot Assistance with Large Language Models 2023 Think before you speak: Training Language Models With Pause Tokens 2023 On the Creativity of Large Language Models 2023 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models 2023 A Watermark for Large Language Models 2023 Large Language Models as Optimizers 2023 Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs 2023 A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 2023 Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification 2023 Understanding Retrieval Augmentation for Long-Form Question Answering 2023 Safe RLHF: Safe Reinforcement Learning from Human Feedback 2023 On the duality between contrastive and non-contrastive self-supervised learning 2023 Graph Neural Prompting with Large Language Models 2023 AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation 2023 Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging 2023 ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs 2023 Data-Centric Financial Large Language Models 2023 Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input 2023 Reasoning with Language Model is Planning with World Model 2023 Human-like systematic generalization through a meta-learning neural network 2023 Detecting Pretraining Data from Large Language Models 2023 Can large language models provide useful feedback on research papers? A large-scale empirical analysis 2023 Large Language Model Programs Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li IDSIA etc 2023 関連ないコンテキストをフィルターアウトして、クラスタリングし、推論を続けていき、答えにいたるのを見つける。プランニングとLLMの融合のようなもの。 Violation of Expectation via Metacognitive Prompting Reduces Theory of Mind Prediction Error in Large Language Models 2023 Inferential Exclusion Prompting(IEP) 2023 A Survey of Large Language Models Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, Ji-Rong Wen 2023 A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics Qing Li, Siyuan Huang, Yining Hong, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu ICLR2023 Beijing Institute for General AI (BIGAI), UCLA, Peking U. 人間が数学を学習するようなデータセット。手書き整数算術(HINT)。画像から数字、掛け算、推論、内挿や外挿など。GPT-3とかにも使える。 Continual Pre-training of Language Models Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, Bing Liu ICLR2023 U. Illinois Chicago, Peking U., KDDI Research 継続的ドメイン適用事前学習。ドメインコーパスを使うと、エンドタスクでのパフォーマンスが上がることが知られている。ここでは、継続的ドメイン適応事前学習でLMを訓練する。重要。 A Non-monotonic Self-terminating Language Model Eugene_Choi, Kyunghyun Cho, Cheolhyoung Lee ICLR2023 NYU LLMは、デコード手法が貪欲法、ビームサーチ、top-kサンプリング、核サンプリングなどの場合に、止まらなかったり、繰り返したり、突然終わったりすることがある。まず、不完全に「確率的に起こりそうな」デコード法を定義し、自分で終了する非単調な言語モデルを提案する。 Automatic Chain of Thought Prompting in Large Language Models Zhuosheng Zhang, Aston Zhang, Mu Li, Alex Smola ICLR2023 上海交通大学, AWS Let's think step by stepだけでなく、デモンストレーションをone by oneで挙げる。デモンストレーションを自動で生成するために、データセットの質問をいくつかのクラスターに分け、代表的な質問を選んでデモンストレーションにする。 Language models are multilingual chain-of-thought reasoners Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, Jason Wei ICLR2023 Google Research, TTI Chicago, Stanford U., Dartmouth College GSM8K(算数)のデータセットから250の問題を10個の異なる言語に手動で翻訳した。思考の連鎖プロンプトにより、マルチリンガルの算数の問題を解く能力は、モデルのスケールが大きくなるほど創発し、よく表されていないベンガル語やスワヒリ語のような言語においても創発する。英語が一番高いが、高リソース言語でも低リソース言語でもそれほど大きくは変わらない。各国語で、思考の連鎖プロンプトを作っている。PaLM-540Bで実験。 ReAct: Synergizing Reasoning and Acting in Language Models ICLR2023 Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R Narasimhan, Yuan Cao Princeton U., Google Research 思考の連鎖などの推論能力と、アクションプランの生成などの行動は、別のトピックとして扱われてきた。ここでは、推論のトレースとタスク特有のアクションの両方を交互に生成する方法を提案する。ReACTは、ハルシネーションやエラー連鎖の問題を、WikipediAPIと相互作用することで解決する。2つの意思決定ベンチマーク(ALFWorldとWebShop)で、模倣や強化学習よりも34%, 10%よい性能をもたらす。 Generate rather than Retrieve: Large Language Models are Strong Context Generators ICLR2023 Reward Design with Language Models ICLR2023 Heterogeneous Neuronal and Synaptic Dynamics for Spike-Efficient Unsupervised Learning: Theory and Design Principles ICLR2023 Provable Memorization Capacity of Transformers Junghwan Kim, Michelle Kim, Barzan Mozafari ICLR2023 U. Michigan, Michigan State U. トランスフォーマは、長さn, 次元dのN個の系列から系列のマッピングを記憶するのに、O(d+n+√nN)のパラメータを必要とする。 Binding Language Models in Symbolic Languages Zhoujun Cheng, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu ICLR2023 U. Hong Kong, 上海交通大学、et al BINDERという、神経シンボルフレームワークを提案。タスクの入力をプログラムにマップする。言語モデルのAPIとプログラム言語をつなげ、言語モデルをプログラムの分析とAPIで呼ばれるモデルとして使い、ごく少数のアノテーションしか必要としない。 CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis ICLR2023 Mobile UI Understanding using Vision-Language Models with a Focus ICLR2023 MEDICAL IMAGE UNDERSTANDING WITH PRETRAINED VISION LANGUAGE MODELS: A COMPREHENSIVE STUDY ICLR2023 Progress measures for grokking via mechanistic interpretability ICLR2023 PLOT: Prompt Learning with Optimal Transport for Vision-Language Models ICLR2023 Ask Me Anything: A simple strategy for prompting language models Simran Arora, Avanika Narayan, Mayee F. Chen, Laurel Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher Ré ICLR2023 Stanford U. et al 効果的なプロンプトの形式を見つけ出し、LLMを使って効果的なQAの形式に直していく。最後に投票する。 Planning with Large Language Models for Code Generation Shun Zhang, Zhenfang Chen, Yikang Shen, Mingyu Ding, Joshua B. Tenenbaum, Chuang Gan ICLR2023 MIT-IBM Watson AI Lab, U. Hong Kong, MIT, UMass Amherst LLMを使ったコード生成は、復号化に通常ビームサーチかサンプリングアルゴリズムを使う。しかし、しばしばコンパイルに失敗したり、正しい答えを出力できない。これは復号化の伝統亭な方法がコード生成には最適ではないからである。ここでは、プラニングでガイドされたトランスフォーマ復号化(PG-TD)を提案する。尤度を最大化するだけでなく、プラナーは生成したプログラムをテストする。 Mind's Eye: Grounded Language Model Reasoning through Simulation Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai ICLR2023 Google Research 物理的な推論の質問が与えられると、計算による物理エンジン(MuJoCo)で可能な結果をシミュレートし、それを入力として言語モデルに推論をさせる。推論能力が30-50%くらい上がる。 On Pre-training Language Model for Antibody Danqing Wang, Fei YE, Hao Zhou ICLR2023 ByteDance Research, UC Santa Barbara, Tsinghua U. タンパク質と抗体に特有の事前学習モデルがあると良い。事前学習で特定の生物学的メカニズムを導入することが、いかにモデルを良くするか。PPLM(事前学習タンパク言語モデル)、PALM(事前学習抗体言語モデル)などがすでにある。抗体理解ベンチマーク(ATUE)をリリース。 Language Models are Realistic Tabular Data Generators Vadim Borisov, Kathrin Seßler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci ICLR2023 U. Tubingen, Tech U. Munich 表データは重要だが合成データを作るのは難しい。LLMを使って本物らしい合成的な表形式のデータを作るGReaTという手法を提案する。表のデータを文の表現になおして、順序を入れ替えて、LLMでファインチューニングする。 Language Models Can Teach Themselves to Program Better ICLR2023 Compositional Task Representations for Large Language Models NAN SHAO, Zefan Cai, Hanwei xu, Chonghua Liao, Yanan Zheng, Zhilin Yang ICLR2023 Recurrent AI, 北京交通大学, 精華大学, etc Task Ambiguity in Humans and Language Models ICLR2023 Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning ICLR2023 Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought ICLR2023 Large Language Models are Human-Level Prompt Engineers Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, Jimmy Ba ICLR2023 U. Toronto, Vector Institute, U. Waterloo 自動プロンプトエンジニア(APE)を提案。インストラクションをプログラムと考え、LLMが提案する候補のプールのなかから探し、選ばれた目的関数を最大化するようにする。他のLLMにおけるゼロショットの性能で、そのインストラクションの質を評価する。人間のアノテータよりもほとんどのタスクで良いか同等(ただしInstructGPTの場合)。 Progressive Prompts: Continual Learning for Language Models Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Amjad Almahairi ICLR2023 U. Toronto, Meta AI 継続学習のアプローチで、前向き転移の方法。凍結した入力の埋め込みや特徴量だけでなく、プロンプトも加えていく。 Least-to-Most Prompting Enables Complex Reasoning in Large Language Models ICLR2023 Bidirectional Language Models Are Also Few-shot Learners Ajay Patel, Bryan Li, Mohammad Sadegh Rasooli, Noah Constant, Colin Raffel, Chris Callison-Burch ICLR2023 U. Penn, Microsoft, Google 双方向で事前学習した言語モデルのほうが、転移学習にはより強い表現を生成する。したがって、双方向のモデルのプロンプティングも重要と思われるので、SAPと呼ばれるモデルを提案する。双方向のmT5モデルをプロンプトし、GPT-3やXGLMのような単方向のモデルのフューショット翻訳よりも高い精度のフューショットあるいはゼロショット翻訳を実現した。 PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales ICLR2023 LexMAE: Lexicon-Bottlenecked Pretraining for Large-Scale Retrieval ICLR2023 Neural Networks and the Chomsky Hierarchy ICLR2023 Continual Transformers: Redundancy-Free Attention for Online Inference ICLR2023 Automated discovery of fundamental variables hidden in experimental data Nature Computational Science 2022 Visually-Augmented Language Modeling ICLR2023 Arbitrary Virtual Try-on Network: Characteristics Representation and Trade-off between Body and Clothing ICLR2023 Data Valuation Without Training of a Model ICLR2023 Effective Self-supervised Pre-training on Low-compute Networks without Distillation ICLR2023 Spiking Convolutional Neural Networks for Text Classification ICLR2023 Disentanglement with Biological Constraints: A Theory of Functional Cell Types ICLR2023 SMART: Self-supervised Multi-task pretrAining with contRol Transformers ICLR2023 Thalamus: a brain-inspired algorithm for biologically-plausible continual learning and disentangled representations ICLR2023 CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Alignment ICLR2023 Can CNNs Be More Robust Than Transformers? ICLR2023 GLM-130B: An Open Bilingual Pre-trained Model ICLR2023 A Primal-Dual Framework for Transformers and Neural Networks ICLR2023 Trainability Preserving Neural Pruning ICLR2023 Continual Unsupervised Disentangling of Self-Organizing Representations ICLR2023 Recitation-Augmented Language Models ICLR2023 検索拡張ではなく、事実をより正確に取り出す。いくつかの覚えている節をLLM自身で作り出し(朗読する)、最後の答えを出す。 Measuring Forgetting of Memorized Training Examples ICLR2023 A Non-monotonic Self-terminating Language Model ICLR2023 Words are all you need? Language as an approximation for human similarity judgments ICLR2023 On the Data-Efficiency with Contrastive Image Transformation in Reinforcement Learning ICLR2023 Curriculum-based Co-design of Morphology and Control of Voxel-based Soft Robots ICLR2023 Self-Consistency Improves Chain of Thought Reasoning in Language Models ICLR2023 Transformer-based World Models Are Happy With 100k Interactions ICLR2023 Using Both Demonstrations and Language Instructions to Efficiently Learn Robotic Tasks ICLR2023 Meta-Learning in Games ICLR2023 Learning to Grow Pretrained Models for Efficient Transformer Training ICLR2023 Re-Imagen: Retrieval-Augmented Text-to-Image Generator ICLR2023 Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language ICLR2023 Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for End-to-End Visual Robotic Manipulation Learning ICLR2023 Hungry Hungry Hippos: Towards Language Modeling with State Space Models ICLR2023 AutoTransfer: AutoML with Knowledge Transfer - An Application to Graph Neural Networks ICLR2023 A General Framework For Proving The Equivariant Strong Lottery Ticket Hypothesis ICLR2023 DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics ICLR2023 Emergent Abilities of Large Language Models 2022 Let's Verify Step by Step Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe OpenAI 2023 LLMは論理的なミスをよく犯す。結果の教師ありか、プロセスの教師ありか。プロセスの教師ありのほうがずっと効率的であることを示す。(ちょっとしたケーススタディ) A Survey of Large Language Models Voyager: An Open-Ended Embodied Agent with Large Language Models Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar 2023 NVIDIA, Caltech, etc VOYAGERという、マインクラフト上の、LLMを備えた、身体性をもった生涯学習のエージェントを提案する。アイテムやスキルを手に入れていく。 Can ChatGPT be used to generate scientific hypotheses? Yang Jeong Park, Daniel Kaplan, Zhichu Ren, Chia-Wei Hsu, Changhao Li, Haowei Xu, Sipei Li, Ju Li MIT 2023 LLMは、科学的な知識を構造化し、興味深く検証可能な仮説を提供できることを示す。 Metacognitive Prompting Improves Understanding in Large Language Models Yuqing Wang, Yun Zhao 2023 UC Santa Barbara, Meta メタ認知プロンプト。5つのLLMで実験。(Llama2、Vicuna, PaLM, GPT3.5, GPT-4)PaLMはMPによって、GPT-4レベルに近づく。MPは、既存の思考の連鎖のプロンプトなどより良い。 自分は何を知っているか、最初の考えは何か、最初の考えは正確か、どのように意思決定を正当化するか、どのくらい自信があるか、など。 LLM As DBA Xuanhe Zhou, Guoliang Li, Zhiyuan Liu 2023 Tsinghua U. データベース管理者は、多くのデータベースのインスタンスを管理しなければいけない。ここでは、D-Botという、LLMベースのデータベース管理者を作り、ターゲットとなるデータベースへの最適化のアドバイスや、リアルタイムの診断を行う。 Do Machine Learning Models Memorize or Generalize? Memorizing Transformers Yuhuai Wu, Markus N. Rabe, DeLesley Hutchins, Christian Szegedy ICLR2022 Google 言語モデルを、過去入力の内部表現を記憶できる能力を持つように拡張する。kNNで、最近のキーバリューペアの微分不可能なメモリを適切に参照することで、言語モデルの精度が上がる。トランスフォーマーの局所注意に、外部記憶としてkNNを加えたものになっている。 Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design Ibrahim Alabdulmohsin, Xiaohua Zhai, Alexander Kolesnikov, Lucas Beyer 2023 Google DeepMind ViTのNNの「形」(幅や深さなど)を調整することで、同じパラメータサイズでも性能を出す。 Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models Kushal Tirumala, Aram H. Markosyan, Luke Zettlemoyer, Armen Aghajanyan 2023 Meta AI LLMが、過剰適合する前に丸覚えすること、学習プロセスを通じて忘れにくいことを示す。名詞や数字を先に覚える。それらがサンプルのよい同定になるからでは。 Do Multilingual Language Models Think Better in English? Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, Mikel Artetxe 2023 U. of the Basque Country UPV/EHU 自己翻訳。LLM自体を使って英語に翻訳し、タスクを解くと精度が上がる。 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell 2023 MIT CSAIL, Harvard, etc (1) RLHFの課題と根本的限界, (2) 実際のRLHFの理解し、改良し、補う方法、(3) 監査や開示の標準の提案。 (1)は、人間からのフィードバックに関して、誤割当評価者、管理の難しさ、データ品質、タイプ制限のフィードバック。報酬モデルに関して、問題の誤特定、誤った汎化、評価の難しさ。ポリシーに関して、強化学習の難しさ、方策の誤った汎化、分散的課題、報酬モデル・方策の訓練の課題。 (2)に関して、人間からのフィードバックに関しては、AIアシスタント、細粒度のフィードバック、プロセスの監視、言語から報酬への翻訳、デモンストレーションからの学習。報酬モデルに関しては、直接的な人間の管理、複数目的の管理、不確実性の管理。ポリシーに関しては、LLMを事前学習のときにアラインする、強化学習。 (3)に関して、人間からのフォードバックに関しては、事前学習、人間の選択・訓練、例の選択、フィードバックの種類、品質保証の方法。報酬モデルに関しては、損失関数、評価と結果。ポリシーに関しては、評価と結果。あり得るリスクについてのレポートや、内部・外部監査、失敗をモニターして処理することなど。 LongNet: Scaling Transformers to 1,000,000,000 Tokens Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Nanning Zheng, Furu Wei Microsoft Research, Xi'an Jiaotong U. 2023 短いシーケンスの精度を落とさずに、10億トークンまでスケールするモデル。 トランスフォーマのアテンションを、拡張注意(dilated attention)というもので置き換える。距離が離れると指数的にアテンションの割当が小さくなるモデル。短い距離の注意と、スパースな長い距離の注意を組み合わせる。計算コストが2次から線形になる。 Grokking of Hierarchical Structure in Vanilla Transformers Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning ACL 2023 Stanford, MIT CSAIL トランスフォーマは、長い時間のあとに階層的に汎化を学習する。構造的グロッキングと呼ぶ。 複数のデータセットで、構造的グロッキングにおいて、モデルの深さとともに逆U字型のスケーリングを示す。つまり適切なモデルの深さがある。 Towards Generalist Biomedical AI Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan Google Research, Google DeepMind 2023 MultiMedBenchは、14個の多様なタスクから成る。医療の質問応答、マンモグラフィや皮膚の画像解釈、放射線科のレポートや要約、遺伝変異の特定。また、Med-PaLM Multimodalは、総合的な生物医学AIシステムで、言語、画像、遺伝子で同じモデルウェイトを持つ。PaLM-Eモデルを、MultiMuedBenchでファインチューニングしたもの。PaLM-Eは、PaLM, ViTの事前学習モデルを使っている。PaLM-8B+ViT 4B (PaLM-E 12B), PaLM 62B+Vit 22B (PaLM-E 84B), PaLM540B+ViT 22B (PaLM-E 562B)。 Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming-Hsuan Yang 2022 Peking U. etc 拡散モデルの基礎(デノイジング拡散確率モデル、スコアベース生成モデル、確率的微分方程式)、拡散モデルにおける効率的サンプリング(学習なし、学習あり)、改良尤度による拡散モデル、特別な構造を持つデータのための拡散モデル、他の生成モデルとの接続、拡散モデルの応用。 LongT5: Efficient Text-To-Text Transformer for Long Sequences Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang 2021 Google Research 長い入力のトランスフォーマ(ETC)、要約事前学習からの事前学習(PEGASUS)を使って、一時的グローバル(Transient Global; TGLobal)という新しいアテンションのメカニズムを提案。16kとかの入力ができる。ある幅でアテンションをかける。 Scaling Instruction-Finetuned Language Models Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Alex Castro-Ros, Marie Pellat, Kevin Robinson, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei 2022 Google Flan-PaLMのインストラクションファインチューニングについて。1.8Kのファインチューニングタスク。思考の連鎖データを入れる。(Flan - Finetuning language models) ファインチューニングタスクは、T0-SF (193タスク)、Muffin (80タスク)、CoT(9タスク)、Natural Instructions v2(1554タスク)など。 ヘルドアウトタスクは、MMLU(抽象幾何学や大学医学、専門法務、心理学など57タスク)、BBH(ブーリアン表現、混ぜ合わされた物体のトラッキング、ナビゲーション、語の入れ替えなど、27タスク)、TyDiQA(情報を探すQA)、MGSM(小学校の数学)など。 %The Ghost in the Machine %Arthur Koestler %ハンガリー %1967 Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah 2023 Queen's U., JP Morgan AI Research 経済的なテキスト分析のタスクに、ChatGPTあるいはGPT-4を、ゼロショットあるいは数ショットで解いて、分析する。領域特有の知識が必要な、固有表現抽出やセンチメント分析はうまくいかないが(FinBeRTとか、ファインチューニングしたCRFとかに負ける)、数的な推論はうまくいく。BloombergGPTとの比較もあり。 Towards Expert-Level Medical Question Answering with Large Language Models Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan 2023 Google Research, DeepMind Med-PaLMは、US医師資格試験(USMLE)の合格ラインを超えたが、特にモデルの答えを医師の答えと比較すると、改善の余地がかなりある。ここでは、Med-PaLM 2を提案し、ベースLLMの改善(PaLM 2)と、医療ドメインのファインチューニング、プロンプト戦略を組み合わせる。それによって、Med-PaLM 2は、86.5%をとって、Med-PaLMより(67.2%)より19%スコアがアップした。(ちなみに、GPT-3.5は60.2%、GPT-4は、86.1%。)GPT3.5, Med-PaLM, GPT-4, (僅差で)Med-PaLM 2となっている。 Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev 2023 U. Washington, Sapporo Cardiovascular Clinic, Tohoku U. Yale U. GPT-4は、6年間の日本の医師国家試験を全て合格した。ただ、禁忌の選択肢を選ぶことがあった。英語に比べると、APIコストが高く、コンテキストサイズは小さかった。(トークナイズの理由。)Igaku-QAデータセットを公開。 ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge BloombergGPT: A Large Language Model for Finance Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann Bloomberg, Johns Hopkins U. 2023 500億パラメータのモデルで、金融データで訓練したもの。340億トークンの一般的なデータセットに加え、Bloombergの広範なデータリソースで3630億トークンのデータセットを作った。これを、標準的なLLMのベンチマーク、金融のベンチマーク、内部のベンチマークなどで検証した。GPT-NeoX, OPT(66B)などと比べて、QA、ヘッドラインの分類、NERなどで良い性能。金融データは、ウェブ、ニュース、ファイリング、報道発表、Bloombergから構成される。ウェブとニュースがボリュームとしては大きい。 Generative Agents: Interactive Simulacra of Human Behavior Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein 2023 Stanford, Google 人間の行動をシミュレートするための生成エージェント。環境中の小さな街で、寝て起きて、朝食を作って、仕事に行く。アーティストは絵を描き、小説家は小説を書く。知り合いが増える。言語を使って経験を書き、これらの記憶を使ってより抽象的な振り返りをする。GPT3.5-turboを使っている。 CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem KAUST 2023 ロールプレイングという、コミュニケーション可能なエージェントのフレームワークを提案する。インセプションプロンプティングというものを使って、チャットエージェントをタスクの完了に向かわせながら、人間の意図と整合するようにする。このロールプレイングがどのようにチャットエージェントの行動と能力を分析するための会話データを生み出すことができるのかを示す。 例えば、株式市場でトレードするボットを作ることを考えると、AIユーザ、AIアシスタントを割り当てて、AIアシスタントがpythonプロブラマーとなって、AIユーザはトレーダーの役割をする。この両方がチャットをしながら、指示に従うように協調する。 Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models Teaching Large Language Models to Self-Debug RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation Instruction Tuning with GPT-4 Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao 2023 Microsoft Research GPT-4を使って、LLMのファインチューニングのためのインストラクションフォローイングのデータを作る。LLaMAのモデルで、52Kの英語と中国語のインストラクションフォローイングのデータを作ることで、新しいタスクでのゼロショットのパフォーマンスが上がった。 Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing Diffusion Models for Non-autoregressive Text Generation: A Survey Textbooks Are All You Need Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li Microsoft Research phi-1という、コードのためのLLMを導入する。1.3Bパラメータのトランスフォーマーのモデルで、8つのA100で4日で訓練が可能。教科書クオリティのデータをウェブから選び(6Bトークン)、GPT-3.5を使って合成的に作った教科書と演習(1Bトークン)から構成される。 小さいスケールだが、phi-1は、HumanEvalのpass@1で50.6%、MBPPで55.5%。 同じ精度で比較すると、1桁くらい小さなパラメータ。 Faith and Fate: Limits of Transformers on Compositionality Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi 2023 Allen Institute for AI, U. Washington, etc トランスフォーマは、構成的タスクを、線形化したサブグラフマッチングに帰着させて解いている。 Erasing Concepts from Diffusion Models Transformers learn to implement preconditioned gradient descent for in-context learning CHARACTERIZING INTRINSIC COMPOSITIONALITY IN TRANSFORMERS WITH TREE PROJECTIONS 2023 Secrets of RLHF in Large Language Models Part I: PPO Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang 2023 Fudan NLP Group RLHFにおけるPPO(Proximal Policy Optimization)の役割について述べる。方策の制約が、PPOのアルゴリズムで効果的な実装のための鍵であり、その改良バージョンを示す。 Trained Transformers Learn Linear Models In-Context Compute Trends Across Three Eras of Machine Learning Jaime Sevilla, Lennart Heim, Anson Ho, Tamay Besiroglu, Marius Hobbhahn, Pablo Villalobos 2022 U. Aberdeen, etc ムーアの法則は、概ね20ヶ月で2倍だが、深層学習が始まった2010年の初頭以来、6ヶ月ごとに2倍になっている。2015年には、10から100倍大きな計算を学習に必要とするMLのモデルの開発のトレンドが始まった。ここでは、前深層学習時代、深層学習時代、大規模時代と3つに分ける。 Ablating Concepts in Text-to-Image Diffusion Models Nupur Kumari, Bingliang Zhang, Sheng-Yu Wang, Eli Shechtman, Richard Zhang, Jun-Yan Zhu 2023 著作権のある写真などで学習されているので、特定のコンセプトを消す方法。対象とするスタイルやインスタンス、プロンプトなどに対応。 ターゲットとするスタイルやプロンプトで生成したもの(拡散モデルに入れる分布)とそうでないもののL2ロスを最小化するように、ノイズを修正する。そのためにU-Net(拡散モデル)を学習する。 One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma Stanford U. 2023 1層のトランスフォーマの事前学習の大域的最適解は、最小二乗法の線形回帰の目的関数の勾配降下の1ステップである。共変性が同一のガウス分布に由来しない場合は、大域的最適解は、事前条件付きの勾配降下の1ステップに該当する。 On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models? Nouha Dziri, Sivan Milton, Mo Yu, Osmar Zaiane, Siva Reddy NAACL 2022 標準的なベンチマーク(Wizards of Wikipedia, CMU-DoG, TopicalChat)は、60%以上のハルシネーションの答えからなり、モデルはそれをさらに増幅する。 主観的情報(考えや信念、感情、意図、個人的経験)、客観的な事実の情報の支持なしの表現など。 Toolformer: Language Models Can Teach Themselves to Use Tools Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom 2023 Meta AI Research API等のツールを使う。 自己教師ありで学習し、あまりアノテーションを必要としない。いつどのようにツールを使うかを決める。 いろいろAPIを呼んでみて、ロスが下がるようにデータを作る。それを使って自己教師ありをする。 Capabilities of GPT-4 on medical challenge problems Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, Eric Horvitz 2023 Microsoft, OpenAI GPT-4の評価を行う。USMLE(医師国家試験)用の2つの実践的な教材を用いる。MultiMedQAの一連のベンチマークデータセットも用いる。テキストと画像の両方が含まれる。 GPT-4は、プロンプトの工夫等なくても、USMLEの合格ラインを20ポイント超える。GPT-3.5や、医療データでファインチューンしたMed-PaLM, Flan-PaLMなどを超える。GPT-4は、答えがあっているかの判断も的確である。 Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang 2023 Microsoft Research よいサーベイ。 面白いプロンプト、すごい事例がたくさん。医者の診断ノート、ソクラテスの会話、卵の上にものを置く方法など。 SVGで絵もかける。TikZコードでも絵を描ける。音楽も作れる。LaTeXにも直せる。数学も解ける。 数えるのはできない。算数とかも大きな数になるといまいち。 サーチなどの道具を使える。 心の理論や意図を推測することもできる。 計画やバックトラックの機能は弱い。 p.9 GPT-4はこれらの概念を本当に理解しているのだろうか、それとも深く理解することなく、その場その場で即興的に対応することが、これまでのモデルよりずっとうまくなっただけなのではないだろうか、というのが多くの読者の心に残る疑問ではないだろうか。この論文を読んで、「真の理解とは、その場限りの即興性だけではないのか」と、疑問が湧いてくることを期待しています。 ソフトウェア工学の受験生の試験に合格するようなシステム(図1.5)は、本当の意味で知的ではないと言えるのだろうか。おそらく、理解の真のテストは、新しい数学の定理を証明するような新しい知識を生み出すことができるかどうかだけであり、この偉業は、現在のところLLMには手が届かない。 Planning for AGI and beyond Sam Altman 2023 OpenAI かなり明確にAGIや、リスクについて書いてある。宇宙の話も。よく書くなという感じ。 Scaling Transformer to 1M tokens and beyond with RMT Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev 2023 DeepPavlov, AIRI, London Institute for Mathematical Sciences BERTのトークン数を200万まで増やせる。 メモリーに記憶した内容を明示的にセグメントの入力に加え、出力から出し、それをまた次のセグメントと一緒に入力する。 Consistency Models 2023 Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever OpenAI 拡散モデルは遅い。そこで、コンシステンシーモデルを提案する。任意の地点からODEの軌跡上で元の地点に戻れる。 Language Models can Solve Computer Tasks Geunwoo Kim, Pierre Baldi, Stephen McAleer 2023 UC Irvine, CMU 反復的批評と改善(RCI)プロンプト。 「前の回答を見て、問題を見つけなさい」 「その問題に基づいて、答えを改善しなさい」 Self-labelling via simultaneous clustering and representation learning Yuki Markus Asano, Christian Rupprecht, Andrea Vedaldi 2019 U. Oxford 表現学習とクラスタリングを組みあわせ、自己ラベリング(半教師あり)によって、精度があがる。 Hopfield Networks is All You Need Hubert Ramsauer, Bernhard Schäfl, Johannes Lehner, Philipp Seidl, Michael Widrich, Thomas Adler, Lukas Gruber, Markus Holzleitner, Milena Pavlović, Geir Kjetil Sandve, Victor Greiff, David Kreil, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter 2021 Johannes Kepler U. Linz, U. Oslo 新しいホップフィールドネットワークとその更新ルールを提案する。指数的に多くのパターンを保存でき、それを検索することができる。すべてのパターンの平均、部分のパターンの平均、ひとつのパターンなどの局所解を持ち、この新しい更新ルールは、トランスフォーマのアテンションメカニズムと等価である。 Self-supervised Learning: Generative or Contrastive Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, Jie Tang 2021 Tsinghua U. etc 生成的な自己教師あり学習として、自己回帰、フローベース、オートエンコーダー、ハイブリッド。 コントラスティブな自己教師ありとして、文脈-インスタンスコントラスト、インスタンス-インスタンスコントラスト、半教師ありのコントラスト。 生成的な自己教師ありと、コントンラスティブな自己教師ありの(敵対的)学習。 GhostNet: More Features from Cheap Operations 2019 Unveiling Transformers with LEGO: a synthetic reasoning task Rare Gems: Finding Lottery Tickets at Initialization Transformers Learn Shortcuts to Automata World Models and Predictive Coding for Cognitive and Developmental Robotics: Frontiers and Challenges Tadahiro Taniguchi, Shingo Murata, Masahiro Suzuki, Dimitri Ognibene, Pablo Lanillos, Emre Ugur, Lorenzo Jamone, Tomoaki Nakamura, Alejandra Ciria, Bruno Lara, Giovanni Pezzulo 2023 GradMax: Growing Neural Networks using Gradient Information 2022 ReZero is All You Need: Fast Convergence at Large Depth 2020 Progressive Stage-wise Learning for Unsupervised Feature Representation Enhancement 2021 AutoGrow: Automatic Layer Growing in Deep Convolutional Networks 2019 Mastering Diverse Domains through World Models 2023 Forget-free Continual Learning with Winning Subnetworks 2022 A data-driven approach for learning to control computers 2022 Dual Lottery Ticket Hypothesis Yue Bai, Huan Wang, Zhiqiang Tao, Kunpeng Li, Yun Fu ICLR 2022 Northeastern U. 双対宝くじ仮説(DLTH)を提案。ランダムにサブネットワークを取り出して、それを訓練可能なものに変えていく。マスクをパラメータに入れ、正則化項とロスを入れた目的関数を作って、サブネットワークを絞りながら、ロスが低いものを見つけていく。 Reconstructing Constructivism: Causal Models, Bayesian Learning Mechanisms, and the Theory Theory Alison Gopnik, Henry M. Wellman 2012 Theory theoryの新バージョンで、計算論フレームワークと因果モデル、ベイジアン学習に基づくもの。子供は、因果的な構造を統計情報、世界でのアクションから見つける。生成モデルの重要性や世界モデル的なことも書かれている。 Deep Double Descent: Where Bigger Models and More Data Hurt Preetum Nakkiran, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, Ilya Sutskever 2019 二重効果は、モデルサイズだけでなく、訓練のエポック数に対しても起こる。ここでは、それらを統合して、有効なモデルの複雑さという指標を考案し(エラーで定義)、この指標上での一般化された二重効果を示す。ときにはサンプルサイズを増やすことが実際にパフォーマンスを落とすことにもつながることがある。 Finetuned Language Models Are Zero-Shot Learners Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le ICLR2022 Google 指示チューニング。137BのLLMを使って、60のNLPタスクで指示をチューニングする。FLANと呼ぶ。 指示をチューニングするようにしてさまざまなタスクで訓練し、未知のタスクに対して同様に指示することで推論を行う。 Unveiling Transformers with LEGO: a synthetic reasoning task Yi Zhang, Arturs Backurs, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Tal Wagner 2022 VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning Adrien Bardes, Jean Ponce, Yann LeCun 2021 FAIR etc 画像の自己教師あり学習において、同じ画像の異なるビューの埋め込みベクトルをできるだけ近づける。その際に、エンコーダが定数あるいは情報のないベクトルを返すような崩壊をどのように減らすかが課題である。ここでは、VICReg(分散-不変-共分散 正則化)を提案する。(2) それぞれの埋め込みの次元の分散を閾値以上にする、(2) 変数のペアの相関をなくす項、から成る。 A Path Towards Autonomous Machine Intelligence Yann LeCun 2022 NYU, Meta 妥当な内容。configuratorモジュールというのは少し変。(自己教師ありのメタな学習、あるいは前頭前野の言語タスクによる機能のはず。)モデル2についても変。不十分な点も多いが、前半は概ね違和感ない。短期記憶がKey Valueというのは、そうも言えるけど、ちょっと解釈は違う。JEPA(ジョイント埋め込み予測アーキテクチャ)も提案。VICReg(SSLのためのVariance-Invariance-Covariance正則化)も説明。これが階層になったものが、H-JEPA。 Transformers Learn Shortcuts to Automata Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang 2022 Toward Next-Generation Artificial Intelligence: Catalyzing the NeuroAI Revolution Anthony Zador, Blake Richards, Bence Ölveczky, Sean Escola, Yoshua Bengio, Kwabena Boahen, Matthew Botvinick, Dmitri Chklovskii, Anne Churchland, Claudia Clopath, James DiCarlo, Surya Ganguli, Jeff Hawkins, Konrad Koerding, Alexei Koulakov, Yann LeCun, Timothy Lillicrap, Adam Marblestone, Bruno Olshausen, Alexandre Pouget, Cristina Savin, Terrence Sejnowski, Eero Simoncelli, Sara Solla, David Sussillo, Andreas S. Tolias, Doris Tsao 2022 ニューロAIの研究が重要である。身体性やそれを実現できるバーチャルな環境。身体性を伴ったチューリングテスト。4歳でもできることがまだできてない。エネルギー効率の重要性。NeurIPSは計算機のほうに寄りすぎ、など。 Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, Ivan Titov 2019 What does BERT look at? An analysis of BERT’s attention Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning 2019 Transformer Feed-Forward Layers Are Key-Value Memories Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy EMNLP 2021 Tel-Aviv U., Allen Inst. for AI, Cornell Tech トランスフォーマのFF層がキーバリューのメモリとなっていることを示す。低い層は表層的なパターンを、上位層はより意味的なものを学習する。 キーが、nグラムとか意味的なトピックなどと相関する。バリューは、出力の語彙の分布を導き、上位層のキーに対応する次のトークンの分布と相関する。 トランスフォーマ全体としては、各層が数百の活性化されたメモリーを組み合わせ、メモリの値と質的に異なる分布を生成する。一方で、残余コネクションが改善の仕組みとして働き、予測を各層で少しずつ修正していく。 On the Opportunities and Risks of Foundation Models Rishi Bommasani et al. 2021 Stanford 能力(2章)、応用(3章)、技術(4章)、社会(5章)から構成される。 2章は、言語、視覚、ロボット、推論と検索、インタラクション、理解の哲学。 3章は、ヘルスケアとバイオ医療、法律、教育 4章は、モデリング、訓練、適応、評価、システム、データ、セキュリティとプライバシー、頑健性、AI安全性とアライメント、理論、解釈性 5章は、不平等と公平、誤用、環境、法律、経済、スケールの倫理 Memorizing Transformers Yuhuai Wu, Markus N. Rabe, DeLesley Hutchins, Christian Szegedy ICLR2022 Google 過去の入力の内部表現を記憶するものをとりつけ、kNNで参照する。メモリを増やすとパフォーマンスが向上する。 SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot Elias Frantar, Dan Alistarh 2022 IST Austria GPT族を50%枝刈りできる。OPT-175B等で試し、60%削減した。SparseGPTというアルゴリズムで、層ごとに重みWの行列を圧縮するようなもの。ヘシアンの逆行列を使う。 Superposition, Memorization, and Double Descent Tom Henighan∗, Shan Carter∗, Tristan Hume∗, Nelson Elhage∗, Robert Lasenby, Stanislav Fort, Nicholas Schiefer, Christopher Olah‡ 2022 オーバーフィットしているときはデータポイントを貯める。汎化のときは素性を貯める。スーパーポジションは、ニューロンよりも多くの素性を表すこと。 --- 記憶することは、単一データ点特徴量として理解できる。 小さなデータの領域では、記憶する。 大きなデータの領域では、一般化する。 Prototypical networks for few-shot learning. Jake Snell, Kevin Swersky, Richard S. Zemel 2017 U. Toronto, Twitter, U. Toronto fewショット学習のための、典型的なネットワーク。クラスごとに少ない数のサンプルしかなくても学習する。プロトタイプ表現からの距離で分類を行うための、測度空間を学習する。 引用が500以上。 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding 2022 Elucidating the Design Space of Diffusion-Based Generative Models 2022 ProcTHOR: Large-Scale Embodied AI Using Procedural Generation 2022 Using Natural Language and Program Abstractions to Instill Human Inductive Biases in Machines 2022 LAION-5B: An open large-scale dataset for training next generation image-text models 2022 MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge 2022 An empirical analysis of compute-optimal large language model training 2022 Beyond neural scaling laws: beating power law scaling via data pruning 2022 Finetuned T5 for Web Navigation 2022 Transformers Learn Shortcuts to Automata Unveiling Transformers with LEGO: a synthetic reasoning task Training language models to follow instructions with human feedback Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe 2022 OpenAI 大規模言語モデルをユーザのフィードバックでチューニングする。ラベラーが書いたプロンプトからスタートし、望ましいモデルの挙動となるラベラーのデモンストレーションのデータセットを集める。それを使ってGPT-3を教師あり学習でファインチューンする。人間のフィードバックによって、モデルの出力のランキングのデータセットを作り、それを使った強化学習によって、さらにファインチューンする。InstructGPTと呼ぶ。1.3BパラメータのInstructGPTは、175BのGPT-3よりも出力が好ましい。 The Forward-Forward Algorithm: Some Preliminary Investigations Geoffrey Hinton 2022 Google Brain 誤差逆伝播の前向き、後ろ向きの2つのパスを、2つの前向きのパスで置き換える。1つは、正例(あるいは真のデータ)、もうひとつは負例(ネットワーク自体で生成したもの)である。各層がそれぞれに目的関数を持っており、正例には高い良さを、負例には低い良さとなるようにする。(誤差逆伝播の限界のひとつとして、ブラックボックスをなかに入れると誤差逆伝播ができないことが挙げられている。) Is Conditional Generative Modeling all you need for Decision-Making? Anurag Ajay, Yilun Du, Abhi Gupta, Joshua Tenenbaum, Tommi Jaakkola, Pulkit Agrawal 2022 Improbable AI Lab, MIT RLではなく、条件付き生成モデル(拡散モデル)の観点から、意思決定をとらえる。既存のオフラインRLよりも良い性能を出す。制約やスキルに関しても議論。 Video Diffusion Models Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David J. Fleet 2022 Google 3D-UNetによる生成。1秒24フレームで16フレーム程度。最後に少しだけ、再構成ガイダンス法というのでより長い動画の生成もトライしている。 The Perceiver Architecture is a Functional Global Workspace 2022 A ConvNet for the 2020s 2022 Hyper-Representations as Generative Models: Sampling Unseen Neural Network Weights 2022 Liquid Time-constant Networks Building Transformers from Neurons and Astrocytes Leo Kozachkova, Ksenia V. Kastanenkac, Dmitry Krotov PNAS 2023 MIT, IBM グリア細胞のひとつのアストロサイトは、学習や記憶などのコアの認知プロセスに直接関わっている。アストロサイトとニューロンは、多くの時間尺度や空間尺度で、おたがいにフィードバックループを形成しているが、この相互作用の計算論的な役割は十分に理解されていない。本稿では、このニューロン-アストロサイトが、トランスフォーマーの計算をしていることを示す。 Large Language Models Can Self-Improve DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics Training Neural Networks with Local Error Signals Transformers are Sample Efficient World Models Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning ViViT: A Video Vision Transformer Video Transformers: A Survey Multimodal Learning with Transformers: A Survey Peng Xu, Xiatian Zhu, David A. Clifton 2022 Tsinghua U., U. of Surrey, U. of Oxford マルチモーダルトランスフォーマーについて。バニラトランスフォーマー、ビジョントランスフォーマー、マルチモーダルトランスフォーマー。アプリケーションについて、課題について。課題は、フュージョン、アラインメント、転移、効率、ロバストネス、普遍性、解釈性など。 When BERT Plays the Lottery, All Tickets Are Winning EMNLP 2020 GLaM: Efficient Scaling of Language Models with Mixture-of-Experts Nan Du, et al. ICML2022 Google GLaM(ジェネラリスト言語モデル)を提案し、疎に活性化された混合エキスパートのアーキテクチャを提案する。最も大きなGLaMは1.2兆パラメータで、GPT-3の半分の計算しか必要とせず、29のタスクでGPT-3を上回る。MoEレイヤーが、Transformerレイヤーと交互になっており、FFNではなく、ゲートを通したあと、64個あるFFNのうちの2つを選ぶようになっている。 Transformer Quality in Linear Time Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le ICML2022 Cornell U., Google Brain Transformerを修正したFLASHというモデルを提案。ゲートアテンションユニットを導入。線形近似のレイヤーを加える。GPUに向いており速い。 Wide Neural Networks Forget Less Catastrophically Seyed Iman Mirzadeh, Arslan Chaudhry, Dong Yin, Huiyi Hu, Razvan Pascanu, Dilan Gorur, Mehrdad Farajtabar ICML2022 DeepMind 以前の研究は継続学習で分布シフトに対してロバストにすることで、破滅的忘却を回避するものだった。ここで、ネットワークの「幅」の効果を調べる。幅が大きくなると、忘却を軽減することができる。 Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents Wenlong Huang, Pieter Abbeel, Deepak Pathak, Igor Mordatch ICML 2022 UCB, CMU, Google 大規模言語モデルを相互作用のある環境で。 タスクを、中間レベルのプランに落とせることを示す。ところが、このプランは許容可能なアクションになっていないことがある。そこで、既存のデモンストレーションに条件づけ、また、許容可能なアクションに翻訳する手法を提案する。VirtualHome環境で実験する。 Data-Efficient Double-Win Lottery Tickets from Robust Pre-training Tianlong Chen, Zhenyu Zhang, Sijia Liu, Yang Zhang, Shiyu Chang, Zhangyang Wang ICML 2022 U. Texas Austin, Michigan State, MIT-IBM Watson AI Lab, UC Santa Barbara 学習されたLTを、転移する。その際に、普通に転移する方法と、敵対的に転移する方法を提案する。 Adversarial Masking for Self-Supervised Learning Yuge Shi, N. Siddharth, Philip H.S. Torr, Adam R. Kosiorek ICML 2022 U. Oxford, U. Edinburgh, DeepMind ADIOS:自己教師あり学習のためのマスクされた画像モデリングフレームワークを提案する。マスク関数と画像のエンコーディングを、敵対的な目的関数で学習する。 Unsupervised Image Representation Learning with Deep Latent Particles Winning the Lottery Ahead of Time: Efficient Early Network Pruning John Rachwan, Daniel Zügner, Bertrand Charpentier, Simon Geisler, Morgane Ayle, Stephan Günnemann ICML 2022 Tech U. Munich, Germany 通常のプルーニングは、計算コストが高く、GPUメモリの恩恵に預かりにくい。ここでは、勾配フロー保存による早期圧縮(EarlyCroP)を提案。GPUで訓練しやすく、コストを減らすことができる。 PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance A Study on the Ramanujan Graph Property of Winning Lottery Tickets Bithika Pal, Arindam Biswas, Sudeshna Kolay, Pabitra Mitra, Biswajit Basu ICML 2022 IIT Kharagpur, U. Copenhagen, Trinity College Dubin 当たりくじは、ラマヌジャングラフの性質を備えていることを観察した。そして、ラマヌジャングラフの性質を保存しながら各層をプルーニングすることで、頑健な当たりくじを見つけられることを示す。 ラマヌジャングラフは正則なグラフで、スペクトルギャップが極大のもの。 Universality of Winning Tickets: A Renormalization Group Perspective William T. Redman, Tianlong Chen, Zhangyang Wang, Akshunna S. Dogra ICML 2022 UC Santa Barbara, U. Texas Austin, Imperial College London 当たりくじは、別の類似タスクにも転移でき、また異なるアーキテクチャでも転移できる。しかし、この万能性を調べる方法がなかった。ここでは、くりこみ群理論を用いて、これに取り組む。反復的な量によるプルーニングは、くりこみ群のスキームに該当し、パラメータ空間のフローをもたらすと見ることができる。ResNet-50とBERTで評価し、理論通りの結果。 Denoised MDPs: Learning World Models Better Than the World Itself Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian ICML 2022 MIT CSAIL, U. Washington, UCB, Meta AI 重要な情報を、操作可能か、報酬に関連すると定義する。これによって、重要な情報をノイズから見分けることができる。DeepMind Control SuiteやRoboDeskでの強化学習でよい性能。 On the Difficulty of Defending Self-Supervised Learning against Model Extraction Sparse Double Descent: Where Network Pruning Aggravates Overfitting Zheng He, Zeke Xie, Quanzhi Zhu, Zengchang Qin ICML 2022 Beihan U., U. Tokyo, RIKEN ネットワークをプルーニングすると、モデルの容量を減らして過剰適合を減らすと思われていたが、そうではなく、プルーニングがときには過剰適合をもたらすことを示す。横軸に疎な度合いをとった場合にも、二重降下現象を見られることを報告する。 Training Your Sparse Neural Network Better with Any Mask Ajay Jaiswal, Haoyu Ma, Tianlong Chen, Ying Ding, Zhangyang Wang ICML 2022 U. Texas Austin, UC Irvine プルーニングされたサブネットワークに対しての訓練を改善する、つまり疎なトレーニングを提案する。 Decomposing Temporal High-Order Interactions via Latent ODEs Shibo Li, Robert Kirby, Shandian Zhe ICML 2022 U. Utah 複数物体の高次元の相互作用は現実世界によくある。テンソル分解がよく使われるが、タイムスタンプの情報を利用できない。ここでは、時間の変化する相互作用の結果を、潜在ODEでモデル化する。ODEの時間微分を学習するのにNNを用いる。 Benefits of Overparameterized Convolutional Residual Networks: Function Approximation under Smoothness Constraint Hao Liu, Minshuo Chen, Siawpeng Er, Wenjing Liao, Tong Zhang, Tuo Zhao ICML 2022 Hong Kong Baptist U., Georgia Tech, Hong Kong U. of Sci and Tech, Google 大きなConvResNetは、ターゲットファンクションを禁じできるだけでなく、十分な一次のスムーズネスを持つことを示す。 Neuroscience Cloud Analysis As a Service: An open-source platform for scalable, reproducible data analysis Taiga Abe et al. Neuron Columbia U. ニューロサイエンスのコミュニティに、最先端のデータ分析のツールを提供する、自動化された分析プラットフォーム。オープンソースで、ドラッグアンドドロップのインタフェース。 Intuitive physics learning in a deep-learning model inspired by developmental psychology Forget-free Continual Learning with Winning Subnetworks Haeyong Kang, Rusty John Lloyd Mina, Sultan Rizky Hikmawan Madjid, Jaehong Yoon, Mark Hasegawa-Johnson, Sung Ju Hwang, Chang D. Yoo ICML 2022 KAIST, U. Illinois Urbana-Champaign ウィニングサブネットワーク(WSN)とよぶ継続学習を提案する。タスクごとに、最適なサブネットワークを学習し、選択する。WSNはモデルの重みと、タスク適応なバイナリーのマスクを同時に学習する。 Estimating Counterfactual Outcomes Principal Component Flows How to Train Your Wide Neural Network Without Backprop: An Input-Weight Alignment Perspective Akhilan Boopathy, Ila Fiete ICML 2022 MIT ニューラルタンジェントカーネルを発展させ、勾配降下は、エラーによって重み付けられた入力の活動の相関とアラインするような層ごとの重みのアップデートをもたらすことを示す。これは、幅が広いネットワークにも当てはまる。この結果は、生物的に動機づけられた、誤差逆伝搬のない学習ルールを可能にする。 Neural Tangent Kernel: Convergence and Generalization in Neural Networks Arthur Jacot, Franck Gabriel, Clément Hongler 2018 EPF Lausanne, Imperial College London 学習中のNNの進展が、カーネルを使って記述できることを示す。パラネータの勾配降下の際に、ネットワークの関数は、ニューラルタンジェントカーネルと呼ぶ、関数のコストのカーネル勾配に従う。 On Measuring Causal Contributions via do-interventions Neuron Dependency Graphs: A Causal Abstraction of Neural Networks Time Is MattEr: Temporal Self-supervision for Video Transformers Sukmin Yun, Jaehyung Kim, Dongyoon Han, Hwanjun Song, Jung-Woo Ha, Jinwoo Shin ICML 2022 KAIST, NAVER ビデオトランスフォーマは、長い依存関係が扱えるが、それでも空間的なダイナミクスに偏っている。本論文では、時間的なダイナミクスをより良く学習できるモデルを提案する。特に、ランダムにシャッフルされたビデオフレームの時間的な順序を直すような自己教師あり学習を行う。 Self-conditioning Pre-Trained Language Models Xavier Suau, Luca Zappella, Nicholas Apostoloff ICML 2022 Apple ヒントンのエキスパートの積のように、大規模言語モデルには、エキスパートのユニットが存在することを述べる。どのように大規模言語モデルのなかのエキスパートユニットを同定するか、またどのように推論時にアクティベートするかを述べる。驚くほど少ない数のユニットで、テキストの生成ができる。ジェンダーバイアスを取ることもできる。 Variational Feature Pyramid Networks Panagiotis Dimitrakopoulos, Giorgos Sfikas, Christophoros Nikou ICML 2022 U. of Ioannina, Greece, U. of West Attica, National Center for Scientific Research Demokritos 最近のアーキテクチャでは、物体検出に素性ピラミッドネットワークを使うことが多い。ここでは、データセットに特有のアーキテクチャを学習する。ネットワークは、複数のスケールで素性を融合し、多くのタスクに良い結果を出す。複雑なネットワークから始め、冗長なコネクションを変分推論でプルーニングしていく。 DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototypical Representations HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization? Prompting Decision Transformer for Few-Shot Policy Generalization A deep convolutional neural network that is invariant to time rescaling Brandon G Jacques, Zoran Tiganj, Aakash Sarkar, Marc Howard, Per Sederberg ICML 2022 U. Virginia, Indiana U., Boston U. 人間は速い歌も遅い歌も理解できる。スケール不偏の時間履歴畳み込みを提案する。τで調整。 Directed Acyclic Transformer for Non-Autoregressive Machine Translation Co-training Improves Prompt-based Learning for Large Language Models Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets Tianlong Chen, Xuxi Chen, Xiaolong Ma, Yanzhi Wang, Zhangyang Wang ICML 2022 U. Texas Austin, Northeastern U. 当たりくじは、反復的な量のプルーニングで行われるが、構造的でない形で疎になり、ハードウェアとの相性が悪い。一回ごとに後処理をすることで、ハードウェアのアクセラレーションが可能にする。 Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling Controlling Conditional Language Models without Catastrophic Forgetting Online Decision Transformer Qinqing Zheng, Amy Zhang, Aditya Grover ICML 2022 Meta AI Research, UCB, UCLA オンラインディシジョントランスフォーマという、オフラインの事前学習とオンラインのファインチューニングを混ぜたRLのアルゴリズムを提案する。 Decision Transformer: Reinforcement Learning via Sequence Modeling Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch 2021 UCB, FAIR, Google Brain 報酬R、状態s、アクションaを入れて、aを出すトランスフォーマ。 Measuring Representational Robustness of Neural Networks Through Shared Invariances Toward Compositional Generalization in Object-Oriented World Modeling Do Differentiable Simulators Give Better Policy Gradients? The Unsurprising Effectiveness of Pre-Trained Vision Models for Control Causal Dynamics Learning for Task-Independent State Abstraction Planning with Diffusion for Flexible Behavior Synthesis Minimum Cost Intervention Design for Causal Effect Identification data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli ICML 2022 Meta AI, SambaNova 自己教師あり学習を、スピーチ、NLP、ビジョンなどのどれにでも使えるようなフレームワークであるdata2vecを提案する。トランスフォーマで、自己蒸留の形で、入力の潜在表現を、マスクされた入力のビューに基づいて予測する。単語や視覚的トークンではなく、data2vecは文脈化された潜在表現を予測する。 Unified Scaling Laws for Routed Language Models Head2Toe: Utilizing Intermediate Representations for Better Transfer Learning Utku Evci, Vincent Dumoulin, Hugo Larochelle, Michael Curtis Mozer ICML 2022 Google Brain 中間層をつかって線形プロービングする方法(Head2Toe)を提案。通常、線形プロービングよりファインチューニングがいいということは、中間層にも重要案情報が含まれているはずなので。Head2Toeは、ファインチューニングに匹敵する性能であり、分布外では上回る。 Fully body visual self-modeling of robot morphologies Chain of Thought Prompting Elicits Reasoning in Large Language Models Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou 2022 Google Brain 思考の鎖のプロンプト。数学、常識、記号推論のタスクで性能が向上。 Self-Consistency Improves Chain of Thought Reasoning in Language Models Show Your Work: Scratchpads for Intermediate Computation with Language Models Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, Augustus Odena 2021 MIT, Google 大規模言語モデルは、「ワンパス」でできるタスクに驚くほどの性能を発揮する。例えば、文を生成したり、コンピュータプログラムを生成するなど。しかし、整数を足す、プログラムを実行するなどの、マルチステップの計算は苦手である。しかし、ステップバイステップで、途中の計算を見せるように頼むと、うまくいく。途中の計算をスクラッチパッドに出すようにトランスフォーマを訓練する。(普通の教師あり学習。) Solving Quantitative Reasoning Problems with Language Models LaMDA: Language Models for Dialog Applications Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le 2022 Google 対話の応用のための言語モデル。1370億パラメータ。1.56兆語。安全で、事実に基づくものにするために、アノテーションされたデータによるファインチューニングと、外部知識を参照できるようにした。それによって、害のある提案や不公平なバイアスを防止する。外部知識は、検索システム、言語翻訳、計算機など。 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks Megatron-Turing NLG 2021 Evaluating Large Language Models Trained on Code Webly Supervised Concept Expansion for General Purpose Vision Models General-purpose, long-context autoregressive modeling with Perceiver AR Machine Learning Operations (MLOps): Overview, Definition, and Architecture Visual Prompt Tuning Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim 2022 Cornel U., Meta AI, U. Copenhagen ビジョントランスフォーマで、ダウンストリームタスクに対して、全部をファインチューニングせずに、効率的で効果的な方法を提案する。1%のモデルパラメータだけを訓練可能とし、モデルのバックボーンは凍結しておく。ときにはフルのファインチューニングを上回ることも。 Training Compute-Optimal Large Language Models Masked-attention Mask Transformer for Universal Image Segmentation AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control A User's Guide to Calibrating Robotics Simulators Quantifying the Reality Gap in Robotic Manipulation Tasks Towards artificial general intelligence via a multimodal foundation model Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, Hao Sun & Ji-Rong Wen Nature Communications, 2022 Renmin U. of China 大規模なマルチモーダルな基盤モデルBriVLを開発した。OpenAIのCLIPとかGoogleのALIGNに近い。 AGIに近づいていると思っていると書かれている。 Heavy-tailed neuronal connectivity arises from Hebbian self-organization Factory: Fast Contact for Robotic Assembly Towards Understanding Grokking: An Effective Theory of Representation Learning Ziming Liu, Ouail Kitouni, Niklas Nolte, Eric J. Michaud, Max Tegmark, Mike Williams 2022 MIT グロッキングは、記憶と理解の間にあるフェーズである。 4つの学習フェーズ:理解←グロッキング←記憶←混同。表現学習は、理解とグロッキングというちょうどよい場所でしか起こらない。 Disentangling Visual Embeddings for Attributes and Objects Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language Learning by Directional Gradient Descent David Silver, Anirudh Goyal, Ivo Danihelka, Matteo Hessel, Hado van Hasselt 2022 Oxford U. etc. 誤差逆伝播は、前向きモードを含む自動微分アルゴリズムの特別なケースのひとつ。ここでは、一方向だけの導関数を用いて、効率的に前向きモードを計算する方法を提案する。この式を、前向き勾配と予備、誤差逆伝播は不要となる。 Gradients without Backpropagation Atılım Güneş Baydin, Barak A. Pearlmutter, Don Syme, Frank Wood, Philip Torr 2022 U. Oxford, National U. of Ireland Maynooth, Microsoft, UBC 誤差逆伝播、あるいは逆モード微分は、自動微分アルゴリズムの族の特殊な形である。ここでは、前向きの勾配だけを用いる。誤差逆伝搬は必要ない。計算を節約し、ときには2倍速い。 パーチュベーションをサンプリングし、現時点の勾配方向に、パラメータを更新する。 Efficient Language Modeling with Sparse all-MLP Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong, Ves Stoyanov, Xian Li 2022 SUNY Buffalo, Meta AI sMLPの提案。gMLPは、トランスフォーマーに言語モデリングで匹敵するが、ダウンストリームのタスクでは負けていた。ここでは、MLPの表現の限界を分析し、混合エキスパートによる疎に活性化されたMLPを提案する。トランスフォーマーに基づく混合エキスパートや、密なトランスフォーマ、全MLPよりも2倍ほどのパープレクシティの改善が見られた。混合エキスパートは異なるFFNをルータで選択するような構造。 Feature Learning in Infinite-Width Neural Networks Greg Yang, Edward J. Hu 2020 Microsoft Research AI, Microsoft Azure AI NTK(ニューラルタンジェントカーネル)パラメタライゼーションのニューラルネットワークは、特徴を学習する無限の幅の制限に該当しないので、これを解決する。 Natural and Artificial Intelligence: A brief introduction to the interplay between AI and neuroscience research 2021 Masked Autoencoders Are Scalable Vision Learners Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick 2021 FAIR マスクオートエンコーダは、コンピュータビジョンのためのスケールする自己教師あり学習であることを示す。入力イメージのランダムなパッチをマスクし、そのピクセルを再構成する。非対称なエンコーダ・デコーダのアーキテクチャを使う。ViT。(エンコーダはマスクのところは使わない。)大きな割合(例えば75%)のマスクをすると、意味のある自己教師ありのタスクになる。 Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin, Vedant Misra 2022 OpenAI, Google グロッキング(直訳すると意味を捉える、直感的に理解する)という現象が起こる。過剰適合の点を大きく過ぎたあたりで、汎化性能が大きく上がることが発生する。小さいデータセットでは、汎化のための最適化がより大量に必要。二重降下と同じような現象。x^2+xy+y^2+x mod 97のようなトイデータを作って実験している。重み減衰は重要(たぶん探索的に当たりくじ見つけるため。)過剰適合の場合よりも当たりくじみつけたほうがコストが低い設定になっているとそのうち見つけるということか。 Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan 2022 DeepMind Few-shot学習の視覚言語モデル。800億パラメータ。フラミンゴの写真をみて、「フラミンゴ。カリブ諸島や南アメリカで見られます」などと返す。16個のタスクの中の6個でSOTA。 Memorizing Transformers Yuhuai Wu, Markus N. Rabe, DeLesley Hutchins, Christian Szegedy 2022 Google 言語モデルに、推論時に読み書きできるメモリを入れる。最近のキー・バリューペアへの(微分不可能な)メモリのkNNルックアップによって、いくつかのテスト(ウェブテキスト、数学論文、本、コード、定理など)で言語モデルの性能が向上する。メモリの大きさを増やしていくと、262Kトークンまで性能が改善する。 Scaling Vision Transformers, Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer 2021 Google Research トランスフォーマ言語モデルのスケール則は知られているが、ViTでは知られていない。それを調べる。 20億パラメータまで増やした結果、ImageNetのtop-1で90.45%。数ショット学習でもうまくいく。計算能力とデータセット、モデルサイズでスケール則らしきものが観察されている。(計算能力は最後少しサチってきているようにも見える。) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 2020, ICLR 2021 Knowledge distillation: A good teacher is patient and consistent 2021 Generative Modeling by Estimating Gradients of the Data Distribution 2019 Score-Based Generative Modeling through Stochastic Differential Equations 2020 How to Train Your Energy-Based Models 2021 PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel 2022 Google Research 5400億のトランスフォーマの言語モデル。PaLM(パスウェイ言語モデル)。6144 TPUを使ってPathways上で学習させた。高品質なテキストの7800億トークン。 多くのベンチマークタスクで非連続な改善がある。 ジョークを説明するとか、論理的な推論を説明するとか。(思考の連鎖プロンプティング) 150以上の新しい言語理解と生成タスクのBIG-benchで最高性能。だいたい指数法則に従う精度向上になっているが、なかには大きく改善しているものも。 - SwiGLU活性化を使っている(Swish(xW)・xV)。Swish関数+ゲートを使ったもの。ReLUとかGeLuとかSwish自体より良い。 - トランスフォーマブロックの中のMLPとアテンションを、直列ではなく並列にしている。ちょっとだけ精度悪くなるが高速化できる。 - マルチクエリーアテンション。キーとバリューは共有されるがクエリーはされない。 - RoPE埋め込み。位置埋め込みに関して。回転行列を使ったもの。 - 入力出力埋め込みを共有。 - バイアスは使わない。 - 語彙として256kのトークン。 Pathways: Asynchronous Distributed Dataflow for ML Paul Barham, Aakanksha Chowdhery, Jeff Dean, Sanjay Ghemawat, Steven Hand, Dan Hurt, Michael Isard, Hyeontaek Lim, Ruoming Pang, Sudip Roy, Brennan Saeta, Parker Schuh, Ryan Sepassi, Laurent El Shafey, Chandramohan A. Thekkath, Yonghui Wu 2022 Google 数千のアクセラレータ上で、さまざまな並列計算が効率的に動く、非対称の共有されたデータフローグラフを用いたML研究のためのシステム。 The Lottery Ticket Hypothesis for Pre-trained BERT Networks Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Zhangyang Wang, Michael Carbin NeurIPS 2020 U. Texas Austin, MIT CSAIL, MIT-IBM Watson AI Lab 事前学習したBERTのモデルで、学習可能で転移可能なサブネットワークが存在する。40%から90%疎なものを見つけた。 BERTとかのモデルの特徴に関係なく、パラメータごとに対応するマスクを設定し、重みの低いものを消してトレーニングというのを繰り返す。(反復重み枝刈り、IMP) 当たりくじは他のタスクにも転移可能。 Theory of consciousness Anil K. Seth, Tim Bayne Nature Reviews, Neuroscience 2022 U. Sussex (UK), CIFAR (Canada), Monash U. (Australia) 意識に関して4つの理論的アプローチを紹介する。高次理論、グローバルワークスペース理論、再入と予測プロセス理論、そして、統合情報理論。全体のサーベイとしては便利。 Learning to be conscious Axel Cleeremans, Dalila Achoui, Arnaud Beauny, Lars Keuninckx, Jean-Remy Martin, Santiago Muñoz-Moldes, Laurène Vuillaume, and Adélaïde de Heering 2020 Université libre de Bruxelles, Belgium 意識は、自己組織的なメタ表現の説明であるという仮説。グローバルワークスペースとも結びつけている。(他に比べると)比較的良い理論。 OPT: Open Pre-trained Transformer Language Models Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer 2022 Meta AI オープンな事前学習トランスフォーマ。1億2500万パラメータから、1750億パラメータまでで、興味がある研究者には使える。GPT-3と同程度の性能で、1/7の炭素しか必要としない。 Comparing Rewinding and Fine-tuning in Neural Network Pruning A. Renda, J. Frankle, & M.Carbin 2020 MIT 学習率巻き戻しを提案。Frankleらの重み巻き戻しは、重みを初期の時期のものに巻戻し、オリジナルの学習スケジュールを使うものであったが、この手法は、重みを最後の値にして、重み巻き戻しと同じ学習スケジュールを使う。(要するに学習率だけ巻き戻す。)これでも、従来のファインチューンよりもだいぶ良い性能になる。 Deconstructing lottery tickets: Zeros, signs, and the supermask Zhou, Lan, Liu, & Yosinski 2019 UberAI SLTH論文のひとつ。スーパーマスクの存在を示す。学習されていない、ランダムに初期化されたネットワークへのマスクで、偶然よりもだいぶ良いモデル(MNISTで86%、CIFAR-10で41%)。また、3つの要素について調べている。マスクの基準、巻き戻すかどうか、マスクしたものの重みを0にしてフリーズさせるか。 Signing the Supermask: Keep, Hide, Invert Nils Koster, Oliver Grothe, Achim Rettinger 2022 Karlsruhe I. of T., Trier U. SLTH論文。重みを落とすか、反転させるか。要するにマスクが取る値が1, 0, -1のいずれか。99%のプルーニングで同程度の精度らしい。あとは、Zhou19と同じ。自由度が高いので当然ではあるが、設定としては微妙。 Prospect Pruning: Finding Trainable Weights at Initialization using Meta-Gradients Milad Alizadeh, Shyam A. Tailor, Luisa M Zintgraf, Joost van Amersfoort, Sebastian Farquhar, Nicholas Donald Lane, Yarin Gal ICLR2022 U. Oxford, U. Cambridge, Samsung AI Center WLTH論文。初期化時に枝を刈り取るのは効率的だが、精度がだいぶ悪くなる。これまでのように、初期の1ステップを顕現性の基準で見て、ネットワークの訓練可能性を考慮しないという限界を突破する手法を提案。Prospect Pruningと呼ぶこの手法は、最初のいくつかの最適化のステップのメタ勾配を使って、どの重みを刈り取るかを決める。勾配の勾配をメタ勾配と呼んでいる。 On the Existence of Universal Lottery Tickets Rebekka Burkholz, Nilanjana Laha, Rajarshi Mukherjee, Alkis Gotovos ICLR2022 CISPA Helmholtz Center for Information Security, Harvard TH Chan School, MIT 宝くじがさまざまなタスクに使えることが実験的に示されている。ここでは、このような万能チケットが存在すること、そしてさらなる訓練を必要としないことを示す。重要な論文。 最終層は学習する。単変量の関数の線形な組み合わせで多変量の関数を記述できるというコルモゴロフーアーノルド表現定理を使って説明。 One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers Ari S. Morcos, Haonan Yu, Michela Paganini, Yuandong Tian NeurIPS 2019 FAIR ある設定(最適化とデータセット)で得られた宝くじが、他の設定にも有効であり、それらの設定での宝くじと同等に有効であることを示す。Fashion MNIST, SVHN, CIFAR-10/100, ImageNet, Places365で実験。 Long Live the Lottery: The Existence of Winning Tickets in Lifelong Learning Tianlong Chen, Zhenyu Zhang, Sijia Liu, Shiyu Chang, Zhangyang Wang ICLR 2021 U. Texas at Austin, U. of Science and Technology of China, Michigan State U., MIT-IBM Watson AI Lab 非常にコンパクトで独立なサブネットワークが、生涯学習のシナリオでも存在することを示す。 (i) さまざまなタスクが時系列で入力される生涯学習のシナリオ(ここではクラス増加学習CIL)で、どのように貪欲的な枝刈りで宝くじを見つけるのか、また (ii) 生涯学習は、破滅的忘却にさらされやすいが、コンパクトなネットワークの容量のチケットはこのリスクを増大させるかもしれないということが工夫のポイントである。 反復的大きさ枝刈り(IMP)はうまくいかない。早く枝刈りをしてしまうことはトレードオフが存在する。ボトムアップ生涯枝刈りアプローチを提案し、モデル容量を再び増やして、過度な枝刈りに対応する。 Multi-Prize Lottery Ticket Hypothesis: Finding Accurate Binary Neural Networks by Pruning A Randomly Weighted Network James Diffenderfer, Bhavya Kailkhura ICLR 2021 Lawrence Livermore National Lab. WLTH。複数賞の宝くじ仮説:(a) 密なターゲットネットワークと同じような精度をもつサブネットワークが存在し、(b) それはさらなる学習を必要とせず、(c) 重みの量子化に対してもロバストである。 Audio Lottery: Speech Recognition Made Ultra-Lightweight, Noise-Robust, and Transferable Shaojin Ding, Tianlong Chen, Zhangyang Wang ICLR 2022 Texas A&M U., U. of Texas Austin 軽い音声認識のために、宝くじ仮説を利用し、ノイズに頑健であること、実世界の個人化に転移できること、構造的な疎性と同型であることを満たすモデルを提案する。 宝くじ仮説を、CNN-LSTN、RNNN-Transducer、Conformerなどに適用している。 Peek-a-Boo: What (More) is Disguised in a Randomly Weighted Neural Network, and How to Find It Efficiently Xiaohan Chen, Jason Zhang, Zhangyang Wang ICLR 2022 U. Texas at Austin, CMU 変装したサブネットワークは、重みをフリップして(1, -1)損失を減らすように学習する。 On Lottery Tickets and Minimal Task Representations in Deep Reinforcement Learning Marc Aurel Vischer, Robert Tjarko Lange, Henning Sprekeler ICLR 2022 Tech U. Berlin 強化学習に固有の分布シフトによって、当たりくじのパフォーマンスがどう変わるか。そのために、開発と探索の問題を解かないといけないエージェントと、専門家を真似するエージェントを比較する。後者のほうが、精度の現象なしに大きく枝刈りできる。 つまり、RLに特有の分布シフトの問題を得には、もっと自由度が必要である。宝くじ効果は、重みの初期値よりもマスクの同定に帰着され、入力層のマスクは、タスクに関係ない入力の次元を枝刈りする。そして、マスクによって、タスクに最小限必要な表現を見つけ出す。 最後に、簡単な初期値のリスケーリングを提案する。 Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP Haonan Yu, Sergey Edunov, Yuandong Tian, and Ari S Morcos 2019 FAIR 画像に対しての教師あり学習だけでなく、NLP(LSTMとトランスフォーマ)、強化学習(古典的/ピクセルコントロール)に宝くじ仮説が成り立つかを検証。いずれも、1/3のモデルサイズでほぼ同じパフォーマンスを達成できる。 反復的に重み除去と訓練を繰り返す。 Dual Lottery Ticket Hypothesis Yue Bai, Huan Wang, Zhiqiang Tao, Kunpeng Li, Yun Fu ICLR 2022 Northeastern U., Santa Clara U., Meta Research ランダムに初期化されたネットワークから、ランダムに抽出したサブネットワークは、訓練可能な条件に変換でき、LTHと同程度のパフォーマンスを達成することができる。ランダムが2重なので、2重宝くじ仮説。 正則化を工夫して初期値からマスクを学習し、重みを学習する。 Plant \'n\' Seek: Can You Find the Winning Ticket? Jonas Fischer, Rebekka Burkholz ICLR2022 Max Planck, CISPA Helmholtz Center for Information Security (Germany) 宝くじ仮説で精度が上がりきらないのは、プルーニング手法の一般的な限界か、アルゴリズムの問題か?もし、とても疎なチケットが存在するとしたら、現在のアルゴリズムは見つけられるのか、それともさらなる改善が必要火。これを検証する。 比較しているのは、弱いLTH手法としては、ランダム、大きさ、GraSP(Wang), SNIP, Synflow, EDGE-POPUP。Heの初期化でノンゼロのバイアス。 強いLTH手法としては、EDGE-POPUP、Zhou19。 強いLTH手法は割と良い。弱いLTH手法はどれも同じようなもの。(SYNFLOWが多少良いかも。) いずれにしても、疎に刈り取った場合は、埋め込んだ宝くじを見つけ出しておらず、アルゴリズムの改善の余地があることが分かる。 Pruning from scratch Yulong Wang, Xiaolu Zhang, Lingxi Xie, Jun Zhou, Hang Su, Bo Zhang, and Xiaolin Hu AAAI2020 Tsinghua U., Ant Financial, Huawei Noah's Ark Lab オーバーパラメタライゼーションのネットワークを最初に訓練する必要はない。 オーバーパラメタライゼーションの、ランダムに初期化したネットワークに対して、ネットワークスリミングと同じ方法を用いて、各層にスカラーのゲート値を付与することでチャネルの重要性を学習する。勾配法を用いて、チェネル数の最適化をする。しきい値よりも低いチャネルは削除する。 Picking winning tickets before training by preserving gradient flow C. Wang, G. Zhang, R. Grosse ICLR2020 SNIP: Single-shot network pruning based on connection sensitivity N. Lee, T. Ajanthan, P. Torr ICLR2019 U. Oxford エッジのマスクのようなものcが損失に対してもつ勾配を使って、学習前に枝刈りをする。結果を見ると、重みの大きさやヘシアンを使うものよりは多少良いが、SVDとかで重みをまとめるものとは同じくらい。単純で分かりやすい方法。 Pruning neural networks without any data by iteratively conserving synaptic flow Hidenori Tanaka, Daniel Kunin, Daniel Yamins, Surya Ganguli NeurIPS 2020 NTT Research, Stanford SynFlowを提案。反復的シナプスフロー枝刈り。 疎性の制約のなかで、初期状態におけるシナプスの強さの全体の流れを維持する。訓練データを必要としないし、最新の初期化アルゴリズムよりも良い。 Towards strong pruning for lottery tickets with non-zero biases Jonas Fischer and Rebekka Burkholz 2021 Pruning neural networks at initialization: Why are we missing the mark? ICLR2021 Good Subnetworks Provably Exist: Pruning via Greedy Forward Selection Mao Ye, Chengyue Gong, Lizhen Nie, Denny Zhou, Adam Klivans, Qiang Liu 2020 Revisit Kernel Pruning with Lottery Regulated Grouped Convolutions Shaochen (Henry) Zhong · Guanqun Zhang · Ningjia Huang · Shuai Xu 2022 Nankai U. 構造的な枝刈りの方法は、普通はフィルターか層レベルで枝刈りをする。ここでは、カーネル枝刈りを行う。3Dフィルターから、k×kのフィルタのいくつかを消す。フィルターをクラスタリングする。 Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen 2022 OpenAI DALL·E2。イメージの生成に、ディフュージョンモデルを用いている。あとCLIPを使うのは同じ。 unCLIPというよぶシステムで、テキストの埋め込みから画像の埋め込みへのプライアとして機能する。 GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 2021 Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal, Alex Nichol 2021 OpenAI ディフュージョンモデルを使ってきれいな絵を描く。モデルは、アテンションつきのUnet。 Denoising Diffusion Probabilistic Models Jonathan Ho, Ajay Jain, and Pieter Abbeel 2020 UCB DDPM。初めてディフュージョンモデルできれいに描いた。ディフュージョンモデルと、ランジュバン力学のノイズ除去スコアマッチングを組み合わせた、変分下界で訓練する。UNetを使う。 Classifier-Free Diffusion Guidance 2021 Barlow Twins: Self-Supervised Learning via Redundancy Reduction Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, Stéphane Deny 2021 What’s Hidden in a Randomly Weighted Neural Network? Vivek Ramanujan, Mitchell Wortsman, Aniruddha Kembhavi, Ali Farhadi, Mohammad Rastegari CVPR 2020 AI2, U. Washington SLTH論文。初期値のままでサブネットワークを見つける。エッジポップアップスコアというのを使って、それを勾配法を使って解く。ScaledなKaiming Normalが初期化の方法として良いことなども示されている。 On the Power and Limitations of Random Features for Understanding Neural Networks Gilad Yehudai, Ohad Shamir NeurIPS 2019 Proving the lottery ticket hypothesis: Pruning is all you need. Eran Malach, Gilad Yehudai, Shai Shalev-Schwartz, and Ohad Shamir ICLR2020 Proving the Strong Lottery Ticket Hypothesis for Convolutional Neural Networks Arthur C. W. da Cunha & Emanuele Natale & Laurent Viennot ICLR2022 Inria Sophia Antipolis, Inria Paris (France) SLTHに関する理論的な論文。どんなCNNも、ランダムなCNNを枝刈りすることによって対数オーダで小さいサイズのもので近似できることを示す。 Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang 2020 Accurate prediction of protein structures and interactions using a three-track neural network. MetaMorph: Learning Universal Controllers with Transformers Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning Learning from Randomly Initialized Neural Network Features Ehsan Amid, Rohan Anil, Wojciech Kot lowski, Manfred K. Warmuth 2022 Google Research, Poznan U. of T. (Poland) ランダムに初期化したニューラルネットワークが、とても良い特徴抽出器であることを示す。これらの特徴は、ニューラルネットワークプライアカーネル(NNPK)と呼ぶものの有限サンプルの具現化になっている。 CNN-S(2層のコンボリューションとそれぞれmax-pool、密な層の構成)が一番パフォーマンスが良い。深さを増やしても効かず、幅を増やすと多少良くなる。 Offline Reinforcement Learning as One Big Sequence Modeling Problem Michael Janner, Qiyang Li, Sergey Levine 2021 Local plasticity rules can learn deep representations using self-supervised contrastive predictions 2021 in review: unsupervised brain models Bootstrap your own latent: A new approach to self-supervised Learning Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos, Michal Valko NeurIPS2020 DeepMind, Imperial College BYOL。オンラインネットワークとターゲットネットワークから成る。オンラインネットワークは、異なる視点(データ拡張されたもの)からのターゲットネットワークの表現を予測するように訓練される。ターゲットネットワークは、オンラインネットワークの遅い移動平均として更新する。ImageNetでtop-1が74.3%など。データ拡張は、ランダムなパッチを選択してリサイズして、水平方向法にフリップして、色を乱すなど。 Exploring Simple Siamese Representation Learning Xinlei Chen, Kaiming He 2020 FAIR SimSiamの提案。負例のペアも、大きなバッチも、モーメンタム符号化も必要ない。ストップグラディエント(勾配停止)の操作が崩壊をうまく防止する。EM的。 Training language models to follow instructions with human feedback Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe 2022 OpenAI InstructGPT。大規模言語モデルは正しくないことや助けにならない出力を生成する。ユーザとアラインしていない。ファインチューニングによってユーザの意図と言語モデルをアラインさせる方法を提案する。 ラベラーの書いたプロンプトをOpenAIのAPIに入力して、望ましい振る舞いに関してのラベラーのデモンストレーションのデータを獲得する。それを使って、教師あり学習でGPT-3のファインチューニングを行う。そのあと、モデルの出力のランキングのデータセットを作り、それを使って、人間のフィードバックからの強化学習を行う。 13億パラメータのInstructGPTのほうが、1750億のGPT-3より人間の評価によると好ましい。 Generative Adversarial Transformers Drew A. Hudson, C. Lawrence Zitnick 2021 Stanford U. and FAIR GANformerを提案。トランスフォーマのアテンションのところを、潜在変数から画像特徴量へ(シンプレックス)、あるいはその逆も含む(デュプレックス)とすることで、長距離の依存を捉えているらしい。 The Routledge Companion to Epistemology Sven Bernecker and Duncan Pritchard 2021 認識論。理解とか自己知識とか項目ごとに書かれてある。 Exploring the limits of transfer learning with a unified text-totext transformer Journal of Machine Learning Research 2020 MetaFormer is Actually What You Need for Vision Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan 2021 Sea AI Lab, NUS トランスフォーマのアテンションをプーリングで置き換えても精度が同じか向上する。(ただし画像分類タスクで、空間的情報を使っている。)アテンション、プーリング、MLPを、トークン混合器として抽象化した、メタトランスフォーマを提案。 How to build machines from liquid meta article The Economist, 2021 液体金属による工学。電界を発生させ車輪を回転させたり、モーターとするものなど。1cm以下の領域で、人工筋肉や3Dプリントされた電子機器などに使えるかもということらしい。 Forms of explanation and understanding for neuroscience and artificial intelligence Jessica A. F. Thompson 2021 U. Oxford 知的能力の説明や理解について。因果的な理解、機能的理解、最小モデルのよる理解(数式による理解)、など。ひとつの理論で脳を説明できないかもしれないということ、説明可能AIは、AIの科学的説明と異なるということなど。 Learning Transferable Visual Models From Natural Language Supervision Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever 2021 OpenAI CLIPの論文。画像とテキストのペアで対照的な学習を行う。テキストのみの事前学習よりだいぶゼロショット学習の精度が上がる。 ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler 2021 Google Research, DeepMind ExT5を提案。T5に、さまざまなタスクで事前学習するものを組み込んでいる。後続タスクの精度が少し上がる。 A Survey of Generalisation in Deep Reinforcement Learning Robert Kirk, Amy Zhang, Edward Grefenstette, Tim Rocktäschel UCL 2021 訓練とテストが同じ環境、同じ分布、分布外の3つに分けられる。汎化について手法を整理。 Compositional Transformers for Scene Generation Drew A. Hudson, C. Lawrence Zitnick 2021 Stanford U., FAIR GANformer2を提案。計画フェーズと、実行フェーズ。計画フェーズでは、GANをリカレントに適用し(2〜4回)、絵を書き加えていく。実行フェーズでは、それを写真のようにする。かなり良い手法だと思う。 From Machine Learning to Robotics: Challenges and Opportunities for Embodied Intelligence Nicholas Roy, Ingmar Posner, Tim Barfoot, Philippe Beaudoin, Yoshua Bengio, Jeannette Bohg, Oliver Brock, Isabelle Depatie, Dieter Fox, Dan Koditschek, Tomas Lozano-Perez, Vikash Mansinghka, Christopher Pal, Blake Richards, Dorsa Sadigh, Stefan Schaal, Gaurav Sukhatme, Denis Therien, Marc Toussaint, Michiel Van de Panne 2021 いろいろ 身体化された知能にとって有効な帰納バイアスは?効果的に頑健に学習するためのアーキテクチャの設計は?(システム1と2の話。GWT(グローバルワークスペース理論)とか。)エージェントのモデルとタスクを表現するのに適切な表現は?エージェントの形態がどのように学習の能力に影響するか? Are we ready for a new paradigm shift? A Survey on Visual Deep MLP Ruiyang Liu, Yinghui Li, Linmi Tao, Dun Liang, Shi-Min Hu, Hai-Tao Zheng 2021 Tsinghua U., China MLP-Mixerなどの可能性について。gMLP, ResMLP, Feed-forwad, External Attention, Vision Permutator, S2MLP, CCS, AS-MLP, CycleMLP, Hire-MLP, RaftMLP, Sparse-MLPなど。 トークン混合MLPとチャネル混合MLPが交互に使われる構成になっている。 GNeRF: GAN-based Neural Radiance Field without Posed Camera Quan Meng, Anpei Chen, Haimin Luo, Minye Wu, Hao Su, Lan Xu, Xuming He, Jingyi Yu 2021 ShanghaiTech U., UCSD GANとNeRFと組み合わせたもの。生成した画像を本物と区別する識別器に加えて、ポーズ埋め込みをしたときにきちんとポーズ情報になるかについても訓練する。そして、このポーズ埋め込みを使って、任意の視点からの生成をする。NeRFと異なり、視点情報がなくても学習ができる。 Masked Autoencoders Are Scalable Vision Learners 2021 Efficiently Modeling Long Sequences with Structured State Spaces 2021 Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing 2021 Efficiently Modeling Long Sequences with Structured State Spaces 2021 A connectomic study of a petascale fragment of human cerebral cortex Alexander Shapson-Coe et al. 2021 Harvard U., Google Research Googleとハーバードが共同で作ったH01データセット。 人間の側頭葉の外科的なサンプル1平方ミリメートルを、5000スライス以上(30nmくらい)にして、ハイスピードのマルチビームステレオ電子顕微鏡で画像を得た。全体で1.4ペタバイト。 57000の細胞、数億の神経突起、1億3000万のシナプス結合を3次元に描画した。セグメント化された細胞、細胞の部分、血管、ミエリン、興奮性と抑制性のシナプス、104の人手で確認された細胞が見える。 Unsupervised Learning of Compositional Energy Concepts 2021 Self-supervised exploration via disagreement 2019 Discovering and Achieving Goals via World Models Russell Mendonca, Oleh Rybkin, Kostas Daniilidis, Danijar Hafner, Deepak Pathak 2021 CMU, U. Penn., U. Toronto 潜在探索達成器(LEXA; Latent Explorer Achiever)を提案。画像から学習し、想像したロールアウトを用いてポリシーを学習する。探索器が探索して、達成器が実行する。教師なしのゴールに近づくタスクで、従来のものを大きく上回る。 On the Opportunities and Risks of Foundation Models 2021 GROKKING: GENERALIZATION BEYOND OVERFITTING ON SMALL ALGORITHMIC DATASETS 2021 Patches Are All You Need? 2021 Pay Attention to MLPs 2021 Pathdreamer: A World Model for Indoor Navigation MultiWOZ--A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling 2018 Mem2seq: Effectively incorporating knowledge bases into end-to-end task-oriented dialog systems 2018 Experience Grounds Language 2020 Continual Lifelong Learning with Neural Networks: A Review Learning to Predict Without Looking Ahead: World Models Without Forward Prediction 2019 Solving Rubik's Cube with a Robot Hand 2019 Towards ML Engineering: A brief history of TensorFlow Extended (TFX) Konstantinos (Gus) Katsiapis, Abhijit Karmarkar, Ahmet Altay, Aleksandr Zaks, Neoklis Polyzotis, Anusha Ramesh, Ben Mathes, Gautam Vasudevan, Irene Giannoumis, Jarek Wilkiewicz, Jiri Simsa, Justin Hong, Mitch Trott, Noé Lutz, Pavel A. Dournov, Robert Crowe, Sarah Sirajuddin, Tris Brian Warkentin, Zhitao Li 2020 Google SybylとTensorFlow Extended (TXF)についての資料。現状のレイヤー構造やこれからのデバイスの相互可用性など。 Challenges in deploying machine learning: A survey of case studies. 2020 Hidden technical debt in machine learning systems. Retrieved 2021 Toward trustworthy AI development: Mechanisms for supporting verifiable claim 2021 Unsupervised predictive memory in a goal-directed agent Greg Wayne, Chia-Chun Hung, David Amos, Mehdi Mirza, Arun Ahuja, Agnieszka Grabska-Barwinska, Jack Rae, Piotr Mirowski, Joel Z. Leibo, Adam Santoro, Mevlana Gemici, Malcolm Reynolds, Tim Harley, Josh Abramson, Shakir Mohamed, Danilo Rezende, David Saxton, Adam Cain, Chloe Hillier, David Silver, Koray Kavukcuoglu, Matt Botvinick, Demis Hassabis, Timothy Lillicrap 2018 DeepMind MERLIN (The Memory, RL, and Inference Network)を提案。メモリの機能が予測モデリングによってガイドされる。RNNの潜在変数がメモリに書き込まれ、読み出される。迷路でゴールを見つけるナビゲーションの実験。 Threedworld: A platform for interactive multi-modal physical simulation 2020 Auto-Tuned Sim-to-Real Transfer Yuqing Du, Olivia Watkins, Trevor Darrell, Pieter Abbeel, Deepak Pathak 2021 UCB, CMU 大変重要。Sim-to-realだけでなく、リアルがどのようなパラメータかをRGBイメージだけを使って推測する。探索パラメータモデル(SPM)は、観測とアクションの系列とシステムのパラメータが与えられると、そのパラメータが真のパラメータよりも高いか低いかを予測する。 MDETR - Modulated Detection for End-to-End Multi-Modal Understanding 2021 On Linear Identifiability of Learned Representations Geoffrey Roeder, Luke Metz, Diederik P. Kingma 2020 Google Brain 識別性(indentifiability)を表現学習の文脈で扱う。ダウンストリームタスクに最適な非線形なデータの表現を発見する。非線形ICAを用いて、識別モデルの族は関数空間において識別可能であることを示す。 Barlow Twins: Self-Supervised Learning via Redundancy Reduction Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, Stéphane Deny 2021 FAIR, NYU 2つのネットワークで自己教師あり学習をして、得られた表現の相関をとって、両方にあるものはロバストであるとする。 Are Pre-trained Convolutions Better than Pre-trained Transformers? Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, Donald Metzler ACL 2021 High-performance brain-to-text communication via handwriting Nature 2021 Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le 2021 Modular Networks: Learning to Decompose Neural Computation 2018 How to represent part-whole hierarchies in a neural network Geoffrey Hinton 2021 Google Research, U. Toronto GLOMアーキテクチャ。重みを共有する多数のコラムから成る。それぞれのコラムは、空間的に局所的な多層のオートエンコーダであり、小さな画像パッチに何が起こっているかを複数のレベルで表す。それぞれのオートエンコーダは隣接するレベルへ、トップダウンデコーダあるいはボトムアップエンコーダで埋め込みを変形する。これらは、全体部分関係を構成することになる。 MLP-Mixer: An all-MLP Architecture for Vision Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy 2021 Google Brain 普通の多層パーセプトロンにみで、ViTやCNNと匹敵する精度を出す。そのために、チャネルとパッチの転置をしてMLPを適用し、もとに戻してMLPを適用する(いずれもスキップコネクションつき)というのをひとつのブロックにして多層にする。 What Kinds of Functions do Deep Neural Networks Learn? Insights from Variational Spline Theory Rahul Parhi and Robert D. Nowak 2021 U. Wisconsin-Madison ReLU活性関数を用いた深層ニューラルネットワークによって学習される関数の特徴を理解するための変分フレームワークを提案する。 Understanding self-supervised Learning Dynamics without Contrastive Pairs Yuandong Tian, Xinlei Chen, Surya Ganguli 2021 FAIR, Stanford U. BYOLやSimSiamなどのSSLの対照アプローチは、ネガティブなペアがなくてもうまく動くが、どのように表現の崩壊を防いでいるのだろうか。ここでは、単純な線形ネットワークにおける非線形なダイナミクスを分析する。 An Integrated Brain-Machine Interface Platform With Thousands of Channels Elon Musk 2019 Neuralink ニューラリンクのデバイスの紹介。アレイごとに3072エレクトロード。96スレッド。手術ロボット、USB-Cでデータを取り出せるASICのチップの紹介など。 Neural Rough Differential Equations for Long Time Series James Morrill, Cristopher Salvi, Patrick Kidger, James Foster, Terry Lyons 2021 U. Oxford, Alan Turing Inst. ニューラルCDE(neural conetolled differential equations)を拡張して、ニューラルRDE(rough differential equations)を提案する。隠れ状態を導入して、区間のサマリーを表せるようにする。ニューラルCDEは、RNNの連続量類似で、ニューラルODEがResNetの連続量類似であることと同じようなもの。 Visual intracortical and transthalamic pathways carry distinct information to cortical areas Antonin Blot, Morgane M Roth, Ioana T Gasler, Mitra Javadzadeh, Fabia Imhof, Sonja B Hofer 2021 UCL, U. Basel, UCSF 視床の後外側核のニューロンが、高次視覚野へ投射しており、V1や上丘からの入力を受け取る。これらは、特定の視覚的特徴や自発運動に調整されており、V1から直接高次視覚野にいく経路と異なる。 Memory transformer Mikhail S. Burtsev, Yuri Kuratov, Anton Peganov, Grigory V. Sapunov 2020 Moscow Institute of Physics and Technology メモリを備えたトランスフォーマ。3種類のアーキテクチャを提案している。WMT-14による翻訳タスクでしか実験してないため、良さが見えづらい。 Inductive biases for deep learning of higher-level cognition Anirudh Goyal, Yoshua Bengio 2020 MILA 42ページの大論文。高次認識のための帰納バイアスについて。 2章 帰納バイアスについて。分散表現とか畳み込みなどもそのひとつ。他にも、エージェント、転移学習や継続学習、OODの汎化などの論点がある。 3章 OODの汎化システムに向けた帰納バイアス。意識的・無意識的処理。システム1、システム2やグローバルワークスペース理論など。言語化可能な概念と意味的概念。意味的概念は重要で、それらの知識はモジュール的である。意味空間における分布の局所的な変更。世界の安定的な性質。意味変数の空間における疎なファクタグラフ。変数、例、再利用可能な知識。関連する因果的鎖。コンピュータ・プログラムからのインスピレーション。 4章 因果的依存関係の宣言的知識。独立した因果メカニズム。因果的介入による分布の変化。深層学習のチャレンジ。メタ学習、因果、OOD汎化、速い転移学習の関係。因果モデルの一部としてのアクションとアフォーダンス。 5章 生物学的なインスピレーションと高次認識の特徴。AI研究と認知神経科学のシナジー。アテンション。脳とニューラルネットワークにおけるモジュラリティ。グローバルワークスペース理論。言語レポーティングと接地された言語の学習。遅い処理とOOD問題解決。モジュール間の言語と通信のトポロジ。推論と宣言的知識。関連イベントの系列を通じての推論。 6章 最近と現在の研究。RIM。トップダウンとボトムアップを結びつける学習。オブジェクトファイルとスキーマ。疎な注意バックトラック。因果メカニズムのディスエンタングル学習のためのメタ転移目的。未知の介入による神経因果モデルの学習。 7章 この先のプロジェクト。 8章 過去を振り返る。GOFAIとの関係。 9章 結論。 Object files and schemata: Factorizing declarative and procedural knowledge in dynamical systems. Anirudh Goyal, Alex Lamb, Phanideep Gampa, Philippe Beaudoin, Sergey Levine, Charles Blundell, Yoshua Bengio, Michael Mozer 2020 Mila, IIT BHU, Element AI, UCB, Deepmind, Google Brain オブジェクトファイル(OF)というアクティブなモジュールが、ひとつのオブジェクトの状態を管理し、スキーマとよぶ受動的な外部の知識源が状態の更新を行う。ゲームの2つの敵は、スキーマは同じだが、OFが異なる。アテンションを使ってどのOFを更新するかを決める。提案するアーキテクチャ(SCOFFモデル)は、LSTMやGRUなどの完全な互換品であるが、複数のオブジェクトのある環境などでは性能が良い。 Coordination Among Neural Modules Through a Shared Global Workspace Anirudh Goyal, Aniket Didolkar, Alex Lamb, Kartikeya Badola, Nan Rosemary Ke, Nasim Rahaman, Jonathan Binas, Charles Blundell, Michael Mozer, Yoshua Bengio 2021 Mila, Deepmind, Max Planck グローバルワークスペースの雰囲気を実現しようとしている。トランスフォーマで、エキスパートのどれかが共有ワークスペースに書き込める。(アテンションと同じ。)書き込んだ情報を、他のモジュールが使えるようになる。RIMとかトランスフォーマなどを組み合わせたアーキテクチャを探索している。実験は動画や画像で特定の物体に注目したエキスパートを作って、それらをトラックしたり、質問に答えるような問題。 In the Theater of Consciousness: The Workspace of the Mind Bernard J. Baars 1997 The Neurosciences Institute, San Diego グローバルワークスペース理論。意識のシアターのメタファ。自己や知覚、言語や記憶と関係する。ワーキングメモリとは密接に関係。 Transformers with competitive ensembles of independent mechanisms Alex Lamb, Di He, Anirudh Goyal, Guolin Ke, Chien-Feng Liao, Mirco Ravanelli, Yoshua Bengio 2021 MILA, MSRA 独立したメカニズムをトランスフォーマに入れる。最初に共有する層があり、その上が、独立なTIM(トランスフォーマと近い)層が続く構造。 Lifelong Language Knowledge Distillation Yung-Sung Chuang, Shang-Yu Su, Yun-Nung Chen 2020 National Taiwan U. ライフロング言語学習(LLL)を蒸留ベースで行う手法。LAMOLが、NLPタスクを文脈・質問・答えをまとめて言語モデルとして行う方法で、これをさらに改良する。WikiSQL, CNN/DailyMail, MultiWOZなどの順番を変えて実験。 Training Vision Transformers for Image Retrieval Alaaeldin El-Nouby, Natalia Neverova, Ivan Laptev, Hervé Jégou 2021 FAIR, INRIA 画像検索のためのトランスフォーマの活用。シャムアーキテクチャで双方にViTをいれて、得られた特徴量から対照損失を計算する。 KILT: a Benchmark for Knowledge Intensive Language Tasks Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vladimir Karpukhin, Jean Maillard, Vassilis Plachouras, Tim Rocktäschel, Sebastian Riedel 2021 FAIR, UCL, LORIA, U. Cambridge, HuggingFace, U. Amsterdam データセットとタスクの集合。事実チェック、エンティティリンキング3つ、スポット埋め2つ、QA4つ、対話1つ。すべて同じバージョンのWikipediaに基づく。 LambdaNetworks: Modeling Long-Range Interactions Without Attention Irwan Bello 2021 Google Research 自己注意と似たラムダ層を提案する。入力と文脈情報の長距離の相互作用を捉える。文脈を線形関数に変換し(ラムダと呼ぶ)、これらの線形関数を入力にそれぞれ適用する。ラムダResネットも提案する。 Latent Retrieval for Weakly Supervised Open Domain Question Answering Kenton Lee Ming-Wei Chang Kristina Toutanova 2019 Google Research オープン検索QA(ORQA)の提案。BERTを使って検索し、そこからQAに答えるのをエンドトゥエンドで行う。 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks NeurIPS 2020 SMASH: One-Shot Model Architecture Search through HyperNetworks Andrew Brock, Theo Lim, James Ritchie, Nick Weston ICLR2018 poster Heriot-Watt U., Renishaw plc 補助的なハイパーネットを学習して、モデルのアーキテクチャに条件づけたモデルの重みを生成することで、アーキテクチャの選択を加速する。メモリーの読み書きを可能にするメカニズムを入れて、さまざまなネットワークの接続パターンを定義できるようにする。 Understanding and simplifying one-shot architecture search Gabriel Bender, Pieter-Jan Kindermans, Barret Zoph, Vijay Vasudevan, Quoc Le ICML 2018 Google Brain ハイパーネットワークとか強化学習とかでNASをやるのではなく、全部の要素が入った大きなネットワークで学習し、一部をゼロアウトするような方法がうまくいくことを示す。 Disentangled person image generation Liqian Ma, Qianru Sun, Stamatios Georgoulis, Luc Van Gool, Bernt Schiele, Mario Fritz CVPR 2018 Toyota Motor Europe, Max Planck, ETH Zurich 人物の全身画像の生成をするのに、フォアグラウンド、バックグランド、ポーズに分けて生成をする。得られた埋め込み(ディスエンタングルされたもの)に対して、ガウシアンからの埋め込みとの敵対的な学習を行う。 Deforming autoencoders: Unsupervised disentangling of shape and appearance. 2018 Stargan v2: Diverse image synthesis for multiple domains. 2019 Image-to-image translation for cross-domain disentanglement NIPS 2018 Unsupervised Learning of Disentangled Representations from Video E Denton and V Birodkar NIPS2017 Unsupervised hierarchical disentanglement for fine-grained object generation and discovery. Krishna Kumar Singh, Utkarsh Ojha, and Yong Jae Lee. Finegan CVPR2019 Robustly Optimized and Distilled Training for Natural Language Understanding Haytham ElFadeel, Stan Peshterliev 2021 Facebook マルチタスク学習と蒸留を、事前学習の第2ステップにする。ROaDと呼ぶ。マルチタスク事前学習は、9つのタスク。QAやNLI(推論)など。次に蒸留。精度の上がり幅はそれほど大きくはないがどのタスクで測っても上がる。 Going deeper with Image Transformers Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, Hervé Jégou 2021 FAIR, Sorbonne U. ViTは学習させにくい。そこで2つの点で改善する。1つ目は、FixupやReZeroなどの初期値をいじる方法は安定しないので、事前正規化とワームアップを再導入し、新たにチャネルごとの重みの初期化を導入する。 もうひとつは、クラス埋め込みを入力とともに入れていたのを、中間の層で入れるようにし、自己注意の部分と、クラス注意の部分が明確に分かれるようにする。 かなり細かい工夫でそれぞれわずかな向上だが、全体としてみると大きな向上になっている。 Generating Furry Cars: Disentangling Object Shape and Appearance across Multiple Domains Utkarsh Ojha Krishna Kumar Singh Yong Jae Lee ICLR 2021 UC Davis 毛の生えた車を生成する。異なるドメインからディスエンタングルし、組み合わせる。背景を描いて、形を描いて、見た目を描く。特徴量のヒストグラムが揃うようにロスを設定する。 Fixup Initialization: Residual Learning Without Normalization Hongyi Zhang, Yann N. Dauphin, Tengyu Ma 2019 MIT, Google Brain, Stanford U. フィックスアップという初期化。ResNetでは層が増えると(正規化しないと)重みの分散は指数的に拡大する。なので、Heの初期化をやって、ResNetの層ごとに適正にスケールさせる。これだけ(ルール2)でうまくいくが、他にも、残余ブランチの重みを初期値0にする(ルール1)、スカラー乗数を全部のブランチにいれ、スカラーバイアスを畳み込みの前に入れる(ルール3)、など。 EigenGame: PCA as a Nash Equilibrium Ian Gemp · Brian McWilliams · Claire Vernade · Thore Graepel ICLR 2021 outstanding DeepMind 特異値分解を、対角化した際の対角成分の分散から、非対角成分のペナルティを引いたものを最大化するゲームと捉える。分散的に計算できる。 Rethinking Architecture Selection in Defferentiable NAS Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, Cho-Jui Hsieh ICLR 2021 outstanding UCLA, DiDi AI Labs DARTなどの方法は、特徴マップをノードとし、操作をエッジとするグラフが探索空間となる。探索の際には、モデルの重みと、重みを共有するスーパーネットのアーキテクチャパラメータの両方を最適化する。そのあとに、αというオペレーションの強さを表すパラメータにしたがって、最終的なアーキテクチャが決まる。しかし、このαが、オペレーションの強さを表しているのではなく、悪さをしている。したがって、これを、単純なパーチュベーションに基づくもの(ランダムにピックアップして良ければ採用)に変える。 Score-Based Generative Modeling through Stochastic Differential Equations Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, Ben Poole ICLR 2021 outstanding Stanford U., Google Brain 複雑なデータ分布を、少しずつノイズを入れながら既知の事前分布に変換する確率的微分方程式(SDE)と、その逆時間SDEを提案する。逆時間SDEは、ノイズがはいったデータ分布の時間依存の勾配フィールド(ある種のスコア)にのみ依存する。スコアに基づく生成モデルで、これらのスコアをニューラルネットワークで正確に推定し、数的なSDEソルバをサンプル生成に用いる。 Learning Mesh-Based Simulation with Graph Networks Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, Peter W. Battaglia ICLR 2021 outstanding Deepmind シミュレーションを軽く早くする。メッシュの点をグラフのノードに対応させ、それを上手に選ぶ。ロスを最小化するように訓練する。布のはためく様子など。 Training data-efficient image transformers & distillation through attention 2020 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, Wancai Zhang 2020 Beihang U., UCB, Rutgers U., SEDD Company 長い時系列を扱うために、ProbSparseという自己注意のモジュールを工夫し、また蒸留プロセスをいれて、時間とメモリーのオーダが系列長の2乗にならないようにしている。電力消費、変圧器温度、天気などのデータで検証。 12-in-1: Multi-Task Vision and Language Representation Learning Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee 2019 FAIR, Oregon State U., Georgia Tech 言語と画像に関わる4つのカテゴリからの12のタスクで1つのモデルを評価する。QA, キャプションに基づく画像検索、グラウンドされた参照表現、マルチモーダル検証である。30億パラメータを2.7億に減らすことができ、スコアを向上させることができる。 Modulated Periodic Activations for Generalizable Local Functional Representations Ishit Mehta, Michael Gharbi, Connelly Barnes, Eli Shechtman, Ravi Ramamoorthi, Manmohan Chandraker 2021 FAIR SIRENは、周期関数を使うが、周期関数と内容を分けて学習する。前者をシンセサイザ、後者をモジュレータと呼び、その掛け合わせで表現する。 Attention on Attention for Image Captioning Lun Huang, Wenmin Wang, Jie Chen, Xiao-Yong Wei 2019 Peking U. アテンションで得られた結果とQueryをconcatし、さらにそれを自己アテンションする。つまり、クエリーがうまく結果に反映されているか自体を情報源にできるようにする。 MS-COCOのイメージキャプショニングで従来手法をすべて上回る結果。 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang 2018 Australian National U., JD AI Research, Microsoft Research, U. Adelaide, Macquarie U. VQAに対して、CNNで特徴量を取り出して、質問からのLSTMでトップダウンのアテンションを当てる。 Learning Texture Transformer Network for Image Super-Resolution 2020 Improving scalability in systems neuroscience 2021 UNISURF: Unifying Neural Implicit Surfaces and Radiance Fields for Multi-View Reconstruction 2021 The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures SUSHANT SINGH, AND AUSIF MAHMOOD 2021 U. Bridgeport, 米国 NLP関係の深層学習技術のまとめ。語彙、アーキテクチャ、NLUアーキテクチャ(トランスフォーマなど、BERT, GPT, 埋め込み)、NLGアーキテクチャ、モデルサイズ削減(DistilBERTやTinyBERT、モバイルBERTなどの蒸留による方法。プルーニングによる方法。量子化による方法)、検索(ゴールデン・リトリーバー、ORQA, REALM, RAG, DPR)、長い系列のモデル(より深い自己注意、トランスフォーマXL、ロングフォーマ、ビッグバード)、計算的に効率的なアーキテクチャ(疎なトランスフォーマ、リフォーマ、ELECTRA、パフォーマなど)、言語モデルのモデリングの分類(自己回帰、オートエンコーダ、seq2seq)、性能比較の言語モデル。 A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks Nikunj Saunshi, Sadhika Malladi, Sanjeev Arora 2021 プリンストン大 次の単語を予測するタスクは、単語を予測した上でそれに基づいて分類を行うタスクに数学的に紐付けることができる。 Sparse Attention with Linear Units 2021 Geometry-Free View Synthesis: Transformers and no 3D Priors 2021 Training independent subnetworks for robust prediction 2021 BARF: Bundle-Adjusting Neural Radiance Fields 2021 Direct Fit to Nature: An Evolutionary Perspective on Biological and Artificial Neural Networks Uri Hasson, Samuel A. Nastase, Ariel Goldstein 2020 Princeton U. 深層学習では、明示的な人間が理解可能な表現は学習しない。オーバーパラメタライズされたモデルは、進化のプロセスと同じく、単純で倹約的で、多能な頑健な解を提示する。従来の伝統的な科学と異なり、オーバーパラメタライズされたモデルは、現実的な問題を解くために説明性を避けている。これは、計算論的神経科学や認知心理学の仮定や実践に大きな変化を与える。 高次元科学の話に近い。 Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review Sergey Levine 2018 UCB 強化学習や最適制御の問題を、確率グラフィカルモデルの推論(確率的推論あるいは変分推論)の過程と見る。 UniT: Multimodal Multitask Learning with a Unified Transformer Ronghang Hu, Amanpreet Singh 2022 FAIR マルチモーダルなタスク(VQAとか画像の検知とか言語タスクとか)を、同じトランスフォーマで解く。画像のエンコーダとテキストエンコーダをconcatして、デコーダに入れるという構造。 Unsupervised Model Selection for Variational Disentangled Representation Learning Sunny Duan, Loic Matthey, Andre Saraiva, Nicholas Watters, Christopher P. Burgess, Alexander Lerchner, Irina Higgins 2019 DeepMind シンプルで信頼性の高い、教師なしのディスエンタングルなモデル選択の手法を提案する。 同じようなタスクで同じように訓練しても、ディスエンタングルメントには異なるものがある。2つのモデルを見比べて、パーミュテーション、符号の反転、サブセット化などをしても、整合しているなら、スコアを高くするというUDRスコア(Unsupervised Disentanglement Ranking)を計算する。このUDRスコアを、試行するモデル全体にうまく効率的に計算するようにアルゴリズムを組む。 Homomorphic Latent Space Interpolation for Unpaired Image-To-Image Translation 2019 Disentangling Disentanglement in Variational Autoencoders Emile Mathieu, Tom Rainforth, N. Siddharth, Yee Whye Teh 2019 U. Oxford VAEのdisentanglementの汎化、すなわち、潜在表現の分解について述べる。2つの要素からなり、潜在的なエンコーディングは適切なレベルの重なりをもつこと、エンコーディングの集積が(priorによって表される)目的にあわせた構造を作ること、の2つである。 β-VAEは、オーバーラップに対してのコントロールを持つ。 Transforming task representations to allow deep learning models to perform novel tasks Andrew K. Lampinen and James L. McClellanda 2020 Stanford U. 新しいタスクに、前のタスクとの関係性によって適応する一般的なフレームワークを提案する。メタマッピングという、タスクを別のタスクにマップする表現を用いる。 The role of Disentanglement in Generalisation Milton Llera Montero, Casimir JH Ludwig, Rui Ponte Costa, Gaurav Malhotra, Jeffrey Bowers ICLR 2018 見慣れたものを組み合わせて新しいものを作ったり理解したりする、組み合わせ汎化能力は、知能の重要な能力であるが、いままでのAIシステムではうまくいっていない。disentanglementの程度によって、さまざまな汎化能力にどのように影響を与えるかをテストする。2つのデータセットで3つのVAEを用いる。その結果、disentanglementの程度によらず、モデルは弱い組み合わせ汎化能力しか示さなかった。したがって、disentangleされた表現を学習することは、解釈性を上げたりダウンストリームのタスクに有用かもしれないが、汎化のより難しい形をサポートするとは言えない。 (ただし、実験は、色、平行移動、回転という限定された要素でやっており、一般的に言えるのかは疑問。) Learning Energy-Based Models by Diffusion Recovery Likelihood 2020 Object-based attention for spatio-temporal reasoning: Outperforming neuro-symbolic models with flexible distributed architectures 2020 The Spatial Memory Pipeline: a model of egocentric to allocentric understanding in mammalian brains 2020 ViNG: Learning Open-World Navigation with Visual Goals 2020 Neurosymbolic AI: The 3rd Wave Artur d'Avila Garcez, Luis C. Lamb 2020 City, U. London, U. Rio Grande do Sul, Brazil 知識表現と推論が、深層学習や健全な説明性と統合される必要があると指摘する人は多い。神経記号計算は、ニューラルネットワークのロバストな学習と、記号表現による推論や説明性を結びつけるための研究領域である。この論文では、神経科学計算の最近の初期的な研究結果を、AIシステムの次世代の重要な要素を同定する目的と関連づける。 Toward Transformer-Based Object Detection 2020 Artificial Intelligence that can run a simulation faithful to physical laws 2020 Extracting Training Data from Large Language Models 2020 Offline Reinforcement Learning from Images with Latent Space Models 2020 Gradient Descent Finds Global Minima of Deep Neural Networks 2019 Compositionality and generalization in emergent languages Rahma Chaabouni, Eugene Kharitonov, Diane Bouchacourt, Emmanuel Dupoux, Marco Baroni 2020 FAIR, INRIA, ICREA マルチエージェントの設定で創発される言語に、新規なプリミティブの組み合わせを言及する能力があるかを調査する。1つめに、十分に大きな入力空間が与えられれば、創発する言語は自然に新規な組み合わせの概念を言及する能力を持つ。2つめに、構成性の程度と汎化の能力は関係がない。3つめに、構成性は汎化には必ずしも必要ないが、言語の伝達では有利になる。 マルチエージェントの設定は、2つのエージェントが2回やりとりして同じものを指せばよいという簡単な設定。 The Expressive Power of Neural Networks: A View from the Width a NIPS2017 Learning Incompressible Fluid Dynamics from Scratch - Towards Fast, Differentiable Fluid Models that Generalize ICLR 2021 MetNet: A Neural Weather Model for Precipitation Forecasting 2020 Learning and Evaluating General Linguistic Intelligence 2019 Recipes for building an open-domain chatbot Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu,   Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston 2020 FAIR 大規模なモデルを使って適切な訓練データで学習すれば、注意を引くような話題や、相手のことを聞くこと、知識を示すこと、共感やパーソナリティ、一貫したペルソナなどを提供できることを示す。会話例は印象的。 High-Performance Large-Scale Image Recognition Without Normalization 2021 Alchemy: A structured task distribution for meta-reinforcement learning 2021 Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention 2021 Unifying Vision-and-Language Tasks via Text Generation 2021 Muppet: Massive Multi-task Representations with Pre-Finetuning 2021 Liquid Time-constant Networks 2021 Bottleneck Transformers for Visual Recognition 2021 Addressing Some Limitations of Transformers with Feedback Memory 2021 Turing-NLG: A 17-billion-parameter language model by Microsoft 2020 The future of personalized brain stimulation Nature Medicine 2021 Unsupervised Discovery of Parts, Structure, and Dynamics ICLR2019 Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions Sjoerd van Steenkiste, Michael Chang, Klaus Greff, Jürgen Schmidhuber ICLR2018 poster oLMpics -- On what Language Model Pre-training Captures Alon Talmor, Yanai Elazar, Yoav Goldberg, Jonathan Berant 2020 Allen Inst., Tel-Aviv U., Bar-Ilan U. Always-Never質問(例えば、鳥は角を(決して持たない|時々もつ|いつも持つ)という質問)、年齢比較(21際の男は、私が35歳であれば私より(若い|年寄り)だという質問)など7種類の質問に対して、RoVERTa、BERTを比較。Always-Neverはほとんどうまくいかない。年齢比較はそこそこ。ほかにも半数のタスクでほとんどうまくいかない。 Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick CVPR 2020 FAIR 画像に対してBERTのようなキー・値の辞書的な構造をもつ事前の表現学習。 ミニバッチごとに少しずつパラメータを変えていくというモーメンタムを使って、キーを更新。クエリーとキーで辞書を引き出して、コントラスティブロス(同じ画像由来かどうか)を取る。 これを教師なしの事前学習として、ダウンストリームのタスクで教師ありと同程度の精度。(分類で同程度、検出/セグメンテーションで上回る。) Language models as knowledge bases? 2019 How Can We Know What Language Models Know? Zhengbao Jiang, Frank F. Xu, Jun Araki, Graham Neubig 2019 CMU, Bosch Research North America "DirextX is developted by y"などのクエリーで、言語モデルから知識を取り出す。ウェブマイニングっぽい。 Exploring the limits of transfer learning with a unified text-to-text transformer Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu 2019 Google T5。Text-to-Text Transfer Transformer。事前学習、下流タスクともに、テキストからテキストへの変換という形で統一している。例えば、"translate English to German: This is good."などを入力として与え、"Das ist gut."を出力として出す。事前学習もなどとした部分を答えるようにする。クラウドTPUポッド(1024 TPU v3チップ)を用いている。 Self-supervised visual feature learning with deep neural networks: A survey 2020 A Simple Framework for Contrastive Learning of Visual Representations Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton ICML 2020 Google Research SimCLRを提案。コントラスティブな自己教師あり学習。特徴としては、(1)データ拡張して同じ表現になるようにする、(2)表現とコントラスティブ損失の学習可能な非線形変換、(3)大きなバッチサイズとステップ数。 ImageNetで、線形な分類器で、76.5%のtop-1精度を出し、これは従来の最新よりも7%よかった。ファインチューンすると、AlexNetと同じくらいだが、100分の1のラベルでよい。 Learning Representations by Maximizing Mutual Information Across Views Philip Bachman, R Devon Hjelm, William Buchwalter 2019 Microsoft Research 共有されたコンテキストの異なる視点から得られた特徴の相互情報量を最大化するような自己教師あり学習を行う。画像をランダムにクロップして、そこから「大域的サマリーベクトル」を作り、それが、他のランダムにクロップした画像の予測ができるようにする。 (コンセプトとしてはGQNに近いが、2次元画像であることと、明示的に自己教師ありというところが異なる。)ImageNetの自己教師あり学習で、標準的な線形の評価で68.1%を出し、従来のものより7%良かった。 Universal Transformers Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, Lukasz Kaiser ICLR2019 U. Amsterdam, DeepMind, Google Brain トランスフォーマは、RNNがうまく扱うような例えば文字列のコピータスクとか、学習時より長い論理演算のタスクとかをうまく解けない。万能トランスフォーマでは、再帰的なモデル(+動的停止)でこれを解決する。エンコーダーとデコーダー双方に、再帰的な(Tステップの)ブロックがある。 The Faculty of Language: What Is It, Who Has It, and How Did It Evolve? Marc D. Hauser, Noam Chomsky, W. Tecumseh Fitch Science 2002 チョムスキーの論文。広い言語能力(FLB)と狭い言語能力(FLN)。FLBはセンサモーター系と、概念-意図系。FLNは、再帰的なシンボル操作能力。FLNだけが人間に特有であるなどのいくつかの仮説を説明。 Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations ICML2019 Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Rätsch, Sylvain Gelly, Bernhard Schölkopf, Olivier Bachem ETH Zurich, Max-Planc, Google ICML2019のベストペーパー。6つのVAE等を比較。disentangled表現のための教師なし学習は、モデルとデータの帰納的バイアスなしには本質的には不可能。 β-VAE, Annealed VAE, FactorVAE, β-TCVAE, DIP-VAE-I, DIP-VAE-II。 A framework for the quantitative evaluation of disentangled representations. Cian Eastwood, Christopher Williams ICLR2018 U. Edinburgh これまで、ディスエンタングルされた表現のなかでどれがいいのかははっきりしなかった。本論文では、真となる潜在表現が与えられたときに、ディスエンタングルされた表現を定量的に評価するフレームワークを提案する。3つの基準が用いられる。ディスエンタングルメント、完全さ(completeness)、情報量(informativeness)。 Recurrent Independent Mechanisms Anirudh Goyal, Alex Lamb, Jordan Hoffmann, Shagun Sodhani, Sergey Levine, Yoshua Bengio, Bernhard Schölkopf 2019 Mila, U. Montreal, MPI Tubingen, UCB 再帰独立メカニズム(RIM)の提案。複数のグループの再帰のセルがほとんど独立に遷移のダイナミクスを形成する。アテンションを通じて、疎に通信する。最も関連あるときにだけ更新する。 セルは現在の入力から読み出すためのクエリーを生成する。複数のセルから勝ったものにアテンションがあたり、読み出される。各セルはそれぞれで更新し、疎に通信する。 コピータスク、シーケンシャルMNISTで良い結果。バウンシングボール、BabyAI、Atariのゲームで高いスコア。 Neuroevolution of Self-Interpretable Agents Yujin Tang, Duong Nguyen, David Ha 2020 Google Brain, Tokyo アテンションの重要性。RLにおいて、画像をパッチにわけ、フラット化し、セルフアテンションでパッチの重要性を出す。それをコントローラに入力し、動作を出力する。セルフアテンションが強力すぎて、コントローラはわずか16ニューロンのLSTMで良い。パッチの重要性のソートやパッチの刈り取りの部分は、進化的アルゴリズムを使う。 非常に小さいパラメータで学習できるようになる。運転ゲームで道路の端に注目するとか、DoomTakeCoverで撃ってくる敵に注目するとか当たり前のことがちゃんと起こっている。 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng 2020 UCB, Google Research UC San Diego 連続的な容積的なシーン関数を最適化することで、複雑なシーンの新しいビューを合成する。CNNではなく、フルコネクトのMLP(8層256チャンネル)を使う。5Dの入力(x, y, z, 視点のθ,φ)で、出力は容積密度と視点依存の発光(r, g, b)。これをつかってレンダリングする。レンダリングした結果からロスを定義し、逆に戻す。 そもそも3次元の表現に、連続3次元の暗黙的な表現を使う方法がある。しかし、真の3次元構成へアクセスできないといけない。したがって、2次元の画像だけから暗黙的な形の表現を得るような研究がある。 また、(画像基点の)メッシュベースの表現もある。それから、体積表現を使う方法もある。解像度上げるには、離散のサンプリングを細かくしないといけないので大変。本研究では、連続的な体積を、フルコネクトのNNのなかにエンコードする。 Diffuse Synthetic 360°と、Realistic Synthetic 360°という合成のデータセット。さらにリアルワールドの8つのシーンのデータセット。 SRNやNV, LLFFなどの方法よりも良い。非常にきれいなレンダリングができている。 Learning Finite State Representations of Recurrent Policy Networks ICLR2019 RNNを状態有限機械に変換する。オートエンコーダをはさむ。面白い。 SCALOR: Generative World Models with Scalable Object Representations Jindong Jiang, Sepehr Janghorbani, Gerard de Melo & Sungjin Ahn ICLR 2020 Rutgers Univ. 空間的なアテンションと、プロポーザル/拒否メカニズムによって、SCALORはたくさんのオブジェクトを同時に扱うことができる。数十のオブジェクトを扱える。動的な背景も扱える。SQUAIR(Kosiorek 2018)をベースにしている。潜在変数をグリッド上に配置している。 A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms Yoshua Bengio, Tristan Deleu, Nasim Rahaman, Nan Rosemary Ke, Sébastien Lachapelle, Olexa Bilaniuk, Anirudh Goyal, Christopher Joseph Pa 2019, ICLR 2020 U. Montreal, CIFAR, Ecole Polytechnique Montreal 学習器がどのくらいの速さで観測したデータの分布の変化に適応できるかが、因果的な構造を見つけて、因果的な変数をディスエンタングルするのに役立つはずだという考えを提案する。つまり、動かすことによって分布が変わるのですぐに分かるということ。以前ちらっといってたプライアとしての身体性というやつだと思う。 Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension Xinyun Chen, Chen Lian, Adams Wei Yu, Denny Zhou, Dawn Song, Quoc V. Le ICLR 2020 UCB, Google Brain 数の計算を必要とするような質問応答を解く。例えば、ある国の人口は35000人で、白人が25000人、アフリカ系アメリカ人が2800人で、...というような文があったときに、白人・アフリカ系アメリカ人以外は何人?のような質問に答える。 手法としては、BERTのようなリーダーと、それを構成的なプログラム(ドメイン特有の言語)に変換するプログラマー(LSTM)を、ニューラルネットワークで構成する。質問に対応する「構成的なプログラム」は、正解データが用意されている。(EMアルゴリズム的にデータ拡張する。) Experience Grounds Language Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, Nicolas Pinto, Joseph Turian 2020 NLPの本質的な議論。言語のコミュニケーションには、世界の経験の共有が必要。世界スコープ(world scope)というのを定義している。 WS1:コーパス(過去)、WS2:インターネットのスケールで世界について書かれていること(現在)、WS3:視覚や音などの知覚、WS4:身体性、WS5:ソーシャル(ヴィトゲンシュタインの言語ゲーム、オースティンのスピーチアクトとか心の理論とか)。 まあ、当然の流れのことを書いているが、数十年前の議論から最新のDLの成果まで関連の議論の引用がしっかりしている。 KW: ToRead Up to two billion times acceleration of scientific simulations with deep neural architecture search M. F. Kasim, D. Watson-Parris, L. Deaconu, S. Oliver, P. Hatfield, D. H. Froula, G. Gregori, M. Jarvis, S. Khatiwala, J. Korenaga, J. Topp-Mugglestone, E. Viezzer, and S. M. Vinko 2020 U. Oxford, U. Rochester, Yale U. など 学習が計算の省略だという良い例になる論文。シミュレーションを学習することで、計算量を減らす。構造の探索と、重みの学習と2段階にやっている。高エネルギー物理のトムソン散乱とか、融合エネルギー科学のエッジ局所化モード診断とか、10個の科学シミュレーションを対象にしている。 Bootstrap Latent-Predictive Representations for Multitask Reinforcement Learning ICML 2020 Causal World Models by Unsupervised Deconfounding of Physical Dynamics Minne Li, Mengyue Yang, Furui Liu, Xu Chen, Zhitang Chen, Jun Wang 2020 UCL, Huawei Noah's Ark Lab 初期条件や介入が違っていたら起こっていたかもしれないことを予測する。つまり「夢を見る」。what-ifに答える。物体検知して、オブジェクトの関係をGNNでモデル化するのと、遷移をRNNでモデル化している。実験は複数のボールの転がり方。コンセプトはいいが、結果はトイモデルっぽい。 Learning to Predict Without Looking Ahead: World Models Without Forward Prediction C. Daniel Freeman, Luke Metz, David Ha NeurIPS2019 Google Brain 観測ドロップアウトという方法を提案。従来の強化学習に、エージェントが観測できる能力に制限を加える。エージェントが観測のギャップを埋めるのに世界モデルを使わないといけないようにする。将来を予測せよという目的でなく、得られた世界モデルは環境でうまく行動することに役立つ。 PDE-Driven Spatiotemporal Disentanglement Jérémie Donà, Jean-Yves Franceschi, Sylvain Lamprier, Patrick Gallinari ICLR 2021 Sorbonne U., Paris, France 偏微分方程式(PDE)を、時間・空間の2つに分けてそれぞれ学習する。 Self-supervised Adversarial Robustness for the Low-label, High-data Regime ICLR 2021 Emergent Symbols through Binding in External Memory Taylor W. Webb, Ishan Sinha, Jonathan D. Cohen ICLR 2021 UCLA, Princeton 創発記号結合ネットワーク(ESBN)を提案する。このアーキテクチャは2つの処理から成り、ひとつは具体的なエンティティの学習された埋め込みを保持し、もうひとつはタスク関連変数を処理/表現することを学習する再帰のコントローラである。 Long Range Arena: A Benchmark for Efficient Transformers ICLR 2021 Solving Mixed Integer Programs Using Neural Networks 2020 Relative Variational Intrinsic Control Kate Baumli, David Warde-Farley, Steven Hansen, Volodymyr Mnih AAAI 2020 DeepMind 題名の通りRVICという目的を、スキル学習のために設定。エージェントの環境への関係をどのように変えるかという点で区別可能かということでインセンティブをつける。 Variational Intrinsic Control Karol Gregor, Danilo Jimenez Rezende, Daan Wierstra 2016 DeepMind 教師なしの強化学習のために、エージェントの内発的なオプションの集合を見つける方法を提案する。この集合は、エージェントが到達することのできる異なる状態の数を最大化することで学習され、オプションの集合と、オプションの終了状態の相互情報量で測られる。 つまり、行動によって何らかの影響を与えられる、というのを学習しておくことで、外的な報酬が与えられたときにもうまく振る舞えるようになる。 PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics Zhiao Huang, Yuanming Hu, Tao Du, Siyuan Zhou, Hao Su, Joshua B. Tenenbaum, Chuang Gan ICLR 2021 US San Diego, MIT, Peking U. 柔らかいものを操作する微分可能なシミュレータ環境。ペンで文字を書く、ピザ生地を伸ばす、はしで物を掴む、ロープで縛るなど。 Hopper: Multi-hop Transformer for Spatiotemporal Reasoning Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf ICLR 2021 Rutgers U., NEC Laboratories America 物体検出をして(DETR)、物体をトラッキングし、これをもとにトランスフォーマで質問に答える。かなり複雑な構造。複数の情報から結論を導く推論をマルチホップと言っている。 End-to-End Egospheric Spatial Memory Daniel Lenton, Stephen James, Ronald Clark, Andrew J. Davison ICLR 2021 Dyson Robotics Lab, Imperial College London パラメータフリーの、自己球体空間メモリ(Egosperic Spatial Memory; ESM)を提案する。エージェントの周りの自己中心的な球体をメモリにエンコードする。極と方位的な2つの表現を使って量子化し、あとで混ぜる。 Pre-training Text-to-Text Transformers for Concept-centric Common Sense ICLR 2021 Knowledge Distillation as Semiparametric Inference ICLR 2021 蒸留のプロセスを、真のクラス確率を局外関数(nuisance function; 直接の興味の対象ではない関数)、教師の確率をプラグイン推定ととらえて、生徒のモデルを学習するとみなすことができる。これによって、予測の精度保証を示すことができる。 Spatially Structured Recurrent Modules ICLR 2021 Meta Attention Networks: Meta-Learning Attention to Modulate Information Between Recurrent Independent Mechanisms ICLR 2021 Grounded Language Learning Fast and Slow Felix Hill, Olivier Tieleman, Tamara von Glehn, Nathaniel Wong, Hamza Merzic, Stephen Clark ICLR 2021 DeepMind シミュレートされた3D環境での言語学習。2つのフェーズから成り、エージェントが動いて何かの物体に出会ったときに、その名前を教えてもらえるフェーズ。次が、特定のものを取ってきなさいと命令されるフェーズ。 マルチモーダル(ビジョンと言語)がお互いにKey, Valueとなるようなモデルを提案。 Control-Aware Representations for Model-based Reinforcement Learning ICLR 2021 Hopfield Networks is All You Need ICLR 2021 Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes' Rule ICLR 2021 SSD: A Unified Framework for Self-Supervised Outlier Detection Vikash Sehwag, Mung Chiang, Prateek Mittal ICLR 2021 Princeton U., Purdue U. 自己教師あり学習を使ってOODを行う。自己教師あり部分は、SimCLRのNT-Xent関数を使う。クラスタリングしてマハラノビス距離を取る。 Ask Your Humans: Using Human Instructions to Improve Generalization in Reinforcement Learning ICLR 2021 Creative Sketch Generation ICLR 2021 Concept Learners for Few-Shot Learning ICLR 2021 Neural Spatio-Temporal Point Processes ICLR 2021 Distilling Knowledge from Reader to Retriever for Question Answering ICLR 2021 Self-supervised Representation Learning with Relative Predictive Coding ICLR 2021 What Should Not Be Contrastive in Contrastive Learning ICLR 2021 Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective ICLR 2021 On the Transfer of Disentangled Representations in Realistic Settings ICLR 2021 SEED: Self-supervised Distillation For Visual Representation ICLR 2021 CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning Ossama Ahmed, Frederik Träuble, Anirudh Goyal, Alexander Neitz, Yoshua Bengio, Bernhard Schölkopf, Manuel Wüthrich, Stefan Bauer ICLR 2021 ETH Zurich, MPI Tubingen, MILA 押す、取り出す、重ねるなどの操作ができる。環境の生成モデルで実現しており、重さや形などを変えられる。なので、カリキュラムを作ったり、汎化性能を確かめるのに便利。環境のプロパティを変えることで介入できることが重要で、それによって因果構造や転移学習の研究ができるという主張。 A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks ICLR 2021 Representation Learning for Sequence Data with Deep Autoencoding Predictive Components ICLR 2021 RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs ICLR 2021 Teaching with Commentaries ICLR 2021 Recurrent Independent Mechanisms ICLR 2021 Counterfactual Generative Networks ICLR 2021 Unsupervised Representation Learning for Time Series with Temporal Neighborhood Coding ICLR 2021 Factorizing Declarative and Procedural Knowledge in Structured, Dynamical Environments ICLR 2021 Neural ODE Processes ICLR 2021 GANs Can Play Lottery Tickets Too ICLR 2021 In-N-Out: Pre-Training and Self-Training using Auxiliary Information for Out-of-Distribution Robustness ICLR 2021 Learning What To Do by Simulating the Past ICLR 2021 ALFWorld: Aligning Text and Embodied Environments for Interactive Learning ICLR 2021 Grounding Physical Object and Event Concepts Through Dynamic Visual Reasoning ICLR 2021 Learning Task-General Representations with Generative Neuro-Symbolic Modeling ICLR 2021 gradSim: Differentiable simulation for system identification and visuomotor control ICLR 2021 Adaptive Procedural Task Generation for Hard-Exploration Problems ICLR 2021 Variational Intrinsic Control Revisited ICLR 2021 Grounding Language to Autonomously-Acquired Skills via Goal Generation ICLR 2021 Unsupervised Discovery of 3D Physical Objects ICLR 2021 Generalized Energy Based Models ICLR 2021 CoCo: Controllable Counterfactuals for Evaluating Dialogue State Trackers ICLR 2021 Understanding Over-parameterization in Generative Adversarial Networks ICLR 2021 On the role of planning in model-based deep reinforcement learning ICLR 2021 CoCon: A Self-Supervised Approach for Controlled Text Generation ICLR 2021 Anatomy of Catastrophic Forgetting: Hidden Representations and Task Semantics ICLR 2021 Self-Supervised Learning of Compressed Video Representations ICLR 2021 Learning "What-if" Explanations for Sequential Decision-Making ICLR 2021 Improving Transformation Invariance in Contrastive Representation Learning ICLR 2021 Unsupervised Object Keypoint Learning using Local Spatial Predictability ICLR 2021 Generalization in data-driven models of primary visual cortex ICLR 2021 Mathematical Reasoning via Self-supervised Skip-tree Training ICLR 2021 Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels ICLR 2021 Disentangled Recurrent Wasserstein Autoencoder ICLR 2021 Generalization bounds via distillation ICLR 2021 Meta-GMVAE: Mixture of Gaussian VAE for Unsupervised Meta-Learning ICLR 2021 On Self-Supervised Image Representations for GAN Evaluation ICLR 2021 Self-supervised Visual Reinforcement Learning with Object-centric Representations ICLR 2021 Memory Optimization for Deep Networks ICLR 2021 Augmenting Physical Models with Deep Networks for Complex Dynamics Forecasting ICLR 2021 Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions ICLR 2021 Why Are Convolutional Nets More Sample-Efficient than Fully-Connected Nets? ICLR 2021 Iterated learning for emergent systematicity in VQA ICLR 2021 Model-Based Visual Planning with Self-Supervised Functional Distances ICLR 2021 VAEBM: A Symbiosis between Variational Autoencoders and Energy-based Models ICLR 2021 Autoregressive Entity Retrieval ICLR 2021 Mutual Information State Intrinsic Control ICLR 2021 Image GANs meet Differentiable Rendering for Inverse Graphics and Interpretable 3D Neural Rendering ICLR 2021 SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments ICLR 2021 Evolving Reinforcement Learning Algorithms ICLR 2021 Deformable DETR: Deformable Transformers for End-to-End Object Detection ICLR 2021 Invariant Representations for Reinforcement Learning without Reconstruction ICLR 2021 Do 2D GANs Know 3D Shape? Unsupervised 3D Shape Reconstruction from 2D Image GANs ICLR 2021 When Do Curricula Work? ICLR 2021 Learning to Reach Goals via Iterated Supervised Learning ICLR 2021 Learning Generalizable Visual Representations via Interactive Gameplay ICLR 2021 Meta-learning in natural and artificial intelligence 2020 Using Unity to Help Solve Intelligence 2020 Learning rich touch representations through cross-modal self-supervision CoRL 2020 Self-Supervised MultiModal Versatile Networks 2020 Representation Learning via Invariant Causal Mechanisms 2020 S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via Multi-View Consistency 2020 Do Transformers Need Deep Long-Range Memory 2020 What can I do here? A Theory of Affordances in Reinforcement Learning ICML 2020 An empirical investigation of the challenges of real-world reinforcement learning 2020 Visual Grounding in Video for Unsupervised Word Translation 2020 PolyGen: An Autoregressive Generative Model of 3D Meshes ICML 2020 Extending Machine Language Models toward Human-Level Language Understanding 2019 A distributional code for value in dopamine-based reinforcement learning Nature 2020 Untangling tradeoffs between recurrence and self-attention in artificial neural networks NeurIPS2020 Self-supervised Co-Training for Video Representation Learning NeurIPS2020 SLIP: Learning to predict in unknown dynamical systems with long-term memory NeurIPS2020 Self-Supervised MultiModal Versatile Networks NeurIPS2020 On Second Order Behaviour in Augmented Neural ODEs NeurIPS2020 On Numerosity of Deep Neural Networks NeurIPS2020 Deep reconstruction of strange attractors from time series NeurIPS2020 Prophet Attention: Predicting Attention with Future Attention NeurIPS2020 Rethinking Pre-training and Self-training NeurIPS2020 Learning About Objects by Learning to Interact with Them NeurIPS2020 Dissecting Neural ODEs NeurIPS2020 Hierarchical Quantized Autoencoders NeurIPS2020 Unsupervised Learning of Object Landmarks via Self-Training Correspondence NeurIPS2020 AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity NeurIPS2020 Neural Dynamic Policies for End-to-End Sensorimotor Learning NeurIPS2020 The Power of Predictions in Online Control NeurIPS2020 Cross-lingual Retrieval for Iterative Self-Supervised Training NeurIPS2020 Optimal Lottery Tickets via Subset Sum: Logarithmic Over-Parameterization is Sufficient NeurIPS2020 Ode to an ODE NeurIPS2020 Demystifying Contrastive Self-Supervised Learning: Invariances, Augmentations and Dataset Biases NeurIPS2020 Unsupervised Representation Learning by Invariance Propagation NeurIPS2020 Tree! I am no Tree! I am a low dimensional Hyperbolic Embedding NeurIPS2020 NVAE: A Deep Hierarchical Variational Autoencoder NeurIPS2020 Learning Disentangled Representations and Group Structure of Dynamical Environments NeurIPS2020 CrossTransformers: spatially-aware few-shot transfer NeurIPS2020 On the universality of deep learning NeurIPS2020 f-Divergence Variational Inference NeurIPS2020 What Did You Think Would Happen? Explaining Agent Behaviour through Intended Outcomes NeurIPS2020 Pre-training via Paraphrasing NeurIPS2020 Towards Neural Programming Interfaces NeurIPS2020 Synthesize, Execute and Debug: Learning to Repair for Neural Program Synthesis NeurIPS2020 Counterfactual Contrastive Learning for Weakly-Supervised Vision-Language Grounding NeurIPS2020 Learning to Prove Theorems by Learning to Generate Theorems NeurIPS2020 Neural Execution Engines: Learning to Execute Subroutines NeurIPS2020 Deep Reinforcement Learning and its Neuroscientific Implications Neuron 2020 Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and Reasoning NeurIPS2020 High-Throughput Synchronous Deep RL NeurIPS2020 Adversarial Sparse Transformer for Time Series Forecasting NeurIPS2020 Multi-agent active perception with prediction rewards NeurIPS2020 Disentangling Human Error from Ground Truth in Segmentation of Medical Images NeurIPS2020 The Lottery Ticket Hypothesis for Pre-trained BERT Networks NeurIPS2020 STEER : Simple Temporal Regularization For Neural ODE NeurIPS2020 See, Hear, Explore: Curiosity via Audio-Visual Association NeurIPS2020 Linear Disentangled Representations and Unsupervised Action Estimation NeurIPS2020 Video Frame Interpolation without Temporal Priors NeurIPS2020 SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows NeurIPS2020 Memory-Efficient Learning of Stable Linear Dynamical Systems for Prediction and Control NeurIPS2020 What Makes for Good Views for Contrastive Learning? NeurIPS2020 On Second Order Behaviour in Augmented Neural ODEs NeurIPS2020 Language-Conditioned Imitation Learning for Robot Manipulation Tasks NeurIPS2020 Learning Physical Graph Representations from Visual Scenes NeurIPS2020 Hybrid Models for Learning to Branch NeurIPS2020 Solver-in-the-Loop: Learning from Differentiable Physics to Interact with Iterative PDE-Solvers NeurIPS2020 Implicit Neural Representations with Periodic Activation Functions Vincent Sitzmann, Julien N. P. Martel, Alexander Bergman, David B. Lindell, Gordon Wetzstein NeurIPS2020 sin関数を活性化関数として使う。音声とか画像でもよいパフォーマンス。 The Autoencoding Variational Autoencoder NeurIPS2020 How does This Interaction Affect Me? Interpretable Attribution for Feature Interactions NeurIPS2020 Benchmarking Deep Learning Interpretability in Time Series Predictions NeurIPS2020 On the Theory of Transfer Learning: The Importance of Task Diversity NeurIPS2020 Towards Learning Convolutions from Scratch NeurIPS2020 Cycle-Contrast for Self-Supervised Video Representation Learning NeurIPS2020 Introducing Routing Uncertainty in Capsule Networks NeurIPS2020 Exemplar VAE: Linking Generative Models, Nearest Neighbor Retrieval, and Data Augmentation NeurIPS2020 Residual Distillation: Towards Portable Deep Neural Networks without Shortcuts NeurIPS2020 Provably Efficient Neural Estimation of Structural Equation Models: An Adversarial Approach NeurIPS2020 Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning NeurIPS2020 Large-Scale Adversarial Training for Vision-and-Language Representation Learning NeurIPS2020 On Efficiency in Hierarchical Reinforcement Learning NeurIPS2020 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks NeurIPS2020 Neural Complexity Measures NeurIPS2020 Winning the Lottery with Continuous Sparsification NeurIPS2020 JAX MD: A Framework for Differentiable Physics NeurIPS2020 Task-agnostic Exploration in Reinforcement Learning NeurIPS2020 Self-supervised learning through the eyes of a child NeurIPS2020 Unsupervised Learning of Lagrangian Dynamics from Images for Prediction and Control NeurIPS2020 Knowledge Distillation: A Survey Jianping Gou, Baosheng Yu, Stephen J. Maybank, Dacheng Tao 2021 U. of Sydney, Birkbeck College, U. of London 知識蒸留のサーベイ。入出力ベース、素性ベース、関係ベース。オフライン、オンライン、セルフ蒸留。敵対的蒸留、グラフベース蒸留、アテンションベース蒸留、離散化蒸留、ライフロング蒸留、NASベース蒸留など。 Sensorimotor representation learning for an "active self" in robots: A model survey Phuong D.H. Nguyen, Yasmin Kim Georgie, Ezgi Kayhan, Manfred Eppe, Verena Vanessa Hafner, and Stefan Wermter 2021 U. Hamburg, Humboldt-U. ze Berlin 人間は、自分の身体を空間の中で感じたり、手足の位置を動きの中で感じたり、他の物体やエージェントがいることに気づいていたりということができる。この論文では、まず、これらのメカニズムの発達プロセスをレビューする。次に、これらのセンサ表現や自己についてのロボットのモデルについて述べる。最後に、現在のロボットのモデルに何が足りないのかを述べる。 PPS(peripersonal space、大まかには手の届く範囲)という概念が出てくる。 Training Vision Transformers for Image Retrieval 2021 Differentiable Reasoning on Large Knowledge Bases and Natural Language Pasquale Minervini, Matko Boˇsnjak, Tim Rockt¨aschel, Sebastian Riedel, Edward Grefenstette 2019 UCL, FAIR 微分可能にした知識ベース。従来のニューラル定理証明器(NTP)を拡張して複雑で大きな問題も解けるようにする。Prologのバックチェイニングのアルゴリズムに基づいて、それを微分可能なオペレータにする。 Meeting of minds: the medial frontal cortex and social cognition 2006 Brains as Naturally Emerging Turing Machines Juyang Weng IJCNN 2015 Michigan State U. Developmental Networkは、有限オートマトンを学習することができる。チューリングマシンのコントローラは、有限オートマトンと等価であることを示す。創発的チューリングマシンという概念を議論している。 Sequential Neural Networks as Automata William Merrill ACL workshop 2019 on Deep Learning and Formal Languages: Building Bridges Yale U. オートマトンに関連付けて、ニューラルネットワークができる計算を説明する。LSTM, CNNなど。LSTMは、カウンターマシン(計算マシン)のように機能し、CNNをサブ正規の階層と関連づけた。(やろうとしていることはいいのだが、ちょっと中途半端な感じ。) Learning to Decompose and Disentangle Representations for Video Prediction Jun-Ting Hsieh, Bingbin Liu, De-An Huang, Li Fei-Fei, Juan Carlos Niebles 2018 Stanford U. 動画に対しての、DDPAE(分解ディスエンタングルされた予測オートエンコーダ)を提案。入力を要素に分解してそれぞれが予測し、足し合わせる。 Emergence of Invariance and Disentanglement in Deep Representations Alessandro Achille, Stefano Soatto 2017 UCLA DNNの不変量は、学習された表現の情報の最小化と同じであり、ノイズを混ぜることは不変な表現を学習することへのバイアスとなる。クロスエントロピーの損失を分解して、過学習する項があることを示す。この項を2つの方法で制約することで、正則化する方法を提案する。 1つは、カルバックライブラー項でPAC-ベイスのみかたに関連する。もうひとつは、重みを学習されたモデルの複雑さと見る方法で、新しい情報ボトルネックとなる。過学習と未学習の相転移的な現象も定量的に評価できる。 Min. 表現がタスクに対して持つクロスエントロピー(完全に予測すれば0)+表現がデータに対してもつ相互情報量+変異間の相関(disentanglement) Structured Disentangled Representations Babak Esmaeili, Hao Wu, Sarthak Jain, Alican Bozkurt, N. Siddharth, Brooks Paige, Dana H. Brooks, Jennifer Dy, Jan-Willem van de Meent 2018 Northwestern U. 多くの表現学習の手法は、単純な対角のガウシアンのプライアを用い、結果として変化の離散的ファクターを十分にディスエンタングルできない。ここでは、2レベルの階層的なモデルを提案する。 それとともに、ELBOの式を分解し、従来手法を統一的に整理している。 Towards a definition of disentangled representations Irina Higgins, David Amos, David Pfau, Sebastien Racaniere, Loic Matthey, Danilo Rezende, Alexander Lerchner 2018 DeepMind ディスエンタングルされた表現は、世界の変形的な性質に注目して得られることを述べる。あるベクトル表現が、ディスエンタングルされた表現であるとは、いくつかの独立な部分空間に分解し、それぞれの部分空間が他の空間のアクションから影響を受けない。 最初の「ディスエンタングルされた表現の定義」を提案する。 Image transformer ICML 2018 Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Task Fengda Zhu, Yi Zhu, Xiaojun Chang, Xiaodan Liang CVPR 2020 Monash U., U. of Chinese Academy of Sciences, Sun Yat-sen U., Dark Matter Ai Inc. ビジョン言語ナビゲーションの鍵は、視覚的なシーンと自然言語の両方を系列的に予測することである。従来の手法は、ビジョンと言語の特徴をクロスモーダルにグラウンドするアプローチをとっていた。しかし、環境に含まれる豊富な意味的情報を無視してきた(例えば、暗黙的なナビゲーショングラフとかサブ軌跡の意味論とか)。この論文では、副次推論ナビゲーション(Auxiliary Reasoning Navigation, AuxRN)を提案し、4つの自己教師ありの補助推論タスクを用いるフレームワークを提案する。この4つの問題とは、以前のアクションを説明する、ナビゲーションの進行を推定する、次の方向を予測する、軌跡の首尾一貫性を評価する、である。Room-to-Room (R2R)データセット。 言語タスクとして参考になる。 Efficient simulation of finite automata by neural nets 1991 Look before you leap: Bridging model-free and model-based reinforcement learning for planned-ahead vision-and-language navigation 2018 Scene graph generation with external knowledge and image reconstruction 2019 Self-monitoring navigation agent via auxiliary progress estimation. 2019 Analogues of mental simulation and imagination in deep learning Jessica B Hamrick 2019 DeepMind メンタルシミュレーションと想像について。メンタルシミュレーションは、物理的推論、空間的推論、モータコントロール、記憶、シーン再生、言語、反実推論などに関わっている。これを強化学習の用語で説明している。プライアに制約された、潜在的な状態遷移モデル、あるいはデータに制約された潜在的な状態遷移モデルである、ということ。これを使ってバックグラウンドのプランニングと、決定時のプランニングができる。強化学習の手法を位置づけている。 Action and Perception as Divergence Minimization Danijar Hafner, Pedro A. Ortega, Jimmy Ba, Thomas Parr, Karl Friston, Nicolas Heess 2020 Google Brain, DeepMind, U. Toronto, UCL アクションと知覚が同じKL最小化の問題になる。知覚は、入力に基づいて表現の信念に影響を与える。アクションは、表現に基づいて入力に影響を与える。この視点から、変分推論、償却推論、将来の入力、制御、最大エントロピーRL、エンパワメント(将来の入力と将来のアクションの相互情報量を最大化する。環境に影響を与えることを促進する)、スキル発見(入力とスキルの相互情報量を最大化する)、情報ゲインなどの概念を統一的に説明している。重要。 Stabilizing Transformers for Reinforcement Learning 2019 The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design Jeff Dean 2019 AutoMLの構想など。 Disentanglement in conceptual space during sensorimotor interaction Junpei Zhong, Tetsuya Ogata, Angelo Cangelosi, Chenguang Yang Cognitive Computation and Systems 2019 AIST, Waseda, U. Manchester, U. West of England VAEとPredNetを組み合わせたモデル。VAEを拡張した、変分アクションフィードバック拡張PredNet(VAFA-PredNet)というもの。色とかサイズとかがdisentangleできる。 Neuroscience of Imagination and Implications for Human Evolution Andrey Vyshedskiy 2019 Boston U. 睡眠時の夢は創造的な像を作る。人は、前頭前野合成(PFS)によって、意識的・意図的に心的なイメージを想像することができる。この両者は異なるもので、PFSはLPFS(外側前頭前野)に大きく依存していて、そこに損傷があるとPFSの能力を失うが、夢については変わらない。 Sharpness-Aware Minimization for Efficiently Improving Generalization 2020 Scaling Laws for Autoregressive Generative Modeling Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, Sam McCandlish 2020 OpenAI 画像生成のモデル、動画のモデル、マルチモーダルな画像とテキストの変換のモデル、数学的問題解決の4つのドメインに対して、トランスフォーマの性能が、モデルサイズと計算機の予算とともにべき乗則で増える。(データセットは下がるが、べき乗則のようには見えない。) Scaling Laws for Neural Language Models Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei 2020 OpenAI 言語モデルにおけるトランスフォーマを使った場合のクロスエントロピー損失が、モデルサイズ、データセットのサイズ、計算量に応じてべき乗則でスケールすることを示す。逆に、ネットワークのアーキテクチャやハイパーパラメータはほとんど効かない。 Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data Clin Wei, Kendrick Shen, Yining Chen, Tengyu Ma 2020, ICLR 2021 Stanford U. 従来は線形なモデルにのみ示されていた自己教師の理論的な理解を、広げる。 データの低確率の部分集合は、より高い確率を持つその近傍に拡張しなければならない、という仮説が分析の中心である。 Transformer Feed-Forward Layers Are Key-Value Memories Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy 2020 コーネル大 フィードフォワード層は、トランスフォーマのモデルの2/3を構成するが、その役割がよく知られていない。ここでは、キー-バリュー記憶として働くことを示す。キーがテキストのパターンでバリューが出力の語彙の分布である。 Taming Transformers for High-Resolution Image Synthesis Patrick Esser, Robin Rombach, Bjorn Ommer 2020 Heidelberg U., ドイツ 畳み込みVQGANを作って、コードブックを作る。この構成はそれに続く自己回帰のトランスフォーマで行われる。 Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup Guodong Xu, Ziwei Liu, Chen Change Loy 2020 The Chinese U. of Hong Kong, Nanyang Tech U. 知識蒸留の効率について。訓練時のコストを減らす。あまり注目されてなかった。UNIXという方法を提案。2つの要素からなる。不確実性サンプル戦略は、訓練データの情報の多さを使って戦略を評価する。適応的なミックスアップは、不確実なサンプルに適用されて、それが訓練データに使われる。 TransTrack: Multiple-Object Tracking with Transformer Peize Sun, Yi Jiang, Rufeng Zhang, Enze Xie, Jinkun Cao, Xinting Hu, Tao Kong, Zehuan Yuan, Changhu Wang, Ping Luo 2020 U. Hong Kong, ByteDnace AI Lab, Tongji U., Carnegie Mellon U., Nanyang Tech. U. オブジェクトトラッキングをトランスフォーマを使って行う。前後のフレームを入れて、IoUマッチングをする。 Learning Incompressible Fluid Dynamics from Scratch - Towards Fast, Differentiable Fluid Models that Generalize Nils Wandel, Michael Weinmann, Reinhard Klein 2020 U. Bonn 従来の流体へのDLの利用はシミュレーションを使うなどしていた。この研究では、シミュレーションがいらず、CNNによって流体の時間tにおける状態を時間t+dtにマッピングする。U-netも使う。 Is Attention Better Than Matrix Decomposition? Zhengyang Geng, Meng-Hao Guo, Hongxu Chen, Xia Li, Ke Wei, Zhouchen Lin 2020 自己注意は、行列分解よりも性能や計算コストの点で優っていない。大域的な文脈を、低ランクの補完の問題と捉え、その最適化のアルゴリズムが大域的な情報ブロックの設計に資することを示す。ハンバーガーというモデルを提案し、行列分解の最適化手法を用い、入力の表現をサブの行列に分解し、低ランクの埋め込みを再現する。 A Survey on Visual Transformer Kai Han et al. 2021 Huawei Tech., Peking U., U. Sydney iGPT、ViT、Dekt-B、DETR(物体検知)、Max-DeepLab(セグメンテーション)など。 Efficient Attention: Attention with Linear Complexities Shen Zhuoran, Zhang Mingyuan, Zhao Haiyu, Yi Shuai, Li Hongsheng 2020 SenseTime, the Chinese U. of Hong Kong アテンションのKVQの掛け算の順序を変えて、パラメータを減らす。 ArtEmis: Affective Language for Visual Art Panos Achilioptas, Maks Ovsjanikov, Kilichbek Haydarov, Mohamed Elhoseiny, Leonidas Guibas 2020 Stanford U., Ecole Polytechnique, King Abdullar U. of Science and Technology 8万1000枚のアートの作品に対しての、43万9000の感情的な属性・説明のデータセット。 Dataset Condensation with Gradient Matching Bo Zhao, Konda Reddy Mopuri, Hakan Bilen 2020 U. Edinburgh 少ないデータセットで同じ学習精度が出るように、データセットのほうを合成する。もとのデータセットと同じ学習ができるように、分類精度のロスや各層での学習結果の差に対してロスを定義、伝搬させる。0.2%のデータ量で9割程度のパフォーマンス。 Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image 2020 Andrew Liu, Richard Tucker, Varun Jampani, Ameesh Makadia, Noah Snavely, Angjoo Kanazawa Google Research 自然の風景の画像を1枚入れると、動画(フレーム)を延々と出力しつづける。 風景の幾何と、画像の描画をハイブリッドにし、描画、修正、繰り返す、と行う。カメラの位置を空間上で計算しつつ、隠れた部分について描画するようだ。SPADEという描画手法をベース。resnetとアップサンプリングで、徐々に拡大していくようなネットワーク(pix2pixのような感じ)。 Learning Transferable Visual Models From Natural Language Supervision Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever 2020 OpenAI テキストと画像のゼロショット学習。コントラスティブ事前学習で、ペアリングを学習する。visionトランスフォーマ、テキストトランスフォーマ。画像、テキストの4億ペアで学習。 Generative Language Modeling for Automated Theorem Proving Stanislas Polu and Ilya Sutskever 2020 OpenAI GPT-f。GPT-2やGPT-3を使って、数学の定理証明を行う。Metamathライブラリーというのがあって、約3万8000個の証明が入っている。36層、7億7400万パラメータのモデル。新しい短い証明を見つけて、Metamathライブラリーに登録されたことは初。 Making sense of sensory input Richard Evansa, Jose Hernandez-Orallo, JohannesWelbl, Pushmeet Kohli, Marek Sergot 2020 DeepMind, Imperial College, U. Politecnica de Valencia センサ入力の「意味が分かる」ために、記号的に説明する。 #Deep learning-enabled medical computer vision #2020 Unsupervised Learning of Visual Features by Contrasting Cluster Assignments 2020 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF 2020 Hugging Face DistilBERTとよぶより小さな汎用言語表現モデルを提案する。これまでの蒸留はタスク依存だったが、事前学習を知識蒸留し、40%サイズを減らし、97%の能力、60%の高速化を達成した。損失関数は工夫があるが、基本はただの蒸留。 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices 2020 Rethinking Attention with Performers Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell1, Adrian Weller 2020, ICLR 2021 Google, U. Cambridge, DeepMind, Alan Turing Instiutte パフォーマを提案する。通常のフルランクアテンションのトランスフォーマを証明可能な精度で推定することができ、線形な空間と時間の複雑性しかもたない、トランスフォーマのアーキテクチャである。正の直交するランダム素性による高速テンションアプローチ(FAVOR+)という方法を使う。 行列をさらに分解して細かくするようなもの。 Big Bird: Transformers for Longer Sequences Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed NeurIPS 2020 Google Research トランスフォーマは系列の長さnに対してO(n^2)のメモリ・計算量がかかるが、大域的アテンション、ウィンドウアテンション、ランダムアテンションを組み合わせて、O(n)にする。8倍の長さの系列まで扱えるようになる。 What Makes Instance Discrimination Good for Transfer Learning? 2020 End-to-End Object Detection with Transformers Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko 2020 FAIR CNNに入れて、画像特徴にしたあと、トランスフォーマで、物体検知を「集合予測」の問題として考える。DEtection TRansformer (DETR)とよぶ手法。 Generative Pretraining from Pixels Mark Chen, Alec Radford, Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan, Ilya Sutskever 2020 OpenAI GPT-2スケールのモデルを自然言語ではなく画像に。系列のトランスフォーマで、自己回帰的にピクセルを予測する。CIFAR-10で、線形なもので96.3%の精度で、教師ありのWideResNetを上回り、フルチューニングすれば99.0%で最高精度の教師ありと匹敵する。 Training data-efficient image transformers & distillation through attention Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou 2020 FAIR, Sorbonne U. ViTなどは、多くの画像で事前学習される。ここではイメージネットだけを用いて、コンボリューションのないトランスフォーマを8GPUで3日間で訓練する。この86Mパラメータのトランスフォーマは、top-1 accuracyで83.1%をイメージネットで出すことができる。提案するのは、Data-efficieint image Transformers; DeiT。モデルは、ViT-Bと同じ。(少しだけ異なる。) さらにトークンベースの戦略を用いた蒸留を行うことで、高速に精度を上げる。 How Much Knowledge Can You Pack Into the Parameters of a Language Model? Adam Roberts, Colin Raffel, Noam Shazeer 2020 Google 外部知識にアクセスを許さないで、言語モデル(T5)だけから(本を閉じた状態で)質問に答える手法の定量的な実験を行っている。最も巨大なモデル(XXL)で事前学習の目的としてsalient span masking(SSM)を使った場合に、知識を使う(本を開けた)最新のアプローチと同程度。 REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang 2020 Google Research 検索拡張言語モデル(REALM)の提案。内積の最大化の検索によって文書を検索し、エンドトゥエンドで学習する。 Making Pre-trained Language Models Better Few-shot Learners 2020 Self-Supervised Meta-Learning for Few-Shot Natural Language Classification Tasks 2020 Learning The Difference That Makes A Difference With Counterfactually-Augmented Data 2019 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity William Fedus, Barret Zoph, Noam Shazeer 2022 Google 事前学習のスピードを7倍あげる。混合エキスパートを改良する。サンプルあたりの浮動小数点演算を一定にしながら、パラメータの数を増やす。FFNの部分を、スイッチFFN層で置き換える。 Taming Transformers for High-Resolution Image Synthesis 2020 Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling NeurIPS 2020 Untangling tradeoffs between recurrence and self-attention in artificial neural networks NeurIPS 2020 Can the Brain Do Backpropagation? --- Exact Implementation of Backpropagation in Predictive Coding Networks NeurIPS 2020 Big Self-Supervised Models are Strong Semi-Supervised Learners Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton NeurIPS 2020 Google Research, Brain Team 教師なしで学習し、教師あり(ファインチューニング)で学習する。ラベルが少ないほど、教師なしのほうはうまくいく。ファインチューニング後は、蒸留をすることでタスクに依存した特徴だけになり軽くなる。ImageNetを使って、教師あり、教師なし、蒸留の関係を上手に解説している。 Latent World Models For Intrinsically Motivated Exploration Aleksandr Ermolov, Nicu Sebe NeurIPS 2020 U. Trento 部分観測可能で疎な報酬の環境を考える。画像ベースの観測のための自己教師ありの表現学習の手法を提案する。 2つの近接した時間フレームでの表現の差が小さくなるように表現を学習する。(と、時間的に不変なものに近くなる。)RNNで世界モデルを構築し、環境のダイナミクスをモデル化する。 A Survey on Contrastive Self-supervised Learning 2020 Soft-IntroVAE: Analyzing and Improving the Introspective Variational Autoencoder Tal Daniel, Aviv Tamar 2020 Technion, Haifa, Israel VAEに識別器を導入したIntroVAEのヒンジ損失をスムーズな指数ロスに置き換える。非常にきれいな画像生成ができる。 IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis 2018 Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition 2020 OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning Anurag Ajay, Aviral Kumar, Pulkit Agrawal, Sergey Levine, Ofir Nachum 2020 MIT, Google Brain, UCB 教師なしでのポリシーをオートエンコーダでエンコーディングして、それをプリミティブとして使ってタスクポリシーを求める。全体の構成としてはとても良いと思う。D4RLで、いくつかのタスクですごくスコアがあがっている。どんなプリミティブが得られているのかとか、教師なしの行動でどういうpriorなのかとか不明。 Differentiable Vector Graphics Rasterization for Editing and Learning Tzu-Mao Li, Michal Lukáč, Michaël Gharbi, Jonathan Ragan-Kelley SIGGRAPH Asia 2020 MIT, Adobe ベクターグラフィックをラスタライズすると、元に戻せない。(CNN等はラスタライズしないと動かない一方で、フォントとか多くのものはコンパクトなベクターで表現されている。)これを微分可能にして戻せるようにする。 Neural Networks Fail to Learn Periodic Functions and How to Fix It Liu Ziyin, Tilman Hartwig, Masahito Ueda 2020 U. Tokyo x+sin(x)^2という関数(へび関数)を活性化関数として用いることで周期をうまく捉えられ、かつ局所解に陥りづらい。外挿の能力が重要。 6-DOF GraspNet: Variational Grasp Generation for Object Manipulation Arsalan Mousavian, Clemens Eppner, Dieter Fox 2020 NVIDIA VAEで、ポイントクラウドから把持姿勢へとマッピングする。シミュレーション上だけで訓練し、88%の成功。 Learning Real-World Robot Policies by Dreaming AJ Piergiovanni, Alan Wu, Michael S. Ryoo 2019 Indiana University Bllomington VAEで状態表現と状態遷移のモデルを作る。この世界モデル上で強化学習。TurtleBotを動かす。移動タスク。方向はとてもいいと思う。 SoftGym: Benchmark for Soft Object Manipulation of Deep RL algoritms Xingyu Lin, Yufei Wang, Jake Olkin, David Held 2020 CMU 変形するオブジェクトのOpenAI Gym互換。SoftGym-Medium(水を注ぐ、ロープを伸ばす、布をたたむなど), SoftGym-Hard(水を一定量注ぐ、ロープを整形する、ぐちゃぐちゃになった布をたたむ)、SoftGym-Robot(これをSawyerやFranka相当のロボットでやる)。 Learning Predictive Representations for Deformable Objects Using Contrastive Estimation 2020 Graph-based Hierarchical Knowledge Representation for Robot Task Transfer from Virtual to Physical World Zhenliang Zhang, Yixin Zhu, Song-Chun Zhu 2020 Tencent, UCLA 洗濯物をたたむのをVRで例示して、たたみ方をAnd-Or-Graph(AOGグラフ)として学習。(構造は決まっていて重みだけ求めているのかも。)それを使ってロボットが学習する。 Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning 2020 Aviral Kumar, Rishabh Agarwal, Dibya Ghosh, Sergey Levine UCB, Google Research, MILA なぜ深層RLが難しいか。価値ネットワークの更新を、TD最小化のようなブートストラップ的な勾配降下で行うと、ランクが落ちてアンダーパラメタライゼーションになり、パフォーマンスが落ちる。 MELD: Meta-Reinforcement Learning from Images via Latent State Models Tony Z. Zhao, Anusha Nagabandi, Kate Rakelly, Chelsea Finn, Sergey Levine 2020 UCB, Stanford 潜在ダイナミクスによるメタRL。VAE+時系列の一貫性で潜在変数を出している。(アトラクタ的な話はない。)イーサネットのケーブルを差し込むタスクで実験。 Decoupling Representation Learning from Reinforcement Learning Adam Stooke, Kimin Lee, Pieter Abbeel, & Michael Laskin UCB 2020 教師なしによる表現学習と、方策の学習を分ける。ATG(Augmented Temporal Contrast)とよばれるCNNを使った教師なし学習で、kステップ先の入力を当てるというタスクを解かせて、エンコーダをRLで使う。(アプローチとしては正しい。) Predictive Coding Approximates Backprop along Arbitrary Computation Graphs Beren Millidge, Alexander Tschantz, and Christopher L Buckley 2020 U. Edinburgh, U. Sussex 予測符号化が、多層のパーセプトロンだけでなく、計算グラフ上の自動微分全般を生物学的に可能な方法で実装できることを示す。 Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images Rewon Child 2020, ICLR2021 48層とか72層とかあるVAE。PixelCNNより高い尤度、少ないパラメータ。残余ブロックを使って、階層的(ラダーネットワークのように)にエンコーダ、デコーダを構成する。 Learning quadrupedal locomotion over challenging terrain 2020 Mastering Atari with Discrete World Models Danijar Hafner, Google Brain, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba 2020 Google Brain, DeepMind, U. Toronto DreemerV2。潜在空間の遷移のモデル(CNN+GRU)と、強化学習。ガウシアンの潜在変数ではなくて、カテゴリ変数を用いている。 Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy Lillicrap, David Silver 2019 DeepMind, UCL AlphaZeroからMuZero。モデルをもってなくても学習する。ATARIに加えて、囲碁や将棋もルールを与えない。過去の観測と(数ステップの)将来のアクションから、(数ステップ以降の)ポリシー、価値関数、直近のリワードを学習するようなモデルを学習。モンテカルロツリー探索で行動をも見つけるのはAlphaZeroと同じ。 Image GANs meet Differentiable Rendering for Inverse Graphics and Interpretable 3D Neural Rendering Yuxuan Zhang, Wenzheng Chen, Huan Ling, Jun Gao, Yinan Zhang, Antonio Torralba, Sanja Fidler 2020 NVIDIA, U. Toronto, Vector Institute, U. Waterloo, Stanford, MIT スタイルGANで、異なるビューをスタイルとして3Dの生成をする。微分可能なレンダラにテキスチャとか入れて、生成する。 Generative Modeling by Estimating Gradients of the Data Distribution 2020 It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 2020 Understanding Self-supervised Learning with Dual Deep Networks 2020 DreamCoder: Growing generalizable, interpretable knowledge with wake-sleep Bayesian program learning Kevin Ellis, Catherine Wong, Maxwell Nye, Mathias Sabl´e-Meyer, Luc Cary, Lucas Morales, Luke Hewitt, Armando Solar-Lezama, Joshua B. Tenenbaum 2020 MIT タスクを解くようなプログラムを学習する。Wakeフェーズでは、さまざまなタスクのデータを提示され、構成的に解くことを試みる。(ニューラルにガイドされた探索。)Sleepフェーズでは、抽象化とドリーミングを行う。抽象化はライブラリのリファクタリング、ドリーミングはサンプリングしながらタスクからプログラムを出せるように学習する。 Efficient inverse graphics in biological face processing Ilker Yildirim, Mario Belledonne, Winrich Freiwald, Josh Tenenbaum 2020 MIT, Yale 視覚は、認識や検知をするだけでなく、背後にあるシーンの構造を推論する。逆生成モデル、または「合成による分析」は、可能な解を提示するが、その実装は通常はとてもおそく、神経回路とのマッピングは不明だった。ここでは、神経学的に可能で、効率的な逆グラフィックモデルを提案する。 (生成モデルとあわせたアルゴリズム蒸留の考え方に近い。) Generating high fidelity images with subscale pixel networks and multidimensional upscaling ICLR 2019 SPN(Subscale Pixel Network)の提案。 Scaling autoregressive video models. Dirk Weissenborn, Oscar T¨ackstr¨om, Jakob Uszkoreit ICLR 2020 Google Research 動画のトランスフォーマ。3次元、ブロック局所的なセルフアテンションを使う。TPUで実装。時間・空間の区別をしていない。サブスケールした画像スライスを使う(SPNと同じ)。大きいモデルだと128TPUを使っている。 VideoGen: Genetive Modeling of Videos using VQ-VAE and Transformers 2021 量子化VAE(VQ-VAE)とGPTを使って動画の生成モデルを学習。VQ-VAEの潜在変数を使って、自己回帰の自己相関をiGPTを使って学習する。SOTAではないが、VQ-VAEの再構成の質にバウンドされているのが原因と分析。 Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven Exploration Cédric Colas, Tristan Karch, Nicolas Lair, Jean-Michel Dussoux, Clément Moulin-Frier, Peter Ford Dominey, Pierre-Yves Oudeyer 2020 Inria, FR 分布外のゴールを想像する力が重要。言語によって、「赤い猫をつかめ」などを生成し、それをもとにRLエージェントが動く。いったん画像を生成するわけではない。 Generative Language Modeling for Automated Theorem Proving Chulhee Yun, Srinadh Bhojanapalli, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar ICML 2020 MIT, Google Research NY トランスフォーマが、系列マッピングの万能近似器であることを示す。パーミュテーション等価であるが、これが位置エンコーディングによってこの制約を外すことができる。自己アテンション層で文脈マッピングというのを実現し、フィードフォワード層で量子化をしている。 Generative Pretraining from Pixels Mark Chen, Alec Radford, Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan, Ilya Sutskever 2020 OpenAI GPT-2を画像に適用。解像度を荒くして1次元化し、マスクしたピクセルの予測、あるいは、自己相関的に次のピクセルを予測というタスクで事前学習。その後にファインチューニング。iGPTと呼ぶ。CIFAR10では、線形なモデルでも教師ありのWide ResNetの精度を超え、フルファインチューニングではトップレベルの教師ありに並ぶ。より大きなモデルでImageNetとwebで事前学習させると、ImageNetのtop-1で72.0%で、最高精度に匹敵する。 Brain States and Transitions: Insights from Computational Neuroscience Morten L. Kringelbach and Gustavo Deco Ceel Reports, 2020 U. Oxford 脳がどこでどのようにひとつの状態から別の状態に変わるのかを予測するのは難しい。どのように脳の状態を定義するか。最近では、脳の状態の定義とその遷移についていろいろと分かってきており、それをサーベイする。そして新しいフレームワークである、機能的階層組織化について述べる。 Brain2Word: Decoding Brain Activity for Language Generation Continuous-variable quantum neural networks 2018 Are Transformers universal approximators of sequence-to-sequence functions? Chulhee Yun, Srinadh Bhojanapalli, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar ICML 2020 MIT, Google Research トランスフォーマは、コンパクトな台をもつ、連続空間の置換同値な系列から系列への関数の、万能近似器である。さらに、位置符号化を使えば、置換同値の制限も外すことができる。 マルチヘッドの自己注意層が文脈マッピングを計算し、フィードフォワード層の値マッピングと組み合わせることで、トランスフォーマの万能近似が可能になる。 Unsupervised feature learning via non-parametric instance discrimination. CVPR 2018 SaccadeNet: A Fast and Accurate Object Detector CVPR 2020 Visual-textual Capsule Routing for Text-based Video Segmentation Bruce McIntosh, Kevin Duarte, Yogesh S Rawat, Mubarak Shah CVPR2020 U. Central Florida 動画とテキストでそれぞれカプセルを作って、アクターとアクションの局在化を行う。すべてのフレームを使った局在化が可能。 Object Relational Graph with Teacher-Recommended Learning for Video Captioning CVPR2020 REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments CVPR2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions CVPR2020 Dynamic Refinement Network for Oriented and Densely Packed Object Detection – Supplementary Materials CVPR 2020 End-to-End Model-Free Reinforcement Learning for Urban Driving using Implicit Affordances CVPR2020 Evolving Losses for Unsupervised Video Representation Learning CVPR 2020 Self-Supervised Viewpoint Learning From Image Collections CVPR 2020 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild CVPR 2020 Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image CVPR 2020 X3D: Expanding Architectures for Efficient Video Recognition CVPR 2020 GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping CVPR 2020 Action Genome: Actions as Composition of Spatio-temporal Scene Graphs CVPR 2020 Autolabeling 3D Objects with Differentiable Rendering of SDF Shape Priors CVPR 2020 Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning CVPR 2020 How Useful is Self-Supervised Pretraining for Visual Tasks? CVPR 2020 PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization CVPR 2020 Reverse-engineering core common sense with the tools of probabilistic programs, game-style simulation engines, and inductive program synthesis Joshua Tenenbaum CVPR 2020 minds vs machines workshop Generalized Earley Parser: Bridging Symbolic Grammars and Sequence Data for Future Prediction ICML 2018 Model Cards for Model Reporting 2019 Turing Computability with Neural Nets Hava T. Siegelmann, Eduardo D. Sontag 1991 Rutgers U. (RNN型のニューラルネットワークにおいて)標準的な線型結合は、チューリングマシンと同様の計算能力をもつネットワークを構成するのに十分である。チューリングマシンは、無制限の数のニューロンを許せば可能になることが知られていたが、我々は、有限の数のニューロンで良いことを主張する。 On The Turing Completeness of Modern Neural Network Architectures Jorge P´erez, Javier Marinkovi´c, Pablo Barcel´o ICLR 2019 U. Chile トランスフォーマ(位置符号化つき)とニューラルGPUがチューリング完全であることを示す。どちらも外部メモリへのアクセスを必要としないでチューリング完全である。すべてのチューリングマシンMに対して、それをシミュレートするトランスフォーマが存在することを示すことで証明する。 Deep Learning Needs a Prefrontal Cortex Jacob Russin, Randall C. O'Reilly, Yoshua Bengio ICLR 2020 workshop on "Bridging AI and Cognitive Science" UC Davis, MILA 深層学習で残っている課題と、脳の前頭葉でやっていることが近いという話。サーベイがとても丁寧で、深層学習の課題、そして、前頭葉の機能をたくさんの引用をしながら説明し、その対応関係や解決策を提示している。 Decentralized Reinforcement Learning: Global Decision-Making via Local Economic Transactions 2020 Shaping Belief States with Generative Environment Models for RL 2019 Meta-Learning Symmetries by Reparameterization Allan Zhou, Tom Knowles, Chelsea Finn 2020 Stanford コンボリューション層は、入力のシフトに対して等価であるが、これは実践家が事前知識のタスクの対称性を入れたからである。データから透過性を学習する、一般的なアプローチを提案する。 内部ループと外部ループを作って(メタ学習として)、外部ループで対称性の行列U(重みの共有を表現している)の勾配を取り、修正していく。 コンボリューションと同じようなものも学習できることを検証。 See, Hear, Explore: Curiosity via Audio-Visual Association Victoria Dean, Shubham Tulsiani, Abhinav Gupta 2020 CMU, FAIR ATARI等で、複数のモダリティに関しての新しい相関に対しての好奇心の報酬を与えるとパフォーマンスが良くなることを示す。 NVAE: A Deep Hierarchical Variational Autoencoder Arash Vahdat, Jan Kautz 2020 NVIDIA VAEを階層的にしてきれいな絵を描く。Nouveau VAE(ヌーボーVAE)。Residualセルを使うところが以前の階層的なVAEとの違い。 Reinforcement Learning via Fenchel-Rockafellar Duality 2020 SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows 2020 Wave Function Collapse in Bad North FFJORD: Free-form Continuous Dynamics for Scalable Reversible Generative Models 2018 Symmetry-Based Disentangled Representation Learning requires Interaction with Environments Hugo Caselles-Dupré, Michael Garcia-Ortiz, David Filliat 2019 ENSTA Paris, INRIA, Softbank Robotics Europe Higgins 2018のSymmetry-Based Disentangled Representation Learningをベースとして、観測だけでなく、エージェントが環境とインタラクトし対称性を見つけるということを述べる。 Model-based actor-critic: GAN + DRL (actor-critic) => AGI Aras Dargazany 2020 U. Rhode Island, USA 生成モデルと強化学習を合わせるということ。重要ではあるが自明。 Understanding Knowledge Distillation in Non-autoregressive Machine Translation Chunting Zhou, Jiatao Gu Graham Neubig 2019, ICLR 2020 CMU, FAIR 非自己相関機械翻訳(NAT)は、生成速度をあげるために重要な技術である。NATは、通常、ATモデルから蒸留で作られる。蒸留は経験的に有用であることがわかっているが、この論文では、なぜNATに蒸留が重要であるかを示す。蒸留は、データセットの複雑さを下げ、出力データの変異をモデル化することができるからである。NATモデルのパフォーマンスをあげる方法を提案する。 Revisit Knowledge Distillation: a Teacher-free Framework Li Yuan, Francis E.H.Tay, Guilin Li, TaoWang, Jiashi Feng CVPR2020 NUS, Huawei Noah's Ark Lab 知識蒸留は通常は教師ネットワークが強い場合だが、ここではいろいろな設定で試す。それによって、1) 逆の蒸留をすると、生徒が教師をあげることができる、2) うまく訓練できてない教師でも生徒を上げることができる、これらは結局、知識蒸留がラベルスムーズ化の正則化であるからであり、それを使った教師なしの知識蒸留(Tf-KD)を提案する。(ラベルスムーズ化は、2015年のInception論文で述べられているもので、ラベルを真のラベルと適当にサンプリングした(一様分布とか)ラベルとまぜてスムーズにしたもの) Language Models are Few-Shot Learners Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei OpenAI 2020 GPT-3。GPT-2と同じモデルで、微修正をしている。(Sparse transformerのように密と疎の交互のアテンションを入れている。) 1750億のパラメータで、従来のどの研究よりも10倍も大きい。データセットはCommon Crawlデータセット(1兆語)。 メタ学習。事前学習では、さまざまなスキルやパターン認識能力を学習するが、目的となるタスクが与えられたときには、そうした能力を使ってすぐに適応する。 Language Models are Unsupervised Multitask Learners Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 2018 OpenAI GPT-2論文。データセットを増やして、それをいかにきちんと選んでいるかが書かれている。15億パラメータ。CoQAデータセットでF1スコアが55で、4つのうち3つのベースラインを訓練データなしに上回った。8つのうち7つのタスクで、ゼロショットの設定でSOTA。 Improving Neural Architecture Search Image Classifiers via Ensemble Learning Vladimir Macko, CharlesWeill, Hanna Mazzawi, Javier Gonzalvo 2019 Google Research NASでは、よいブロックは見つかるがこれを最終的なアーキテクチャに組み上げるのは人間である。通常は、これらのブロックをひとつのタワーにつみあげ、幅と高さを、パラメータ予算のなかで調整する。しかし、これらのタワーは最適なものと限らない。 この論文ではAdaNASアルゴリズムという、小さなネットワークのアンサンブルでネットワークを構成する手法を提案する。さらに、知識蒸留によって、繰り返し、前のアンサンブルを教師としながら、小さいネットワークを訓練する。CIFAR10で最高精度同様、CIFAR100で最高精度を達成した。 Blockwisely Supervised Neural Architecture Search with Knowledge Distillation Changlin Li, Jiefeng Peng1, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, Xiaojun Chang 2019 DarkMatter AI Research, Monash U., Sun Yat-sen U. NASは有効でないという最近の研究もある。本研究では、NASの広大な探索スペースをブロックにわけ、潜在的な候補のアーキテクチャが完全に訓練されるようにする。ブロックのおかげで、ブロック内のアーキテクチャも完全に評価することができる。ネットワークモデルの知識は、パラメータだけでなくアーキテクチャにもあるので、教師モデルから蒸留し、ブロックによるアーキテクチャの探索をガイドするために用いる。結果的に教師モデルを越え、最新のtop-1精度をImageNetのモバイル設定で出した。 Towards Oracle Knowledge Distillation with Neural Architecture Search Minsoo Kang, Jonghwan Mun, Bohyung Han AAAI 2020 Seoul National U., POSTECH (韓国) アンサンブルの教師ネットワークから、強力で効率的な生徒モデルを学習することのできる知識蒸留のフレームワークを提案する。教師と生徒の容量のギャップ問題に対応し、このギャップを減らしながら教師モデルから得られるものを最大化する。特に、有用な構造やオペレーションを追加するNASの技術を用いる。ここでは、探索されるネットワークが、学生モデルにとって知識蒸留に適していて、ネットワークの容量を犠牲にすることがないようなものとなる。 さらに、オラクル知識蒸留損失を導入し、アンサンブルに基づく教師モデルを用いた蒸留とモデルの探索を行う。つまり、正解が分かっているわけなので、それを出すモデルだけをアンサンブルして教師として使う。LSTMコントローラーを使ってサンプリング。 Search to Distill: Pearls are Everywhere but not the Eyes Yu Liu, Xuhui Jia, Mingxing Tan, Raviteja Vemulapalli, Yukun Zhu, Bradley Green, Xiaogang Wang 2020 Google AI, Google Brain ネットワークの出力分布は、パラメータだけでなく、アーキテクチャにもよる。したがって、知識蒸留のより一般的なアプローチとして、パラメータとアーキテクチャの両方に知識を蒸留する。そのために、アーキテクチャーを意識した知識蒸留を提案する。教師モデルが与えられたときに、最適な生徒モデル(教師にとっては真珠)を見つける。特に、知識蒸留にガイドされたリワードを備えたNASを用いる。ImageNetの分類で、SOTAを達成した。 強化学習で探索空間を探している。 Grounding Language for Transfer in Deep Reinforcement Learning Karthik Narasimhan, Regina Barzilay, Tommi Jaakkola JAIR 2018 Princeton U., MIT テキストの意味を、遷移や報酬などの環境のダイナミクスとグラウンドさせることを学習することで、自律エージェントが新しいドメインで記述を与えられると方策を有効にブートストラップさせられるようなモデルベース学習を提案する。「これは敵です」とか、「動かない壁です」とかの記述を与える。 High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks 2019 Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control 2018 Model-Based Reinforcement Learning for Atari Łukasz Kaiser, Mohammad Babaeizadeh, Piotr Miłos, Błazej Osinski, Roy H. Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn;, Piotr Kozakowski, Sergey Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker, Henryk Michalewski ICLR 2020 Google Brain, deepsense.ai, Inst. of the Polish Academy of Science, U. Warsaw, U. Illinois Urbana-Champaign, Stanford ストレートなすごい論文。ビデオ予測をいれたモデルベース強化学習。SimPLe(Simulated Policy Learning)。モデルフリーよりもずっと少ないインタラクションで学習できる。観測からの世界モデルの構築(自己教師あり)、世界モデルから方策をだすエージェントの訓練、方策から観測を出すエージェントの評価、がサイクルになるというスキーム図あり。 ビデオ予測のところは、4フレームからラダー的なエンコーダ・デコーダで、次のフレームと報酬を予測する。また、LSTMでダイナミクスを予測する。 Learning Latent Dynamics for Planning from Pixels Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson 2019 Google Brain, U. Toronto, DeepMind 観測からのモデルベースのプラニング。PlaNetとよぶ。RNNではなく、Recurrent state-speceモデルというのを使う。確定的な隠れ層と、確率的な状態表現の両方を使ったモデル。 Simple Recurrent Units for Highly Parallelizable Recurrence 2017 Go-Explore: a New Approach for Hard-Exploration Problems 2019 Creating High Resolution Images with a Latent Adversarial Generator 2020 Vid2Curve: Simultaneous Camera Motion Estimation and Thin Structure Reconstruction from an RGB Video 2020 Epipolar Transformers 2020 PlaNet of the Bayesians: Reconsidering and Improving Deep Planning Network by Incorporating Bayesian Inference 2020 CARLA: An Open Urban Driving Simulator Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez and Vladlen Koltun 2017 Intel Labs, Toyota Research Institute, Computer Vision Center (Barcelona) かなりきれいなドライビングシミュレータ。Car Learning to Actで、CARLA。 Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine ICML 2018 top30 UCB 方策オフで最大エントロピーに基づくアクタークリティックを提案。報酬を最大化しながら、同時にエントロピーを最大化する、つまり、タスクに成功しながら、できるだけランダムに振る舞う。 RL2: Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, Pieter Abbeel 2016 rlpyt: A Research Code Base for Deep Reinforcement Learning in PyTorch Adam Stooke, Pieter Abbeel 2019 UCB モデルフリーの強化学習は、Q学習、方策勾配、Q値方策勾配の3つのファミリーに分けられる。いろいろな手法があるが、コードは共通していることも多い。これら3つのファミリーの共通の、最適化されたインフラをひとつのリポジトリで提供する。複数の環境にあわせたCPU, GPUの設定とか同期・非同期による最適化などに対応。 Learning Dexterous In-Hand Manipulation 2018 Learning To Simulate Nataniel Ruiz, Samuel Schulter, Manmohan Chandraker ICLR2019 Boston U., NEC Laboratories America, UCSD シミュレータでデータを作り学習し、実際のタスクで評価する。この評価によって、シミュレータのパラメータを調整するような強化学習を行う。 CARLAとかUnrealなどのシミュレータを用いて訓練データを創る。ドライビングの環境。タスクとしては車の数を数える、セマンティックセグメンテーション(合成データに対して、実データに対して)。ここでいうシミュレータのパラメータとは、交差点のタイプ、さまざまな車のモデル、道のレイアウトと横の建物など。 Meta-Sim: Learning to Generate Synthetic Datasets Amlan Kar, Aayush Prakash, Ming-Yu Liu, Eric Cameracci, Justin Yuan, Matt Rusiniak, David Acuna, Antonio Torralba, Sanja Fidler 2019 NVIDIA, U. Toronto, Vector Institute, MIT ドライビングのシミュレータで、訓練データを生成し、それによってタスクのパフォーマンスを上げる。タスクのパフォーマンスがあがるように、訓練データの生成の仕方を学習する。 確率文法という方法で、道からレーン、レーンから車のような木構造を作る。これをもとにシミュレータを動かしてデータを作る。最小化すべき損失関数は、再構成ロス(シーングラフがうまく表すように)、分布マッチング(実際のシーンと生成されたシーンでの分布が似るように)、タスクのパフォーマンス(物体検出)から成る。 Domain Randomization for Simulation-Based Policy Optimization with Transferability Assessment 2018 Habitat: A Platform for Embodied AI Research Manolis Savva, Abhishek Kadian, Oleksandr Maksymets, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu, Vladlen Koltun, Jitendra Malik, Devi Parikh, Dhruv Batra ICCV 2019 best paper nomination FAIR, Georgia Tech., Simon Fraser U., Intel Labs, UCB 室内の環境を移動して、ものを取れたりするような3Dのプラットフォーム。シミュレータとAPIで構成される。 Embodied Question Answering 2017 Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra Geogia Tech., FAIR EmbodiedQAを提案。3Dの環境(House3Dなど)を使ったデータセットも提案している。〜の色は何色ですか?Xの部屋にYはありますか?など。 VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering 2019 Catalina Cangea, Eugene Belilovsky, Pietro Lio, Aaron Couville U. Cambridge, MILA House3Dの環境を使った動画と質問のペアから成るデータセット。10万ペア。8つのカテゴリ、28個のタイプの質問。〜の部屋に〜はいくつありますか?とか。 Interactive Gibson: A Benchmark for Interactive Navigation in Cluttered Environments Fei Xia, William B. Shen, Chengshu Li, Priya Kasimbeg, Michael Tchapmi, Alexander Toshev, Roberto Martin-Martin, Silvio Savarese 2019 Stanford, Google ロボット用の相互作用の3Dの写実的なシミュレーション環境。ものにぶつかるとちゃんと動く。なので、ものにぶつからないように遠回りをするなどの行動計画の実験ができる。 Learning to Adapt in Dynamic, Real-World Environments through Meta-Reinforcement Learning Anusha Nagabandi, Ignasi Clavera, Simin Liu, Ronald S. Fearing, Pieter Abbeel, Sergey Levine, Chelsea Finn ICLR2019 UCB モデルベースのメタ強化学習。ReBAL(Recurrence-Based Adaptive Learner)とGrBAL(Gradient-Based Adaptive Learner)という手法を提案。それぞれリカレントモデル、MAMLを使う。実ロボットで芝生や道路などを歩ける。環境の変化は共通の構造を有していると仮定し、それが環境ごとのモデル(ダイナミクス)に影響を与えるという考えを用いる。 Learning Latent Plans from Play Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson, Sergey Levine, Pierre Sermanet 2019 Google Brain 遊びのデータを使って自己教師あり学習を行い、タスクを行う。タスク専門に学習したよりも精度が高く、ロバストになる。潜在空間にマップし、潜在プランを作ることを行う。 Generalized Hindsight for Reinforcement Learning 2020 PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas 2017 Stanford U. PointNetを階層的に適用。1327引用 Pointnet: Deep learning on point sets for 3d classification and segmentation Charles R. QI, Hao Su, Kaichun Mo, Leonidas J. Guibas 2017 Stanford U. ポイントクラウドから直接深層学習を行う。パーミュテーション可能な関数として、maxがあるので、Max Poolingをすればよい。あと、回転に対応するために空間トランスフォーマを使う。これを多層にして、分類やセグメンテーションに使える大域的な特徴量が得られる。 ClearGrasp: 3D Shape Estimation of Transparent Objects for Manipulation 2019 A Separation Principle for Control in the Age of Deep Learning Alessandro Achille, Stefano Soatto 2017 UCLA 動画のような複雑で打次元で不確実性の多いストリームに基づくコントロールシステムの、状態を定義・推論する問題を取り上げる。この表現は、コントロールのタスクを観測のプロセスから分ける。ダイナミクスがない簡単なケースでは、表現は情報ボトルネックラグランジアンを最小化することで推測される。これを動的なケースにも拡張し、表現がタスク変数の事後密度とする。 Self-supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation 2017 Composable Action-Conditioned Predictors: Flexible Off-Policy Learning for Robot Navigation Gregory Kahn, Adam Villaflor, Pieter Abbeel, Sergey Levine 2018 UCB オフポリシーデータから、イベントの手がかりを学習するフレームワークを提案し、異なるタスクを達成するときにこのイベントの手がかりを柔軟に組み合わせる。手がかりは、衝突、進んでいる、ドアなど。これが自己教師ありになって、予測モデルを学習する。CNN+LSTM。 Learning to Poke by Poking: Experiential Learning of Intuitive Physics Pulkit Agrawal, Ashvin Nair, Pieter Abbeel, Jitendra Malik, Sergey Levine UC Berkeley, University of Washington NIPS2016 つつくことでつつき方を学習する。目的とする状態にもっていくことができる。 KW: 強化学習 Deep visual foresight for planning robot motion Chelsea Finn, Sergey Levine 2016 UCB, Google Brain Learning Plannable Representations with Causal InfoGAN 2018 DARLA: Improving Zero-Shot Transfer in Reinforcement Learning Irina Higgins, Arka Pal, Andrei A. Rusu, Loic Matthey, Christopher P Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell, Alexander Lerchner ICML2017 DeepMind DARLA(DisentAngled Representation Learning Agent)。見ることを学習、行動を学習、転移。潜在的な表現を学習する。ゼロショット学習。DeepMind Labのデータセット等でよい結果。 PVEs: Position-Velocity Encoders for Unsupervised Learning of Structured State Representations 2017 Action-Conditional Video Prediction using Deep Networks in Atari Games Junhyuk Oh, University of Michigan; Xiaoxiao Guo, Uni; Honglak Lee, U. Michigan; Satinder Singh, University of Michigan; Richard Lewis, University of Michigan NIPS2015 U. Michigan ATARIのゲームでフレームを予測する。アクションを挟んだオートエンコーダ、(あるいはリカレントを含んだオートエンコーダ)で、従来よりも適切にフレームの予測ができる。小さいオブジェクトは苦手。CNNで高次の特徴にして、アクションベクトルを入れて、逆CNN(deconvolution)でデコードして、ロスを最小化する。 KW: RL, 物理モデル Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner, Timothy Lillicrap, Jimmy Ba, Mohammad Norouzi 2020 U. Toronto, DeepMind, Google Brain アクションと状態を予測することで、潜在空間での想像を学習し、それに基づいて行動する。報酬の予測、再構成(PlaNetと同様)などを目的関数に組み込む。DeepMindコントロールスイートで実験。 BADGR: An Autonomous Self-Supervised Learning-Based Navigation System Gregory Kahn, Pieter Abbeel, Sergey Levine 2020 UCB BADGRは、エンドトゥエンドのモバイルロボットのナビゲーションシステムで、自己教師あり学習のオフポリシーでデータを集めることで訓練される。シミュレータとか人間の介在は必要としない。 画像からコンボリューション、フルコネクト、LSTMで、Kステップ後までを予測し、それぞれから誤差を計算する。これでできるのはすごい(というか、要するにエージェント的なやり方がやはり正しそうということ)。 The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision Jiayuan Mao, Chuang Gan, Pushmeet Kohli, Joshua B. Tenenbaum, Jiajun Wu 2018 MIT, DeepMind 画像と言語を同時に学習する。画像を処理するためにマスクR-CNNで物体を認識し、その特徴を取り出す。また、概念の埋め込み(例えば球体について)をあわせて用いる。質問に対して、VQA用の言語(ドメイン特有言語)で表される原始的な操作の列を作る。これを強化学習で行う。 なんか全体として良いような悪いような。分解していくとこうしたいのは分かる。 Towards a Human-like Open-Domain Chatbot Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le 2020 Google Research, Brain Team Meenaと呼ぶ、複数ターンのオープンドメインのチャットボット。Evolvedトランスフォーマを使って、ソーシャルメディア上の会話の400億ワードのデータセットに対して、TPU-v3 Pod(2048のTPUコア)を30日間動かす。(26億パラメータをもつモデルなので、このデータに対してもオーバーフィットするくらい容量が大きい。)Sensibleness and Specificity Average(敏感性と特定性平均?)とよぶ指標を定義して、どのくらい複数回数の会話がよいかを計る。これはperplexityと強い相関があることがわかった。SSAの値で、人間(86%)に近い79%のスコアを出した。従来の手法(Clever botやMitsukuなど)は56%、Xiaoiceは31%なので大幅に高い。 2回め:Meena論文。ソーシャルメディアの会話で学習したマルチターン、オープンドメインのチャットボット。26億パラメータ。次の語のパープレキシティを最小化する。SSAというスコアで72%、人間レベルが86%なので近づいている。2048TPUコアで30日学習。進化トランスフォーマによるseq2seqモデルをメインアーキテクチャとして採用。 Contextual Imagined Goals for Self-Supervised Robotic Learning 2020 Using imagination to understand the neural basis of episodic memory 2007 Hassabis Plan2Vec: Unsupervised Representation Learning by Latent Plans Ge Yang, Amy Zhang, Ari S. Morcos, Joelle Pineau, Pieter Abbeel, Roberto Calandra 2020 Facebook AI Research, McGill University, UC Berkeley 観測データから、教師なしで状態間の距離を、局所的にメトリック学習をし、状態の接続関係を表すグラフを作る。グラフを使ってダイクストラ法で最短経路を求める。この最短経路の距離を出すような学習をする。埋め込みが学習できる。 プランニングを使ってベクトルになおしているのでplan2vec。 Kaolin: A PyTorch Library for Accelerating 3D Deep Learning Research Krishna Murthy J., Edward Smith, Jean-Francois Lafleche, Clement Fuji Tsang, Artem Rozantsev, Wenzheng Chen, Tommy Xiang, Rev Lebaredian, and Sanja Fidler 2019 NVIDIA, Mila, U. Monreal, McGill U., Vector Institute, U. Toronto PyTorchのライブラリで、3Dディープラーニングのためのもの。ShapeNet, PartNet, SHREC, ModelNet, ScanNet, HumangSegなどのデータセットをサポート。 同じような試みとして、GVNN, Kornia, Tensorflow Graphicsなどがあるが、特にTensorflow Graphicsとの比較では、微分可能なレンダラーが使えるところは同じであるが、扱っている表現(メッシュとかRGB-Dとか)がKaolinは網羅的である。ポリゴンのメッシュ、ポイントクラウド、voxelのグリッド、符号距離関数(SDF)、RGB-Dといろいろ扱える。 Model-zooとして、現在入っている使える手法は以下。Pixel2Mesh, GEOMetrics, AtlasNetが、ひとつの画像からメッシュの物体の復元に。NM3DR, Soft-Rasterizer, Dib-Rendererが同じタスクを2Dだけの教師で。MeshCNNはメッシュでの一般的な学習に、 PointNet, PointNet++がポイントクラウドに。3D-GAN, 3D-IWGAN, 3D-R2N2はvoxelでの学習に。Occupancy NetworkとDeepSDFは、SDFでの学習に。 データを読み込んでPointNet++の分類器を作るのに5行のコードでできる。 Temporal Difference Variational Auto-Encoder Karol Gregor, George Papamakarios, Frederic Besse, Lars Buesing, Théophane Weber 2018, ICLR 2019 DeepMind エージェントが世界に関するメンタルなシミュレーションを持っている必要がある。そのシミュレーションは、次の特徴を持つべき。(i) 世界の条件を表す抽象的な状態をもつ、(b) 世界の不確実性を表す信念を形成する、(c) 単純なステップごとのシミュレーションを超える。そこで、将来の状態についての信念を明示的にもち、1ステップごとではないロールアウトができるような、TD-VAEという生成系列モデルを提案する。 t1からt2まで数ステップとばした遷移のモデルを使う。t2から推定されるt1の状態とt1のそもそもの状態を近づける。逆に推論する形になるのでVAE。割といいと思うけど、実際にはそれほどうまくいかないのだろうか。 Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data Emily M. Bender, Alexander Koller ACL 2020 U. Washington, Saarland U. BERTが意味を理解していないこと、にも関わらずしばしばそう表現されることについて。意味を理解するとは何か、サールやハーナッドの議論も出てくる。オクトパステスト。海中のたこが通信路を傍受しているシナリオ。実世界とのインタラクションや他者とのインタラクションが重要ということ。ただし、「絵」などの概念は出てこない。 Model-based Adversarial Imitation Learning 2016 Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions 2019 Model Imitation for Model-Based Reinforcement Learning 2019 Grounding Language in Play Corey Lynch, Pierre Sermanet 2020 Robotics at Google 自然言語で指示を出せるようにしたい。以前のLearning from Play (LfP)は、一般的なセンサから多くのロボットの行動を学習する簡単なしくみを示した。しかし、それぞれのタスクがゴールの画像で特定されている必要があり、これは現実的な設定ではない。 本研究では、複数文脈模倣学習(Multi Context Imitation Learning; MCIL)を提案する。画像と言語で条件づけて学習し、テストのときは言語だけを使う。 Objects as Points 2019 MMDetection: Open MMLab Detection Toolbox and Benchmark 2019 Counting Everyday Objects in Everyday Scenes Prithvijit Chattopadhyay, Ramakrishna Vedantam, Ramprasaath R. Selvaraju, Dhruv Batra, Devi Parikh CVPR2017 Virginia Tech, Georgia Tech 画像のなかにボトルが何個か、スプーンが何個か、椅子が何脚かなどを数える。コンテキストをRNNで共有して、サブ領域でカウントするような手法。 PixelCNN models with Auxiliary Variables for Natural Image Modeling Alexander Kolesnikov, Christoph H. Lampert ICML2017 IST Austria PixelCNNに、付加的な変数(¥hat{X})を加えて、2つの項に分解し、それぞれを最適化すればいいように変形する方法が知られている。これを、低解像度、高解像度等に分けることで、きれいな生成を可能にする。 DeViSE: A Deep Visual-Semantic Embedding Model Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc'Aurelio Ranzato, Tomas Mikolov NIPS2013 Google 面白いアプローチ。画像に直接ラベルをあてて学習するのではなく、ラベルをスキップグラムを使ったエンべディングにして、類似度を学習する。 Generalizing Skills with Semi-Supervised Reinforcement Learning Chelsea Finn, Tianhe Yu, Justin Fu, Pieter Abbeel, Sergey Levine ICLR2017 poster UCB, OpenAI 教師なしのロボットの軌跡がたくさんあり、報酬として教師ありでラベルをつけられた軌跡が少ないときにどうするか。半教師あり強化学習(SSRL)を提案する。基本は教師ありを初期値に使い、教師なしをサンプルに加えていく。 Robust Physical-World Attacks on Deep Learning Models Ivan Evtimov, Kevin Eykholt, Earlence Fernandes, Tadayoshi Kohno, Bo Li, Atul Prakash, Amir Rahmati, Dawn Song 2017 U. Michigan, U. Washington, UCB, Samsumg Research America 道路標識に物理的に模様を変えて誤判定させる。手法は従来と同じで、小さなpertubationを加えて、クラスを変更するのだが、ロバストにするために、さまざまな環境条件での写真や合成画像を使っている。 Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting a 2015 ☆ 天気(レーダーマップ)の予測。 Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning Yuke Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph J. Lim, Abhinav Gupta, Li Fei-Fei, Ali Farhadi ICRA 2017, 2016 ☆ Plan, Attend, Generate: Planning for Sequence-to-Sequence Models Francis Dutil, Caglar Gulcehre, Adam Trischler, Yoshua Bengio NIPS2017 U. Montreal 翻訳やQAの答えなどを生成する際に、アテンションを使ったRNNではなく、エンコーダ−デコーダモデルとプランニングのメカニズムが融合したものを用いる。 Dilated Recurrent Neural Networks Shiyu Chang, Yang Zhang, Wei Han, Mo Yu, Xiaoxiao Guo, Wei Tan, Xiaodong Cui, MichaelWitbrock, Mark Hasegawa-Johnson, Thomas S. Huang NIPS2017 IBM T. J. Watson, U. Illinois Urbana-CHampaign 深層のRNNで、1個、2個、4個先のユニットにコネクションを張るようなもの。長期の依存に対応できる。 Predicting Scene Parsing and Motion Dynamics in the Future a NIPS2017 ☆ Information Theoretic Properties of Markov Random Fields, and their Algorithmic Applications a NIPS2017 ☆ Multi-Prediction Deep Boltzmann Machines Ian Goodfellow, Mehdi Mirza, Aaron Courville, Yoshua Bengio NIPS2013 ☆ Sim-to-real robot learning from pixels with progressive nets Andrei A. Rusu, Matej Vecerik, Thomas Rothörl, Nicolas Heess, Razvan Pascanu, Raia Hadsell 2016 DeepMind Progressive Netを使ったSim-to-realの強化学習。まず、シミュレーションで複数タスクを学習し、それをベースにしながら、現実世界でのロボットを使ったタスクについて学習していく。Mujocoと実ロボットで、ロボットアームが物体にさわるなどのタスク。 Progressive neural networks Rusu, Andrei A., et al. 2016 DeepMind 転移学習を使い、破滅的忘却を避けながら、複雑なタスクの系列を学習するのは簡単ではない。プログレッシブネットは、忘却に対して強く、事前知識を以前に学習した特徴のかたちで入れることができる。複数のタスクをカリキュラム的に順番に学習し、学習したモデルを転移させながら、その特徴との差分をもう一度学習する。ということを繰り返す。 Unprovability comes to machine learning Nature 2019 Lev Reyzin Ben-Davidらによると、機械学習の問題は、連続体仮説(可算濃度と連続体濃度の間には他の濃度が存在しないとする仮説。証明も反証もできない)に依存している。学習と圧縮は関係あり、特定の関数が学習できるかどうかは単調圧縮の一種によって特徴づけられる。学習可能かどうかは、連続体仮説が真であるときにのみ判定でき、これは証明不能であることが知られている。 Value Prediction Network Junhyuk Oh, Satinder Singh, Honglak Lee NIPS2017 U. Michigan, Google Brain 観測から状態の推定、ある時点の状態から次の時点の状態への推移、ある状態から行動した場合の報酬、ある状態の価値などを、NNで学習する。状態の遷移も含んでいるからモデルベースといえるが、全体でやっていることはモデルフリーの学習なので、両者の融合的と言っている。良さそうなノードから開けていくプランニングと組み合わせて用いる。 Understanding Back-Translation at Scale Sergey Edunov, Myle Ott, Michael Auli, David Grangier 2018 Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation Chenxi Liu, Liang-Chieh Chen, Florian Schroff, Hartwig Adam, Wei Hua, Alan Yuille, Li Fei-Fei 2019 Attentive Neural Processes ICLR2019 Nested LSTMs Joel Ruben Antony Moniz, and David Krueger 2018 MILA, CMU Parameter-Efficient Transfer Learning for NLP 2019 Learning To Follow Directions in Street View Karl Moritz Hermann, Mateusz Malinowski, Piotr Mirowski, Andras Banki-Horvath, Keith Anderson, Raia Hadsell 2019 DeepMind Episodic Curiosity through Reachability Nikolay Savinov, Anton Raichuk, Raphaël Marinier, Damien Vincent, Marc Pollefeys, Timothy Lillicrap, Sylvain Gelly 2019 Google Brain Multi-Object Representation Learning with Iterative Variational Inference 2019 DeepMind Recurrent Experience Replay in Distributed Reinforcement Learning 2019 DeepMind R2D2 Emergent Coordination Through Competition Siqi Liu, Guy Lever, Josh Merel, Saran Tunyasuvunakool, Nicolas Heess, Thore Graepel ICLR 2019 DeepMind Fusion of Detected Objects in Text for Visual Question Answering 2019 CD-MPM: Continuum Damage Material Point Methods for Dynamic Fracture Animation 2019 A corpus for reasoning about natural language grounded in photographs ACL 2019 GQA: a new dataset for compositional question answering over real-world images Drew A. Hudson, Christopher D. Manning 2019 Stanford VQAとかVisual Genomeをベースにして、それを発展させたデータセット。画像と質問がセットになっている。きれいなシーングラフが作られているようだ。11万3000枚の画像、2200万の質問。 Small ReLU networks are powerful memorizers: a tight analysis of memorization capacity Chulhee Yun, Suvrit Sra, Ali Jadbabaie 2018 MIT n個のデータポイントを見つけるのにn個の隠れユニットが必要とされていたが、深さを追求すると3層のReLUネットワークだと、√nの隠れノード数でよいことを示す。 Adaptive computation time for recurrent neural networks A. Graves 2016 Automated deep learning design for medical image classification by health-care professionals with no coding experience: a feasibility study Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning 2019 Stand-Alone Self-Attention in Vision Models 2019 Deep Equilibrium Models 2019 Detecting Photoshopped Faces by Scripting Photoshop 2019 Searching for Activation Functions Prajit Ramachandran, Barret Zoph, Quoc V. Le 2017 Google Brain さまざまな活性化関数を実験的に試す。その結果、swish関数を提案。f(x) = x · sigmoid(βx) A comprehensive, application-oriented study of catastrophic forgetting in DNNs B. Pfulb and A. Gepperth ICLR2019 Hochschule Fulda, Germany 破滅的忘却についての調査。データセットD1で学習した後にD2で学習することで、パフォーマンスがどのように下がるか。基本的に、どんなモデルでも下がる。EWC(Elastic Weight Consolication)と、IMM(Incremental Moment Matching)は少しマシ。 Efficient Multi-Objective Neural Architecture Search via Lamarckian Evolution ICLR2019 Time-Agnostic Prediction: Predicting Predictable Video Frames ICLR2019 Do Neural Networks Show Gestalt Phenomena? An Exploration of the Law of Closure Been Kim, Emily Reif, Martin Wattenberg, Samy Bengio 2019 Google NNがゲシュタルト現象、特に閉合の法則を示すのかを調べる。閉合の法則とは、丸が点線でも途中を補って丸と分かるようなもの。三角の点線と本当の三角の距離、三角ではない点線と、本当の三角の距離などを比較することで調べることができる。結果として、NNは適切な条件下で人間同様の性質を示すことがわかった。 Learning Actionable Representations with Goal Conditioned Policies Dibya Ghosh, Abhishek Gupta, Sergey Levine ICLR2019 UCB ACR(Actionable Representation for Control; 制御のための行動可能な表現)を提案する。2つの状態s1とs2に関してのポリシーπ(a|s, s1)とπ(a|s, s2)が多くのsを共有していればs1とs2は距離的に近いだろうと考える。この表現を使ってダウンストリームのタスクに利用する。 Multilingual Neural Machine Translation with Knowledge Distillation ICLR2019 The role of over-parametrization in generalization of neural networks ICLR2019 Deep Online Learning Via Meta-Learning: Continual Adaptation for Model-Based RL ICLR2019 Generative Adversarial Text to Image Synthesis Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee 2016 U. Michigan, Max Planck Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis CVPR2018 Reasoning About Physical Interactions with Object-Oriented Prediction and Planning ICLR2019 Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training 2019 Human-level concept learning through probabilistic program induction Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum Science 2015 What learning systems do intelligent agents need? Complementary learning systems theory updated. 2016 Self-Supervised Correspondence in Visuomotor Policy Learning 2019 Restoring ancient text using deep learning: a case study on Greek epigraphy 2019 Reinforcement Learning for Sustainable Agriculture Jonathan Binas, Leonie Luginbuehl, Yoshua Bengio 2019 Unsupervised Pretraining for Sequence to Sequence Learning 2016 Ghost Units Yield Biologically Plausible Backprop in Deep Neural Networks Thomas Mesnard, Gaëtan Vignoud, Walter Senn, Yoshua Bengio 2018 MILA, ETHZ, U. Bern ゴーストユニットとよぶ抑制的な仕組みについて述べる。対象となる信号がトップ層に来ないとき、上位のレイヤーからのフィードバックを打ち消す。ゴーストユニット(GU)は、ピラミッドユニット(PU)のフィードバックを予測し、キャンセルする。ゴーストユニットによって、誤差が逆伝搬し、効率的な信用割当を行うことができる。 Unsupervised one-to-many image translation Samuel Lavoie-Marchildon, Sébastien Lachapelle, Mikolaj Binkowski, Aaron C. Courville, Yoshua Bengio, R. Devon Hjelm 2018 Compounding the Performance Improvements of Assembled Techniques in a Convolutional Neural Network 2020 Learning a distance function with a Siamese network to localize anomalies in videos 2020 Search on the Replay Buffer: Bridging Planning and Reinforcement Learning NeurIPS 2019 Anomaly Detection by Latent Regularized Dual Adversarial Networks 2020 Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images 2018 Deep Learning without Weight Transport 2019 Visual Reasoning by Progressive Module Networks ICLR2019 Biologically-Plausible Learning Algorithms Can Scale to Large Datasets ICLR2019 InstaGAN: Instance-aware Image-to-Image Translation ICLR2019 Learning Protein Structure with a Differentiable Simulator ICLR2019 Eidetic 3D LSTM: A Model for Video Prediction and Beyond ICLR2019 Overcoming the Disentanglement vs Reconstruction Trade-off via Jacobian Supervision ICLR2019 Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer ICLR2019 Capsule Graph Neural Network Zhang Xinyi, Lihui Chen ICLR2019 南洋理工大学 カプセルを使ったグラフニューラルネットワーク。ノードの埋め込みを求めて、対応するカプセルを作り、アテンションをつけて、クラスのカプセルから出力する。アテンション+ルーティングというのがいいのかな?という感じなのと、埋め込み後の処理をカプセルに置き換えているだけの気も。10個のデータセットで実験。精度はまあまあで、それほど良いということでもない。 Adversarial Reprogramming of Neural Networks ICLR2019 Robust Conditional Generative Adversarial Networks ICLR2019 Neural Probabilistic Motor Primitives for Humanoid Control ICLR2019 Near-Optimal Representation Learning for Hierarchical Reinforcement Learning ICLR2019 An Empirical Study of Example Forgetting during Deep Neural Network Learning ICLR2019 Probabilistic Planning with Sequential Monte Carlo methods ICLR2019 Hindsight policy gradients ICLR2019 Overcoming Catastrophic Forgetting for Continual Learning via Model Adaptation ICLR2019 Environment Probing Interaction Policies ICLR2019 CEM-RL: Combining evolutionary and gradient-based methods for policy search ICLR2019 Recall Traces: Backtracking Models for Efficient Reinforcement Learning ICLR2019 Learning to Make Analogies by Contrasting Abstract Relational Structure ICLR2019 Quaternion Recurrent Neural Networks ICLR2019 Learning to Understand Goal Specifications by Modelling Reward ICLR2019 Structured Neural Summarization ICLR2019 Efficient grounding of abstract spatial concepts for natural language interaction with robot platforms 2018 Self‐generated variability in object images predicts vocabulary growth 2019 Rival theories face off over brain's source of consciousness Science 2019 RLBench: The Robot Learning Benchmark & Learning Environment 2019 Dynamics of stochastic gradient descent for two-layer neural networks in the teacher-student setup 2019 Embodied Multimodal Multitask Learning 2019 Reconciling modern machine learning practice and the bias-variance trade-off 2019 Stochastic Neural Physics Predictor 2019 Cubic Stylization 2019 REPLAB: A Reproducible Low-Cost Arm Benchmark Platform for Robotic Learning 2019 Root Mean Square Layer Normalization 2019 Meta-Learning Deep Energy-Based Memory Models 2019 RoboNet: Large-Scale Multi-Robot Learning 2019 CapsuleGAN: Generative adversarial capsule network. Ayush Jaiswal, Wael AbdAlmageed, Yue Wu, Premkumar Natarajan 2018 USC GANのディスクリミネータとしてCNNではなくGANを使う。MNIST, CIFAR-10で通常のConvolutional GANより良い。 Q-map: a Convolutional Approach for Goal-Oriented Reinforcement Learning 2018 A mathematical theory of semantic development in deep neural networks 2018 Improvisation through Physical Understanding: Using Novel Objects as Tools with Visual Foresight Annie Xie, Frederik Ebert, Sergey Levine, Chelsea Finn 2019 Symbol Emergence in Cognitive Developmental Systems: a Survey Tadahiro Taniguchi et al. 2018 Generating Long Sequences with Sparse Transformers 2019 VERIFICATION OF NON-LINEAR SPECIFICATIONS FOR NEURAL NETWORKS 2019 Reinforcement learning, fast and slow 2019 DeepMind Deep learning generalizes because the parameter-function map is biased towards simple functions 2018 BERT Rediscovers the Classical NLP Pipeline 2019 SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning 2019 Google Research Football: A Novel Reinforcement Learning Environment Karol Kurach, Anton Raichuk, Piotr Sta´nczyk, Michał Zajacy, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, Sylvain Gelly 2019 Google Research, Brain Team グーグルのサッカーのシミュレータ環境。GameplayFootballシミュレータというオープンソースのものをエンジンにしている。このエンジン、ベンチマーク、アカデミー(徐々に難しくしていくシナリオ)などから成る。IMPALAとかPPO, Ape-X, DQNなどを参照用のパフォーマンスとして動かしている。 Sequential attend, infer, repeat: Generative modelling of moving objects a NIPS2018 Efficient inverse graphics in biological face processing 2020 Scalable Multi-Task Imitation Learning with Autonomous Improvement 2020 Thinking While Moving: Deep Reinforcement Learning with Concurrent Control 2020 Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning 2020 Deep Learning for Financial Applications : A Survey 2020 Boredom begets creativity: A solution to the exploitation–exploration trade-off in predictive coding 2017 DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction 2020 On the spectral bias of neural networks. ICML 2018 DNNは低い周波数関数にバイアスしているらしい。 Mitsuba 2: A retargetable forward and inverse renderer 2019 Differentiable monte carlo ray tracing through edge sampling 2018 Deepvoxels: Learning persistent 3D feature embeddings 2019 Neural volumes: Learning dynamic renderable volumes from images 2019 Local light field fusion: Practical view synthesis with prescriptive sampling guidelines. 2019 Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning Felipe Petroski Such Vashisht Madhavan Edoardo Conti Joel Lehman Kenneth O. Stanley Jeff Clune 2017 Uber AI Labs 勾配に基づかないGAが、パラメータの探索で、DQNとかA3Cなどと同等かよい性能を出す。勾配を使わないほうがいい場合があるということ。 GAの符号化は工夫して効率化している。 Batch Normalization Biases Deep Residual Networks Towards Shallow Paths 2020 A Primer in BERTology: What we know about how BERT works Anna Rogers, Olga Kovaleva, Anna Rumshisky 2020 U. Copenhagen, U. Mass Lowell BERTのモデルの150以上のサーベイ。なぜBERTがうまくいくのか、何を学習しているのかなど。 BERTの表現は階層的であり、形態素、構文チャンクや意味役割についての情報が符号化されている。統語構造は、自己注意の重みには直接は符号化されていないが、表現から統語情報を再現することはできる。BERTは、統語情報を自然に学習するが、それは言語的にアノテーションされたリソースとは異なる。BERTはNPI(Negative Polarity Item, everなど)を見つけるのがうまく、その使用を許すような言葉(whetherなど)を見つけるのがうまい。BERTは、否定を「理解」してはおらず、おかしな入力に対して鋭敏でない。BERTの統語知識は不完全であるか、タスクを解くのに必要ないかである。(おそらく後者とのこと。) BERTは、意味役割についての知識も持っている。エンティティのタイプ、関係、意味役割、proto-rolesなども符号化している。しかし、数の表現には苦労している。浮動小数点の良い表現も得られていない。(おそらくワードピースへのトークン化にも原因がある。)また、BERTは、固有表現の置換に対して驚くほどもろい。共参照のタスクで名前を変えると85%の予測が変化する。つまり、固有表現の一般的な概念を作り出していない。 BERTは、実践的な推論や役割に基づくイベント知識に苦労している。概念の抽象的な属性や、視覚的、感覚的な属性についても苦労している。いくつかの関係タイプに関しては、普通のBERTでも知識ベースに匹敵することができる。これを引き出すためには良いテンプレート文が必要である。 しかし、BERTは世界知識に基づいて推論を行うことができない。例えば、人間が家に歩いて入ることができ、家は大きいことは知っているが、人間が家より大きいかは推論することができない。 Temporal Difference Models: Model-Free Deep RL for Model-Based Control Vitchyr Pong, Shixiang Gu, Murtaza Dalal, Sergey Levine ICLR2018 poster Planning with Goal-Conditioned Policies 2019 Unsupervised Curricula for Visual Meta-Reinforcement Learning NeurIPS2019 When to Trust Your Model: Model-Based Policy Optimization NeurIPS2019 Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review 2018 Data-Efficient Image Recognition with Contrastive Predictive Coding 2019 FreeLB: Enhanced Adversarial Training for Language Understanding Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, Jingjing Liu ICLR2020 U. Maryland BERTとかのモデルの訓練のときに、少しのpertubationを入れて、これを拡大するような方向にpertubationを動かすのと、ロスを最小化するようにパラメータを動かすことを、敵対的に行うことで、よりロバストな学習ができる。GLUEベンチマークでQA系のタスクで、BERT, XLNet, RoBERTaなどに付け加えることで精度が向上する。 Executing Instructions in Situated Collaborative Interactions EMNLP2019 Evaluating Machines by their Real-World Language Use Rowan Zellers, Ari Holtzman, Elizabeth Clark, Lianhui Qin, Ali Farhadi, Yejin Choi 2020 U. Washington, Allen Institute 悩み相談のような感じで、質問があったときに、良い回答をできるか。これをクラウドソーシングで行う。TuringAdviceは、この設定で人間並に「役に立つ」ものでなければならない。 MASS: Masked sequence to sequence pre-training for language generation ICML2019 Variational inverse control with events: A general framework for data-driven reward definition NIPS2018 Look then Listen: Pre-Learning Environment Representations for Data-Efficient Neural Instruction Following 2019 Plan Arithmetic: Compositional Plan Vectors for Multi-Task Control NeurIPS 2019 Smooth markets: A basic mechanism for organizing gradient-based learners ICLR2020 On the "steerability" of generative adversarial networks ICLR2020 Recurrent Hierarchical Topic-Guided Neural Language Models ICLR2020 Depth-Width Trade-offs for ReLU Networks via Sharkovsky's Theorem ICLR2020 Dynamics-Aware Unsupervised Skill Discovery ICLR2020 A Theory of Usable Information under Computational Constraints ICLR 2020 GenDICE: Generalized Offline Estimation of Stationary Value ICLR2020 Unsupervised Deep Learning for Structured Shape Matching ICCV 2019 best paper nomination Local Aggregation for Unsupervised Learning of Visual Embeddings ICCV 2019 best paper nomination SinGAN: Learning a Generative Model from a Single Natural Image ICCV2019 best paper Specifying Object Attributes and Relations in Interactive Scene Generation ICCV2019 best paper Knowledge Distillation via Route Constrained Optimization ICCV 2019 Distillation-Based Training for Multi-Exit Architectures ICCV 2019 Learning Lightweight Lane Detection CNNs by Self Attention Distillation ICCV 2019 "Double-DIP": Unsupervised Image Decomposition via Coupled Deep-Image-Priors ICCV 2019 Unsupervised intuitive physics from past experiences 2019 AI2-THOR: An interactive 3D environment for visual AI Yuku Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph J. Lim, Abhinav Gupta, Li Fei-Fei, Ali Farhadi 2017 Stanford U. Allen AI, CMU, U. Washington 深層強化学習のための3Dシミュレーションの環境。冷蔵庫を開けたり、レンジを開けたり、いすを倒したり、蛇口をひねったりできる。ターゲット(ゴール)と現在の観測を、SiameseなResNetに入れて、ポリシーを出す。シミュレーションで学習したものが、リアルなロボットにも少ないサンプルで転移することができる。 CATER: A diagnostic dataset for Compositional Actions & TEmporal Reasoning Rohit Girdhar, Deva Ramanan ICLR2020 CMU, Argo AI 映画のシーンで、ある人が銃を取り上げたところが一瞬映れば、その人がずっと銃をもっていると分かる。逆さまにした紙コップにピンポン玉を入れ、紙コップを動かしても人間は追跡することができる。(イヌとかネコもできる。)これをやるにはどうしたらいいか?というデータセット。動画と質問がセットになっている。 High-Quality Self-Supervised Deep Image Denoising Samuli Laine, Tero Karras, Jaakko Lehtinen, Timo Aila NeurIPS 2019 NVIDIA 参照となる画像がない場合にも、画像のノイズを除去する。 受容野にブラインドスポットがあるタイプのネットワークを使ってノイズ除去をする。 Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence Amir Zadeh, Michael Chan, Paul Pu Liang, Edmung Tong, Louis-Philippe Morency CVPR2019 CMU 社会的な知能の技術のためのベンチマーク。1250の動画、7500の質問、3万の正しい答えなどから構成させる。 Evaluating Theory of Mind in Question Answering Aida Nematzadeh, Kaylee Burns, Erin Grant, Alison Gopnik, Thomas L. Griffiths ACL2018 DeepMind, UCB, Princeton U. サリーアンテストのような心の理論の実験のためのデータセット。ToMとToM-easy。それぞれ1万サンプルで、12個のタスクと質問タイプの組み合わせから構成させる。bAbIのようなテキストベースの問題。 ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks Mohit Shridhar, Josse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox CVPR2020 U. Washington, CMU, Allen AI, NVIDIA 「マグを洗ってコーヒーメーカーに入れて」のようなタスクを実行する環境。言語と、視覚的な環境。2万5000サンプル。 SAPIEN: A SimulAted Part-based Interactive ENvironment Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas Guibas, Hao Su 2020 UCSD, Stanford U., Simon Fraser U., Google Research, UCLA ロボットのビジョンとインタラクションタスクのためのシミュレーション環境。パーツの物理的なシミュレーションや、階層的なロボットのコントロール、多様なレンダリングに対応している。ドアを開けたり、引き出しを開けたり、食洗機を開けたり。NVIDIAのPysX物理エンジンを使って、ROSをサポート。 The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence Gary Marcus 2020 ハイブリッドのAIについて。ディープラーニングの新しい手法も網羅した上で、記号操作の歴史を振り返る。言語の意味理解ができていないところの説明は丁寧。 ただし、「絵」は出てこない。(途中でメンタルモデルが出てくるので惜しい。)また、記号操作と言っているのが従来的な意味での記号操作で、その前処理をやればいいだけと信じているようで、そのあたりはだいぶ違う。ヒントン先生やベンジオ先生が反論するのも分かる。こういう立場に対しては、確かに「すべてディープラーニング」と言ってしまうほうが近い。 あと、最後に、ベンジオ先生との討論のあと、ある若い研究者から、本当はシンボルAIの研究をやりたいのにキャリアを考えるとできないと個人的なメールがあったなど、ちょっと怪文書っぽい側面も。 ただ、全体としてはよい内容。 Generating sentences from a continuous space 2016 Planning to Explore via Self-Supervised World Models Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner, Deepak Pathak 2020 U. Pennsylvania, UCB, Google Brain, U. Toronto, CMU, FAIR Plan2Exploreというモデルで、自己教師ありの強化学習。世界モデルを学習し、探索をする。モデルの基づくゼロショット学習のエージェントを実現した。 KW: ToRead Unsupervised Representation Learning by Predicting Image Rotations Spyros Gidaris, Praveer Singh, Nikos Komodakis ICLR2018 poster Unsupervised representation learning by autoencoding transformations rather than data 2019 Unsupervised learning of visual representations by solving jigsaw puzzles. Mehdi Noroozi and Paolo Favaro 2016 U. Bern 画像から3×3のパッチを切り取ってジグゾーパズルにする。9個のpermutationなので36万通りくらいあるが、そのなかの64個を選んで、どのpermutationかを当てる問題にする。9個に分かれたCNNのsiameseネットワーク。これを事前学習するとダウンストリームのタスクに効く。面白い。 Representation Learning with Contrastive Predictive Coding Aaron van den Oord, Yazhe Li, Oriol Vinyals 2018 DeepMind コンストラスティブ予測コーディング。入力の系列から潜在変数、現在の文脈を作り、その文脈と将来の潜在変数の相互情報量が高くなるように学習する。 Learning deep representations by mutual information estimation and maximization R .Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Phil Bachman, Adam Trischler, Yoshua Bengio ICLR2019 MILA, U. Toronto エンコーダの入力と出力の相互情報量を最大化することでよい表現が得られるはず。この論文では、エンコーダの入力全体(画像なら画像全体)と出力の相互情報量よりも、入力の一部(画像のパッチ)と出力の相互情報量を最大化するほうがより良い表現が得られることを示す。DIM(Deep InfoMax)という手法を提案。敵対的に学習する。ディスクリミネータは画像全体と画像をエンコードしたものの両方を受け取って判別する。MINE(Mutual Information Neural Estimation)という方法、NDM(Neural Dependency Method)という評価指標で表現の良さを評価。 Deep learning with graph-structured representations Thomas Kipf Ph.D. thesis, 2020 グラフコンボリューショナルネットワーク(GCN)、グラフオートエンコーダ(GAE)、リレーショナルGCN、ニューラルリレーショナル推論(NRI)、構成的模倣学習と実行(CompILE)、コンストラティブ構造世界モデル(C-SWM)について。ICMLやNIPS, ICLRなどの6本分相当。 Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments Jürgen Schmidhuber 1990 1990年という早い時期に、(深層)強化学習、世界モデル(モデルネットワークという名前)、自己教師あり学習、好奇心と飽き、メタ学習など、重要な概念が説明されている。さすが。 Learning to Walk in the Real World with Minimal Human Effort Sehoon Ha, Peng Xu, Zhenyu Tan, Sergey Levine, and Jie Tan 2020 Georgia Tech, Google, UCB 人間の最低限の介在のみで、歩くロボット(4つ足の小さなもの)が数時間で学習できたという論文。フラットな床、ドアマットなどを歩く。ただし、いろいろとヒューリスティック的なところが入っており、やや誇張気味な気も。 安全なエリアから離れる、転ぶなどに対応し、自動的にリセットする。また、転ぶ確率を小さくするような制約を入れて、方策を学習する。前に進む、後退する、右に進む、左に進むなどをマルチタスク学習で学習。 Learning to Walk via Deep Reinforcement Learning 2018, RSS2019 Pose Manipulation with Identity Preservation A. T. Ardelean, L. M. Sasu 2020 U. Brasov, ルーマニア ある人の何枚かの写真と、ターゲットとするランドマーク(目とか鼻とか)のイメージを入力とすると、その人のそのランドマークの写真を出す。GANだが、ポーズのディスクリミネータと、顔のディスクリミネータを使う。 3D Photography using Context-aware Layered Depth Inpainting 2020 Language as an Abstraction for Hierarchical Deep Reinforcement Learning Yiding Jiang, Shixiang Gu, Kevin Murphy, Chelsea Finn NeurIPS2019 Google Research 言語で指示が与えられて、それを実行する。2層からなる階層的強化学習。この1層目と2層目の間に言語を入れる。状態から言語を生成するのはキャプショニングに近い。また、状態(センサ入力)と言語からアクションを生成するのも、VQA(視覚的質問応答)に近い。Double DQNで学習。言語指示を張り替えるリラベルというのも行う。(全体システムはいまいちよく分からない。) 物理空間のタスクで、物体を色で並び替える、形で並び替えるなどのタスク。 A Differentiable Physics Engine for Deep Learning in Robotics Jonas Degrave, Michiel Hermans, Joni Dambre & Francis wyffels 2017 Ghent U., Belgium 物理シミュレーションを、Theanoで書く。すると、全体が微分可能になる。例えば、サッカーボールをあるところに入れるとしたら、初期速度と初期角度を微分して求めることができる。強化学習の(方策ではなく)コントローラー自身を最適化することもできる。 Towards the first adversarially robust neural network model on MNIST 2018 Deep learning robotic guidance for autonomous vascular access Alvin I. Chen, Max L. Balter, Timothy J. Maguire and Martin L. Yarmush Nature Machine Intelligence, 2020 The State U. of New Jersey, 米国 腕の血管をディープラーニングで認識して、注射をロボットで指す。すごい。 ICUなどの処置の90%は血管へのアクセスを必要とし、アメリカでは年間10億回、血管のアクセスを確保する手続きが行われている。これをロボットで自動化し、血管にアクセスする際のトライアルの失敗の回数を平均1.8回から0.3回へ、6倍も精度を上げた。 Composing graphical models with neural networks for structured representations and fast inference Matthew James Johnson, David Duvenaud, Alexander B. Wiltschko, Sandeep R. Datta, Ryan P. Adams NIPS 2016 Harvard U. 確率的グラフィカルモデルとディープラーニングのいいところを組み合わせる。潜在変数zからガウス混合モデルでyが生成されるとすると、ガウス分布を過程するがゆえにうまく表せないクラスタの形がある。一方、ニューラルネットワークで平均・共分散を指定してやるようなVAEを使えば、うまくクラスタを捉えることができるが、今度はクラスの違いを表せない。そこで、潜在変数zからニューラルネットワークで平均・共分散を指定されてxが生成され、それがyを生成するという形にすることで、両方のいいころをとることができる。これをSVAE(structured VAE)と呼んでいる。 Semi-Supervised Classification with Graph Convolutional Networks Thomas N. Kipf, Max Welling 2016, ICLR2017 3000以上の引用 Wizard of Wikipedia: Knowledge-Powered Conversational Agents Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, JasonWeston ICLR2019 FAIR 素人(ユーザ)と魔法使い(コンピュータ)が与えられたトピックに関して短い会話をする。与えられたトピックに関して、検索した結果を知識として使う。これを最初のトランスフォーマエンコーダに入れ、アテンションをかけたものを、会話の流れとともに次のトランスフォーマエンコーダに入れ、そして、トランスフォーマのデコーダで出力する。エンドトゥエンドにやる場合と、2ステージで別々のタスク(知識選択と発話予測)を行う場合の2種類考えられるが、後者のほうがパフォーマンスは良い。 MONet: Unsupervised Scene Decomposition and Representation Christopher P. Burgess, Loic Matthey, Nicholas Watters, Rishabh Kabra, Irina Higgins, Matt Botvinick, Alexander Lerchner 2019 DeepMind DQNの複数オブジェクト版のような感じ。画像をオブジェクトにわけて、オブジェクトごとにアテンションをかけ、マスクをして、それぞれをVAEで再構成する。オブジェクトに分けるところは、反復的に行う(ので数を指定しなくて良い。)とても良いアーキテクチャ。Muti-Object Network (MONet)。CLEVRデータセットで実験。 KW: ToRead Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks Gerrit Schoettler, Ashvin Nair, Juan Aparicio Ojea, Sergey Levine, Eugen Solowjow 2020 Siemens, UCB ロボットのインサーションタスク。Sawyerロボットを使って、ミスミの電気コネクタをソケットに入れるのと、ギアをシャフトに入れる。メタ学習とsim-to-realを使っている。現実の20試行でできるようになる。完成度高い。 On the Efficacy of Knowledge Distillation Jang Hyun Cho and Bharath Hariharan ICCV 2019 Cornell U. 知識蒸留がどのような生徒と教師のアーキテクチャのときにうまくいくか。教師の容量が大きく、精度が高いと、逆に蒸留の精度は落ちる。これは容量のミスマッチがあるからで、うまく真似できないため。早期終了とか、シーケンシャルに蒸留のステップを複数回やるなどが有効。 Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer Sergey Zagoruyko, Nikos Komodakis ICLR2017 poster Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation Linfeng Zhang, JIebo Song, Anni Gao, Jinwei Chen, Chenglong Bao, Kaisheng Ma ICCV 2019 Tsinghua Univ., IIISCT, Hisilicon すごい論文。自己蒸留と言っているが、最終層の出力と、中間層の出力を近づけるような制約を入れることで、最終層の結果をより早く出せるようになり、結果として最終層の精度が上がる。(エージェント的により早く予測するものが生き残るという考え方とも共通。)CIFAR100やImagenetのtop-1で1-2%あがっている感じ。かなり大きい上がり幅。 Improving Neural Machine Translation Models with Monolingual Data 2015 back translation論文 Propagation Networks for Model-Based Control under Partial Observation 2018 A Causal View on Robustness of Neural Networks Cheng Zhang, Kun Zhang, Yingzhen Li ICLR2020 MSR, CMU 深層因果操作拡張モデル(deep CAMA)というのを提案。変数間の因果モデルを仮定して、入力の操作(敵対的攻撃)に強いモデルを作る。 Rigging the Lottery: Making All Tickets Winners Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Castro, Erich Elsen 2019 Google, DeepMind 宝くじで八百長をする、というタイトル。宝くじ仮説が、密なネットワークから、疎なネットワークを取り出し、初期値がラッキーであれば、密なネットワークと同じような精度が出る。ところが、密なネットワークの計算がボトルネックになってしまう。従来研究で、疎なネットワークから疎なネットワークを作る手法がいろいろとあり、だいたいは、ランダムにエッジを加える、重みの大きさで消去するということを繰り返すもの。 本研究もそういった研究のひとつだが、ランダムにエッジを加えるのではなく、アクティブにしたエッジの微分を取って、微分の大きなものを加えるという戦略を取る。高い精度が低い計算量で出せる。 Self-Supervised Learning of Pretext-Invariant Representations Ishan Misra, Laurens van der Maaten 2019, CVPR 2020 FAIR 画像の自己教師あり学習。前テキスト(pretext)のタスクにおける意味のある表現を見つけ出すことは、意味的なアノテーションを必要とせず、重要である。これまで、画像を変形し(回転やアフィン変換、ジグゾーパズル変換など)、その共変量を表現として見つけることが多かったが、ここでは変形に対しての不変量を求める。 つまり、変形をしたものともとのものの表現が近づくように学習する。 Pretext-Invariant Representation Learning (PIRL)を提案。 Training Agents using Upside-Down Reinforcement Learning Rupesh Kumar Srivastava, Pranav Shyam, Filipe Mutz, Wojciech Jaskowski, Jürgen Schmidhuber 2019 NNAISENSE, The Swiss AI Lab IDSIA すごい。さすがSchmidhuberさん。強化学習がそもそも何かおかしくて、もっと教師あり的にやるべきと思っていたやつ。 観測とアクションから価値(期待報酬)を算出するのではなく、観測と報酬などのコマンドから、アクションを出すべき。つまり、報酬は入力になる。考え方は正しいと思う。 で、アルゴリズム2というのが、生成モデル的にエピソードを増やしていって想像する部分。これもいいと思う。 KW: ToRead Learning Robust Representations via Multi-View Information Bottleneck Marco Federici, Anjan Dutta, Patrick Forre, Nate Kushmann, Zeynep Akata 2020 U. Amsterdam, U. Exeter, MSR, U. Tuebingen 2つの視点から2つの画像が生成されるとき、潜在変数zに対して、v1, v2が生成される。I(v2; z1)が、z1がv2に対してもつ予測性であり、I(v1; z1|v2)は、v1がz1に対してもつ、v2以外の余りの(superfluous)情報である。というようなことを使って、ボトルネックの目的関数を設定する。 Deep Double Descent: Where Bigger Models and More Data Hurt Preetum Nakkiran, Gal Kapluny, Yamini Bansaly, Tristan Yang, Boaz Barak, Ilya Sutskever 2019 Harvard U., OpenAI 面白い。二重降下という現象について。同じモデルでパラメータ数(例えばResNetの幅)を大きくしていくと、いったん悪くなり、その後、よくなる。また、エポック数を減らしていくと、この二重降下の現象は消える。(精度は悪くなるが。)早期終了に相当する。 二重降下の最初の部分は、偏りと分散のトレードオフとして知られているもので、大きなモデルほど悪い。一方、二重降下のあとの部分は、ディープラーニングの実践家によって知られているもので、大きなモデルほど良い。これは二重降下の状況下では、矛盾しない現象ということになる。 Mish: A Self Regularized Non-Monotonic Neural Activation Function written by Diganta Misra Diganta Misra 2019 Mish関数は、f(x)=x・tanh(softplus(x))。ソフトプラス関数はsoftplus(x)=ln(1+e^x)。ReLUやSwishよりよい。xの値が負から0へ近づいていくとき、いったん値がマイナスに下がる。0のとき0で、あとはほぼ線形に上がる。Swishに似ている。マイナスの領域の下がりかたがわずかにきつい。Swish(x)=x・σ(βx)。ここで、σ=1/(1+e^-βx)で、普通のシグモイド関数。 VL-BERT: Pre-training of Generic Visual-Linguistic Representations Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai ICLR 2020 U. of Science and Technology of China, MSRA ViLBERTとかと近く、テキストからの埋め込みと画像特徴からの埋め込みの両方を使うもの。Fast(er) R-CNNのRoI(Region of Interest)のボックス座標と画像特徴を使う。VilBERTはテキストと画像のco-attentionのトランスフォーマを使っていたが、こちらはフラットに入れている。精度も似たようなもの。 Learning the Arrow of Time for Problems in Reinforcement Learning Nasim Rahaman, Steffen Wolf, Anirudh Goyal, Roman Remme, Yoshua Bengio ICLR 2020 ドイツ、カナダ マルコフ過程における時間の矢。といっても物理学における時間の謎ということではなく、熱力学第2法則的にエントロピーが増大するというのを捉えることなので、ちょっと大げさ。(結局、熱力学第2法則と時間が関連してるのでまあいいけど。) 花瓶が落ちて壊れて元にもどらないのをどう捉えればよいか。hという関数を定義し、もとに戻れない状態になったときに上っていくように、もとに戻れるときは値が変わらないような性質を持つようにする。そのために、関数Jを定義し、Jを最大化するものとしてhを定義する。Jは、サンプリングした状態の遷移においてのhの変化をとるもの。2状態の順逆の遷移が同様によく起こるのであれば、hは変わらなくてよいが、順方向だけおこるのであれば、hが時系列に増えた場合にJが大きくなる。この効果と正則化(L2)を組み合わせている。 応用としては、方策による到達可能性、副作用と安全な探索、好奇心に対しての報酬(めったに到達できない状態をありがたがる)などが考えられる。 Contrastive Learning of Structured World Models Thomas Kipf, Elise van der Pol, Max Welling ICLR 2020 U. Amsterdam C-SWM。画像から物体検出し、オブジェクトにエンコードし、グラフニューラルネットワークで相互作用をモデル化する。コンストラスティブ損失を使う。手法の考え方としては正しい。実験は2DシェイプとかAtariのゲームとか。 Hierarchical Foresight: Self-Supervised Learning of Long-Horizon Tasks via Visual Subgoal Generation Suraj Nair, Chelsea Finn ICLR 2020 Stanford, Google Brain 初期画像とゴール画像が与えられる。このとき、途中経過を表す複数のサブゴール画像を生成モデルで生成する。初期画像からサブゴール画像をたどってゴール画像までいくときの推定コストが最小になるようにサブゴールを選ぶ。サブゴール画像が選ばれると、あとは、2つの画像を入力とする視覚的MPCで実行できる。 サブゴール画像を生成するのに時間とかアクションとかいろいろ条件づけないといけない気がするけど、割と初期画像とゴール画像が近いからこれでできるのだろうか。 Learning Hierarchical Discrete Linguistic Units from Visually-Grounded Speech David Harwath, Wei-Ning Hsu, and James Glass ICLR 2020 MIT ZeroSpeech 2019 challengeというのが、TのないTTS、つまり音声からテキストにし、それを音声にするのではなく、音声からサブワードのユニットを発見し、それを使って音声合成するというもの。 この論文は、彼らの前の論文の手法に、ベクトル量子レイヤー(Neural Discrete Representation Learning, Oriol Vinyalsら2018)を入れたもの。ベクトル量子レイヤーは量子化だが、ある種のボトルネック層として働く。 Reformer: The Efficient Transformer Nikita Kitaev, Lukasz Kaiser, Anselm Levskaya ICLR 2020 UCB, Google Research トランスフォーマは特に長いシーケンスに対して、非常にコストが高い。内積の部分を、局所的なハッシングに変えて、計算のオーダーを下げる。また、反転可能な残余層を使うことで、学習効率を上げる。 Building Deep Equivariant Capsule Networks Sairaam Venkatraman S.Balasubramanian R. Raghunatha Sarma ICLR 2020 Sri Sathya Sai Institute of Higher Learning, India カプセルネットワークで、等価性の保存をするらしい。SOVNET(Space-Of-Variation)という名前。ベースラインとはそこそこ。むしろDeepCapsとかが良さそう。 DeepCaps: Going Deeper with Capsule Networks Jathushan Rajasegaran, Vinoj Jayasundara, Sandaru Jayasekara, Hirunima Jayasekara, Suranga Seneviratne, Ranga Rodrigo 2019 University of Moratuwa, University of Sydney カプセルネットワークに、ResNetのようなスキップコネクションを入れたもの。 Convolutional Conditional Neural Processes Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima, Yann Dubois, Richard E. Turner ICLR 2020 U. Cambridge CNPのエンコーダにtranslation equivalentなCNNの要素を入れる。 Meta-Learning without Memorization Mingzhang Yin, George Tucker, Mingyuan Zhou, Sergey Levine, Chelsea Finn ICLR 2020 UT Austin, Google Research, UCB, Stanford メタ学習をさせるときは、実は、メタ訓練タスクが相互に排他的になるように、つまり、ひとつのモデルで全てが解けないように設計しないといけない。この論文では、メタ正規化(MR)というのを提案する。 メタ学習の記憶の問題は、通常の教師あり学習での過学習の問題と異なる。メタなパラメータθが情報をもたないということ。 メタ正則化として、XからYへのパスにzを置いてボトルネックを作る。MAMLとかCNP(Conditional Neural Process)と組み合わせる。 CLEVRER: Collision Events for Video Representation and Reasoning Kexin Yi, Chuang Gan, Yunzhu Li, Pushmeet Kohli, Jiajun Wu, Antonio Torralba, Joshua B. Tenenbaum ICLR 2020 Harvard, MIT CoLision Events for Video REpresentation and Reasoning (CLEVRER)データセット。ものを動かして衝突するかどうか。動画と、叙述的、説明的、予測的、仮想的な質問のセット。1万サンプル。 ベースになるシステムとして、動画からMask R-CNNで物体を取り出す、質問文をLSTMで関数プログラムに直す、物体のダイナミクスをPropagation Networkでモデル化する、答えを作る、という4つのパートから成るものを提案している。 CoPhy: Counterfactual Learning of Physical Dynamics Fabien Baradel, Natalia Neverova, Julien Mille, Greg Mori, ChristianWolf ICLR 2020 U. Lyon, FAIR, INSA Center, U. Borealis AI, CITI Laboratory, France Counterfactual Physics benchmark suite (CoPhy)というデータセットを提案。反事実的な物理ベンチマークスイート。3つのシナリオから成る。ブロックタワーCF、ボールCF、衝突CF。で、介在する設定(なので反事実)として、ブロックを別の場所に置いたり取り除く、ボールの摩擦を変えるなど。 解き方としては、物体の数が把握できているとして、GCNに入れて、RNNと組み合わせて学習。 Winning the Lottery with Continuous Sparsification Pedro Savarese, Hugo Silva, Michael Maire ICLR 2020 TTI Chicago, U. Chicago 宝くじ仮説の当たりクジを見つけるためのプルーニングの方法(Iterative Magnitude Pruning、値の小さいのを学習後にプルーニングして、パラメータを調整し直す方法)を改良する。 提案手法では、l0ノルムを使う。明示的にプルーニングしなくてもよい。l0ノルムは扱いにくいので、0-1変数をつかったl1ノルムにして、0-1変数を確率的な変数(とみなせるようなマッピング)にする。 NAS-Bench-201: Extending the Scope of Reproducible Neural Architecture Search Xuanyi Dongyz and Yi Yangy ICLR 2020 U. of Technology Sydney, Baidu Research NAS-Bench-101の発展版。固定された探索空間、最新のNASのアルゴリズムのほぼどれにでも使える、統合されたベンチマーク。 Mirror-Generative Neural Machine Translation Zaixiang Zheng, Hao Zhou2, Shujian Huang, Lei Li, Xin-Yu Dai, Jiajun Chen ICLR 2020 Nanjing U., ByteDance AI Lab パラレルコーパスがない場合の翻訳。back translation(Sennrich et al., 2016)というのがあるけど、2方向を反復的にアップデートする。ターゲットからソースを作り、それをデータとして、ソースからターゲットのモデルを更新する。それを使って、ソースからターゲットを作り、それをデータとして、ターゲットからソースのモデルを更新する。2つの翻訳モデルは相互に独立している。 これらを一緒に学習するものとして、joint back-translation (Zhang et al., 2018)とか、dual learning (He et al., 2016)があるが、それでも翻訳モデルは相互に独立している。 本研究では、共通の潜在変数zを仮定し、2つのモデルが同時に良くなるようにする。 精度は、transformer+dual learningなどより微妙に良い。 Understanding and Robustifying Differentiable Architecture Search Arber Zela, Thomas Elsken, Tonmoy Saikia, Yassine Marrakchi, Thomas Brox & Frank Hutter ICLR 2020 U. Freiburg, Bosch Center for AI, ドイツ DARTSを改良する。うまく行かない例がいくつかあり、バリデーションロスのアーキテクチャパラメータに対するヘシアンの支配的な固有値があるときに、汎化誤差が大きくなる。これを頑健にするために、データ拡張とL2正則化を、早期終了と組み合わせる。 The Logical Expressiveness of Graph Neural Networks Pablo Barcelo, Egor V. Kostylev, Mikael Monet, Jorge Perez, Juan Reutter, Juan-Pablo Silva ICLR 2020 IMC, PUC, DCC, IMFD Chile, チリ 通常のGNN(AC-GNNとよぶ)は、FOC2のクラスの論理式を表すには弱すぎる。FOC2とは、一階述語論理の自由な変数を2個にし、カウンティング限量子(少なくともk個ある)を加えたもの。 GNNを改良したACR-GNNは、読み出しの機能を強化しており、ノードの属性を近傍だけでなく、大域的な属性ベクトルに応じて更新することで、FOC2分類を表せるようにしている。 Implementation Matters in Deep RL: A Case Study on PPO and TRPO Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, and Aleksander Madry ICLR 2020 MIT, Two Sigma PPOとTRPOを例に、コードレベルの最適化が大きな影響をもたらしていることを示す。細かい最適化が、PPOがTRPOよりも良いことのほとんどを構成し、RLの手法がどう動くかを大きく変える。価値関数クリッピング、報酬スケーリング、直交する初期化と層のスケーリング、アダム学習率アニーリング、報酬クリッピングなど。 Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distribution Tasks Hae Beom Lee, Hayeon Lee, Donghyun Na, Saehoon Kim, Minseop Park, Eunho Yang, Sung Ju Hwang ICLR 2020 KAIST, TmaxData, AITRICS, 韓国 MAMLで、θから始めてタスク依存なθ^tauにいくときに、サンプルの少ない小さなタスクはあまり動かさず、大きなタスクは大きく動かすことになっていた。また、クラス数が違うタスクでも固定されたステップ数だったためタスクごとにどのくらい学習する必要があるか考慮していないかった。またOOD(Out-of-distribution)のタスクではメタ知識があまり使えないが、そのような差も考慮していなかった。 これらをバランスを取るのが提案手法のTask-Adaptive Meta-Leaning(TAML)。 Recurrent Hierarchical Topic-Guided Neural Language Models Dandan Guo, Bo Chen, Ruiying Lu, Mingyuan Zhou ICLR 2020 Xidian U., U. Texas Austin rGBM(リカレント・ガンマ・ビリーフネットワーク)を使って、階層化されたRNNで言語モデルを学習する。 Principled Weight Initialization for Hypernetworks Oscar Chang, Lampros Flokas, Hod Lipson ICLR2020 Columbia U. ハイパーネットワークの初期化。Glorot(var(W^i_j)=2/(di+dj))とか、Kaiming Heの初期化(ReLUに向いたもの)はうまく動かない。これに変わるような初期化の提案。 Differentiable Reasoning over a Virtual Knowledge Base Bhuwan Dhingra Manzil Zaheer, Vidhisha Balachandran, Graham Neubig, Ruslan Salakhutdinov, William W. Cohen ICLR 2020 CMU, Google Research 質問中のエンティティの言及から、マルチステップの確率伝搬モデルを作り、答える。模擬的な知識ベースのような感じ。end-to-endで学習する。 Data-dependent Gaussian Prior Objective for Language Generation Zuchao Li, Rui Wang, Kehai Chen, Masao Utiyama, Eiichiro Sumita, Zhuosheng Zhang, Hai Zhao ICLR 2020 Shanghai Jiao Tong U., NICT 言語生成を行う場合に、グランドトゥルースのシーケンスを使った最尤推定を行うと、マッチしていないシーケンスは全て一様にマイナスになる。(惜しいのもそうでないのも関係なくなる。)そこで、データに依存したガウス事前目的関数(data-dependent Gaussian prior objective (D2GPo) )をいれる。 Mathematical Reasoning in Latent Space Dennis Lee, Christian Szegedy, Markus N. Rabe, Sarah M. Loos and Kshitij Bansal ICLR 2020 Google Research 潜在空間でいくつかのステップで数学的な推論するようなニューラルネットワークを考える。数式のリライトなどを学習。数式がグラフの形でグラフニューラルネットワークに入れられ、それがMLPを介して出力される。HOList環境というもので実験。2万近い定理が含まれる。 Causal Discovery with Reinforcement Learning Shengyu Zhu, Ignavier Ng, Zhitang Chen ICLR 2020 Huawei Noar's Ark Lab, U. Toronto データを記述するのに、エンコーダ・デコーダで記述し、デコーダの出力をDAG(Directed Acyclic Graph)を表すような隣接行列とする。どういうDAGがいいかは、BIC基準。これをスコアとして強化学習で良いDAGを見つける。それが、因果関係の構造の発見になっている。30ノード、50ノードくらいの小規模な実験。 Deep Learning for Symbolic Mathematics Guillaume Lample, François Charton ICLR2020 FAIR Matlabとかマセマティカより、微分方程式等の解をきちんと求められる。10秒とか30秒以内ということのよう。 式を木で表現。Transformerを使ったseq2seq。積分とか微分などの課題でデータセットを作っている。 Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue Byeongchang Kim, Jaewoo Ahn, Gunhee Kim ICLR 2020 Seoul National U., 韓国 知識を入れた会話のためには、知識の選択と発話の生成のステップがあるが、前者を扱う。系列知識トランスフォーマ(sequential knowledge transformer(SKT))を提案。知識の選択を単一の決定ではなくて、時系列の決定過程とみなす。対話の段階ごとに、知識プールを用意し、サンプリングしていく。 Wizard of Wikipediaデータセットを使う。 The Ingredients of Real World Robotic Reinforcement Learning Henry Zhu, Justin Yu, Abhishek Gupta, Dhruv Shah, Kristian Hartikainen, Avi Singh, Vikash Kumar, Sergey Levine ICLR 2020 UCB, U. Oxford, U. Washington ロボットの学習のために、(i)人がリセットしなくてもいいようにしたい。(ii)オンボードの知覚だけにしたい(別のカメラを用意したくない)し、(iii)手作りの報酬関数を使いたくない、 (i)のためにランダム摂動コントローラというものを使う。あまり訪問したことのない状態を求める内的な報酬を使った別の方策で初期状態を決める。 (iii)のために、イベントの変分逆コントロール(VICE)というものを使う。一連の画像を見て、タスクが完了するのかどうかを学習する。これによって、強化学習を方向づけることができる。(ii)のために、VAEを使って状態を低次元で表す。 ノウハウではあるが、ちゃんと先に進んで分かることが整理されてて素晴らしい。 Neural Arithmetic Units Andreas Madsen, Alexander Rosenberg Johansen ICLR 2020 Technical University of Denmark, デンマーク NNは足し算や掛け算をするのは得意ではない。ここでは、x1, ..., xnの入力があったときに、例えば、(x1+x2)(x1+x2+x3+x4)を計算するような学習をさせる。そのためにNALU(Neural Arithmetic Logic Unit, Trask et al. 2018)という研究があったが、これを発展させる。掛け算のところを工夫する。(かなり恣意的なネットワークではある。) Differentiation of Blackbox Combinatorial Solvers Marin Vlastelica, Anselm Paulus, V´ıt Musil, Georg Martius, Michal Rolinek ICLR 2020 MaxPlanck, Germany, Universita degli Studi di Firenze, Italy 組み合わせ最適化をNNのブロックのひとつとして使う。組み合わせ最適化問題自体を緩和するとかはやらない。誤差逆伝播をどうやるかだが、線形な関数で内挿することで勾配を伝えることができる。 BackPACK: Packing more into Backprop Felix Dangel, Frederik Kunstner, Philipp Hennig ICLR 2020 U. Tuebingen これまでのDLのフレームワークは、ミニバッチの勾配の平均を計算することに最適化されてきた。分散やヘシアンなどの他の値も「理論的には」とれるはずだが、自動微分の枠組みではサポートされていなかった。それが結果的に、不必要に研究のスコープを狭めてきた。 BakPACKは、PyTorch上の誤差逆伝播のアルゴリズムで、1次、あるいは2次の微分を取り出すことができる。 オリジナルの逆伝搬のパスですでにある情報を使ったものを1次拡張、さらに付加的な情報の伝搬を必要とするものを2次の拡張とする。1次拡張で、勾配の分散やl2ノルム、2次拡張でクロネッカー因子分解とか、一般化ガウスニュートン行列などを扱うことができる。 Adamとかモーメンタムとかよりは、テスト、訓練ともに同じエポックでは良い精度。オーバーヘッドもそんなに大きくない。(1.5倍とか。最も重くて3倍いかない。) Playing atari with six neurons Giuseppe Cuccu, Julian Togelius, Philippe Cudre-Mauroux 2019 U. Fribourg (スイス), NYU(米国) Atariの強化学習で、画像処理と、意思決定のところをわける。コンパクトな状態表現を得るために、ベクトル量子化を辞書的にしたもの(クラスタリング)を用い、観測が増えると辞書を増やすような工夫を行う。直接残余スパースコーディングでは、再構成誤差ではなく、情報量が多くなるように学習する。結果として、Atariのゲームを6つから18個くらいのニューロンでそこそこの精度(比較手法と遜色ないくらい)で解けた。 Continual learning with hypernetworks Johannes von Oswald, Christian Henning, João Sacramento, Benjamin F. Grewe 2020 U. of Zurich and ETHZ, スイス ハイパーネットワークで個別タスクの重みを生成する。破滅的忘却を回避するために、古いタスクのモデルは固定する。過去のモデルの出力を教師データと見なした項を入れることで実現する。 Deep neuroevolution of recurrent and discrete world models. Sebastian Risi and Kenneth O. Stanley 2019 UberAI Haらの世界モデルの研究において、3つのパートそれぞれに学習しているが、GAでまとめて最適化する。GAといっても、重みにガウシアンノイズを載せることのようで、ポピュレーション200で1000世代で実行するとうまくいくようだ。 DiffTaichi: Differentiable Programming for Physical Simulation Yuanming Hu, Luke Anderson, Tzu-Mao Li, Qi Sun, Nathan Carr, Jonathan Ragan-Kelley, Frédo Durand ICLR 2020, arxiv 2019 MIT CSAIL, Adobe Research, UCB 微分可能な物理シミュレータのための、新しい微分可能プログラミング言語。 Understanding Generalization in Recurrent Neural Networks Zhuozhuo Tu, Fengxiang He, Dacheng Tao ICLR 2020 U. Sydney RNNは強力であるが、これまでの汎化性能の上限は、サイズに依存していた。本研究では、サイズに依存しない、ノイズがある訓練での汎化性能の限界を示す。 Large Batch Optimization for Deep Learning: Training BERT in 76 minutes Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh ICLR 2020 Google, UCB, UCLA 大きなバッチサイズのほうがスピードがあがる。従来研究のLARSは、BERTなどのアテンションモデルではうまくいかない。LARSはモーメンタムをベースにして大きなバッチに対応したものだが、本研究で提案するLAMBはAdamをベースにしている。(AdamはBERTにうまくいくことが知られている。)バッチサイズをメモリ限界まで大きくし、TPUv3で学習させることで、3日かかっていたものが76分でできるようになった。(著者のひとりは昔知り合いのXaodanだった。) Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation Yu Chen, Lingfei Wu, Mohammed J. Zaki ICLR 2020 Rensselaer Polytechnic Institute, IBM Research 質問生成。関連する文と答えが入力され、質問文を生成する。これを、グラフエンコーダ、グラフ埋め込み、RNNを使って生成し、強化学習を使ってコントロールする。 Sharing Knowledge in Multi-Task Deep Reinforcement Learning Carlo D’Eramo & Davide Tateo, Andrea Bonarini & Marcello Restelli, Jan Peters ICLR 2020 TU Darmstadt, Politecnico di Milano, Max Planck マルチタスク強化学習で共通の表現を持ったほうがよい。なので、個別タスクごとに入力をいったん共通の表現を介して、出力するようにする。DDPG等で、Inverted-PendulumとかHalf-Cheetahとかで実験。割と当たり前の結果。 SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards Siddharth Reddy, Anca D. Dragan, Sergey Levine ICLR 2020 UCB デモンストレーションからの模倣学習は、高次元の連続空間では難しい。行動クローニングは誤差が蓄積する。RLやGAIL(敵対的生成モデルを使うRL)は、報酬の設定が難しい。 ここでは、デモンストレーションに含まれていれば1、そうでなければ0という報酬を与える(ソフトQ学習)ことで、よく分からない状況(OOD)のときはデモンストレーションに近づくようにインセンティブをつける。これを、ソフトQ模倣学習(SQIL)とよぶ。 Depth-Adaptive Transformer Maha Elbayad, Jiatao Gu, Edouard Grave, Michael Auli ICLR 2020 Univ. Grenoble Alpes, FAIR トランスフォーマはタスクが難しくてもそうでなくても決まった数だけの計算しかしない。ここでは、トランスフォーマの出力を各段階で出すようにし、どのくらいの計算が必要なのかを、トークンごとに適応的に調整する。計算量が減って同様のパフォーマンス(翻訳精度)を出せる。 LAMOL: LAnguage MOdeling for Lifelong Language Learning Fan-Keng SUn, Cheng-Hao Ho, Hung-Yi Lee ICLR 2020 MIT, National Taiwan U. 台湾 生涯学習は、画像やゲームで行われることが多かったが、言語で行う。提案手法であるLAMOLは、前のタスクに対しての擬似的なサンプルを出力し、追加的なメモリやモデルの必要性なしに破滅的忘却を防ぐ。擬似的なサンプルを生成するところが特徴。 On Mutual Information Maximization for Representation Learning Michael Tschannen, Josip Djolonga, Paul K. Rubenstein, Sylvain Gelly, Mario Lucic ICLR 2020 Google Research, Brain Team 教師なし学習や自己教師あり学習のときに、もとのデータとの相互情報量を最大化することで表現を得ることがよく行われる。このような情報量最大化の原則は問題も多い。相互情報量は計算が難しく、実際には扱いやすい下界が使われることが多い。ところが、これらには強い帰納的バイアスがあり、相互情報量自体よりも、そちらが効いている。緩い下界のほうがうまくいくこともある。 結果として、相互情報量へ接続するのは、教師なしでの強力な表現を得るための十分な条件なのかは不明である。こうした説明は、トリプレットに基づく距離学習の観点から、最近の手法の成功をうまく説明することができる。 Image-guided Neural Object Rendering Justus Thies, Michael Zollhofer, Christian Theobalt, Marc Stamminger, Matthias Nießner ICLR 2020 U. Erlangen-Nuremberg 画像に基づくレンダリングとGANに基づく画像の合成を組み合わせたアプローチ。視点依存の画像から、差分を取り出して、新しい視点に(古典的な画像に基づくレンダリングで)描きこむ。これをエンコーダー・デコーダー(U-NetをベースにしたものでEffectNetと呼ぶ)を通してひとつの画像にし、CompositionNetで敵対的コストを用いてきれいな画像にする。 Measuring Compositional Generalization: A Comprehensive Method on Realistic Data Daniel Keysers, Nathanael Schärli, Nathan Scales, Hylke Buisman, Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov, Lukasz Stafiniak, Tibor Tihon, Dmitry Tsarkov, Xiao Wang, Marc van Zee & Olivier Bousquet ICLR 2020 Google Research, Brain Team Compositional Freebase Questions(CFQ)というデータセットの紹介。自然言語の構成性を計るために、訓練セットとテストセットに共通してアトム(事実単体)が含まれるものの、アトム(atoms)を組み合わせた複合体(compounds)に関しては、訓練とテストで異なるべきという指針に基づいて作られている。途中で、自然言語からSPAQLのクエリにする途中に論理式を使っている。Freebaseを使って約24万の質問-答えのペア。 Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives Anirudh Goyal, Shagun Sodhani, Jonathan Binas, Xue Bin Peng, Sergey Levine, Yoshua Bengio ICLR 2020 MILA, UCB 面白い。階層的強化学習のように、プリミティブがあって中央集権にメタ方策で組み合わせるのではなく、分散的にやる。それぞれのプリミティブが現在の状態から行動を決定するのにどのくらいの情報が必要かを選択し、最大の情報を提供したものが実際に世界の中で行動する。プリミティブは、状態の特定の側面に注目してできるだけ少ない情報を使うように情報ボトルネックにより正則化されており、また、報酬はグローバルな決定に対しての貢献で決まる。これが競争と集中につながる。 2Dマルチタスクの環境のMinigridというので、ピックアップとかアンロックとかのタスクで実験。 Dynamics-Aware Unsupervised Discovery of Skills ICLR 2020, arxiv 2019 Archit Sharma, Shixiang Gu, Sergey Levine, Vikash Kumar, Karol Hausman Google Brain 力学を考慮したスキルの発見(Dynamics-Aware Discovery of Skills, DADS)。教師なしで、予測可能な行動を見つけ、同時に力学を学習する。ゼロショットのプランニングが、従来のモデルベースの強化学習や、モデルフリーのゴールに条件付けられた強化学習を大きく上回ることを示す。 Watch, Try, Learn: Meta-Learning from Demonstrations and Reward Allan Zhou, Eric Jang, Daniel Kappler, Alex Herzog, Mohi Khansari, PaulWohlhart, Yunfei Bai, Mrinal Kalakrishnan, Sergey Levine, Chelsea Finn 2019, ICLR2020 Google Brain, X, UCV メタ模倣学習。 最初のデモンストレーションから方策を推定し1回のトライアルをする部分と、それ以降、リトライアルをする部分を分け、2つそれぞれで学習する。両方を混ぜるより、「見てトライする」のと「さらにトライして学習する」のを別々に学習したほうがいいらしい。 画像が入ってCNNで処理すると同時に、デモンストレーションの動画から、デモのエンベディングを作り、文脈エンベディングとする。両方をconcatし、グリッパーのポジションや指の角度などに変換する。 RTFM: Generalising to New Environment Dynamics via Reading Victor Zhong, TIm Rocktaschel, Edward Grefenstette ICLR 2020 U. Washington, FAIR, UCL 言語での説明と言語でのゴールが与えられて、グリッドワールドにおけるマルチエージェントの戦闘ゲームで良い方策を学習する。説明は「これとこれは同じチーム」「この敵はこの武器に弱い」とか。ゴールは「こいつを倒せ」とか。Read to Fight Monsters (RTFM)を呼ばれる問題設定。 言語的特徴と視覚的特徴を組み合わせるFiLM^2層(Bidirectional Feature-wise Linear Modulation)という層を使って、言語での説明とゴール、視覚から方策を出力するネットワーク(Txt2πと呼ぶ)を構成する。 Detecting and Diagnosing Adversarial Images with Class-Conditional Capsule Reconstructions Yao Qin, Nicholas Frosst, Sara Sabour, Colin Raffel, Garrison Cottrell, Geoffrey Hinton ICLR 2020 UCSD, Google Brain 敵対的攻撃から防御するために、再構成エラーを使う。再構成エラーが大きいものは、攻撃されていると検知する。CNN+再構成の手法に比べ、カプセルネット+再構成の手法のほうが検知できる。さらに、攻撃方法を改良し、ラベルを変える+再構成エラーを下げるというふうにしても、カプセルネットのほうが検知できる。カプセルネットのほうが人間の視覚に近いからではないかという説明。 Compositional languages emerge in a neural iterated learning model Yi Ren, Shangmin Guo, Matthieu Labeau, Shay B. Cohen, Simon Kirby ICLR 2020 U. Edinburgh, U. Cambridge, LTCI エージェントが言語ゲームをする。見たものの近さとメッセージの近さが相関しているほうがトポロジカル類似度が高いという。トポロジカル類似度が高いほど、話すエージェントの学習速度は上がり、また、聞くエージェントがより多くの概念を少ないサンプルで聞くようになるという仮説を証明する。 Vid2Game: Controllable Characters Extracted from Real-World Videos Oran Gafni Lior Wolf Yaniv Taigman ICLR 2020 FAIR 動画から人を抜き出してゲームのようにコントロール可能にする。Pose2Pose生成器。次のポーズを作る。Pose2Frameネットワーク。マスクしたり背景と重ねたりする。 Physics-as-Inverse-Graphics: Unsupervised Physical Parameter Estimation from Video Miguel Jaques, Michael Burke, Timothy Hospedales ICLR 2020 U. Edinburgh ボールの転がる、重力で引き寄せられるなどの予測。画像からU-netで物体検出し、オイラー積分の物理エンジンに入れる。(質量とか重力とかはパラメータ。)で、デコーダで画像に戻し、ロスを取る。 Network Deconvolution Chengxi Ye, Matthew Evanusa, Hua He, Anton Mitrokhin, Tom Goldstein, James A. Yorkey, Cornelia Fermüller, Yiannis Aloimonos ICLR 2020 U. Maryland College Park, USA 画像のぼかし(相関を入れる)の反対がdeconvolutionで相関を取り除く。これを画像に対して行うと、エッジだけがきれいに浮き出たような画像になる。視覚野のニューロンの中心/周辺構造と同じらしい。相関行列の逆行列を近似的に計算する。計算コストはそれほど大きくないようだ。見方によっては、バッチ正規化(相関を取る)、SGDとも関連するとのことで、比較をしている。 Deep Lagrangian Networks: Using Physics as Model Prior for Deep Learning Michael Lutter, Christian Ritter & Jan Peters ICLR2019 Technische Universitat Darmstadt, ドイツ 運動方程式には、ニュートン形式、ハミルトン形式、ラグランジュ形式がある。ここではラグランジュ形式を用いる。L(ラグランジアン)=T(運動エネルギー)-U(位置エネルギー)。あとLに関しての微分方程式から構成される。 ロボットの目的とする関節の位置、速度、加速度が指定されたときに、ここからトルクに直す逆モデルを作る。現在の位置、速度、加速度から、ラグランジアンの対角成分や下三角行列を出すニューラルネットワークを作り、そこからラグランジアンを計算し、トルクを計算する。 ここまでやるなら普通に計算してPD制御でいい気もするが、ニューラルネットワークのところで、いろいろな誤差を吸収できるということ? Meta-learning curiosity algorithms Ferran Alet, Martin F. Schneider, Tomas Lozano-Perez & Leslie Pack Kaelbling 2020 MIT 強化学習の外側にループをつけて、好奇心のアルゴリズムを探索する。計算グラフのようなものを使って近傍探索。アクション予測(アクションの予測が外れると好奇心)、サイクルコンシスタンシー(サイクルGANのようなもの)の2種類を発見。人間がデザインするものにはあまり使われない。 A Survey of Deep Learning for Scientific Discovery Maithra Raghu, Eric Schmidt 2020 Google, Cornel U. エリック・シュミットが著者に。科学的発見のためのとあるが、基本は、初心者のための分野全体の大まかな紹介とガイド。 Adversarial Policies: Attacking Deep Reinforcement Learning Adam Gleave, Michael Dennis, Cody Wild, Neel Kant, Sergey Levine, Stuart Russel 2020 UCB アメフトとか相撲とかのように、邪魔をする人がいてそれでもゴールを達成しようとする。敵対的な方策をもつエージェントを作って、それでもゴールを達成するような方策を見つける。犠牲者(victim)と敵のゼロサムゲームだが、犠牲者のほうは敵に対して適応的な方策を学習するようにはなってないようだ。 The Creation and Detection of Deepfakes: A Survey Yisroel Mirsky, Wenke Lee 2020 Georgia Tech. ディープフェイクのかなり徹底的なサーベイ。内容も充実している。再現、置き換え、特定の属性の強化、合成などがある。手法はRNN, Encoder-Decoder, Vanilla GAN, pix2pix, CycleGANが基本。さまざまな研究の用いている手法やネットワークアーキテクチャを紹介している。 Designing Network Design Spaces Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollar 2020 FAIR 個別のネットワークをデザインするのではなく、ネットワークのデザイン空間自体をデザインする。低次元のシンプルなデザイン空間に至ることができ、このようなネットワークをRegNetと呼ぶ。良いネットワークの幅と深さは、量子化された線形関数で説明できる。元の自由度の高いネットワークをAnyNetと言い、人間も介在して次元を減らしている。 Agent57: Outperforming the human Atari benchmark Adria Puigdomenech Badia, Bilal Piot, Steven Kpturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell 2020 DeepMind Atariの57個のゲーム全てで人間を上回る。これまでは、51個(MuZero, 2019)、52個(R2D2, 2018)だった。より長い信用割当、探索と開発のトレードオフの工夫による。細かくは、i) 状態行動の価値関数に異なるパラメータを使う、ii) 新規性を好むように動的なメタコントローラを使う、iii) より長期の経時誤差逆伝搬を使うということで達成している。Neger Give Upエージェントと名付ける。 Learning Agile Robotic Locomotion Skills by Imitating Animals Xue Bin Peng, Erwin Coumans, Tingnan Zhang, Tsang-Wei Lee, Jie Tan, Sergey Levine 2020 Google Research, UCB イヌのようなLaikagoロボット(18自由度)を、実際のイヌにつけてモーションキャプチャから模倣学習する。報酬関数に、関節の近さ、速度の近さなど、手本となる動きに近づけるような項を加えておく。ドメイン適応を使う。 AutoML-Zero: Evolving Machine Learning Algorithms From Scratch Esteban Real, Chen Liang, David R. So, Quoc V. Le 2020 Google Brain MLアルゴリズム全体を基本的なオペレーションの組み合わせとして発見する。ある種のGP(遺伝的プログラミング。)人口をコピーしたりミューテーションしたりする。MLアルゴリズムを、セットアップ、予測、学習という3つの要素関数からなるものとし、空のファンクションから線形な回帰、ニュラルネットワーク、勾配降下、乗法的な相互作用、重み平均、正規化勾配などを進化させた。CIFAR10データセットで実験し、2層のフルコネクトの手でデザインしたものより20回中13回の実験で良くなった。 Suphx: Mastering Mahjong with Deep Reinforcement Learning Junjie Li, Sotetsu Koyamada, Qiwei Ye, Guoquing Liu, Chao Wnag, Ruihan Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon 2020 MSRA, Kyoto U., U. Science and Technology of China, Tsinghua U., Nankai U. 天鳳で10段、99.99%以上より強いモデル。捨て牌、ポンやチー、リーチなどの複数のモデルを作っている。34次元4チャンネルでエンコーディング、50層以上のResNet CNNのモデル。分散強化学習を使っているのと、半荘の勝ち点を各ラウンドの報酬に反映している。 State of the Art on Neural Rendering 2020 古典的なレンダリングには、ラスタライゼーション、レイトレーシングがある。また、画像から物体の幾何形状や反射特性、光源分布を推定するインバースレンダリングもある。(ニューラルレンダリングに近い。) ニューラルレンダリングの要素としては、制御(何をコントロールし、何に条件付けるか)、CGモジュール(コンピュータグラフィックのどの要素を組み合わせるか)、制御が暗黙的か明示的か、マルチモーダルな合成、汎化性能など。 応用として、1. 意味的な写真の合成と操作、2. 新しい視点からの物体とシーンの合成(ニューラル画像ベースのレンダリング、ニューラルレンダリング、複数画像からの新規視点の合成、ニューラルシーン表現とレンダリング(GQNはここ)、ボクセルに基づく新規の視点の合成、暗黙的な関数による方法)、3. 自由な視点の動画、4. 光線を当て直すのを学習する、5.顔の再現、体の再現など。 Generative Adversarial Networks are special cases of Artificial Curiosity (1990) and also closely related to Predictability Minimization (1991) Jurgen Schmidhuber 2020 Neural Networks 題名通りの主張。minmaxの仕組みがNNの研究の中でさまざまに行われてきたこと、2014のGAN論文に対する批判など。 Efficient Adaptation for End-to-End Vision-Based Robotic Manipulation Ryan Julianyz, Benjamin Swansony, Gaurav S. Sukhatmez, Sergey Levineyx, Chelsea Finny{ and Karol Hausman 2020 Google Research, USC, UCB, Stanford U. 1000個の多様な物体に対して、58万回の把持。Q関数のネットワークをオフラインで学習する。次に、このネットワークをオンラインで、同じ物体群に対して、2万8000回の実際の把持を行う。これで、ベースポリシーを作る。96%の見たことのない物体を把持できる。特に6つの物体に焦点をあてる。(これらの把持のベースポリシーは86%。) ここに、背景をチェッカーボードにする、明るいハロゲンライトをつける、グリッパーを1cm伸ばす、グリッパーの位置を10cmずらす、透明なボトルに変える、という6つを試す。するとパフォーマンスがぐっと落ちる。 次に、ベースのQ関数で初期化し、ベースデータとターゲットデータを半々で混ぜて、ターゲットのQ関数を学習する。これで、チェッカーボードは50%から90%に、グリッパーの位置は43%が98%になど、劇的に変わる。 ImageNetの転移学習のようなもので、当たり前のように思うけど、今までできてなかった。 Improved Residual Networks for Image and Video Recognition Ionut Cosmin Duta, Li Liu, Fan Zhu, and Ling SHao 2020 IIAI, UAE iResNetというResNetの改良版。Residualブロックの、conv, BN, RELUの並びを、序盤、中盤、終盤で変える、バイパスのショートカットにMaxPoolを入れる、1x1チャネルの多用を3x3にするなど。若干、ヒューリスティックっぽい。 ResNeSt: Split-Attention Networks Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang, Yue Sun, Tong He, Jonas Mueller, R. Manmatha, Mu Li, and Alexander Smola 2020 Amazon, UC Davis スプリットアテンションのブロックを使ったResNetの改良。SE-Net (Squeeze-and-Excitation Net)も、スプリットアテンションを使っているが、チャネルをいくつかのグループに分け、それぞれにスプリットアテンションをしている。 ImageNetのtop-1で81.13%、ダウンストリームのタスクでも良い成績。 Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads Suneel Belkhaley, Rachel Liy, Gregory Kahny, Rowan McAllistery, Roberto Calandraz, Sergey Leviney 2020 UCB, FAIR ドローン(クアドコプター)で、荷物を積んで運ぶ。ダイナミクスが変わるので、メタ学習。 YOLOv4: Optimal Speed and Accuracy of Object Detection 2020 Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao 中央研究院、台湾 YOLOの著者と違ってて、そもそもいいの?という疑問が。オリジナルの著者はこの研究をやめているらしい。(軍事利用等のため。)内容としては、並列化している。細かい工夫の積み重ね。ちょっと評価を待ったほうが良さそう。 Classification with quantum neural networks on near term processors 2018 Quantum convolutional neural networks 2019 Barren plateaus in quantum neural network training landscapes 2018 Nature Communications Universal discriminative quantum neural networks 2018 Quantum advantage with shallow circuits 2018 Science Quantum supremacy using a programmable superconducting processor Frank arute et al. 2019 Google, UM amhearst, NASA, Caltech, UC Santa Barbara and so on Sycamoreプロセッサーは、200秒で量子回路を100万回サンプルできるが、これは、通常のスパコンであれば1万年かかる。54 transmon キュービットの2次元のアレー。1つのキュービットは隣接する4つと結びついている。 A comprehensive survey on graph neural networks 2019 Ryoma Sato 京大 グラフニューラルネットワークの表現力のサーベイ。2つの問題設定を扱う。グラフとそのうちの1つのノードを入力し、そのノードのラベルを出力する、ノード分類問題。グラフを入力し、グラフのラベルを出力するグラフ分類問題。 GNNは、特定の2つのグラフを見分けられないことを示す。GNNが解ける/解けない問題のクラスを明らかにする。 Graph neural networks: A review of methods and applications. 2018 Sequential Neural Processes Gautam Singh, Jaesik Yoon, Yongsung Son, Sungjin Ahn 2019 Rutgers U., SAP, ETRI Temporal GQN。時間方向に拡張。State-spaceモデルとGQNを組み合わせる。z_tが以前のz_>tに依存しているというモデル化。 The neural and cognitive architecture for learning from a small sample Aurelio Cortese, Benedetto De Martino and Mitsuo Kawato Neurobiology, 2019 ATR, UCL, RIKEN AIはすごい成果を出しているが、脳の能力に比べるとまだまだである。何が足りないか。汎化はそのひとつ。脳は難しい問題を直接解くのではなく、新しくてトラクタブルな問題に変換している。ここでは、高次の認知機能が、強化学習と相互作用し、探索空間の自由度を減らす働きをしていることを述べる。 RLの状態を見つけるのに、並列なループで探索する。 One-Shot Visual Imitation Learning via Meta-Learning Chelsea Finn, Tianhe Yu, Tianhao Zhang, Pieter Abbeel, Sergey Levine 2017 UCB, OpenAI メタ学習と模倣学習を結びつけ、メタ模倣学習(MIL)を提案する。ひとつのデモンストレーションだけで、新しいスキルを効率的に学習することができる。MIL with MAMLも提案。 Task-embedded control networks for few-shot imitation learning Stephen James, Michael Bloesch, Andrew J. Davison 2018 TecNets (タスク埋め込みコントロールネットワーク)。ロボットにタスクを学習させるために別のタスクの知識を使うメタ学習は重要だが、多くのタスクにスケールしなかった。そこで、メトリック学習の考え方を使って、タスク埋め込みを作り、新しいタスクをデモンストレーションから学習できるようにする。 Controllable Invariance through Adversarial Feature Learning Qizhe Xie, Zihang Dai, Yulun Du, Eduard Hovy, Graham Neubig 2018 CMU 敵対的不変量特徴学習(Adversarial Invariant Feature Learning)。エンコーダ、デコーダ(望ましくない特徴を取り出す)、プリディクタ(通常の予測精度)の3つが競う。 DeepFont: Identify Your Font from An Image Zhangyang Wang, Jianchao Yang, Hailin Jin, Eli Shechtman, Aseem Agarwala, Jonathan Brandt, Thomas S. Huang 2015 U. Illinois Urbana-Champaign, Adobe, Snapchat, Google フォントに認識と生成。CNN+積層コンボリューショナルオートエンコーダ。 The Face of Art: Landmark Detection and Geometric Style in Portraits Jordan Yaniv, Yael Newman, Ariel SHamir 2019 Tel Aviv U. 肖像画を対象に、ランドマークの検出を行う。スタイル転移を行う。 A Survey on The Expressive Power of Graph Neural Networks Ryoma Sato 2020 Kyoto U. Lagrangian Neural Networks Miles Cranmer, Sam Greydanus, Stephan Hoyer, Peter Battaglia, David Spergele, Shirley Ho 2020 Princeton, Oregon Stete, Google Research, Deep Mind, Flatiron Inst. ニューラルネットワークを使った任意のラグランジアンをパラメタライズする。二重振り子等で実験。位置と運動量の保存の法則等にうまく対応できる。 TensorFlow Quantum: A Software Framework for Quantum Machine Learning Michael Broughton, Guillaume Verdon, Trevor MsCourt et al. Google Research worldwide, U. Waterloo, and so on 2020 量子データ、あるいは古典的データに対して、ハイブリッドな量子/古典モデルを素早くプロトタイピングするためのオープンソースのライブラリ。なかはc++の実装。 量子回路を指定して、量子データを生成する。量子モデルを評価する。古典モデルを評価する。コスト関数を評価するという流れ。 Learning to Simulate Complex Physics with Graph Networks Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec 2020 DeepMind, Stanford 粒子シミュレータを学習する。GNS(グラフ・ネットワークベース・シミューレータ)。エンコーダ、グラフ、デコーダの構成で、時間遷移はグラフ上でのメッセージパッシングで行う。すごくいいと思う。 KW: ToRead Graph Networks as Learnable Physics Engines for Inference and Control Alvaro Sanchez-Gonzalez, Nicolas Heess, Jost Tobias Springenberg, Josh Merel, Martin Riedmiller, Raia Hadsell, Peter Battaglia ICML 2018 DeepMind グラフネットワークを使って、シミュレータ上の振り子やカートポール、チーター、あと、実際のロボットなどを動かす。人間が動かした動きを訓練データにしてモデル化する。あるいは強化学習(DDPGとか)のなかで使う。 Learning Neural Causal Models from Unknown Interventions Nan Rosemanry Ke, Olexa Bilaniuk, Anirudh Goyal, Stefan Bauer, Hugo Larochelle, Chris Pal, Yoshua Bengio 2019 MILA, Element AI, Google メタ学習の新しい因果フレームワークを提案する。変数とその親との関係がニューラルネットワークでモデル化される。介入的な分布がひとつの変数に起こるとき、あるいはそれらの介入がひとつのメタ例になるときの設定を調べる。 Protecting World Leaders Against Deep Fakes CVPR2019 Weight Agnostic Neural Networks 2019 Adam Gaier, David Ha U. Lorraine, Google Brain David Haさんの論文。生得的な構造で性能を発揮するネットワーク。アーキテクチャと重みとどちらが重要か。提案手法では、重み学習なしで強化学習のタスクを解くことができる最小のネットワークアーキテクチャを見つける。 Manipulation by Feel: Touch-Based Control with Deep Predictive Models Stephen Tian, Frederik Ebert, Dinesh Jayaraman, Mayuh Mudigonda, Chelsea Finn, Roberto Calandra, Sergey Levine 2019 UCB, FAIR タッチの感覚は器用なロボットのマニピュレーションに重要だが、連続的な把持でないマニピュレーションのための触覚を開発するのは難しい。ゲルサイトのタイプの触覚センサーを使って、ボールを動かしたり、アナログのジョイスティックを動かしたり、20面のサイコロを動かしたりする。ニューラルネットワーク+MPCで目的の状態を達成するようにプランニング。 Ab-Initio Solution of the Many-Electron Schrödinger Equation with Deep Neural Networks David Pfau, James S. Spencer, Alexander G. de G. Matthews, W. M. C. Foulkes 2019 DeepMind 物理的な制約を組み込んだNNとのこと。 Z-Forcing: Training Stochastic Recurrent Networks Anirudh Goyal, Alessandro Sordoni, Marc-Alexandre Cote, Nan Rosemary Ke, Yoshua Bengio NIPS2017 MILA, U. Montreal, Microsoft Maluuba STORN, VRNN, SRNNなどと近い確率的なRNNのモデル。潜在変数(確率変数)zから隠れ状態hが決まり、出力xが決まる。潜在変数zに、過去のRNNの状態を復元するように強制する副次コストをつける工夫をするところが特徴。 Learning Stochastic Recurrent Networks Justin Bayer, Christian Osendorfer ICLR2015 Technische Universitat Munchen, Leibniz Universitat Hannovor STORNという確率的なRNN。SGVB(Stochastic Gradient Variational Bayes)とRNNを組み合わせたモデル。潜在変数を入れる。 Capsules for object segmentation Rodney LaLonde and Ulas Bagci 2018 University of Central Florida カプセルネットワークを使った物体セグメンテーション。デコンボリューションカプセルというのを使う。子カプセルが近接する親カプセルにだけルーティングされ、ルーティングのところも変換行列が同じカプセルタイプで共有されるように修正するなど。ヒントン先生が一般化しているのに、またpriorを入れて良くしている印象。 Information Generation as a Functional Basis of Consciousness Ryota Kanai Acer Chang Yen Yu Ildefons de Abril Martin Biehl Nicholas Guttenberg 2019 Araya Inc. 金井さんの論文。考え方はほぼ一緒で面白い。counterfactualな表現を、実際のセンサーからではなく、深層モデルで生成しているということ。統合理論等、関連の情報との紐付けも分かりやすく良い。VAEとPredictive Codingを中心に説明されている。 情報を生成していると言ってしまっていいのか(デコーダーに学習されてるので)。 Unsupervised Generative 3D Shape Learning from Natural Images Attila Szabo, Givi Meishvili, Paolo Favaro 2019 U. Bern, Switzerland 3Dの画像を描くGAN。3Dを作るところとレンダリングで2つのパートに分けている。 Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julianm Karol Hausman, Chelsea Finn, Sergey Levine 2019 Stanford U., UCB, Columbia U., USC, Google シミュレーション上でのオープンソースの50個のロボットの操作タスクベンチマーク。マルチタスクRL、あるいはメタRLのため。TRPOとかActor-CriticとかMAML等6つの手法でのベースライン評価。それぞれのタスクだと学習できるがまとめてとなると悪くなるので、評価セットとしてはとても良さそう。 Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sunderhauf, Ian Reid, Stephen Gould, Anton van den Hengel CVPR2018 top30 Australian National U., U. Adelaide, Queensland U. o T., Macquarie U. Matterport3Dシミュレータというのを提案する。大規模な強化学習の学習環境用。言語によるナビゲーションは、VQAと構造は同じであるが、ちゃんと画像が生成できないといけない。 同様のものに、ViZDoom, DeepMind Lab, AI2-THOR、新しいものとして、HoME, House3D, MINOS, CHALET, Gibson Envなどがある。 あと、R2R(Room-to-Room)データセットも提供する。 A Divergence Minimization Perspective on Imitation Learning Methods Seyed Kamyar Seyed Ghasemipour, Richard Zemel, Shixiang Gu CoRL2019 U. Toronto, Google Brain よく使われる模倣学習には、行動クローニング(BC)と、逆強化学習(IRL)がある。これらの比較はあまり統一的に議論されていない。本論文では、発散の最小化をもとに、模倣アルゴリズムの統一的な確率的見通しを提案する。f-MAXという手法を提案するが、GAILやAILなどのプライアー逆強化学習と関連付ける。この枠組で、行動クローニングと逆強化学習のアプローチの差がうまく示せる。 Language-guided Semantic Mapping and Mobile Manipulation in Partially Observable Environments 2019 Siddharth Patki, Ethan Fahnestock, Thomas M. Howard, Matthew R. Walter U. Rochester, TTI Chicago シンボルグラウンディングのために欠けているのは、環境のモデルを必要とすることと、世界の表現についてフラットで必要以上に詳細なものを使おうとすること。言語を、位相的、測度的、あるいは意味的な環境の性質の「センサー」と捉え、部分的に観測する方法が最近研究されている。しかし、詳細すぎるマップでこれをやるとスケールしない。 本論文では、セマンティックマップ上でのコンパクトな分布を維持するためのタスクに応じた適応的な知覚を学習するフレームワークを提案する。 3D Point Capsule Networks Yongheng Zhao, Tolga Bairdal, Haowen Deng, Federico Tombari 2019 TU Munchen, U. Padova, Siemens カプセルネットワークを使って、ポイントクラウドからオートエンコーダ的に潜在表現になおして、それを再構成する。潜在表現は潜在カプセルと呼ぶ。エンコーダ、デコーダで少し工夫が必要。エンコーダのほうは割と普通のCNNになっている。 Deep Fragment Embeddings for Bidirectional Image Sentence Mapping Andrej Karpathy, Armand Joulin and Fei Fei Li NIPS2014 Stanford 画像と自然言語のデータのマルチモーダルなエンベディングによる画像と文の双方向の検索のモデルを提案する。画像と文を共通のエンベディング空間に直接マップする以前のモデルと違って、このモデルは画像のフラグメント(オブジェクト)、文のフラグメント(依存木の関係)を共通の空間にエンベッドするより細かいレベルのモデルである。画像のほうはCNN、文のほうは構文木の関係をエンベッドしたもの。 (文の要素と画像の要素を対応付ける。対応を取るような行列を作る。) Dataset Distillation Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba, Alexei A. Efros 2018 FAIR, MIT CSAIL, UCB データセット蒸留。MNISTだと10個のデータ(1クラス1データ)で学習できるようにしてしまう。それでほとんどパフォーマンスが変わらない。データセットの側を勾配をとって動かしていく。 Unsupervised Domain Adaptation through Self-Supervision Yu Sun, Eric Tzeng, Trevor Darrell, Alexei A. Efros 2019 回転(0度、90度、180度、270度)、フリップ(上下逆さまかどうか)、位置(パッチがどこから来たか)を補助問題として、共通の素性エンコーダを獲得する。ターゲットとソース領域の両方でこれをして、そのアラインメントを獲得し、ターゲット領域では教師なしデータだけでドメイン適応をする。 Towards End-to-end Spoken Language Understanding Dmitriy Serdyuk, Yongqiang Wang, Christian Fuegen, Anuj Kumar, Baiyang Liu, Yoshua Bengio IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Facebook, U. Montreal スピーチから、ドメインクラス、あるいは意図クラスへの分類を行う。その先のスロット埋めは今回は対象にしていない。双方向のGRU+全結合層。 ChatPainter: Improving Text to Image Generation using Dialogue Shikhar Sharma, Dendi Suhubdy, Vincent Michalski, Samira Ebrahimi Kahou, Yoshua Bengio ICLR2018 MSR, U. Montreal, MILA MS COCOのデータだけでは、キャプションから画像を生成するのに十分ではない。そこで、VisDialというデータセットを併用する。例えば、Q: 女の人は板の上に立っている? A: いえ、そのそばにいます、のようなデータセット。キャプションとダイアローグと両方を入れて、StanckGan(2段階)で生成。 Unsupervised State Representation Learning in Atari Ankesh Anand, Evan Racah, Sherjil Ozair, Yoshua Bengio, Marc-Alexandre Côté, R. Devon Hjelm NeurIPS2019 MSR, MILA 時間的あるいは空間的に顕現な特徴の相互情報量を最大化することによって状態表現を学習する。また、Atari2600ゲームに基づくベンチマークを提案し、どのくらい状態変数を捉えているかという表現の良さを評価する。 Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future Nan Rosemary Ke, Amanpreet Singh, Ahmed Touati, Anirudh Goyal, Yoshua Bengio, Devi Parikh, Dhruv Batra 2019 MILA, FAIR, Polytechnique Montreal, CIFAR 環境のダイナミクスをLSTMで学習するのだが、Z-forcingという技を使って、潜在変数が未来の情報をエンコードしやすくする。これを使ってプランニングしたり、モデルから学習したりする。Mujoco, カーレース、BabyAIピックアップタスクなどで実験。 Visualizing the Consequences of Climate Change Using Cycle-Consistent Adversarial Networks Victor Schmidt, Alexandra Luccioni, S. Karthik Mukkavilli, Narmada M. Balasooriya, Kris Sankaran, Jennifer T. Chayes, Yoshua Bengio 2019 MILA, Sonscient AI labss, MSR New England 気候変動の影響を示すために、サイクルGANを使ってGoogle Street Viewの画像を洪水が起こったものに変換する。洪水画像データセットは、500枚の家とそれに対応する洪水が起こったときの500枚の画像。 ToyArchitecture: Unsupervised Learning of Interpretable Models of the World Jaroslav Vitku, Petr Dluhos, Joseph Davidson, Matej Nikl, Simon Andersson, Premysl Paska, Jan Sinkora, Petr Hlubucek, Martin Stránský, Martin Hyben, Martin Poliak, Jan Feyereisl, Marek Rosa 2019 GoodAI GoodAIっぽい論文。知的エージェントの全体感。環境のモデル化、時空間の階層構造。エキスパートがHMMを構成し、生成器となる。このエキスパートがサブシンボルとなる。というような話。漠然としている。 State-Reification Networks: Improving Generalization by Modeling the Distribution of Hidden Representations Alex Lamb, Jonathan Binas, Anirudh Goyal, Sandeep Subramanian, Ioannis Mitliagkas, Denis Kazakov, Yoshua Bengio, Michael C. Mozer ICML2019 U. Montreal, MILA, U. Colorado, Boulder, Google 訓練データにおける隠れ状態の分布をモデル化し、テスト時に観測された隠れ状態をこの分布上に射影する、状態具象化という方法を提案する。もしネットワークが、隠れ空間のいつもの多様体のいれば、それに続く層も適切に応答するように学習されているはずである。(RNNとかが対象) Metacognition facilitates the exploitation of unconscious brain states Aurelio Cortese, Hakwan Lau, Mitsuo Kawato 2019 ATR, UCLA ニューロンの活動を確率的に表した潜在的な高次の情報から、どのように報酬を最大化する選択をするか。 Learning by Abstraction: The Neural State Machine Drew A. Hudson, Christopher D. Manning 2019 Stanford U. ニューラルと記号をつなぐ。画像から初めて、グラフを作る。意味ネットワークのような感じ。これをニューラル状態マシンと呼ぶ。VQA, GQA等で評価。 マニングさんなので気持ちは分かるが、なんか違う。 Neural Consciousness Flow Xiaoran Xu, Wei Feng, Zhiqing Sun, Zhi-Hong Deng 2019 Hulu LLC, Beijing, Peking U. 意識プライアに刺激を受けて作ったモデル。無意識フロー層、意識フロー層、注意フロー層の3つから成る。グラフニューラルネットワークで実装。実験している。 Generative Models of Visually Grounded Imagination Shanmukha Ramakrishna Vedantam, Ian Fischer, Jonathan Huang, Kevin Murphy ICLR2018 poster Georgia Tech, Google 視覚的にグランドされた想像。ピンクの髪の男をすぐに思い浮かぶ。変分オートエンコーダでこのような想像をする仕組みを提案する。「エキスパートの積」推論ネットワークが特徴。JMVAEも引かれている。 Understanding Deep Neural Networks with Rectified Linear Units Raman Arora, Amitabh Basu, Poorya Mianjy, Anirbit Mukherjee ICLR2018 poster Word translation without parallel data Guillaume Lample,, Marc'Aurelio Ranzato,, Hervé Jégou ICLR2018 poster Meta-Learning and Universality: Deep Representations and Gradient Descent can Approximate any Learning Algorithm Chelsea Finn, Sergey Levine ICLR2018 poster UCB MAMLと勾配降下で万能近似になるので良いということ。 Stochastic Variational Video Prediction Mohammad Babaeizadeh, Chelsea Finn, Dumitru Erhan, Roy H Campbell, Sergey Levine ICLR2018 poster Meta Learning Shared Hierarchies Kevin Frans, Jonathan Ho, Xi Chen, Pieter Abbeel, John Schulman ICLR2018 poster OpenAI, UCB MLSH(階層共有メタ学習)。マスターポリシーがあって、それが、サブポリシーのどれをアクティベートするのかを選ぶ。 Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Descent Zhilin Yang, Saizheng Zhang, Jack Urbanek, Will Feng, Alexander Miller, Arthur Szlam, Douwe Kiela, Jason Weston ICLR2018 poster Unsupervised Neural Machine Translation Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho ICLR2018 poster Leave no Trace: Learning to Reset for Safe and Autonomous Reinforcement Learning Benjamin Eysenbach, Shixiang Gu, Julian Ibarz, Sergey Levine ICLR2018 poster Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy Asit Mishra, Debbie Marr ICLR2018 poster Neural Language Modeling by Jointly Learning Syntax and Lexicon Yikang Shen, Zhouhan Lin, Chin-Wei Huang, Aaron Courville ICLR2018 poster A Simple Neural Attentive Meta-Learner Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, Pieter Abbeel ICLR2018 poster The Kanerva Machine: A Generative Distributed Memory Yan Wu, Greg Wayne, Alex Graves, Timothy Lillicrap ICLR2018 poster QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension Adams Wei Yu, David Dohan, Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, Quoc V Le ICLR2018 poster Twin Networks: Matching the Future for Sequence Generation Dmitriy Serdyuk, Nan Rosemary Ke, Alessandro Sordoni, Adam Trischler, Christopher Pal, Yoshua Bengio ICLR2018 poster On the Information Bottleneck Theory of Deep Learning Andrew Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy Kolchinsky, Brendan D Tracey, David D Cox ICLR2018 poster Deep Learning for Physical Processes: Incorporating Prior Scientific Knowledge Emmanuel d Bezenac, Arthur Pajot, gallinari patrick ICLR2018 poster Syntax-Directed Variational Autoencoder for Structured Data Hanjun Dai, Yingtao Tian, Bo Dai, Steven Skiena, Le Song ICLR2018 poster Emergence of Linguistic Communication from Referential Games with Symbolic and Pixel Input Angeliki Lazaridou, Karl M Hermann, Karl Tuyls, Stephen Clark ICLR2018 DeepMind 2つのエージェントがコミュニケーションし、指しているものを当てるゲーム。disentangleされている高次の情報の場合だけでなく、生のピクセルデータでもうまくいくことを示した。8層のCNNを使う。 Making the V in VQA matter: Elevating the role of image understanding in Visual Question Answering a 2016 Flexible Neural Representation for Physics Prediction Damian Mrowca, Chengxu Zhuang, Elias Wang, Nick Haber, Li Fei-Fei, Joshua B. Tenenbaum, Daniel L. K. Yamins 2018 Tracking the World State with Recurrent Entity Networks Mikael Henaff, Jason Weston, Arthur Szlam, Antoine Bordes, Yann LeCun 2016, ICLR2017 FAIR, Courant Inst. RNNに、キーで呼び出すメモリーの構造をつけたネットワーク。キーがエンティティに該当するようにすれば、そのエンティティの状態をずっと気にするような構造が作れる。babiタスクで最新の精度。Children's Book Testでもよい成績。 The Malmo Platform for Artificial Intelligence Experimentation IJCAI-16 Deconstructing episodic memory with construction Demis Hassabis and Eleanor A. Maguire TRENDS in Cognitive Sciences, 2007 UCL デミス・ハサビスの2007年の論文。シーンの構築が重要であることが書かれている。これは空間的な一貫性を保ち、未来を考え、ナビゲーションし、心の理論などに共通するものである。それは、海馬が関わっている。海馬に異常がある人は、うまく答えることもできるが、空間的な一貫性を欠いている。 The construction system of the brain Demis Hassabis and Eleanor A. Maguire Philosophical Transactions of the Royal Society B, 2009 UCL シーン構築の重要性について。空想的なシーンを思い浮かべたり、未来を思い浮かべたり、過去のパーツから再現したりする。頭頂部と前頭部が関与している。前頭葉(PFC)、後帯状皮質(PCC)、楔前部(precuneus)などが関与しているらしい。 Unsupervised Visuomotor Control through Distributional Planning Networks Tianhe Yu, Gleb Shevchuk, Dorsa Sadigh, Chelsea Finn 2019 Stanford U. 強化学習は、手動のタスクごとの報酬関数の調整を必要とする.この研究では、報酬へのアクセスのない強化学習の問題を考える。教師なしの空間の埋め込みを学習し、ゴールまでの進捗を計測できるようにする。ゴールが到達する最終状態であるとき、アクションの系列が最適になるような、距離空間を明示的に求めていることになる。3つのシミュレーション環境、2つのマニピュレーションの実環境で実験。UPN(Universal Planning Network)を拡張して、DPN(Distributional Planning Network)というモデルを使う。潜在変数を導入し、ダイナミクスをモデル化する。 Universal Planning Networks: Learning Generalizable Representations for Visuomotor Control Aravind Srinivas, Allan Jabri, Pieter Abbeel, Sergey Levine, Chelsea Finn ICML2018 UCB 万能プラニングネットワーク(UPN)。潜在空間での微分可能なプラナー。観測を潜在空間に直し、それに対するアクションの系列で潜在変数を発展させていき、最終的な観測を目的とする観測に近づける。状態遷移のモデルもニューラルネットワーク。シミュレータ上で、迷路や長い腕でものを取る問題。 Diversity is All You Need: Learning Skills without a Reward Function Benjamin Eysenbach, Abhishek Gupta, Julian Ibarz, Sergey Levin 2018 CMU, UCB, Google Brain DIAYN(Diversity if all you need)を提案。教師なしの環境下で、歩くとかジャンプするなどの多様なスキルが表れる。スキルは、潜在変数に条件付けられた方策で、環境の状態を首尾一貫した方法で変えるものである。相互情報量に基づく簡単な目的がうまく働く。 ある状態Sから、アクションAをしたときの情報量を最大化する。(かつ、アクションは自明でないほうがいい。) Visual Reinforcement Learning with Imagined Goals Ashvin Nair, Vitchyr Pong, Murtaza Dalal, Shikhar Bahl, Steven Lin, Sergey Levine 2018 UCB 視覚的な想像を使って学習。ゴールを潜在空間の適当な状態と置いて、行動する。そのデータからbeta-VAEで潜在変数を学習する。 Prefrontal cortex as a meta-reinforcement learning system Jane X. Wang, Zeb Kurth-Nelson, Dharshan Kumaran, Dhruva Tirumala, Hubert Soyer, Joel Z. Leibo, Demis Hassabis, Matthew Botvinick 2018 DeepMind 位相ドーパミン(DA)は、報酬予測誤差の信号を伝えると考えられてきた。ここでは、DAが刺激反応連合を基礎にしたモデルフリー強化学習を、前頭葉がモデルベース強化学習をやっていると提案する。ひとつのタスクではなく、相互に関連した一連のタスクであり、メタ学習の一種である。特に、DAベースの強化学習が、2つ目の前頭葉の強化学習のアルゴリズムを構成する。これをメタ強化学習と言うことにする。 この仮説は正しそう。 Imagination-Augmented Agents for Deep Reinforcement Learning Théophane Weber, Sébastien Racanière, David P. Reichert, Lars Buesing, Arthur Guez, Danilo Jimenez Rezende, Adria Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, Razvan Pascanu, Peter Battaglia, David Silver, Daan Wierstra NIPS2017 DeepMind 想像に基づくエージェント。I2As。倉庫番とかのゲームで検証。モデルフリーとモデルベースをつなぐ。想像コアでロールアウトする。想像コアは、たぶんCNN+LSTMになっていて、次の状態と報酬を予測する。(ちょっとはっきりわからないけど)。ロールアウトの結果を集めて、方策を決める。モデルは極めて妥当。 Discovering physical concepts with neural networks Raban Iten, Tony Metger, Henrik Wilming, Lidia del Rio, and Renato Renner 2018 ETH Zurich 物理的な概念を見つけると言っているが、実際はニューラルネットワークで物理的なものの動きを予測し、学習後のユニットが物理的な概念(例えば速さや周波数)を表していますよということ。まあ自明。 The Role of Social Learning in the Evolution on a Rugged Fitness Landscape 2018 Combined Reinforcement Learning via Abstract Representations Vincent Francois-Lavet, Yoshua Bengio, Doina Precup, Joelle Pineau AAAI2019 McGill U., U. Montreal 面白い。モデルベースとモデルフリーの強化学習の融合。モデルフリーのほうは普通のDGN(DDQN)。モデルベースのほうは、Q値の関数近似に加え、リワード、ディスカウントファクター、状態の遷移に関する項(それぞれエンコーダで抽象的な状態空間にしている)、そして、抽象的な状態表現がゴールに近いところだけ作られて他がまとめられないようにするための項を入れて、最適化する。ある種のプラニングもできるようになる。 状態表現の作り方とかはまだまだ工夫の余地がありそうだが、基本の考え方は良さそう。 Dual Path Networks Yunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi Feng NIPS 2017 NUS ILSVRC2017のLOC優勝、CLS(外部データ)優勝 Meta-Learning Update Rules for Unsupervised Representation Learning Luke Metz, Niru Maheswaranathan, Brian Cheung, Jascha Sohl-Dickstein ICLR2019 Google Brain, UCB 教師なし学習を、ダウンストリームの教師あり学習と組み合わせて、外のループを作ろうというもの。その他のヘルドアウトタスクに対しても良くなることを示す。 From Language to Goals: Inverse Reinforcement Learning for Vision-Based Instruction Following Justin Fu, Anoop Korattikara, Sergey Levine, Sergio Guadarrama ICLR2019 Google AI 言語でゴールを指示する。それが報酬になる設定。パノラマセマンティック画像と言語のコマンドを入力にし、報酬を出力するようなネットワークを学習する(逆強化学習)。インドアの家の環境で、SUNCGというデータセットを使う。 ナビゲーション、ピックアンドプレイスの2つのタスク。 面白いんだけど、タスクとしてやっていることはかなり恣意的な感じがある。 Learning Improved Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future Nan Rosemary Ke, Amanpreet Singh, Ahmed Touati, Anirudh Goyal, Yoshua Bengio, D. Parikh, Dhruv Batra ICLR2019 MILA, FAIR 変分推論を使って潜在変数の自己相関モデルを作る。これを使って補助的な損失項をつけることで、長期的な予測がよくなる。 Knowledge Flow: Improve Upon Your Teachers Iou-Jen Liu, Jian Peng, Alexander G. Schwing ICLR2019 U. Illinois, Urbana-Champaign 蒸留のように教師-生徒ネットワークがあるのだが、教師が複数の設定。で、教師の隠れ層を、生徒の隠れ層に足し合わせて学習する。学習された特徴を最初は使える。で、徐々に教師の重みを減らしていく。 Unsupervised Learning via Meta-Learning Kyle Hsu, Sergey Levine, Chelsea Finn ICLR2019 U. Toronto, UCB 教師なし学習は、再構成やディスエンタングルメント、予測などいろいろな指標を取るが、ダウンストリームのタスクに役立つことが重要なので、メタ学習に寄与すればよい。 入力データを教師なし学習(簡単なクラスタリングでもOK)して埋め込みを学習し、データセットをいろいろに分類するタスクを実行する。これによってダウンストリームの分類の精度を良くすることができる。「教師なしメタ学習のための自動的にタスクを生成するクラスタリング」(CACTUs)と呼ぶ。 かなり巧妙な自己教師あり学習の手法に思える。 Imagination Machines: A New Challenge for Artificial Intelligence Sridhar Mahadevan AAAI2018 College of Information and Computer Sciences 想像の重要性。カーネマンの不合理性は宝くじに当たるところを想像してしまうから。想像科学は、データの分布を再現するのではなく、ありえない分布を作り出す。事実でないことも推論する能力がある。問題の生成、強化学習(逆強化学習)、言語の比喩などでも重要。 ざっくりした論文。いろいろ書いているが、あまり骨子は整っていない。 Analogues of mental simulation and imagination in deep learning Jessica B. Hamrick 2019 Behavioral Science サーベイのようなもの。メンタルシミュレーションの重要性とモデルベースのDLの関連。POMDPから始まって、状態や遷移が与えられない場合にデータから学習する場合。背景プランニング(学習時に用いる)や、ディシジョン時プラニング(使うときに用いる)など。モデルベースのDLの今後の課題をまとめて終わり。(複数の抽象化の段階が必要など。) Neural reparameterization improves structural optimization Stephan Hoyer, Jascha Sohl-Dickstein, Sam Greydanus Google Research 2019 構造最適化は、橋梁や飛行機の羽、光学デバイスなどの設計でよく使われるが、解の質は、どのように問題がパラメータ化されるかによる。構造最適化のパラメータ化を良くするために、ニューラルネットワークで帰納的に導かれる関数の暗黙的なバイアスを使う方法を提案する。 RNNs Evolving on an Equilibrium Manifold: A Panacea for Vanishing and Exploding Gradients? Anil Kag, Ziming Zhang, Vankatesh Saligrama 2019 Boston U., MERL ODEにヒントを得て、平衡RNN(ERNN)を提案。不動点にたどり着くように式を変形。 Facebook FAIR's WMT19 News Translation Task Submission Nathan Ng, Kyra Yee, Alexei Baevski, Myle Ott, Michael Auli, Sergey Edunov 2019 FAIR WMT19のFAIRのシステムの紹介。バイトペアエンコーディングのトランスフォーマベース。FAIRSEQ系列モデリングツールキットで学習。英語-ドイツ語と、英語-ロシア語。WMT18のときyり4.5BLEUよくなった。 ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots Michael Ahn, Henry Zhu, Kristian Hartikainen, Hugo Ponte, Abhishek Gupta, Sergey Levine, Vikash Kumar 2019 UCB, Google Brain 強化学習に向いた実世界のロボット。D'Clawは、3本指のハンドロボット。9自由度。D'Kittyは、4本足の移動ロボット。12自由度。これまでのロボットは、正確で高くて人間が監視する環境で動く。ところが、学習向きのロボットは、長い期間試行錯誤できるように耐性が高く、安くてメンテナンスが簡単で、大量のデータを人間の監視なしに取ることができないといけない。そのように設計している。 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ICLR 2020, arxiv 2019 Google Research, TTI 2つの手法で大幅にBERTのパラメータをへらす。1つ目は、ファクター化埋め込みパラメータ化(factorized embedding parametarization)。埋め込み行列を、2つの小さな行列に分解する。2つ目は、層をまたがるパラメータ共有。 Deep Dynamics Models for Learning Dexterous Manipulation 2019 Benchmarking TPU, GPU, and CPU Platforms for Deep Learning 2019 Implicit Reparameterization Gradients 2018 Stochastic Backpropagation through Mixture Density Distributions 2016 Deep Neural Networks as Scientific Models Radoslaw M. Cichy, Daniel Kaiser CellPress Reviews, 2019 Freie U. Berlin, Humboldt-U. Berlin 認知科学は、DNNをモデルとして使い始めているが、議論を呼んでいる。ここでは、科学哲学の視点からこのケースを考える。どのようにDNNが認知科学に貢献するか。DNNは、予測や説明だけでなく、「探索」に用いることができる。説明について書いたところは参考になる。 Renovating the Pyramid of Needs: Contemporary Extensions Built Upon Ancient Foundations 2010 Knowledge Matters: Importance of Prior Information for Optimization Caglar Gulcehre and Yoshua Bengio U. Montreal NIPS 2012, ICLR 2013 面白い。文化とか集団での学習の話。 文化学習(Henrich and McElreath, 2003)というのや、社会神経科学というのがある。ドーキンスによるミーム(1976)も有名。どのように人間は複雑な概念を、他人の助けを借りて学ぶのか。ペントミノ(テトリスのブロック)が3個とも同じかどうかを学習させる。IKGNN(Intermediate Knowledge Guided Neural Network)というのを提案して良いことを示している。 RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov Univ. of Washington, FAIR 2019 BERTの再現をして、各ハイパーパラメータと訓練データサイズの影響を慎重に調べた。BERTは、かなり訓練不足であって、その後に出されたモデルのどれとも同じくらいか上回る。我々のベストのモデル(RoBERTa)は、GLUE, RACE, SQuADで最新の結果を出した。以前は見落とされていたデザインの選択の重要性を示し、また、最近の改良に疑問を提示する。 i) 動的マスキング、ii) 次の文予測ロスなしの全文を使う、iii) 大きなミニバッチ、iv) 大きなバイトレベルBPE(バイトペア符号化)(語彙の定め方)、という4つが特徴。 Findings of the 2019 Conference on Machine Translation (WMT19) Loic Barrault et al. WMT 2019 Le Mans Universiteなど各大学 WMT2019の報告。18言語ペアについての比較。日本からは、京大やNICTなど参加。英語ドイツ語などでは人間を超えている。 ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee 2019 Georgia Tech, FAIR, Oregon State Univ. ViLBERT(Vision-and-Language BERT)を提案する。画像と自然言語の同時表現を学習する。BERTのアーキテクチャをマルチモーダルな2つのストリームに拡張し、共アテンションのトランスフォーマの層で相互作用する。2つの大きなデータセットで事前学習し、複数のタスクに転移する。VQA, 視覚的常識推論、参照表現、キャプションに基づく画像検索などである。精度が大きく向上し、いずれも最高精度を達成した。 LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Tan, Mohit Bansal 2019 UNC Chapel Hill ビジョンと言語的推論は、視覚的な概念、文法的構造、そして、それらのアライメントを必要とする。 本研究では、LXMERTフレームワークを提案する。大規模なトランスフォーマで、3つのエンコーダから成る。物体-関係エンコーダ、言語エンコーダ、そしてクロスモダリティのエンコーダである。事前学習として、大規模な画像と文のペアを使って、5つのタスクを行う:マスクされた言語モデル、マスクされた物体予測(特徴の回帰とラベルの分類)、クロスモダリティのマッチング、画像質問応答。その後、ファインチューンすることで、VQA, GQAの2つのタスクで最新の性能を出した。 VisualBERT: A Simple and Performant Baseline for Vision and Language Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh & Kai-Wei Chang UCLA 2019 視覚と言語の幅広いタスクをモデル化するフレームワークであるVisualBERTを提案する。入力されるテキストと、対応する画像中の領域を、自己注意で結びつけるトランスフォーマの層から構成される。事前学習のために、2つの視覚にグラウンドされた言語タスクを解く。実験では、VQA, VCR, NLVR, Fliskr30Kで行い、最新の手法と同等か上回る。 言語と画像の領域をまとめてトランスフォーマに突っ込む構造。 The generative adversarial brain Samuel J. Gershman 2019 Harvard U. 脳が世界の生成モデルを学習しているという考えはよく広まっている。脳は、世界の可能な状態について、明示的な密度モデルを学習していると過程することが多いが、それは近似推論を必要とし、通常、うまくいかない。そうでないとすると、識別器を騙すように暗黙的な密度モデルを学習することになる。これはよくGANとして知られている。 本研究では、脳における確率的な計算をGANのフレームワークで説明する。心理学的、神経学的な証拠を挙げ、生成器と識別器の不調が、どのように精神疾患で表れる妄想をもたらすかを述べる。 前頭葉が識別器であるとの説明。関連研究は多いが、ざっくりとしたアイディアのみ。あまり明確な証拠は述べられていない。 Rethinking the Value of Network Pruning Zhuang Liu, Mingjie Sun, Tinghui Zhou, Gao Huang, Trevor Darrell ICLR2019 UCB, 清華大学 宝くじ仮説に反する内容の論文。枝刈りは、通常、学習、枝刈り、ファインチューンという3つの段階から成る。この論文では、通常信じられていることと異なり、最新のどのような枝刈りアルゴリズムでも、ファインチューニングはランダムな初期値から訓練するのに比べ、ほとんど効果がない(むしろ悪い)ことを示す。そして、1) 大きなオーバーパラメタライズなモデルを訓練することは必要なく、2) 学習された「重要な」重みは枝刈りされたネットワークには不要で、3) 枝刈りされたアーキテクチャそのものが重要、ということを示唆している。 宝くじ仮説についても調べ、適切な学習率であれば、「当たりくじ」の初期化が、ランダムな初期化に比べて効果がないことを示す。 Stabilizing the Lottery Ticket Hypothesis Jonathan Frankle, Karolina Dziugaite, Daniel M. Roy, Michael Carbin 2019 MIT CSAIL, U. Cambridge, U. Toronto 宝くじ仮説では、反復的な大きさによる枝刈り(IMP)によって、ビジョンタスクのサブネットワークを遡及的に見つけることができる。しかし、IMPは、より深いネットワークではうまくいかない。 この論文では、反復0の時点で枝刈りするのではなく、非常に早い時点(0.1%から7%くらい)で枝刈りすると、より深いネットワークでもIMPがうまくいくことを示す。 Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, Pieter Abbeel 2017 Open AI, UCB シミュレーションから現実へのギャップを埋めることはロボットの研究で重要である。本研究では、ドメインランダム化という技術を提案する。シミュレータで画像のレンダリングをランダムにいろいろ変える。カメラ位置、物体の位置、光の条件、テクスチャなど。そうすると、現実世界も、そのようなうちのひとつということになる。物体の局在化タスクで、邪魔なものや部分的なオクルージョンにもうまく対応するものになった。 GANs trained by a two time-scale update rule converge to a local nash equilibrium Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Sepp Hochreiter 2017 Johannes Kepler University Linz GANの収束は証明されていない。本研究では、2つの時間スケールをもつアップデートルール(TTUR)を提案する。TTURは、識別器と生成器それぞれに学習率を持つ。TTURは、適度な仮定のもとでナッシュ均衡に収束することを証明する。 VideoFlow: A flow-based generative model for video Manoj Kumar, Mohammad Babaeziadeh, Dumitru Erhan, Chelsea Finn, Sergey Levine, Laurent Dinh, Durk Kingma ICLR 2020, arxiv 2019 Google Brain, U. Illinois at Urbana-Champaign 生成モデルは、複雑な現実の現象を捉え、将来のイベントの系列を予測することができる。特に、動画の予測モデルを作ることは物理世界の理解(モデルベースのロボット制御)にとても重要である。しかし、問題は、未来は不確実であり、過去の観測の系列がたくさんの可能な未来を意味することである。最近のモデルでこの問題に対応するものもあるが、極端に計算量が多いか、直接的にデータの尤度を最適化しない。 この研究では、ノーマライジングフローを用いて、動画の予測をモデル化する。高い品質の確率的予測をすることができ、データの尤度を直接最適化できる。 FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age Kimmon Karkkainen, Jungseock Joo 2019 UCL 従来の顔データセットは、コーカソイド(Caucasian)に偏っていた。このデータセットは、人種のバランスに配慮している。10万枚の画像で、白人、黒人、インド人、東アジア人、南アジア人、中東、ラテンの7つの人種グループを定義している。 Adversarially learned inference Vincent Dumoulin, Ishmael Belghazi, Ben Poole, Olivier Mastropietro, Alex Lamb, Martin Arjovsky, Aaron Courville ICLR2017 MILA, Stanford, NYU 敵対的学習推論(ALI)モデルを提案する。生成と推論のネットワークを敵対的なプロセスで訓練する。生成ネットワークは、確率的な潜在変数からデータ空間にサンプルをマッピングし、推論ネットワークはデータ空間の訓練サンプルを潜在変数の空間にマッピングする。識別ネットワークは、生成ネットワークからの潜在・データ空間のサンプルと、推論ネットワークからのサンプルを区別するように学習する。 Adversarial feature learning Jeff Donahue, Philipp Krahenbuhl, Trevor Darrell 2017 UCB, UT Austin GANの生成器の潜在空間は、データ分布の意味的なバリエーションを捉えている。したがって、意味の関連する補助的な問題に、その特徴表現が役に立つはずである。しかし、GANには、データを特徴空間に戻す手段がない。 本研究では、双方向GAN(BiGAN)を提案する。この逆の写像を学習し、補助的な問題に役に立つ特徴表現を学習していることを示す。 Generating Diverse High-Fidelity Images with VQ-VAE-2 Ali Razavi, Aaron van den Oord, Oriol Vinyals 2019 DeepMind ベクトル量子化変分オートエンコーダ(VQ-VAE)を大きな画像生成のために用いる方法を提案する。VQ-VAEの自己回帰プライアをスケールさせ改善する。階層的VQ-VAEとPixelCNNを使う。 A robotic platform for flow synthesis of organic compounds informed by AI planning Connor W. Coley et al Science 2019 MIT AIで計画し、ロボットで化学物質の合成を行う。 Behaviour Suite for Reinforcement Learning Ian Osband, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinney, Tor Lattimore, Csaba Szepezvari, Satinder Singh, Benjamin Van Roy, Richard Sutton, David Silver, Hado Van Hasselt ICLR 2020, arxiv 2019 DeepMind 強化学習の共通の評価セットであるbsuite。探索、信用割当、ノイズ、メモリなどについて評価が出る。環境を指定すればいいらしい。OpenAI Gymを設定することもできる。 画像に関連した言語生成の取組み 牛久祥孝 人工知能学会誌 2019 オムロンサイニックエックス 画像キャプション生成(データセットと評価指標の問題)、画像質問生成、画像と言語によるインタラクション(画像に基づく対話、言語指示によるタスク実行)をカバー。 What is cognition? Tim Bayne et al. Cell Press 2019 Monash U. ほか いろんな人が「cognition」のその定義を書いている。 Large Scale Adversarial Representation Learning Jeff Donahue, Karen Simonyan 2019 DeepMind BigBiGANを提案。BigGANに、エンコーダーをつけ、ディスクリミネータを修正。BiGANとかALIのようなエンコーダをつける。表現学習をしているところが利点。 DTMT: A Novel Deep Transition Architecture for Neural Machine Translation Fandong Meng and Jinchao Zhang 2019 WeChat AI, Tencent 深層推移RNNベースのNMT、DTMTを提案。トランスフォーマをベースとするものよりBLEUスコアが2.09ポイント高い。推移するときに単純な行列ではなくて層を重ねて推移することによってモデルの表現力を増している。 Efficient Video Generation on Complex Datasets Aidan Clark, Jeff Donahue, Karen Simonyan 2019 DeepMind Kinetics-600データセット上で、GANを走らせて、動画のサンプルを生成。Dual Video Discriminator GAN (DVD-GAN)。FIDとインセプションスコアで最新の性能。BigGANのアーキテクチャをベースにしながら、動画に特有の改良を入れた。分離可能で効率的なアテンション(ジェネレータに使う)や、ディスクリミネータの空間時間分解など。空間方向を担当するディスクリミネータと、時間方向を担当するディスクリミネータの2種類を使う。 Stacked Capsule Autoencoders Adam R. Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E. Hinton 2019 U. Oxford, Google Brain, DeepMind オブジェクトは関係する部分から構成され、こうしたオブジェクトの認識は、視点の変化にロバストでなければならない。本論文では、教師なしのカプセルネットワークを提案する。ニューラルエンコーダは、すべての部分を見るものであり、オブジェクトカプセルの存在や姿勢を推論する。デコーダは、すでに見つかった個別の部分の姿勢を推定する。SVHNでは最新の、MNISTでは最新に近い、教師なしでの分類結果を出した。 Dynamical Distance Learning for Unsupervised and Semi-Supervised Skill Discovery Kristian Hartikainen, Xinyang Geng, Tuomas Haarnoja, Sergey Levin 2019 UCB, Google 報酬の設定が大変で、現実的にはかなりスムーズな勾配になるように調整しないといけない。本研究では、動的な距離を自動的に学習する。ゴールまで何ステップかかるか。9自由度のハンドを生の画像だけで動かせるようになった。(TDとかでやるよりこちらのほうがよっぽど自然なのでは。) DeepLesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning Ke Yan, Xiaosong Wang, Le Lu, and Ronald M. Summers 2019 National Institute of Health, Clinical Center, US すごいデータセット。病院のPACS(picture archiving and communication systems)は、通常、放射線技師によって日々のワークルフローのなかでアノテーションされる。このデータセットは、4000人のユニークな患者の、32000のCTスライスの32000の病変。肺や骨、肝臓やリンパなど、さまざまな部位が含まれる。 Text-based Editing of Talking-head Video OHAD FRIED, AYUSH TEWARI, MICHAEL ZOLLHÖFER, ADAM FINKELSTEIN, ELI SHECHTMAN, DAN B GOLDMAN, KYLE GENOVA, ZEYU JIN, CHRISTIAN THEOBALT, MANEESH AGRAWALA 2019 Stanford U., Max Planck Institute for Informatics, Princeton U. Adobe すごい。インタビュー動画のセリフを文字列として変えると、それに対応する動画になる。GANで生成。時間・空間的なアドバーサリアルロスを使う。どの文字がどの音声に対応するかをアライメントし、該当部分を削除し、再構成する。 Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model Alex X. Lee, Anusha Nagabandi, Pieter Abbeel, Sergey Levin 2019 UCB 深層強化学習は、2つの問題を解かなければならない。表現学習の問題と、タスク学習の問題。この論文では、表現学習の問題を扱う。確率的潜在アクタークリティック(SLAC)アルゴリズムというものを提案する。画像の高次元な入力から複雑な連続値の制御の方策を学習する方法であり、SLACは、確率的時系列潜在変数モデル(VAEみたいな感じ)によって、コンパクトな潜在表現空間を学習する。この空間の上で、クリティックのモデルを学習する。クリティックの学習がずっと効率的になる。 ようやくこういうのが出て良い。 Pay Less Attention with Lightweight and Dynamic Convolutions Felix Wu, Angela Fan, Alexei Baevski, Yann N. Dauphin, Michael Auli ICLR 2019 Cornell U., Facebook AI Research トランスフォーマなどの自己注意と同じようなパフォーマンスを出せるものをCNNで提案する。しかも自己注意は2次のオーダだが、こちらは線形にスケールする。軽いコンボリューション(lightweight convolution)と、ダイナミックコンボリューション。英語-ドイツ語翻訳のWMT'14で、29.7のBLEUスコア。 ORRB -- OpenAI Remote Rendering Backend Maciek Chociej, Peter Welinder, Lilian Weng 2019 OpenAI ロボット環境で、カスタマイズされたレンダリングを可能にするシステムORRBを提案する。Unity3dゲームエンジンで作られていて、MuJoCo物理シミュレーションライブラリとのインタフェースをもつ。ORRBは、視覚的なドメインのランダム化を念頭に作られている。(OpenAIのハンドのやつ) A Mean Field Theory of Batch Normalization Greg Yang, Jeffrey Pennington, Vinay Rao, Jascha Sohl-Dickstein, Samuel S. Schoenholz 2019 Microsoft Research AI, Google Brain 全結合のフィードフォワードNNにおいて、バッチ正規化のための平均場理論を提案する。それによると、勾配は深さとともに指数的に大きくなる。実際、バッチ正規化そのものが、勾配爆発の原因である。結果的に、バニラなバッチ正規化は、一般的な初期化の方法だと、深さが深くなると訓練できない。ネットワークを線形に近づけることで、訓練の可能性を良くすることができる。 TFX: A TensorFlow-Based Production-Scale Machine Learning Platform Denis Baylor, Eric Breck, ..., Martin Zinkevich KDD 2017 Google 機械学習のモジュールを生成してデプロイするプラットフォーム。訓練データを使ってモデルを作り、分析し、検証し、プロダクションに入れる。TFTはm,グーグルで開発された、テンサーフローに基づく汎用の機械学習プラットフォームである。 Warm-startingのための転移学習とかもある。 Arbitrary style transfer in real-time with adaptive instance normalization Xun Huang and Serge Belongie 2017 Cornell U. スタイルトランスファーは、反復を繰り返すので遅い。早くする方法も提案されているが、固定されたスタイルにしかできず、任意のスタイルに適用できない。この論文では、簡単でかつ任意のスタイルに実時間で変換できる手法を提案する。最も重要なのは、AdaIN(適応的インスタンス正規化)レイヤで、スタイルの特徴とコンテンツの特徴の、平均・分散をあわせるものである。 Sphereface: Deep hypersphere embedding for face recognition Weiyang Liu, Yandon Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song CVPR 2017 Georgia Tech, CMU, Sun Yat-Sen Univ 理想的な顔の特徴は、クラス内の距離が短く、クラス間の距離が遠いものである。本研究では、角度ソフトマックス(angular softmax, A-softmax)損失を提案し、角度を分離できるような特徴をCNNが学習できるようにする。A-softmaxは、超球の多様体を分離するような制約とみなすことができる。 Large-margin softmax loss for convolutional neural networks Weiyang Liu, Yandong Wen, Zhiding Yu 2017 北京大学、華南理工大学、CMU, 深セン大学 Softmaxとクロスエントロピーの組み合わせがよく使われるが、特徴量を識別的にするのを促進するわけではない。本論文では、一般化されたラージマージンソフトマックス(L-Softmax)損失を提案する。クラス内をコンパクトに、クラス間を分離可能に特徴量を学習する。 Deconstructing lottery tickets: Zeros, signs, and the supermask Hattie Zhou, Janice Lan, Rosanne Liu, Jason Yosinski 2019 Uber AI Labs 宝くじ仮説による、小さなネットワーク(初期値つき)は、しばしばもとのネットワークよりよい性能を示すが、その理由ははっきりわかっていない。本論文では、3つの要素について調べる。ゼロ、符号、スーパーマスク。これによって、なぜ重みをゼロに設定するのが重要か、なぜ再初期化のときに符号だけでいいか、なぜマスクが訓練のように働くのかを洞察を得ることができる。 スーパーマスクを課すことで、ランダムよりずっとよい精度のモデルを作ることができることを示す。 End-to-End Robotic Reinforcement Learning without Reward Engineering Avi Singh, Larry Yang, Kristian Hartikainen, Chelsea Finn, Sergey Levine 2019 UCB 強化学習で、報酬関数を設定するのは大変。ロボットと同じような知覚のパイプラインを作るか、別のセンサーで判定しなくてはいけない。本研究では、そこそこの数の成功例を与えると、報酬の仕様を学習できる方法を提案する。ユーザにある状態を見せて、それが成功かどうかを判定してもらう。アクティブなクエリーを出す。VICE-RAQと呼ぶ手法を提案。(RAQ: Reinforcement Learning with Active Queries。VICE: Variational Inverce Control with Events、イベントによる変分逆制御。強化学習をグラフィカルモデルの推論として定式化する) Luck Matters: Understanding Training Dynamics of Deep ReLU Networks Yuandong Tian, Tina Jiang, Qucheng Gong, Ari Morcos 2019 FAIR 教師生徒ネットワークで、生徒のほうがオーバーパラメタライゼーションになっている設定。これで、フラットミニマとか、暗黙的な正則化とか、当たりくじとかが統一的に説明できる。 Learning Sparse Networks Using Targeted Dropout Aidan N. Gomez, Ivan Zhang, Kevin Swerskyk Yarin Gal, Geoffrey E. Hinton 2019 Google ランダムにドロップアウトするのではなく、重みが小さいものをドロップアウトする。それによって、プルーニングに対して強いものができる。 SGD on Neural Networks Learns Functions of Increasing Complexity P. Nakkiran, G. Kaplun, D. Kalimeris, T. Yang, B. Edelman, F. Zhang, B. Barak 2019 Harvard U. SGDの効果として、最初は線形な関数と同じものを学習する。そのうち、より複雑な関数を学習している。初期の線形な関数で正しく分類されるサンプルはそのまま維持されている。 AI Feynman: a Physics-Inspired Method for Symbolic Regression Silviu-Marian Udrescu, Max Tegmark 2019 MIT 物理学の法則が、少数の変数で記述されたり、低次の多項式であることが多かったり、構成性があったりなどの特徴をもつことを利用して、探索する。うまくいかない場合はニューラルネットワークも使う。全体を作り込んだアルゴリズムで構成しており、100の式を全て見つけることができた。 A free energy principle for a particular physics Karl Friston 2019 UCL マルコフブランケットによってものが外部と区別される。自己組織化するシステムは外部を知覚し、表現をもつ。 The free-energy principle: a unified brain theory? Karl Friston 2010 Nat. Rev. Neurosci. 11, 127-138 自由エネルギー原理と、予測符号化。 The Helmholtz Machine Peter Dayan, Geoffrey E Hinton, Radford M Neal, Richard S Zemel 1994 A review of predictive coding algorithms M. W. Spratling 2016 Cerebralhierarchies: predictive processing,precisionandthepulvinar 2015 Reflections on agranular architecture: predictive coding in the motor cortex 2013 Predictive Reward Signal of Dopamine Neurons Wolfram Schultz 1998 The debate over dopamine’s role in reward: the case for incentive salience Kent C. Berridge 2007 The computational neurobiology of learning and reward Daw, N. D. & Doya, K. 2006 Neural Elements for Predictive Coding Stewart Shipp 2016 Toward a unified theory of efficient, predictive, and sparse coding 2018 PNAS Canonical Microcircuits for Predictive Coding 2012 Neuron Theory of Mind: A Neural Prediction Problem 2013 Neuron Whole-brain models to explore altered states of consciousness from the bottom up 2020 Neural Darwinism: Selection and reentrant signaling in higher brain function Gerald M. Edelman 1993 Neuroscience Inst. ニューラルダーウィニズム。神経グループ選択理論の3つの要素。発達的選択、経験的選択、リエントラントマッピング(お互いに強化するような構造ができる)。 Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations Vincent Sitzmann Michael Zollhöfer Gordon Wetzstein 2019 Stanford シーン表現ネットワーク(SRN)を提案。エンコーダのところはGQNと同じだが、デコーダのところが、微分可能なレイマーチングとFCN、LSTMを使って描画する。GQNよりきれいに描ける。 Deep Reinforcement Learning for Industrial Insertion Tasks with Visual Inputs and Natural Rewards Gerrit Schoettler, Ashvin Nair, Jianlan Luo, Shikhar Bahl, Juan Aparicio Ojea, Eugen Solowjow, Sergey Levine 2019 Siemens, UCB USBやD-Subなどのケーブルを差し込むタスク。DDPGに似たTD3(ツインディレイド 深層決定方策勾配)、ソフトアクタークリティックを使う。それに加えて、残余RL(residual RL)を使う。また、例示学習(learning from demonstration)を使う。 ArcFace: Additive Angular Margin Loss for Deep Face Recognition Jiankang Deng, Jio Guo, Niannan Cue 2019 Imperial College London, InsightFace 顔認識で、いくつかの方法があるが、その人の中心とサンプルの距離を減らす。Additive Angular Margin Loss(付加的角度幅ロス)という方法を提案する。それぞれのクラスのベクトルと、サンプルのCNNの最終層のベクトルで、arccosをとって、その角度に対してペナルティをかけて、素性の李スケールをする。 AutoAugment: Learning Augmentation Policies from Data Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, Quoc V. Le 2019 Google Brain データ拡張の自動化のために、コントラスト、移動、回転、反転、太陽光、ポスター化、ブライトネス、シャープネスなど16種類のオペレーションを行う。コントローラーをRNNで構成。方策勾配法で更新。同じデータセットでこれまでにない精度を達成。 Text2Scene: Generating Compositional Scenes from Textual Descriptions Fuwen Tan, Song Feng, Vicente Ordonez 2019 バージニア大、IBM GANを使うのではなく、事前に生成したパッチを組み合わせてテキストから画像を生成する。漫画的なシーン、MSCOCOで実験。 VideoBERT: A Joint Model for Video and Language Representation Learning Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid 2019 Google Research 料理動画に適用して、BERTを適用し、長期の依存関係を捉える。キャプションから動画、動画からキャプション、動画から未来の動画などを生成できるようなモデル。なんだか結果の画像がきれいすぎるが、過学習している?ビジュアルワードを使ってクラスタリングしているようだ。 A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras, Samuli Laine, Timo Aila 2018 NVIDIA 潜在変数から直列の層で画像を生成するのではなく、いったん直列の層(f)で生成した画像のスタイル成分を、別の生成用のネットワーク(g)に入れて生成する。 最後に、disentanglementを測定する新たな方法を2つ提案する。 知覚パス長(perceptual path length)。ある潜在変数を変えたときに、それが知覚的にどのくらい変わるかを積分して求める。大きく変わってない(線形に変わる)ほうが良い。 もうひとつは、線形な分離可能性。ある属性でサンプルを2つに分けたいとき(たとえば男性と女性)、線形な分離器(線形SVMとか)で分けられるほうが良い。 DeepVoxels: Learning Persistent 3D Feature Embeddings Vincent Sitzmann, Justus Thies, Felix Heide, Matthias Nießner, Gordon Wetzstein, Michael Zollh¨ofer 2018 Stanford, Technical U. of Munich, Princeton U. 3次元の内部表現を得たいという問題意識。GQNとかと同じ。サーベイがちゃんとしている。 2Dの特徴量から3次元の特徴量にし、DeepVoxelというので描画して、穴を埋めて、3次元にする。それを2Dに戻す。それを敵対的訓練する。 DeepVoxelは、GRUを使って、また64^3とかに空間を分けて、3DコンボリューションとU-Netで描画。 A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms Yoshua Bengio, Tristan Deleu, Nasim Rahaman, Nan Rosemary Ke, Sebastien Lachapelle, Olexa Bilaniuk, Anirudh Goyal and Christopher Pal 2019 MILA A->BとB->Aの因果関係は表面上は区別がつかないが、Aの周辺確率が変わったとき、Bの周辺確率が変わったときで異なる。例えば、雨が降るから傘を広げるというのは、気候変動で雨の確率が変わると、傘の確率も変わるが、傘の確率が変わっても雨の確率は変わらない。こういうのは、介入(intervention)によって見つけることができるはずである。知識が適切に書かれていれば、データの分布の変動も少なくなるはずという仮説に立つ。 XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le 2019 CMUとGoogle Brain。(BERTはGoogle AI Language。) BERTが、マスクされたポジション間の依存性を無視しているので、プレトレインとファインチューンの乖離があるのに対して、XLNetは、一般化された自己相関事前学習として、すべての入れ替えに対しての尤度を最大化し、BERTの限界を克服する。Transformer-XLを使う。最高精度を達成。 Learning Correspondence from the Cycle-Consistency of Time Xiaolong Wang, Allan Jabri, Alexei A. Efros CVPR2019 CMU, UCB 動画を使って前方、後方へのサイクルコンシスタンシー。面白い。セグメンテーション等さまざまなタスクにも使える。 Discovering Visual Patterns in Art Collections with Spatially-consistent Feature Learning Xi Shen, Alexei A. Efros, and Mathieu Aubry CVPR2019 Ecole des Ponts ParisTech, UCB ほとんど複製されたようなパターンを大量の絵画の作品から見つける。特徴量の類似度を使う。異なるメディア(水彩画とか油絵とか)に対応するために自己教師あり学習を使う。 Data-Efficient Image Recognition with Contrastive Predictive Coding Olivier J. Henaff, Ali Razavi, Carl Doersch, S. M. Ali Eslami, Aaron van den Oord 2019 DeepMind 大きな深層モデルは、画像ラベルが豊富にあるときはいいが、生物的なビジョンは、ラベルなしのデータを活用しており、半教師ありである。この研究では、この問題に対して、コントラスティブ(対比的な/対照的な)予測コーディング(CPC)を使う。結果として、簡単な線形の分類器を得られた表現につかえば、AlexNetを超える精度を出す。 パッチにわけて、将来の(擬似的に)パッチを予測するようなタスクをさせる。それをコントラスティブ損失とおいて学習する。良さそう。 Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic Mikael Henaff, Alfredo Canziani, Yann LeCun 2019 NYU, FAIR 観測データだけから学習する。観測データだけを使って方策を学習するのは、実行のときに状態の分布が観測したものと変わるので、難しい。この研究では、学習された環境のダイナミクスを巻き戻して方策を学習する。その際に2つのコストをペナルティとしてかける。1つは、もともとのオリジナルのコストで、方策が最適化すべきものである。もうひとつは、訓練された状態からどのくらい逸脱しているかの不確実性のコストである。この2つ目の項を測るために、自らの予測に関してのダイナミクスの不確実性を使う。 LeCun先生が車の渋滞のなかで動く様子を見せていたもの。 Prediction Under Uncertainty with Error-Encoding Networks Mikael Henaff, Junbo Zhao, Yann LeCun 2019 FAIR, NYU 不確実性がある場合の、時間的な予測を扱う。将来の状態に、予測可能な要素と予測不可能な要素があるときに、それらの要素をディスエンタングルするというシンプルなアイディアである。予測不可能な要素を、低次元の潜在変数に符号化し、将来のモデルに組み込む。動画の予測で評価。 シンプルなモデルで良さそう。 Model-Based Planning with Discrete and Continuous Actions Mikael Henaff, Will Whitney, Yann LeCun 2019 NYU, FAIR 学習され微分可能なフォワードモデルを用いたアクションプランニングは、多くの望ましい性質をもつ一般的なアプローチである。が、アクションスペースが離散のときはうまくいかない。(勾配の問題。)この研究では、離散的なアクションの空間でも、逆伝搬によってプランニングがうまくいくことを示す。 wav2vec: Unsupervised Pre-training for Speech Recognition Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli 2019 FAIR 生の音声データから表現を学習することで、教師なしの事前学習を行う手法wav2vecを提案する。複数レイヤーのCNNで、ノイズ(が乗ったもの?)とのバイナリ分類のタスクを解く。 Scaling and Benchmarking Self-Supervised Visual Representation Learning Priya Goyal, Dhruv Mahajan, Abhinav Gupta, Ishan Misra 2019 FAIR 画像をジグゾーパズルにして解く、白黒にして色をつけるというタスクを作って、自己学習する。で、転移学習する。それによって精度があがる。これがデータ量や画像サイズなどによってどう変化するかを調べている。 Cloze-driven Pretraining of Self-attention Networks Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, Michael Auli 2019 FAIR cloze(穴埋め読解式の)。双方向のトランスフォーマを事前学習する新しい方法を提案する。穴埋め式の語の復元タスクを解き、それぞれの語を周りのテキストから復元しなければならない。 BERTとほぼ同時期に考えられたモデルで、BERTとかなり似ている。ほぼ同じような性能。CNNエンコーディングを使う。 Unsupervised Meta-Learning for Reinforcement Learning Abhishek Gupta, Benjamin Eysenbach, Chelsea Finn, Sergey Levin 2018 UCB, Google 強化学習の文脈では、メタ学習は、事前タスクによって、新しい問題が効率的に解けるというものである。メタ強化学習は、そのためのタスクのデザインが大変である。この論文では、強化学習のための、教師なしのメタ学習のアルゴリズムを提案する。一般的なレシピを示し、最近の探索技術やモデル不可知メタ学習などに基づいた具体化の方法を述べる。 結局、状態の区別というタスクと、DIAYNのようなスキル獲得のタスクを、2つの教師なしのタスクとしている。まあ、確かに。 Deep Anomaly Detection with Outlier Exposure Dan Hendrycks, Mantas Mazeika, Thomas Dietterich ICLR 2019 UCB, U. Chicago, Oregon State U. 異常サンプルと分布内のサンプルを区別することは重要だが難しい。本研究では、副次的な外れ値のデータセットで異常検知器を訓練することで、異常サンプルを見つける方法を提案する。これを外れ値暴露(Outlier Exposure)と呼ぶ。うまく汎化する。 目的のデータセットと別のデータセットをもってきて外れ値とするようだ。シンプル。 Glow: Generative flow with invertible 1x1 convolutions Diederik P. Kingma, Prafulla Dhariwal 2018 OpenAI フローに基づく生成モデルは、魅力的だが、計算が大変。本研究では、反転可能な1x1のコンボリューションを使った生成的フリーの一種である、Glowというモデルを提案する。対数尤度でだいぶよい結果。画像もきれい。 On Variational Bounds of Mutual Information Ben Poole, Sherjil Ozair, Aaron van den Oord, Alexander A. Alemi, George Tucker ICML2019 Google Brain, MILA, DeepMind 相互情報量を多次元の空間で制約するのは難しい。最近では、変分限界をニューラルネットワークでパラメタライズする研究がある。この研究では、それらをひとつのpフレームワークで統一する。 Bit-Swap: Recursive Bits-Back Coding for Lossless Compression with Hierarchical Latent Variables Friso H. Kingma, Pieter Abbeel, Jonathan Ho ICML2019 UCB ビッツバック(bits-back)の議論によると、潜在変数のモデルは、損失なしの圧縮のスキームに変換できる。非対称の数値システムによるビッツバック(BB-ANS)は最近提案されたものであるが、ひとつの層をもつ潜在変数のモデルでうまくいく符号化を実現した。しかし、非効率であった。 本論文では、Bit-Swapという新しい圧縮のスキームを提案する。これはBB-ANSを一般化したもので、マルコフ鎖モデルによる階層的な潜在変数のモデルである。zipとかpngとかよりだいぶいい圧縮率を示す。 Variational Inference with Normalizing Flows Danilo Jimenez Rezende, Shakir Mohamed 2015 Google DeepMind 近似事後分布の選択は、変分推論でコアの問題のひとつである。通常、効率的な推論のために簡単な族を使うが、推論の質に影響する。本研究では、柔軟で任意に複雑になりえるスケーラブルな近似事後分布の方法を提案する。これは、ノーマライジングフローというもので、簡単な初期の密度が、反転可能な変換の系列によって、もっと複雑なものになるというものである。 Deep Compressed Sensing Yan Wu, Mihaela Rosca, Timothy Lillicrap ICML2019 DeepMind 圧縮センシングは、疎な信号を復元する方法。オートエンコーダとかと似ているがちょっと違う。データの一部だけが観測されると仮定し、復元する。GANがこのモデルの族の特別なケースと」解釈できる。 Differentiable Dynamic Normalization for Learning Deep Representation Ping Luo, Zhanglin Peng, Wenqi Shao, Ruimao Zhang, Jiamin Ren, Lingyun Wu ICML2019 U. Hong Kong, 香港中文大学、SenseTime 動的正規化(DN)を提案する。任意の正規化オペレータを学習する。バッチ正規化とかレイヤー正規化は最初から動作が決まっているが、それを微分可能にする。 Invertible Residual Networks Jens Behrmann, Will Grathwohl, Ricky T. Q. Chen, David Duvenaud, Jorn-Henrik Jacobsen ICML2019 U. Bremen, U. Toronto 通常のResNetが反転でき、同じモデルを分類、密度推定、生成に使えることを示す。通常は反転を可能にするには、アーキテクチャに制限をかけたり、次元を分割したりする必要があるが、我々の方法は、シンプルな正規化のステップを入れるだけである。反転可能ResNetは、尤度を最大化するように訓練すれば生成モデルになる。画像分類でもSOTAに近く、生成モデルとしてもフローベースのものに近い。 Are Generative Classifiers More Robust to Adversarial Attacks? Yingzhen Li, John Bradshaw, Yash Sharma ICML2019 Microsoft Research Cambridge, U. Cambridge, Max Planck, Eberhard Karls University of T¨ubingen 敵対的攻撃の研究はほとんど識別的な分類器を使っている。この研究では、deeep Bays分類器を使う。ナイーブベイズを条件付き深層生成モデルで改良したものである。結果、deep Bays分類器は、よりロバストで、多くの攻撃に対してその防御法が有効であった。 Self-Attention Generative Adversarial Networks ICML2019 Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena Rutgers U. Google 画像生成のための、アテンションに基づく、長距離の依存関係のモデリングを提案する。従来のGANは、低解像度の特徴マップの空間的に局所的な点の関数として、高い解像度の画像を生成していた。SAGANでは、すべての特徴位置の手がかりから生成する。 Jumpout : Improved Dropout for Deep Neural Networks with ReLUs Shengjie Wang, Tianyi Zhou, Jeff A. Bilmes ICML2019 U. Washington ReLUとともに使われるドロップアウトは、DNNの線形な要素が近くのデータ点から学習されるのを促進し、同じドロップアウト率が、異なる非活性化率につながり、ドロップアウトのリスケーリングが正規化の非整合性を引き起こす。ジャンプアウトはこれを改善する。 The Evolved Transformer David R. So, Chen Liang, Quoc V. Le ICML2019 Google Bain トランスフォーマのアーキテクチャがいいのかどうか知るために、NASを使ってトランスフォーマの代替物を探す。遺伝子に右側のアーキテクチャ、左側のアーキテクチャなどを表すようにする。結果的にいい構造が見つかって、深さ方向に分離可能なコンボリューションを使う、GLU(Gated Linear Unit)を使う、分岐を使う、swish活性化を使うなど。そんなにきれいではないが、従来の大きなトランスフォーマと同じ性能を、少ないパラメータで出せる。 SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver Po-Wei Wang, Priya L. Donti, Bryan Wilder, Zico Kolter ICML2019 CMU, USC MAXSATの問題を緩和し、半正定計画問題にしてend-to-endに解く。CNNの上にSATNetの層を置くことで、数独の解(MNISTの手書き数字での視覚数独の答え)を見つけることができる。 TASK2VEC: Task Embedding for Meta-Learning A. Achille, M. Lam, R. Tewari, A. Ravichandran, S. Maji, C. Fowlkes, S. Soatto, P. Perona 2019 AWS and UMAS, UCLA, UCI, Caltech タスク埋め込み。画像認識のタスクであれば、標準的なネットワーク(プローブネットワーク)に対して、特定のタスク(データセット)に対しての重みの変化を取るなどして距離を算出する。 BabyAI: First Steps Towards Grounded Language Learning With a Human In the Loop Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, and Yoshua Bengio ICLR2019 MILA ブロックワールドにものが置いてあって、移動したりピックアップしたりという環境。これと言語が対応しているようなプラットフォーム。あんまり面白くなさそう。 Deep learning in agriculture: A survey 2018 Towards Non-saturating Recurrent Units for Modelling Long-term Dependencies. Sarath Chandar, Chinnadhurai Sankar, Eugene Vorontsov, Samira Ebrahimi Kahou, Yoshua Bengio AAAI2019 U. Montreal, Google Brain, Microsoft Research 非飽和リカレントユニット(NRU)を提案。RELUを使う。メモリの内容が足し算・引き算で書き込み、消去がされる。これで長距離の依存関係をモデル化できる。 Adapting Auxiliary Losses Using Gradient Similarity Yunshu Du, Wojciech M. Czarnecki, Siddhant M. Jayakumar, Razvan Pascanu, Balaji Lakshminarayanan 2019 DeepMind 補助損失を入れるときに、もとのタスクに対してプラスになるときもそうでないときもある。補助タスクの勾配と、もとのタスクの勾配のコサイン類似度が正のとき、使うようにすればうまくいく。タスクの近さをうまく指標化している。 Learning and Evaluating General Linguistic Intelligence Dani Yogatama, Cyprien de Masson d'Autume, Jerome Connor, Tomas Kocisky, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou, Wang Ling, Lei Yu, Chris Dyer, Phil Blunsom 2019 DeepMind 汎用言語知能というのを定義し、語彙、シンタックス、セマンティクスなどを新しいタスクにすばやく適用できることとしている。最新の手法を調査している。あまり新しいことは言っていない。 World Discovery Models Mohammad Gheshlaghi Azar, Bilal Piot, Bernardo Avila Pires, Jean-Bastien Grill, Florent Altché, Rémi Munos 2019 DeepMind 世界モデル+好奇心。ShumidhuberのCNN+GRUのモデル化に、情報ゲインを加える。 QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, Sergey Levine 2018 Google, UCB 1000種類の物体の58万回の把持。特徴は、分散最適化フレームワーク、オフポリシーとオンポリシーの組み合わせ。閉ループでビジョンに基づく方策を学習する。物体を把持しやすいように他から離す、把持前に持ちやすい位置に直す、再度の把持、邪魔に対しての動的な反応(ボールなど転がってもつかむ)などを入れている。 オフラインデータはと、実際の把持データが、リプレイバッファに入る。オフラインのデータはオフポリシーで、実際のデータはオンポリシーで、ベルマン更新でQTを更新する。 The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks Jonathan Frankle, and Michael Carbin ICLR2019 MIT CSAIL ネットワークのプルーニングをしてもほとんど精度が落ちない。ところが、訓練、プルーニング、初期化すると、再訓練しても精度が出ない。これは、たまたま初期化で良い値を引いた部分ネットワークがあるからでは。ということで、訓練、プルーニング、最初のネットワークと同じ値で初期化するとうまくいく。初期値と構造のセットで当たりを引くことが重要。これを宝くじ仮説と呼ぶ。 Deep learning generalizes because the parameter-function map is biased towards simple functions Guillermo Valle Perez, Chico Q. Camargo, Ard A. Louis ICLR2019 U. Oxford なぜDNNが汎化するか。多くのDNNのパラメータ-関数マップは、簡単な関数のほうにバイアスされている。多くの実問題は、このバイアスが役立つ。 Do Deep Generative Models Know What They Don't Know? Eric Nalisnick, Akihiro Matsukawa, Yee Whye Teh, Dilan Gorur, Balaji Lakshminarayanan ICLR2019 DeepMind 分布外のデータかどうかを、フローベースのモデル、VAE, ピクセルCNNなどは分からない。なので注意して使う必要がある。(ただ、原理的な限界ではない。) Keep Drawing It: Iterative language-based image generation and editing Alaaeldin El-Nouby, Shikhar Sharma, Hannes Schulz, Devon Hjelm, Layla El Asri, Samira Ebrahimi Kahou, Yoshua Bengio, Graham W. Taylor NIPS2018 U. Guelph, MSR, Vector Institute, U. Montreal, CIFAR 対話から、少しずつキャンバスにお絵かきをしていくモデル。GANとGRU。CLEVERデータセットをインタラクティブにしたiCLEVERデータセットを使う。たぶん意味理解を意識。 AttnGAN: Fine-Grained Text to Image Generation With Attentional Generative Adversarial Networks Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He CVPR2018 Lehigh U., MSR, Rutger U., Duke U. アテンションGAN。テキストから画像を生成する。段階的に画像を生成し、アテンションを当てながら生成していく。 StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas 2016 2段階のGANでテキストからの画像生成。すごい。 Sim-to-Real via Sim-to-Sim: Data-efficient Robotic Grasping via Randomized-to-Canonical Adaptation Networks Stephen James, Paul Wohlhart, Mrinal Kalakrishnan, Dmitry Kalashnikov, Alex Irpan, Julian Ibarz, Sergey Levine, Raia Hadsell, Konstantinos Bousmalis 2018 Imperial College London, Google X, Google Brain, DeepMind sim2simで、シミュレータの映像を正準系に直し、訓練。実世界の映像も、同じように正準系に直して動かす。ゼロショットで70%の把持。5000回で91%。 Recurrent World Models Facilitate Policy Evolution David Ha, Jurgen Schmidhuber 2018 Google Brain, IDSIA 世界モデルのモデルと同じRNNを使って、得られた特徴量を使ったポリシーを進化的な方法で作る。 Deep Face Recognition: A Survey Mei Wang, Weihong Deng 2018 Beijing University of Posts and Telecommunications 顔認識のサーベイ。2014年のDeepFaceから、2018年のArcfaceやRing lossまで、損失関数、アーキテクチャ、訓練データなどの比較。また、データセットの進展。使用する目的の分類など。よくまとまっている。 Aggregated Residual Transformations for Deep Neural Networks 2016 Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, Kaiming He UC San Diego, FAIR ResNeXt。 ILSVRC2016分類タスクで2位。ResNetにInceptionの考え方を取り入れたもの。 Fader Networks:Manipulating Images by Sliding Attributes G. Lample et al. NIPS2017 beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework Irina Higgins, Loic Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, Alexander Lerchner ICLR2017 poster Google DeepMind VAEのKL項の係数を1ではなくβ>1にする。強い制約になるので、よりdisentangleされる。 A Distributional Perspective on Reinforcement Learning a ICML2017 Training Neural Networks with Local Error Signals Arild Nøkland, Lars H. Eidnes ICML 2019 Trondheim, Norway ローカルな計算だけで誤差逆伝搬のようなことができる。ローカルなブロックごとに1レイヤーのネットワークを作り、(1) Yの出力の相関行列と、ネットワークの出力の相関行列の類似度のロス、(2) Yの出力とネットワークの出力のクロスエントロピーのロスという2つを使う。エージェント的なアーキテクチャで達成できるという証左。 A guide to deep learning in healthcare 2019 Learnability can be undecidable | Nature Machine Intelligence Shai Ben-David, Pavel Hrubeš, Shay Moran, Amir Shpilka and Amir Yehudayoff Nature Machine Intelligence 2019 U. Waterloo, Institute of Mathematics of the Academy of Sciences of the Czech Republic 学習と圧縮の関係。VC次元のような学習可能性を表す指標がないことを示す。ゲーデルの不完全性定理を使う。 Recent Advances in Autoencoder-Based Representation Learning 2018 オートエンコーダをベースにする表現学習のアプローチについてサーベイ。disentanglement(もつれをひもとくこと)や、素性の階層的組織などのメタプライアを考え(Bengioのもののいくつか)この観点から整理する。特に、正則化に関して、事後分布の正則化、エンコーダーとデコーダーの分布の因子化、構造的な事前分布の導入などに整理している。 A Convergence Theory for Deep Learning via Over-Parameterization Z. A-Zhu, Y. Li, Z. Song 2018 MSR, Stanford U., UT-Austin DLの収束について。SGDは、多項式時間で大域的な最適解を見つけることができる。入力が縮退していないことと、ネットワークが過剰にパラメータ化していることという2つの仮定だけを置いて証明できる。 Forward Modeling for Partial Observation Strategy Games – A StarCraft Defogger Gabriel Synnaeve, Zeming Lin, Jonas Gehring, Dan Gant, Vegard Mella, Vasil Khalidov, Nicolas Carion, Nicolas Usunier NeurIPS 2018 Facebook defogging(霧をはらす)問題を状態推定と将来の状態予測の問題として定式化する。エンコーダ・デコーダネットワークを使い、代理的なタスクとベースラインで、ゲームのルールや高次のダイナミクスにアクセスできることを示す。CNNとRNNを統合して、空間的・連続的な相関を見つけ、StarCraft, BooldWarでうまくプレイする。 Visual Curiosity: Learning to Ask Questions to Learn Visual Recognition Jianwei Yang, Jiasen Lu, Stefan Lee, Dhruv Batra, Devi Parikh CoRL 2018 Georgia Tech, FAIR 現実世界では、知的エージェント(ロボット)が、よく分からない物体や属性、関係性に出会うことが避けられない。そこで、視覚的な好奇心をもち、人間に質問をするようなエージェントを開発した。例えば、「赤い立方体の左にあるものは何?」のような質問。 質問をすること自体を強化学習として捉えて学習する。 PyText: A seamless path from NLP research to production Ahmed Aly, Kushal Lakhotia, Shicong Zhao, Mrinal Mohit, Barlas Oguz, Abhinav Arora, Sonal Gupta, Christopher Dewan, Stef Nelson-Lindall, Rushin Shah 2018 A Style-Based Generator Architecture for Generative Adversarial Networks 2018 Why should i trust you?: Explaining the predictions of any classifier KDD2016 NICE: non-linear independent components estimation Laurent Dinh, David Krueger, Yoshua Bengio 2014 U. Montreal VAEに似た生成モデル。対数尤度を直接計算。 Toward an AI Physicist for Unsupervised Learning Tailin Wu, Max Tegmark 2018 MIT AI物理学者というタイトル。観測を最も単純に説明する理論を求める。Divide-and-conquerで小さい領域から求める。一応、ディープラーニングの進展を背景にしていると書いているが、シミュレータ上でいろいろな物理量を変化させたりして、オブジェクトの座標をそのまま使っているようで、昔からある研究とそれほど違いが出てないように思う。やりたいことは分かるが、気持ちが先走りすぎている印象。 Random synaptic feedback weights support error backpropagation for deep learning Timothy P Lillicrap, Daniel Cownden, Douglas B Tweed, and Colin J Akerman Nature Communications, 7, 2016. Neuronal Capacity Pierre Baldi, Roman Vershynin NIPS2018 UC Irvine ニューラルネットワークの容量を、実現できる関数の数の対数で定義する。 Are GANs Created Equal? A Large-Scale Study Mario Lucic, Karol Kurach, Marcin Michalski, Olivier Bousquet, Sylvain Gelly NIPS 2018 Google Brain MM GAN, NS GAN, LS GAN, WGAN, WGAN GP, DRAGAN, BEGAN, VAEについて、大規模な評価実験をしている。データセットによって良いものが異なる。NS GANとか割と良さそうだが。 Natasha 2: Faster Non-Convex Optimization Than SGD Zeyuan Allen-Zhu NIPS 2018 Microsoft Research AI SGDの問題点は、鞍点を避ける方法がランダム性しかないこと、鞍点に近づかないようにできないのかということ。それを解決する。 関数fのヘシアンの負の固有値を計算し、鞍点を避ける良い方向を見つける。ヘシアンの計算は、実は計算量がそれほど大きくない。 Visualizing the Loss Landscape of Neural Nets Hao Li, Zheng Xu, Gavin Taylor, Christoph Studer, Tom Goldstein NIPS 2018 U. Maryland, USNA, Cornell U. 可視化の手法を用いて、例えばresnetがなぜスキップコネクションありだとうまくいくのかを図示する。スケールに対応するためにフィルター正規化という手法を提案する。 Glow: Generative Flow with Invertible 1x1 Convolutions Diederik P. Kingma, Prafulla Dhariwal NIPS 2018 OpenAI Kingmaの新作で重要。GANやVAEと同じく、生成モデルのひとつであるflow。これまで、NICE(Dinh 2014), RealNVP(Dinh 2016)とあったが、それを拡張するもの。かなりきれいな画像を生成できている。 xからzへの変換が一連の変換のステップから構成されるとし、ひとつのステップがactnorm(バッチ正規化のようなもの)、可逆1x1 conv、アフィンカップリング層から成る。これを32個重ね、さらに戻すようなものを入れながら3回重ねる。 Gradient Descent for Spiking Neural Networks Dongsung Huh, Terrence J. Sejnowski NIPS 2018 Salk Institute, CA スパーキングニューラルネットの勾配降下のモデル。検証はトイプロブレム。 Multiplicative Weights Updates with Constant Step-Size in Graphical Constant-Sum Games NIPS 2018 Adversarially Robust Generalization Requires More Data Ludwig Schmidt, Shibani Santurkar, Dimitris Tsipras, Kunal Talwar, Aleksander Madry NIPS 2018 UCB, MIT, Google Brain 敵対的にロバストな学習を汎化の観点から分析する。ε以内の近傍で間違えないように訓練する、ロバスト最適化の方法を用いると、通常の訓練よりもデータセットによっては大きな精度の差が出る。ガウス分布、ベルヌーイ分布等を仮定して分析。しきい値モデルが良い性能。 Stochastic Cubic Regularization for Fast Nonconvex Optimization Nilesh Tripuraneni, Mitchell Stern, Chi Jin, Jeffrey Regier, Michael I. Jordan NIPS 2018 UCB 立方正則化ニュートン法という古典的なアルゴリズムの確率版。鞍点を効率的に避け、局所最適をO(ε^-3.5)で見つける。(SGDがO(ε^-4)) テイラー展開で3次の項まで見る方法。MNISTで実験。 Isolating Sources of Disentanglement in Variational Autoencoders Ricky T. Q. Chen, Xuechen Li, Roger Grosse, David Duvenaud NIPS 2018 U. Toronto VAEで潜在変数間の相関を表すような項をELBOの式のなかで作り出す。それぞれのサンプルがN個の確率変数のどれと関係しているかを表すようにし、それをつかって相互情報量を定義する。β-TCVAE(トータル相関VAE)。 Adversarial vulnerability for any classifier NIPS 2018 NEON2: Finding Local Minima via First-Order Oracles NIPS 2018 Gradient Sparsification for Communication-Efficient Distributed Optimization NIPS 2018 Neural Ordinary Differential Equations Tian Qi Chen, Yulia Rubanova, Jesse Bettencourt, David Duvenaud NIPS 2018 U. Toronto レスネットとかリカレントネットのようなものは層が離散。層を離散から連続にしたモデル。面白い。通常の層は、連續変換のオイラーの離散化とみなせるのだそうだ。精度はそれほど変わらないけど、メモリが少なくて済むとの主張。誤差逆伝搬のところに工夫が必要。 Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis NIPS 2018 Neural Voice Cloning with a Few Samples NIPS 2018 Neural Architecture Search with Bayesian Optimisation and Optimal Transport Kirthevasan Kandasamy, Willie Neiswanger, Jeff Schneider, Barnabás Póczos, Eric P Xing NIPS 2018 CMU ニューラルネットワークのアーキテクチャの探索にベイズ最適化を使う。NASBOTとよぶ。ニューラルネットワークのアーキテクチャにおける距離の尺度を作り、最適輸送の問題として解く。 Robust Learning of Fixed-Structure Bayesian Networks NIPS 2018 Recurrent Relational Networks Rasmus Berg Palm, Ulrich Paquet, Ole Winther NIPS 2018 Technical University of Denmark, DeepMind 数独を解くようなネットワーク。それぞれのマス目がユニットで、相互に接続されたリカレントネットワーク。 Online Learning with an Unknown Fairness Metric NIPS 2018 Lipschitz-Margin Training: Scalable Certification of Perturbation Invariance for Deep Neural Networks NIPS 2018 Bayesian Adversarial Learning NIPS 2018 cudnn: Efficient primitives for deep learning 2014 Stein Variational Policy Gradient 2017 Quantum algorithms for supervised and unsupervised machine learning Seth Lloyd, Masoud Mohseni, Patrick Rebentrost 2013 MIT, Google 量子計算は、N次元のベクトルをM個のクラスタに割り当てる問題を、通常ならMNに関する多項式時間なのが、MNに関する対数時間に減らすことができる。なので、ベクトル計算を伴う問題を、指数的な高速化ができる。 Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records Scientific Reports 2016 Learning Awareness Mmodels Brandon Amos, Laurent Dinh, Serkan Cabi, Thomas Rothorl, Sergio Gomez Colmenarejo, Alistair Muldal, Tom Erez, Yuval Tassa, Nando de Freitas, Misha Denil 2018 CMU, U. Montreal, DeepMind, CIFAR 身体の信号だけから周りのオブジェクトの表現を学習するようなモデル。シミュレータとリアルなロボットの手で実験。 Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning SIGGRAPH 2018 Large-Scale Study of Curiosity-Driven Learning Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, Alexei A. Efros 2018, ICLR2019 OpenAI, UCB, U. Edinburgh ピクセル予測、ランダムな特徴の予測、VAE, 逆モデル(行動予測)などの内的な動機を入れて、さまざまなタスクで実験。ATARI, スーパーマリオ、ロボスクールジャグリング、蟻ロボット、ピンポンをプレイするマルチエージェントなど。内的な動機だけでもゲームが解けるようになることもある。 Exploration by Random Network Distillation Yuri Burba, Harrison Edwards, Amos Storkey, Oleg Klimov 2018 OpenAI ENDボーナスというのを与える。訓練されたネットワークをランダムに初期化されたネットワークを教師として蒸留する。(謎)。いままでに見たことのない状況であれば予測誤差が大きくなるので、内的報酬として使える。 State Representation Learning for Control: An Overview 2018 Timothée Lesort, Natalia Díaz-Rodríguez, Jean-François Goudou, and David Filliat Universite Paris Saclay 状態表現学習のサーベイ。分かりやすい。DL輪読会のスライドがもっと分かりやすい。 Face2Face: Real-time Face Capture and Reenactment of RGB Videos Justus Thies, Michael Zollhofer, Marc Stamminger, Christian Theobalt, Matthias Nießner CVPR2016 U. Erlangen-Nuremberg, Max-Planck, Stanford 密なマーカーなしの顔のperformanceキャプチャの技術をつかって、ある人の表情を別の人(CGではなく)に割り当てる。facial reenactment(顔の再現)。 フレームごとに、ポーズ、光、表情を取り出し、人のidentityはそのままに、同じようなポーズ、光、表情になるように口元の検索をして合成。DeepFakeの技術になった。 Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery Thomas Schlegl, Philipp Seebock, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, and Georg Langs IPIM 2017 Medical U. Viennna, Austria ANOGAN。DCGANを使って医用画像の異常検知。生成スコアと識別スコアの足し合わせで異常度を判定。 Imagination Improves Multimodal Translation Desmond Elliott and Akos Kadar IJCNLP 2017 U. Amsterdam and Tilburg U. 冨山君のと同じ、マルチモーダルな翻訳。ソース文が入る双方向RNNの隠れ層と、画像の隠れ層が共有された共有エンコーダになっている。冨山君のより若干良い。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 2018 Google AI Language 12個の自然言語処理のタスクでSOTA。GLUE, MultiNLI, SQuAD質問応答などで人間のパフォーマンスを超える。双方向のtransformer。 SFV: Reinforcement Learning of Physical Skills from Videos Xue Bin Peng    Angjoo Kanazawa    Jitendra Malik    Pieter Abbeel    Sergey Levine SIGGRAPH Asia 2018 UCB 姿勢推定で姿勢を得て、モーションリコンストラクションで参考になる動きを取り出し、それをもとに強化学習で模倣をする。バク転とか。他のキャラクターにも転移できる。動画は面白い。強化学習を使うなんてそんなに簡単にできるのかなと思いきやLevineさんだった。 SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction Lingyu Liang, Luojun Lin, Lianwen Jin, Duorui Xie and Mengru Li 2018 South China U. of Technology, 広州、中国 美人データセット。5500枚の顔画像。男女、アジア人、白人。美人スコア1から5。18歳から27歳の60人のボランティアがつけた。クラウドソーシング。 Adversarial Examples that Fool both Computer Vision and Time-Limited Humans Gamaleldin F. Elsayed, Shreya Shankar, Brian Cheung, Nicolas Papernot, Alex Kurakin, Ian Goodfellow, Jascha Sohl-Dickstein 2018 Google Brain 敵対的な例が人間にも通用することを示す。70msとかの短時間で見せる。 How convolutional neural network see the world - A survey of convolutional neural network visualization methods 2018 Perceived Usefulness, Perceived Ease of Use, and User Acceptance of Information Technology Fred D. Davis 1989 U. Michigan 知覚された有用性と、知覚された使いやすさが、普及を予測する2つの変数である。両者とも、現在の使用と将来使うであろうことに高い相関がある。メール、エディタ、ビジネスチャートシステム、ペイントプログラムなどを比較。 Relational inductive biases, deep learning, and graph networks Peter W. Battaglia, Jessica B. Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, Caglar Gulcehre, Francis Song, Andrew Ballard, Justin Gilmer, George Dahl, Ashish Vaswani, Kelsey Allen, Charles Nash, Victoria Langston, Chris Dyer, Nicolas Heess, Daan Wierstra, Pushmeet Kohli, Matt Botvinick, Oriol Vinyals, Yujia Li, Razvan Pascanu 2018 DeepMind, Google Brain, MIT, U. Edinburgh DLはエンドトゥエンドだが、そういう話ではなく、むしろどのように関係上のバイアスを入れるかが大事。特に、グラフネットワーク、グラフ上で動くニューラルネットワークを紹介する。 Relationalネットワーク、Deep setなどもグラフネットワークの枠組みで表現できる。 かなり思索的でサーベイもしっかりした論文。 Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein, Samuel S. Schoenholz, Jeffrey Pennington 2018 CNNの動的等長と平均場定理。CNNをスキップコネクションとかバッチ正規化なしに、初期化の工夫だけで1000層で学習できる。この初期化は、信号伝搬の平均場定理と、動的等長、つまり入出力のヤコブ行列の特異値の平衡の条件付けを使う。 Taskonomy: Disentangling Task Transfer Learning Amir R. Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese 2018 Stanford U., UCB CVPR best paper. 画像に関するタスクのタキソノミー。3Dエッジ、ポイントマッチング、リシェイディング、Z深さ、距離、などのタスク間の距離を、転移学習の精度で測る。 Supervision via Competition: Robot Adversaries for Learning Tasks 2016 Deep Clustering for Unsupervised Learning of Visual Features 2018 GLoMo: Unsupervisedly Learned Relational Graphs as Transferable Representations Zhilin Yang, Jake (Junbo) Zhao, Bhuwan Dhingra, Kaiming He, William W. Cohen, Ruslan Salakhutdinov, Yann LeCun 2018 CMU, NYU, FAIR, Google これは面白い論文。ユニット間の関係性を表すグラフを教師なしで抽出して、それを転移する。グラフ予測器が2つのCNNの内積のような形でグラフを生成し、それを素性予測器のネットワークの層にフィードし、訓練する。そうすると、それをターゲットとなるタスク(ダウンストリームタスク)の層にも同様に埋め込むことができる。(たぶん言語や知識の仕組みに近いものを意識している。)言語タスクとビジョンタスクで実験。 Recycle-GAN: Unsupervised Video Retargeting Aayush Bansal, Shugao Ma, Deva Ramanan, and Yaser Sheikh1 2018 CMU, Facebook Reality Lab リサイクルGAN。動画を対象にして、敵対的損失、サイクル損失と、再帰損失(時系列の次の時点を予測する)、リサイクル損失(サイクル損失と近いが写像先で時系列で先に進めてから戻す)を足し合わせて、損失関数を定義。時系列の予測器(次の時点の画像を予測)も同時に学習で得られる。オバマとトランプの顔の映像の変換など。 A Unified Approach to Interpreting Model Predictions Scott M. Lundberg, Su-In Lee NIPS 2017 U. Washington モデルの説明可能性を統合的に評価する仕組み。 既存の研究では、LIMEは、線形で近似したモデルと、説明したいモデルの誤差を最小化する。DeepLIFTは、ある素性があったときとなかったとき(参照値にしたとき)の差で素性の重要性を測る。古くからのShapley値推定では、(多重共線性に対応するため)素性の部分集合に対して、ある素性が付加されたときとされてないときでの差を測る。 つまり、既存研究で気にしていることをまとめると、性質1)局所的な正確性:説明モデルとオリジナルなモデルが同じような出力をしないといけない、性質2)ミッシングネス(ないこと性):なくてもよい素性は貢献が0、性質3)首尾一貫性:モデルが多少変わっても、素性の貢献は大きく変わってはいけない、となる。 これを含めたSHAP(SHapley Additive exPlanation)値を提案する。 Large Scale GAN Training for High Fidelity Natural Image Synthesis Andrew Brock, Jeff Donahue, Karen Simonyan 2018 Heriot-Watt U., DeepMind BigGAN。SA-GAN(Self-attentionブロックを使ったもの、Zhang and Goodfellow 18)をベースに、バッチサイズを大きくし、truncationトリック(zを取り出すのをガウス分布ではなく、truncated normalにする)を使う。ImageNet ILSVRC2012と、JFT-300Mで実験。従来より圧倒的に良い。インセプションスコアが166.3, Frechetインセプション距離が9.6。 Self-attention generative adversarial networks Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena 2018 Rutgers U., Google Brain SAGANを提案。すべての特徴の場所からの手がかりで詳細が描かれる。生成器にスペクトラル正規化を適用。ImageNetデータセットで、インセプションスコアを36.8から52.2まで上げた。Frechetインセプション距離は、27.62だったものを18.65にした。 特徴マップから、1x1 convをしてそれを転置し、1x1 convをしたものと掛け合わせる。それがアテンションマップになり、全体の特徴マップ(1x1 convしたもの)とかけあわせる。これが自己アテンション特徴マップになる。これを識別器にも生成器にも使う。 Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion Pascal Vincent, Hugo Larochelle, Isabelle Lajoie, Yoshua Bengio, Pierre-Antoine Manzagol JMLR 2010 積層オートエンコーダ The Perceptron: A Probabilistic Model for Information Storage and Orga- nization in the Brain F. Rosenblatt Pychological Review 1958 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization John Duchi, Elad Hazan, Yoram Singer JMLR 2011 AdaGradの提案 Evolving simple programs for playing Atari games 2018 Who Let The Dogs Out? Modeling Dog Behavior From Visual Data 2018 Noise2Noise: Learning Image Restoration without Clean Data Jaakko Lehtinen, Jacob Munkberg, Jon Hasselgren, Samuli Laine, Tero Karras, Miika Aittala, Timo Aila 2018 NVIDIA さまざまなノイズを付与して再現を学習する。画像に上書きしたテキストを除去するとか。 Learning and Querying Fast Generative Models for Reinforcement Learning Lars Buesing, Theophane Weber, Sebastien Racaniere, S. M. Ali Eslami, Danilo Rezende, David P. Reichert, Fabio Viola, Frederic Besse, Karol Gregor, Demis Hassabis, Daan Wierstra 2018 DeepMind モデルベースのRLは重要だが、環境の正確で効率的なモデルを作るのが難しい。ここでは生成モデルによって、コンパクトに状態を表すことを学習する、状態-空間モデルを提案する。VAE的、あるいは自己回帰的な状態のモデルをピクセルから学習する。 Neural processes Marta Garnelo, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, Yee Whye Teh 2018 DeepMind Conditional Neural Processの著者と同じだが、CNPよりもちょっと進んだモデル。潜在変数zを出して、そこからyが生成されるというグラフィカルモデルが分かりやすい。NPもCNPもGQNの一般化と考えられる。 Learning Deep Features for Scene Recognition using Places Database Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Torralba, Aude Oliva NIPS2014 3D ShapeNets: a deep representation for volumetric shapes CVPR 2015 Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling Jiajun Wu, Chengkai Zhang, Tianfan Xue, William T. Freeman, Joshua B. Tenenbaum NIPS 2016 MIT CSAIL 我々は、3Dオブジェクト生成の問題を研究する。我々は、容積畳み込みネットワークと生成的対立ネットの最近の進歩を利用して、確率的空間から3Dオブジェクトを生成する、3D生成的敵対ネットワーク(3D-Generative Adversarial Network)(3D-GAN)という新しいフレームワークを提案する。私たちのモデルの利点は3つあります。まず、従来のヒューリスティックな基準ではなく、敵対的な基準を使用することで、ジェネレータは暗黙的にオブジェクト構造をキャプチャし、高品質の3Dオブジェクトを合成できます。第2に、ジェネレータは、低次元確率空間から3Dオブジェクトの空間へのマッピングを確立するので、参照画像またはCADモデルなしでオブジェクトをサンプリングし、3Dオブジェクトマニホールドを探索することができる。第3に、敵対的弁別器は、監督なしに学習された強力な3D形状記述子を提供し、3D物体認識において幅広い用途を有する。実験により、我々の方法は高品質の3Dオブジェクトを生成し、教師なしに学習されたフィーチャは、教師付き学習方法に匹敵する3Dオブジェクト認識で印象的なパフォーマンスを達成することを実証する。 3D-GANを提案する。3つの利点がある。ひとつは、敵対的な評価を使うことで、生成器にオブジェクトの構造を暗黙的につかむことができ、高品質の3次元のオブジェクトを合成することができる。2つ目に、生成器は、低い次元の確率空間から3次元のオブジェクト空間へのマップを作り、3次元の多様体を探索できる。3つめに、識別機は強力な3次元の形の記述子を提供し、さまざまな応用に用いることができる。 Unsupervised learning of 3d structure from images. D. J. Rezende, S. A. Eslami, S. Mohamed, P. Battaglia, M. Jaderberg, and N. Heess. NIPS, 2016 Perspective transformer nets: Learning single-view 3d object reconstruction without 3d supervision. X. Yan, J. Yang, E. Yumer, Y. Guo, and H. Lee. NIPS, 2016 U. Michigan、Adobe, Google Brain 2Dから3Dの内部表現を得る。エンコーダ、デコーダのモデル。デコーダの最後にトランスフォーマがついていて、アフィン変換等。 Towards Conceptual Compression Karol Gregor, Frederic Besse, Danilo Jimenez Rezende, Ivo Danihelka, Daan Wierstra NIPS2016 DeepMind Convolutional DRAWというのを提案。情報量の点からも議論して、JPEG2000と同じくらいの圧縮ができる。 Learning image representations tied to egomotion 2015 Learning to see by moving Pulkit Agrawal, Joao Carreira, Jitendra Malik ICCV2015 Convolutional neural networks for sentence classification Y. Kim 2014 NYU 引用数が非常に多い。CNNで文書分類を行う論文。Word2vec等のエンベディングを使い(ランダムでも良い)、コンボリューション、プーリングと行う。1層ずつのみ。シンプルだが、文書分類(文の分類)のタスクで最新に近い精度。 Assessing the Scalability of Biologically-Motivated Deep Learning Algorithms and Architectures Sergey Bartunov, Adam Santoro, Blake A. Richards, Geoffrey E. Hinton, Timothy P. Lillicrap 2018 DeepMind, U. Toronto, UCL 生物学的に可能なDLアルゴリズム(誤差逆伝搬の実現方法)をスケールさせてみたところ、うまくいかないことが分かった。LeCunやHinton, Bengio等が提案しているターゲット伝搬(TP)、Lillicrapらの提案しているフィードバック割当(FA)のいずれもうまくスケールしない。 Equilibrium propagation: Bridging the gap between energy-based models and backpropagation 2017 An approximation of the error backpropagation algorithm in a predictive coding network with local hebbian synaptic plasticity 2017 Difference target propagation. Dong-Hyun Lee, Saizheng Zhang, Asja Fischer, and Yoshua Bengio ECML/PKDD 2015 モントリオール大 誤差逆伝搬は、最近のDLの成功の駆動力だが、信用割当に関しては無限の効果(偏微分)に依存している。より深く、非線形な関数(例えば、パラメータ間の関係やコストが離散のときなど)に対して深刻な問題がある。生物的にありそうもない誤差逆伝搬を考えると、過去に同様のクレジット割当の働きを果たす方法が提案されている。ここでは、DNにおけるクレジット割当に対して、ターゲット伝搬とよぶ新しい方法を提案する。この方法のアイディアは、微分ではなくターゲットを計算することである。ターゲットは、勾配のように、後ろ方向に伝搬する。ターゲットの伝搬は、各層のオートエンコーダーに依拠する。誤差逆伝搬と違って、実数ではなく、確率的なビットでも成り立つ。誤差ターゲット伝搬とよぶ、オートエンコーダの不完全性の線形補間がとても有用であることを示す。重要論文。 KW: 進んだモデル Random feedback weights support learning in deep neural networks. Timothy P. Lillicrap, Daniel Cownden, Douglas B. Tweed, and Colin J. Akerman. CoRR, abs/1411.0247, 2014. オックスフォード大、トロント大 誤差逆伝搬は、誤差に貢献した程度で、責任をニューロンに割りあてるが、エラーに行列の掛け算をしなければならない。これは脳では不可能と考えられている。ここでは、とても簡単な方法を提案する。エラーの信号をランダムなシナプスの重みをかけることで、責任を割り当てる。ネットワークは、ランダムなフィードバックコネクションを通じて送られた信号から有益な情報を抜き出して学習することができる。脳でも実装可能である。(ランダムというのが不明。) KW: 進んだモデル FaceForensics: A Large-scale Video Data Set for Forgery Detection in Human Faces Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nießner U. Munich, U. Federico II of Naples, U. Erlangen-Nuremberg 2018 顔を操作した画像かそうでないかを見分けるためのデータセット。1004の動画から50万フレームを取り出し、Face2Faceで顔の表情をいじる。 Massively Parallel Video Networks Joao Carreiray, Viorica Patrauceany, Laurent Mazare, Andrew Zisserman, Simon Osindero 2018 DeepMind 動画の行動認識や人間キーポイント局在化などを行うのに、並列化をする。レイヤーごとの並列化を工夫し(徐々にレイヤーがあがるような並列化をする、予測的深さ並列化)、時計のサイクルを複数に設定し、スキップコネクションを入れる、蒸留を行う、時間のフィルター(空間方向だけでなく時間方向にも広げる)を入れるなどを行う。 Human-level performance in first-person multiplayer games with population-based deep reinforcement learning Max Jaderberg, Wojciech M. Czarnecki, Iain Dunning, Luke Marris, Guy Lever, Antonio Garcia Castaneda, Charles Beattie, Neil C. Rabinowitz, Ari S. Morcos, Avraham Ruderman, Nicolas Sonnerat, Tim Green1, Louise Deason, Joel Z. Leibo, David Silver, Demis Hassabis, Koray Kavukcuoglu, Thore Graepel 2018 DeepMind 面白い。チームでプレイするゲームを学習する。チームのスコアを最大にするが、他のエージェントの方策も含まれてしまうので、内的な報酬を入れるのと、いろんなエージェントの方策を使ってロバストに学習する。 Relational recurrent neural networks Adam Santoro, Ryan Faulkner, David Raposo, Jack Rae, Mike Chrzanowski, Théophane Weber, Daan Wierstra, Oriol Vinyals, Razvan Pascanu, Timothy Lillicrap 2018 DeepMind Relation Network (RN)のような考え方を入れたLSTM。関係記憶コア(Relational Memory Core; RMC)というのを提案。複数ヘッド内積アテンション(multi-head dot product attention; MHDPA)というのを使う。かなり複雑。ミニパックマンや言語モデリングで大きな向上。 Relational Deep Reinforcement Learning Vinicius Zambaldi, David Raposo, Adam Santoro, Victor Bapst, Yujia Li, Igor Babuschkin, Karl Tuyls, David Reichert, Timothy Lillicrap, Edward Lockhart, Murray Shanahan, Victoria Langston, Razvan Pascanu, Matthew Botvinick, Oriol Vinyals, Peter Battaglia 2018 DeepMind 関係学習と強化学習を組み合わせる。普通はCNNとかが入るところに、関係学習のモジュールを入れる。で、価値Vとか方策πを出力する。学習が早くなる。 Meta-Learning by the Baldwin Effect Chrisantha Fernando, Jakub Sygnowski, Simon Osindero, Jane Wang, Tom Schaul, Denis Teplyashin, Pablo Sprechmann, Alexander Pritzel, Andrei A. Rusu 2018 DeepMind 面白い。メタ学習とボールドウィン効果。MAML(モデル不可知のメタ学習)とボールドウィン効果が同じと言っている。そして、MAMLが使えないような微分不可能な状況であってもボールドウィン効果は役に立つと主張している。 Deep Video Portraits 2018 Synthesizing Obama: Learning Lip Sync from Audio Supasorn Suwajanakorn, Steven M. Seitz, Ira Kemelmacher-Shlizerman SIGGRAPH 2017 Playing hard exploration games by watching YouTube Yusuf Aytar, Tobias Pfaff, David Budden, Tom Le Paine, Ziyu Wang, Nando de Freitas 2018 DeepMind YouTubeから学習する。まず、動画から共通の表現へのマッピングを学習する。次に、ひとつのYouTube動画をこの表現に埋め込み、エージェントが人間のゲームプレイを真似することを促進するような報酬関数を作る。。Montezuma's revengeとかPitfallのような難しいゲームで、人間を超えるパフォーマンすを出すことができる。 Time-contrastive networks: Selfsupervised learning from multi-view observation 2017 Deep learning for health informatics 2017 Recurrent Neural Network Training with Dark Knowledge Transfer Zhiyuan Tang, Dong Wang, Zhiyong Zhang 2016 Tsinghua U., Tsinghua National Laboratory RNNを使った蒸留。 Towards evaluating the robustness of neural networks Nicholas Carlini, David Wagner Security and Privacy 2017 UCB 蒸留によって、敵対的攻撃が成功する確率を95%から0.5%に下げることができることが従来の研究で知られている。本研究では、3つの新しい攻撃によって、蒸留しているものもしていないものも100%攻撃が成功することを示す。3つの距離尺度に基づいた最適化で敵対的なノイズを求める。変数の変換とか、クリップされた勾配とかいくつかの工夫を入れている。 Recurrent neural network regularization Wojciech Zaremba, Ilya Sutskever, Oriol Vinyals 2014 NYU, Google Brain RNN(LSTM)でドロップアウトを使うとき、「リカレントでない」コネクションにだけ使うのが良い。つまり、入力ゲート、出力ゲート、忘却ゲート等はドロップアウトを使うが、状態から状態への遷移のところは使わないのが良い。 A survey on deep learning in medical image analysis Geert Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra Adiyoso Setio, Francesco Ciompi, Mohsen Ghafoorian, Jeroen A.W.M. van der Laak, Bram van Ginneken, Clara I. S´anchez 2017 Radboud U. Medical Center 医用画像に関するディープラーニングの適用の詳細なサーベイ。300以上の論文を調べ、手法別、タスク別、部位別に詳細に書かれている。 A Survey of Deep Learning Techniques for Mobile Robot Applications Jahanzaib Shabbir and Tarique Anwer 2018 ロボットへのDL適用のサーベイだが、あまり整理されていない。 On the number of linear regions of deep neural networks Guido Montúfar, Razvan Pascanu, Kyunghyun Cho, Yoshua Bengio 2014 How to construct deep recurrent neural networks. R. Pascanu et al. 2013 Shallow vs. deep sum-product networks. Olivier Delalleau, Yoshua Bengio NIPS 2011 U. Montreal Sum-productネットワーク(和積ネットワーク)というのを考える。浅いネットワークは、ある関数を表すのに、指数的に多くのユニットが必要になる。深いネットワークは、線形な増加。FとGという2つの関数の族を考えている。Gは下のレイヤーの任意の長さの変数を用いることができるという設定。 Scaling learning algorithms towards AI Y. Bengio and Y. LeCun 2007 U. Montreal, NYU まだDLがほとんど注目されていなかったころの論文。CNNとHintonのグリーディな層の積み上げくらい。なので、いかに深いネットワークが重要で、浅い関数を使ったアーキテクチャには限界があるかを説明している。知覚や制御などの動物でもできることが重要。深い関数と同じものを浅い関数で表そうとすると、非常に多くのコンポネントが必要になる。 Gradient-based hyperparameter optimization through reversible learning 2015 Data-dependent initializations of Convolutional Neural Networks Philipp Kraehenbuehl, Carl Doersch, Jeff Donahue, Trevor Darrell ICLR 2016 UCB, CMU 多くの研究は、ImageNetでプリトレインしたモデルを使って、特定のタスクにファインチューンする。初期値の重みを間違うと、勾配の消失や爆発、あるいは収束の低下につながる。この論文では、データに依存した早くて簡単な初期化の手続きを提案する。 Overcoming Catastrophic Forgetting by Incremental Moment Matching a NIPS2017 Overcoming catastrophic forgetting in neural networks 2016, PNAS 2017 Meta-learning with memory-augmented neural networks ICML 2016 Meta networks ICML 2017 CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning a a a https://arxiv.org/abs/1711.05225 Neural Architecture Search with Reinforcement Learning Barret Zoph, Quoc Le ICLR2017 Google Brain ネットワークのパラメータを強化学習とLSTMで探索している。LSTMはちょっと特殊で、数値の計算木をエンコードしているようだ。Cifar10とPennTreeBankのデータセットで、これまでの最高に近い精度を出している。が、途中のLSTMのところを結構いじっていて、ちょっと微妙な感じはする。でも面白い。 Related Workのところに、進化計算とパラメータチューニングの話があって黒滝君の研究の参考に。 KW: メタ学習 Optimization as a Model for Few-Shot Learning Sachin Ravi, Hugo Larochelle ICLR2017 Twitter ワンショット学習を、LSTMで行う。複数の異なるタスクのデータセットを与えられるのをLSTMに見立てて、学習する。 KW:メタ学習 Adversarial Feature Learning Jeff Donahue, Philipp Krähenbühl, Trevor Darrell ICLR2017 poster Bidirectional Attention Flow for Machine Comprehension Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi ICLR2017 poster Designing Neural Network Architectures using Reinforcement Learning Bowen Baker, Otkrist Gupta, Nikhil Naik, Ramesh Raskar ICLR2017 poster MIT CNNの構造を強化学習で見つける。状態が、1層目の設定、2層目の設定等で、アクションが各層に何を選ぶか、全体の報酬が精度になる。Q学習を使う。SVHNやCIFAR-10、MNISTなどで実験。SoTAに近い精度。 KW:メタ学習 Random search for hyper-parameter optimization J. Bergstra and Y. Bengio JMLR 2012 U. Montreal ハイパーパラメータの最適化をする際に、グリッドサーチやマニュアルサーチよりも、ランダムサーチのほうが良い。その理由は、ほとんど効かない次元があること。それがタスクによって異なること。また実際的には、いつでもやめられる、止まっても良いなど、さまざまな良い点もある。7つのタスクの4つで従来のグリッドサーチ・マニュアルサーチと同じ、1つでそれを上回る結果だった。 KW: メタ学習 An Empirical Exploration of Recurrent Network Architectures Rafal Jozefowicz, Wojciech Zaremba, Ilya Sutskever ICML2015 Google いろんなRNNのアーキテクチャを探索的に調べている。面白い。 KW: メタ学習 Wide residual networks a 2016 Priors for Infinite Networks Radford M. Neal 1994 U. Toronto ニューラルネットワークにはpriorを使えない。無限に幅の広い隠れ層が1層のニューラルネットワークは、(任意の関数を近似できるが)ガウス過程と見なせる。 Towards a Neural Statistician Harrison Edwards, Amos Storkey ICLR2017 poster U. Edinburgh 複数のデータ点ではなく複数のデータセットを扱う。共通のモデルを仮定し、文脈cによって潜在変数zが影響を受け、それによって変数xが生成されると考える。Spatial MNISTやOMNIGLOTのデータセットで実験。Fewショット学習のひとつ。 Few-shot generative modelling with generative matching networks Sergey Bartunov and Dmitry P. Vetrov AISTAT 2018 National Research University Higher School of Economics (Russia), 今はDeepMind 事前に多くのデータがあって、似たようなドメインで少ないデータがあったときに早く学習する。そのために生成的マッチングネットワーク(GMN)を提案。潜在変数と新しいデータを両方とも別の空間に写像し、そこでの近さを取る。Omniglot dataset(50個の異なるアルファベット)で実験。 Parallel multiscale autoregressive density estimation. Scott Reed, Aaron van den Oord, Nal Kalchbrenner, Sergio Gomez Colmenarejo, Ziyu Wang, Dan Belov, Nando de Freitas ICML2017 DeepMind 画像を並列に生成する。PixelCNNだと順番に生成するので遅い。画像をいくつかのグループに分け、最初のグループが次のグループに影響するようにする。これまでと同等の生成の性能。 Video Pixel Networks Nal Kalchbrenner, A¨aron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals, Alex Graves, Koray Kavukcuoglu 2016, ICML2017 DeepMind 確率的な動画のモデル、ビデオピクセルネットワークを提案する。動画中の生のピクセルの値の離散同時確率を推定する。このモデルとニューラルアーキテクチャは、時間、空間と色の構造を反映し、4次元の依存チェインとしてエンコードする。最新のものを大きく上回り、ムービングMNISTベンチマークでもっともよい性能に近づいた。ロボットが押すベンチマークでも詳細なサンプルを生成することができた。 PixelCNNを基本としているので面白いのだけど、PixelCNNそのままではなくて、multiplicative unitというのが入って独特なものになっているのと、主要な手法と比較しておらず、評価実験が弱い。 Proximal policy optimization algorithms 2017 J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov Extracting Automata from Recurrent Neural Networks Using Queries and Counterexamples Gail Weiss, Yoav Goldberg, Eran Yahav ICML2018 Technion, Haifa, Bar Ilan U. RNNから決定有限オートマトン(DFA)を取り出す。L*アルゴリズムというのを使う。メンバーシップと、等価性だけを聞けると、それをもとにオートマトンを構成できるというものらしい。実験では、Tomita文法というものであればうまく取り出せるし、より深い再帰があるようなものでも高い精度で取り出せる。 Instance Normalization: The Missing Ingredient for Fast Stylization 2016 Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky Skoltech, Yandex, U. Oxford バッチではなくインスタンスごとに正規化する。 The Mechanics of n-Player Differentiable Games ICML2018 David Balduzzi, Sebastien Racaniere, James Martens, Jakob Foerster, Karl Tuyls, Thore Graepel DeepMind, U. Oxford 複数の相互作用のある損失のときは、勾配降下が局所最適に至らない。ゲームにおける勾配降下の振る舞いはあまりよく理解されていないが、敵対的、あるいは複数目的のアーキテクチャが増えるなかで重要になっている。この論文では、一般的なゲームのなかの動態を理解しコントロールする方法を提案する。2つの要素に分かれ、ひとつは潜在的ゲームに関するもので、暗黙的な関数に関しての勾配降下とみなせるものである。もうひとつは、ハミルトニアンゲームに関するもので、保存則に従うようなものである。シンプレクティック勾配修正(SGA)と呼ばれる新しいアルゴリズムを提案する。 HyperNetworks David Ha, Andrew Dai, Quoc V. Le ICLR2017 poster Google Brain RNNは重み共有をし、CNNは層ごとに別々である。中間がもっとあってもいい。 小さなNNで、CNNやRNNの重みを生成することを考える。少ないパラメータであるが精度のよいネットワークができる。 Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings John D. Co-Reyes, YuXuan Liu, Abhishek Gupta, Benjamin Eysenbach, Pieter Abbeel, Sergey Levine ICML2018 UCB SeCTAR(タイトル通り)の提案。軌跡を再構成するRNNによるエンコーダ・デコーダモデルを作る。エンコーダ・状態デコーダ・方策デコーダ。潜在空間zを得ることで、方策デコーダを使うと現在の状態に対してアクションを出せるようになる。これを使って、MPCで最適な経路を求める。方策πを、軌跡の分布のエントロピーを最大化するように選ぶことで探索的な行動を促進する。PPO(Proximal policy optimization)を用いる。シミュレータ上でナビゲーションやマニピュレーションの実験。 Deep linear neural networks with arbitrary loss: All local minima are global Thomas Laurent and James Von Brecht ICML2018 Loyola Marymount University, Cal State U. 深層線形ネットワークで任意の微分可能な損失関数を考える。各レイヤーの幅が、出力あるいは入力よりも大きいときに、すべての局所最適解は大域的最適解である。ということを証明している。自明のような気も。 On the Optimization of Deep Networks: Implicit Acceleration by Overparameterization Sanjeev Arora, Nadav Cohen, Elad Hazan ICML2018 Princeton U. 過度なパラメータが、モーメンタムやAdaGradのような働きをしていることを示している。 Model-level Dual Learning ICML2018 Conditional Neural Processes Marta Garnelo, Dan Rosenbaum, Chris J. Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo J. Rezende, S. M. Ali Eslami ICML 2018 DeepMind DNNは関数近似として強力だが、いつもゼロから学習する。ベイジアンの手法、例えばガウス過程は、事前知識を活用し、テスト時に新しい関数の形をすぐに推論する。しかし、ガウス過程は計算量が高く、適切なプライアを設計することが難しい。この論文では、条件付きニューラル過程(CNP)とよぶニューラルモデルの族を提案する。CNPは、ガウス過程のような柔軟性を持ち、ニューラルネットワークのように構造化され勾配降下で訓練できる。 (x_i, y_i)からr_iを出す。これを平均をとってrとし、x_iとrからφ_iを出す(典型的にはガウス分布のパラメータ)。この2つの関数にNNを使う。 訓練は、データの一部から全部を予測することを行う。で2つの関数を学習する。 A Compressed Sensing View of Unsupervised Text Embeddings, Bag-of-n-Grams, and LSTMs Sanjeev Arora, Mikhail Khodak, Nikunj Umesh Saunshi, Kiran Vodrahalli ICLR2018 poster Understanding deep learning requires understanding kernel learning 2018 Improving Language Understanding by Generative Pre-Training Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever 2018 OpenAI GPT論文。OpenAItransformer。最初に、教師なしのデータに関しての言語モデルの目的関数を置いて、ニューラルネットワークの初期のパラメータを学習する。次に、このパラメータを使って、ターゲットのタスクに教師ありで学習する。教師なしの部分はTransformerを使う。(Attention is all you need論文。)教師ありのときは、最終層を加えて用いる。自然言語推論、QA、文の類似性、分類など。 Universal Language Model Fine-tuning for Text Classification Jeremy Howard, Sebastian Ruder 2018 U. San Francisco, NUI Galway ULMFitという深層のpre-trainedな言語モデル。多くの言語処理タスクで最新の記録。3層+Softmaxで、タスクごとに事前学習し、ターゲットのタスクには、徐々に解凍していく(gradual unfreezing)でファインチューン。 Deep contextualized word representations Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer 2018 Allen Institute for AI, U. Washington ELMoの提案。2層の双方向LSTMで、キャラクターコンボリューション入り。さまざまなNLPタスクで最新の性能。WordNetは深層でなかったが深層にしたもの。重要論文。 Few-shot autoregressive density estimation: Towards learning to learn distributions 2017 Learning models for visual 3D localization with implicit mapping Dan Rosenbaum, Frederic Besse, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami 2018 DeepMind アテンションつきGQN。パッチ辞書というのを作って、カメラポーズとイメージのパッチ(8x8x3)を入れておく。これに対して、アテンションをかけて、ターゲットとなるカメラポーズが与えられると画像を出力するように学習する。 逆に、局在化をするために、画像からカメラポーズを出力する。このために、逆GQNというのを使う。 マインクラフトの映像で実験。 Consistent Generative Query Networks Ananya Kumar, S. M. Ali Eslami, Danilo J. Rezende, Morta Garnelo, Fabio Viola, Edward Lockhart, and Murray Shanahan 2018 DeepMind GQNを時間も扱えるように改良したもの。これまでの動画予測は、順に生成する必要があった。この方法では、時間をクエリーとして画像を生成するので、共通の潜在変数に対して任意の時間の画像が生成できる。エンコーダは4層のCNN。で、DRAW(中はLSTM)で潜在変数zを得る。画像を描くレンダーネットワークはLSTMであり、zとvが毎回入力される。キーと値のペア(v, f)に対して一般的に適用できる。vが視点だったり時間だったり。fが画像。 Encoding Spatial Relations from Natural Language Tiago Ramalho, Tomas Kocisky, Frederic Besse, S. M. Ali Eslami, Gabor Melis, Fabio Viola, Phil Blunsom, Karl Moritz Hermann 2018 DeepMind 空間言語統合モデル(SLIM)。空間的な関係、例えば、「後ろ」とか「左」とかの表現を獲得する。GQNを使って、視点と文を入れ、内部表現を作り、新たな視点からの画像を予測する。画像を作るところはDRAW。 A hierarchical predictive coding model of object recognition in natural images 2017 Unsupervised Machine Translation Using Monolingual Corpora Only Guillaume Lample, Alexis Conneau, Ludovic Denoyer, Marc'Aurelio Ranzato ICLR2018 poster FAIR, Sorbonne U., Paris サイクルGANのような翻訳。ソースからソース、ターゲットからターゲットへのオートエンコーダ的な復元誤差の損失と、ソースからターゲットに翻訳した場合に復元する場合の誤差などなどを足し合わせたもの。パラレルコーパスがないにも関わらず、Multi30kとWMTでそれぞれ32.8, 15.1。 Dualgan: Unsupervised dual learning for image-to-image translation 2017 One-Shot Imitation Learning Yan Duan, Marcin Andrychowicz, Bradly Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba NIPS2017 Open AI 模倣学習の問題を、類似の模倣を何度もやった場合の教師あり学習と考える。考え方はとても重要。入力は、デモンストレーションと観測で、出力は適切な行動と置いて、学習する。デモンストレーションネットワーク(デモンストレーションを特徴量にする)、コンテキストネットワーク(デモンストレーションネットワーク上へのアテンション)、そしてマニピュレーションネットワークの3つから成る。実ロボットではなく、シミュレータ上のマニピュレータで実験している。 Robust imitation of diverse behaviors NIPS2017 Context encoders: Feature learning by inpainting Deepak Pathak Philipp Kr¨ahenb¨uhl Jeff Donahue Trevor Darrell Alexei A. Efros CVPR2016 UCB 四角いパッチで画像をくり抜いても上手に復元できる。エンコーダ−デコーダモデルだが、エンコーダからの高次特徴量とデコーダに渡す高次特徴量を、デンスにつないだネットワークの構造。 Precomputed real-time texture synthesis with markovian generative adversarial networks ECCV 2016 Machine Theory of Mind Neil C. Rabinowitz, Frank Perbet, H. Francis Song, Chiyuan Zhang, S. M. Ali Eslami, Matthew Botvinick ICML2018 DeepMind, GoogleBrain 心の理論ネットワーク。これを学習の問題に置き換える。観測者が、他のエージェントの行動をいかに少ないデータによってモデル化できるか。これをメタ学習の問題と捉える。ある種のワンショット模倣学習と言えるが、自分が高づおをする必要はない点が異なる。 キャラクターネット、心的状態ネット、予測ネットの3つから構成される。キャラクターネットの目的は、過去のエピソードからキャラクター埋め込みを得ることである。 心的状態ネットの役割は、現在のエージェントの状態を現在のエピソードから出すことである。 最後に、予測ネットの役割は、心的状態の埋め込みとキャラクター埋め込みを使って、エージェントのその後の行動を予測することである。 UNREALのフレームワークを使って実証している。 Deep Predictive Coding Network with Local Recurrent Processing for Object Recognition Kuan Han, Haiguang Wen, Yizhen Zhang, Di Fu, Eugenio Culurciello, and Zhongming Liu 2018 Purdue U. 予測コーディングの改良版。ほぼ同じ著者。下の方の層から順番にやっていく。局所的なリカレントモデルと言っている。グローバルなモデル(従来研究に当たる)のほうが良さそうな気もするが、系列を予測するモデルを作り、その誤差を予測する上位のモデルを作り、と順番にやるほうがいいということだろうか。精度は以前のものよりだいぶ良さそう。 Deep Predictive Coding Network for Object Recognition Haiguang Wen, Kuan Han, Junxing Shi, Yizhen Zhang, Eugenio Culurciello, Zhongming Liu ICML2018 Purdue U. 予測コーディングの新しい形の提案。CNNの各レイヤーがバックワードのリンクと再帰結合を持っている。なんかシンプルだが良さそうなモデル。認識のときに徐々に確信度が高まってくる。学習も通常のCNNより早い。いいのではないか。 Learning Representations and Generative Models for 3D Point Clouds Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, Leonidas Guibas ICML2018 Stanford U., U. Montreal 3Dポイントクラウドの生成モデル。2048個の点の3次元位置が入力される。オートエンコーダと混合ガウス分布が割と良い。W-GANとかと比較。3Dクラウドのいすとか机とかを再現する実験。 Comparing Dynamics: Deep Neural Networks versus Glassy Systems Marco Baity-Jesi, Levent Sagun, Mario Geiger, Stefano Spigler, G´erard Ben Arous, Chiara Cammarota, Yann LeCun, Matthieu Wyart, Giulio Biroli ICML2018 NYU, EPFL, Kings College London 理論的な解析。グラスのシステムで使われる統計的物理の方法をDNNの動態の解析に用いる。訓練のときには、多くのフラットな方向のために動態は遅くなる。多くの場合、損失が0に近づくと、システムは底に散らばる。平均場のグラスシステムの動態と似ている面はあるが、障壁を超えるということがない点などにより、損失関数やエネルギーの景観は異なる。 Augmented CycleGAN: Learning Many-to-Many Mappings from Unpaired Data Amjad Almahairi, Sai Rajeswar, Alessandro Sordoni, Philip Bachman, Aaron Courville ICML2018 MILA, MSR Montreal サイクルGANに、潜在変数を入れる。これによって、確率的に画像を生成できる。線画の靴からいろいろなタイプの靴を生成するなど。潜在変数zの扱いがけっこうややこしい。 Stochastic Video Generation with a Learned Prior Emily Denton, Rob Fergus ICML2018 NYU, FAIR 動画の生成を、VAE的にやるのだが、潜在変数も学習によって推移することを仮定。モデルとしては良さそうだが、結果はそれほど印象的でない。 Unsupervised learning of disentangled and interpretable representations from sequential data a NIPS, 2017. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? Alex Kendall, Yarin Gal 2017 UberNet: Training a 'universal’ convolutional neural network for low-, mid-, and high-level vision using diverse datasets and limited memory Iasonas Kokkinos 2016 INRIA 複数のタスクをこなせるようなネットワーク。ひとつの画像の入力に対し、複数のCNNの各レイヤーをあわせて、それをCNN間で統合し、タスク特有のものとする。 Multinet: Real-time joint semantic reasoning for autonomous driving Marvin Teichmann, Michael Weber, Marius Zoellner, Roberto Cipolla, Raquel Urtasun 2016 DARTS: Differentiable Architecture Search Hanxiao Liu, Karen Simonyan, Yiming Yang 2018, ICLR2019 CMU, DeepMind ネットワークの構造を微分可能な形で探索する。エッジ候補(コンボリューションやプーリングなどの演算の候補)を作っておいて、離散条件を緩和して最適化する。 What is consciousness, and could machines have it? Stanislas Dehaene, Hakwan Lau, Sid Kouider Science 2017 Collège de France, UCLA, U. Hong Kong 意識について。C0, C1, C2。面白いが、DL等のアーキテクチャとの関連は少ない。 Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play Sainbayar Sukhbaatar, Zeming Lin, Ilya Kostrikov, Gabriel Synnaeve, Arthur Szlam, Rob Fergus ICLR2018 poster FAIR, NYU Aliceが状態を変えて、Bobがそれをもとに戻す。これを事前学習的にやって、ターゲットタスクを学習すると学習が早くなる。これを繰り返すと、AliceがBobの能力を少し上回る学習をさせるような、よいカリキュラムができる。 Automated Curriculum Learning for Neural Networks. a 2017 Practical black-box attacks against machine learning. a 2016 Synthesizing Robust Adversarial Examples Anish Athalye, Logan Engstrom, Andrew Ilyas, Kevin Kwok ICML 2018 top30 MIT カメを3Dプリンタで出力した敵対的事例。実世界の敵対的事例は回転等に弱いので、回転等でも平均的に目的のクラス出力となるように微小な変化を加えるという最適化問題を解く。 Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples Anish Athalye, Nicholas Carlini, David Wagner ICML 2018 top30 MIT, UCB 「見えにくくした」勾配が、敵対的事例のディフェンスとして役に立たないことを示す。これらは、反復的最適による攻撃に対して防御できるが、これを緩和できる。「見えにくくした緩和」は、shattered gradient(ばらばらになった勾配)、確率的勾配、勾配消失/爆発などである。 識別器のほうは標準的に5層のものやResNet、Inception V3などを使っている。 Learning Semantic Representations for Unsupervised Domain Adaptation Shaoan Xie, Zibin Zheng, Liang Chen, Chuan Chen ICML 2018 Sun Yat-sen U (China) ドメイン適応を敵対的にやる方法。サンプルがソースドメインから来たか、ターゲットドメインから来たかを識別器は見破る。これに素性の関係性を入れ、さらに教師なしにしたもの。 Provable Defenses against Adversarial Examples via the Convex Outer Adversarial Polytope Eric Wong, J. Zico Kolter ICML 2018 top30 CMU ある範囲の境界のなかではクラスラベルが変わらないのであれば、その事例は敵対的でないと保証することができる。線形計画問題と考え、双対空間の解を求めることで効率的に求める。 Best Arm Identification in Linear Bandits with Linear Dimension Dependency ICML 2018 top30 Automatic Goal Generation for Reinforcement Learning Agents ICML 2018 top30 David Held, Xinyang Geng, Carlos Florensa, Pieter Abbeel CMU, UCB 複数のタスクに対してのゴールを適切に設定する。環境中で達成できるタスクを自動的にエージェントが発見する。生成ネットワークで、エージェントが達成できるタスクを提案する。それによって、ちょうどよい難しさのタスクを設定し、カリキュラムとなる。GoalGANと呼ぶ。 スパイダーが徐々に動きを覚えていくようなデモ。 Gradient Coding from Cyclic MDS Codes and Expander Graphs ICML 2018 top30 Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima Simon S. Du, Jason D. Lee, Yuandong Tian, Barnab´as P´oczos, Aarti Singh ICML 2018 top30 CMU, USC, FAIR 1層の隠れ層があるときに、SGDによって0あるいはランダムに初期化されているReLUのニューラルネットワークを多項式時間で訓練することができることが従来研究で示されていた。これをこの研究では、2層の隠れ層があるときに拡張する。 Optimizing the Latent Space of Generative Networks Piotr Bojanowski, Armand Joulin, David Lopez-Paz, Arthur Szlam ICML 2018 top30 FAIR GANとかVAEの、エンコーダ部分を取り払う。zを確率的に生成し、そこからxを生成し、再構成誤差(というか、任意のziとxiを結びつける)を最小化する。このときにラプラシアンピラミッドの損失を取る。これだけで、きれいな画像を作ることができる。 つまり、GANでは、(A1)CNNによる強力な帰納バイアス、(A2)識別器の効果、の2つの効果があるが、A1だけでよかったということ。 Spurious Local Minima are Common in Two-Layer ReLU Neural Networks ICML 2018 top30 Adversarially Regularized Autoencoders Jake Zhao, Yoon Kim, Kelly Zhang, Alexander M. Rush, Yann LeCun ICML 2018 top30 NYU, FAIR 敵対的オートエンコーダ(AAE)を拡張する。AAEは、入力変数から敵対的に正則化される潜在空間に変換する。AAEでは、潜在空間に特定のプライアを使っていたが、ここではGAN(WGAN)を使う。 Analyzing the Robustness of Nearest Neighbors to Adversarial Examples Yizhen Wang, Somesh Jha, Kamalika Chaudhuri ICML 2018 top30 UC San Diego, U. Wisconsin-Madison 敵対的サンプルの理論的な分析。3つの頑健性がある。分布的頑健性。有限サンプル頑健性。アルゴリズム頑健性。ある点の周りの他のクラスが存在しない、頑健で正確な領域から議論をはじめる。k-NNを使って分析し、ロバストな1-NNアルゴリズムを提案。 Parallel Bayesian Network Structure Learning Tian Gao, Dennis Wei ICML 2018 top30 ベイジアンネットワークの構造学習で、局所から大域へ学習する方法が注目されている。複数のデージェントが局所的な構造を並列に学習する方法を提案する。マルコフブランケットの考え方で複数の領域に分ける。 Parallel WaveNet: Fast High-Fidelity Speech Synthesis Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu ICML 2018 top30 Google, DeepMind WaveNetの生成を早くする。通常のWaveNetでは実時間の生成ができない。逆自己回帰フロー(IAF)というのを使って、並列に生成できるようにする。そのために、確率密度蒸留(Probability Density Distillation)というのを提案する。 Stronger Generalization Bounds for Deep Nets via a Compression Approach Sanjeev Avora, Rong Ge, Behnam Neyshabur, Yi Zhang ICML 2018 top30 Princeton U., Duke U. 汎化性能がなぜ高いのかの別の説明。圧縮のフレームワークで説明する。ノイズに対する耐性も。 IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu ICML 2018 top30 DeepMind Actorの軌道を中心のサーバに送る。中心のサーバは複数あって、GPU効率的である。重要度重みつきアクター学習アーキテクチャ(Importance Weighted Actor-Learner Architecture) PDE-Net: Learning PDEs from Data Zichao Long, Yiping Lu, Xianzhong Ma, Bin Dong ICML 2018 top30 北京大学 偏微分方程式を見つける。適切に制約した畳み込みフィルターにより微分を近似することと、DNN等によって非線形の反応を近似することの2つから成る。 Preventing Fairness Gerrymandering: Auditing and Learning for Subgroup Fairness Michael Kearns, Seth Neel, Aaron Roth, and Zhiwei Steven Wu ICML 2018 top30 U. Pennsylvania, MSR NYC 機械学習における公平性。例えば、人種のような属性値をいれても他が変わらない。これを「監査」がチェックする。2つのプレイヤー(primalなプレイヤー)と監査(双対なプレイヤー)がゼロサム・ゲームをプレイする。 Disentangling by Factorising Hyunjik Kim and Andriy Mnih ICML 2018 top30 DeepMind, U. Oxford FactorVAEを提案。beta-VAEを改良したもの。beta-VAEは、変分事後分布と事前分布の距離の重みを大きくしたもので、disentanglingに安定した効果がある。ところが再構成誤差が大きくなるという欠点があった。これを解消する。 Dynamic Evaluation of Neural Sequence Models Ben Krause, Emmanuel Kahembwe, Iain Murray, Steve Renals ICML 2018 top30 U. Edinburgh LSTM等の系列の生成時に、動的に評価して系列をよりよく生成する。WikiTextなどでperplexityを上げた。tを生成するのに、t-1までの系列を使うが多くの方法ではここを多少なりとも端折る。ので、その違いが発生するのを、生成時に補正するような方法。 Adversarial Risk and the Dangers of Evaluating Against Weak Attacks ICML 2018 top30 Data-Dependent Stability of Stochastic Gradient Descent ICML 2018 top30 Implicit Regularization in Nonconvex Statistical Estimation: Gradient Descent Converges Linearly for Phase Retrieval and Matrix Completion ICML 2018 top30 Learning Deep ResNet Blocks Sequentially using Boosting Theory ICML 2018 top30 Least-Squares Temporal Difference Learning for the Linear Quadratic Regulator ICML 2018 top30 Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations ICML 2018 top30 Bounding and Counting Linear Regions of Deep Neural Networks ICML 2018 top30 On the Power of Over-parametrization in Neural Networks with Quadratic Activation ICML 2018 top30 Photographic image synthesis with cascaded refinement networks. Q. Chen and V. Koltun ICCV 2017 Genetic CNN a 2017 Aggregated Residual Transformations for Deep Neural Networks Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He 2016 Learning to See in the Dark a CVPR2018 Squeeze-and-Excitation Networks Jie Hu, Li Shen, Gang Sun CVPR2018 top30 Momenta, U. Oxford ILSVRC 2017の分類タスクで優勝した論文。2.251%。チャネルごとの重みを作る。そのために、チャネルごとの平均を取り、ボトルネックを作り、チャネルの重みにし(スクイーズ)、それによってチャネルごとの値を大きくする(エキサイテーション)。ResNetやInceptionと組み合わせて使うことができる。 ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun CVPR2018 top30 Megvii Inc (Face++) 1x1コンボリューションはチャネル間の計算量が大きい。そこで、チャネル方向にグループコンボリューションをして、シャッフルをする。ARMの計算コアのハードウェアでも、AlexNetと比較しほぼ同程度の性能で13倍早くなる。 Learning Transferable Architectures for Scalable Image Recognition Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le CVPR2018 top30 Google Brain ニューラルアーキテクチャーサーチ(NAS)は、子どもネットワークのアーキテクチャをRNNで探索し学習する。しかしこれだと時間がかかっていた。そこで、小さいデータセットで学習させてから転移するような方法を取る。Cifar10でやってからImagenetとか。ImageNetで、82.7%のトップ1エラーという最新の精度を出した。 KW: メタ学習 High-Resolution Image Synthesis and Semantic Manipulation With Conditional GANs Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, Bryan Catanzaro CVPR2018 top30 NVIDIA corp., UCB セマンティックマップから画像を生成する。車の動画で車や路面を選べる。すごい。ジェネレータは、残余ブロックを使ったもので、ダウンサンプリングしてからアップサンプリングする。知覚損失的に、識別器はさまざまなレベルで判別。損失関数も、さまざまなレベルでの知覚損失を使う。 StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo CVPR2018 top30 Korea U., Naver Image-to-Image翻訳が、2つのドメインを変換するので、ドメインがn個になるとn^2の変換が発生するのに対し、StarGANは、真ん中にひとつの生成器を置いて生成する。Celeb Aと、感情のRaFDをあわせて、Celeb Aの画像を笑わせたり怒らせたりできる。 Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics Alex Kendall, Yarin Gal, Roberto Cipolla CVPR2018 top30 U. Cambridge, U. Oxford 深さ推定、セマンティック/インスタンスセグメンテーションを同時に学習する。意味的な表現と幾何学的な表現の両方を学習する。Homoscedastic(等分散)な重み付けが効率的である。 COCO-Stuff: Thing and Stuff Classes in Context a CVPR2018 top30 Tips and Tricks for Visual Question Answering: Learnings From the 2017 Challenge a CVPR2018 top30 The Unreasonable Effectiveness of Deep Features as a Perceptual Metric Richard Zhang, Phillip Isola, Alexei Efros, Eli Shechtman, Oliver Wang CVPR2018 top30 UCB, OpenAI, Adobe Research 知覚損失が非常に有効であることについて、48万の人間の答えを分析して示している。特に、分類やセマンティックセグメンテーションなど、何かのタスクに強い特徴量は、ユークリッド距離が人間の判断と非常に近い。 Multi-Agent Diverse Generative Adversarial Networks Arnab Ghosh, Viveka Kulharia, Vinay Namboodiri, Philip H. S. Torr, Puneet K. Dokania CVPR2018 top30 U. Oxford MADGAN。モデル崩壊を割けるために、複数の生成器がデータを生成する。識別器は、サンプルがフェイクかリアルかだけでなく、生成器がフェイクかリアルかも見破る。すると、生成器の分布が元のデータの分布と似るようになる。 Improved Lossy Image Compression With Priming and Spatially Adaptive Bit Rates for Recurrent Networks a CVPR2018 top30 Non-Local Neural Networks Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He CVPR2018 top30 CMU, FAIR CNNは局所的な特徴量を使って、上の方で大域的な特徴量になるが、非効率である。ここでは、xと、他のすべての点とのペアに対する値の平均を取るような特徴量を提案する。いろいろなアーキテクチャに組み込むことができる。動画のデータセットで、最新かそれを上回る結果を出した。 Learning Convolutional Networks for Content-Weighted Image Compression a CVPR2018 top30 Deep Mutual Learning Ying Zhang, Tao Xiang, Timothy M. Hospedales, Huchuan Lu CVPR2018 top30 Dalian U. of Tech., China, Queen Mary U. of London, UK, U. of Edinburgh, UK 蒸留のように教師ネットワークが生徒ネットワークに教えるのではなく、生徒ネットワーク同士が教える。アンサンブルで確率値を作って、それを教師データにする。面白い。 Generate to Adapt: Aligning Domains Using Generative Adversarial Networks a CVPR2018 top30 AttnGAN: Fine-Grained Text to Image Generation With Attentional Generative Adversarial Networks a CVPR2018 top30 AVA: A Video Dataset of Spatio-Temporally Localized Atomic Visual Actions a CVPR2018 top30 Frustum PointNets for 3D Object Detection From RGB-D Data a CVPR2018 top30 CondenseNet: An Efficient DenseNet Using Learned Group Convolutions a CVPR2018 top30 VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection a CVPR2018 top30 Defense Against Adversarial Attacks Using High-Level Representation Guided Denoiser a CVPR2018 top30 PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume a CVPR2018 top30 Detecting and Recognizing Human-Object Interactions a CVPR2018 top30 Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge Damien Teney, Peter Anderson, Xiaodong He, Anton van den Hengel CVPR2018 University of Adelaide, オーストラリア, Deep Learning Technology Center, MSR, USA 2017年のVQAチャレンジで優勝したチーム。3000GPU時間でハイパラの探索をし、さまざまなコツを見つけ出したのでその紹介。シグモイド出力、ソフトな訓練ターゲット、ボトムアップなアテンションによる画像特徴量などなど。 ネットワークはかなり恣意的で、質問のほうはワードエンベッティングのあとGRU、画像のほうはCNNのあとアテンションで、それらを合わせて、画像的な観点からの答えとテキスト的な観点からの答えを出して、答えを出す。 MoCoGAN: Decomposing Motion and Content for Video Generation Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz CVPR2018 top30 Snap Research, NVIDIA コンテンツと動きに分けてモデル化。生成器は、RNNと画像生成器、識別器も2つあって、画像と動画それぞれを見分ける。 On the expressive efficiency of sum product networks. a 2014 On the expressive power of deep learning: A tensor analysis Nadav Cohen, Or Sharir, Amnon Shashua 2015 Flownet 2.0: Evolution of optical flow estimation with deep networks a CVPR, 2017 Spatio-temporal video autoencoder with differentiable memory. a ICLR, workshop, 2016. End-to-End Speech Recognition From the Raw Waveform Neil Zeghidour, Nicolas Usunier, Gabriel Synnaeve, Ronan Collobert, Emmanuel Dupoux Interspeech 2018 Practical network blocks design with q-learning 2017 a KW: メタ学習 Evolving deep neural networks Risto Miikkulainen, Jason Liang, Elliot Meyerson, Aditya Rawal, Dan Fink, Olivier Francon, Bala Raju, Hormoz Shahrzad, Arshak Navruzyan, Nigel Duffy, Babak Hodjat 2017 Sentient Tech, UT Austin Cifar10の構造を学習。交叉と突然変異。NEATというのをベース。ハイパーパラメータ(例えば、フィルターの数、Dropoutの率、モメンタム)などを定義している。 KW: メタ学習 Deeparchitect: Automatically designing and training deep architectures. 2017 a KW: メタ学習 Large-scale evolution of image classifiers Esteban Real, Sherry Moore, Andrew Selle, Saurabh Saxena, Yutaka Leon Suematsu, Jie Tan, Quoc V. Le, Alexey Kurakin 2017 Google Brain 進化的手法で、CIFAR-10のよい分類器の構造を見つける。ポピュレーションは1000で、精度が適合度、主に突然変異のみ。コンボリューション層を外すとかつけるとか、フィルターのサイズやストライドを変えるとか、スキップコネクションをつけるとか。とにかく力任せに計算量を投下したところがすごい。こういった研究のなかでは最もよい性能だが、そもそも何を遺伝子にエンコードするのかをかなり恣意的に決めているので、本当に新しいのは出ない。交叉(recombination)は少しだけ実験。 KW:メタ学習 Dual learning for machine translation a 2016 Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-Hsuan Yang, Erik Learned-Miller, Jan Kautz 2017 Nvidia 映像における画像の内挿。デモはすごい。Unetを使っている。フローを取り出す部分と、それをもとに内挿する部分の2つのネットワーク。240fpsの動画で訓練。 Meta-Gradient Reinforcement Learning a 2018 Adversarial examples are not easily detected: Bypassing ten detection methods a 2017 Feature squeezing: Detecting adversarial examples in deep neural networks. a 2017 Distillation as a defense to adversarial perturbations against deep neural networks a 2016 Defensive distillation is not robust to adversarial examples a 2016 Neural scene representation and rendering S. M. Ali Eslami, Danilo J. Rezende, Frederic Besse, Fabio Viola, Ari S. Morcos, Marta, Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka, Karol Gregor, David P. Reichert, Lars Buesing, Theophane Weber, Oriol Vinyals, Dan Rosenbaum, Neil Rabinowitz, Helen King, Chloe Hillier, Matt Botvinick, Daan Wierstra, Koray Kavukcuoglu, Demis Hassabis Science 2018 DeepMind 重要な論文。生成クエリーネットワーク(GQN)。異なる視点からのシーンで内部表現を作り(表現ネットワーク)、別の視点(クエリー視点)からの見え方を予測する(生成ネットワーク)。人間がラベル付けする必要なく、世界を学習する。CNN+LSTM(+スキップコネクション)によるモデル化のようだ。 How Does Batch Normalization Help Optimization? (No, It Is Not About Internal Covariate Shift) a 2018 Achieving Human Parity on Automatic Chinese to English News Translation a 2018 Microsoft AI&Research 翻訳で人間に匹敵するという論文。 NMTを基本にして、ソースからターゲット、ターゲットからソースへの双対性を使う。系列の生成のときにノイズが蓄積することを、Deliverationネットワークで2パスを使うって軽減。データの質を改善。複数のシステムを組み合わせる(これが結構効いている)。 これらによって、人間と比肩しうる(有意差がない)システムを達成。 Spectral Normalization for Generative Adversarial Networks Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida ICLR2018 固有値の大きさで正規化する。いくつかの正規化よりも良い。 AmbientGAN: Generative models from lossy measurements Ashish Bora, Eric Price, Alexandros Dimakis ICLR2018 Progressive Growing of GANs for Improved Quality, Stability, and Variation Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen ICLR2018 NVIDIA GANを訓練するときに、識別器と生成器を低解像度から徐々に前進的に訓練していく。 Wasserstein Auto-Encoders Ilya Tolstikhin, Olivier Bousquet, Sylvain Gelly, Bernhard Schoelkopf ICLR2018 Wasserstein距離を使った変分オートエンコーダ。式の一部だけが変わる。ぼやけなくなる。元に戻したときの期待値の分布が似るように。 On the Convergence of Adam and Beyond Sashank Reddi, Satyen Kale, Sanjiv Kumar ICLR2018 Google NY RMSprop, Adam Adadelta, Nadamなどは過去の勾配の2乗の指数移動平均のルートをとっている。しかし、収束しないことがあり、これは指数移動平均に起因する。過去の勾配に対する長期記憶を持てばよく、Adamアルゴリズムの新しいバリエーションを提案し、結果がよくなることを示す。 On the insufficiency of existing momentum schemes for Stochastic Optimization Rahul Kidambi, Praneeth Netrapalli, Prateek Jain, Sham M Kakade ICLR2018 Learning to Represent Programs with Graphs Miltiadis Allamanis, Marc Brockschmidt, Mahmoud Khademi ICLR2018 Neural Sketch Learning for Conditional Program Generation Vijayaraghavan Murali, Letao Qi, Swarat Chaudhuri, Chris Jermaine ICLR2018 Characterizing Adversarial Subspaces Using Local Intrinsic Dimensionality Xingjun Ma, Bo Li, Yisen Wang, Sarah Erfani, Sudanthi Wijewickrema, Grant Schoenebeck, dawn song, Michael E Houle, James Bailey ICLR2018 Certifying Some Distributional Robustness with Principled Adversarial Training Aman Sinha, Hong Namkoong, John Duchi ICLR2018 Boosting Dilated Convolutional Networks with Mixed Tensor Decompositions Nadav Cohen, Ronen Tamari, Amnon Shashua ICLR2018 Spherical CNNs Taco Cohen, Mario Geiger, Jonas Koehler, Max Welling ICLR2018 Zero-Shot Visual Imitation Deepak Pathak, Parsa Mahmoudieh, Guanghao Luo, Pulkit Agrawal, Dian Chen, Fred Shentu, Evan Shelhamer, Jitendra Malik, Alexei Efros, Trevor Darrell ICLR2018 UCB どうやるかは事前学習しておき、何をやるかだけを模倣する。ロープを操作する。 Multi-Scale Dense Networks for Resource Efficient Image Classification Gao Huang, Danlu Chen, Tianhong Li, Felix Wu, Laurens van der Maaten, Kilian Q Weinberger ICLR2018 Training and Inference with Integers in Deep Neural Networks Shuang Wu, Guoqi Li, Feng Chen, Luping Shi ICLR2018 Ask the Right Questions: Active Question Reformulation with Reinforcement Learning Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, Wei Wang. ICLR2018 Learning Deep Mean Field Games for Modeling Large Population Behavior Jiachen Yang, Xiaojing Ye, Rakshit Trivedi, huan xu, Hongyuan Zha ICLR2018 Georgia Institute of Tech, Georgia State U. 平均場ゲーム(複数のプレイヤーが場の平均値を気にして挙動する)が、マルコフ決定過程につながり、ベルマン方程式で解けることを示す。 Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines Cathy Wu, Aravind Rajeswaran, Yan Duan, Vikash Kumar, Alexandre M Bayen, Sham M Kakade, Igor Mordatch, Pieter Abbeel ICLR2018 UCB, Open AI 方策勾配は勾配推定のバリアンスが大きい。そこで、バリアンスを減らすための、バイアスのない、アクション依存のベースラインを提案する。ひとつのアクションを複数のファクターに分け、ファクターごとにベースラインを作る。 Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments Maruan Al-Shedivat, Trapit Bansal, Yuri Burda, Ilya Sutskever, Igor Mordatch, Pieter Abbeel ICLR2018 Synthetic and Natural Noise Both Break Neural Machine Translation Yonatan Belinkov, Yonatan Bisk ICLR2018 MIT, U. Washington 文字ベースのNMTは、語彙がなくなる問題を軽減するが、ノイズがあるデータに弱い。この論文では、合成あるいは自然なノイズを入れる。最新のモデルでは失敗するが、構造的な不変の語の表現と、頑健な訓練という2つの方法を取り入れて向上させる。 Beyond Word Importance: Contextual Decomposition to Extract Interactions from LSTMs William Murdoch, Peter J Liu, Bin Yu ICLR2018 Breaking the Softmax Bottleneck: A High-Rank RNN Language Model Zhilin Yang, Zihang Dai,, William W Cohen ICLR2018 Deep Complex Networks Chiheb Trabelsi, Olexa Bilaniuk, Ying Zhang, Dmitriy Serdyuk, Sandeep Subramanian, Joao Felipe Santos, Soroush Mehri, Negar Rostamzadeh, Yoshua Bengio, Christopher Pal ICLR2018 poster MILA, Ecole Polytechnique, MSR Montreal, Element AI 複素のNN。CNNNとLSTM。複素バッチ正規化、複素重み初期化。実数と同じくらい良い。MusicNetやTIMITで評価。音声系のタスクでは最新の成果。 Universal Agent for Disentangling Environments and Tasks Jiayuan Mao, Honghua Dong, Joseph J Lim ICLR2018 poster 清華大学、USC 現在の強化学習は、ひとつの特定のタスクのもとで訓練されている。しかし、環境が固定され、タスクが変わることもよくある。階層的強化学習のアイディアを借りて、タスクと環境の知識を2つのユニットに分けるようなフレームワークを提案する。 環境に特有の知識は、どの状態からどの状態に動くかで、タスク特有の知識は、次の状態を計画する。 Improving the Improved Training of Wasserstein GANs: A Consistency Term and Its Dual Effect Xiang Wei, Boqing Gong, Zixia Liu, Wei Lu, Liqiang Wang ICLR2018 poster Fraternal Dropout Konrad Zolna, Devansh Arpit, Dendi Suhubdy, Yoshua Bengio ICLR2018 poster Learning an Embedding Space for Transferable Robot Skills Karol Hausman, Jost Tobias Springenberg, ziyu wang, Nicolas Heess, Martin Riedmiller ICLR2018 poster Hierarchical Density Order Embeddings Praphruetpong Athiwaratkun, Andrew G Wilson ICLR2018 poster Model compression via distillation and quantization Antonio Polino, Razvan Pascanu, Dan Alistarh ICLR2018 poster Maximum a Posteriori Policy Optimisation abbas abdolmaleki, Jost Tobias Springenberg, Nicolas Heess, Yuval Tassa, Remi Munos ICLR2018 poster MaskGAN: Better Text Generation via Filling in the _______ William Fedus, Ian Goodfellow, Andrew Dai ICLR2018 poster Kronecker-factored Curvature Approximations for Recurrent Neural Networks James Martens, Jimmy Ba, Matthew Johnson ICLR2018 poster Scalable Private Learning with PATE Nicolas Papernot, Shuang Song, Ilya Mironov, Ananth Raghunathan, Kunal Talwar, Ulfar Erlingsson ICLR2018 poster Online Learning Rate Adaptation with Hypergradient Descent Atilim Gunes Baydin, Robert Cornish, David Martínez, Mark Schmidt, Frank Wood ICLR2018 poster Learning Awareness Models Brandon Amos, Laurent Dinh, Serkan Cabi, Thomas Rothörl, Sergio Gómez Colmenarejo, Alistair M Muldal, Tom Erez, Yuval Tassa, Nando d Freitas, Misha Denil ICLR2018 poster On the regularization of Wasserstein GANs Henning Petzka, Asja Fischer, Denis Lukovnikov ICLR2018 poster Spatially Transformed Adversarial Examples chaowei Xiao, Jun-Yan Zhu, Bo Li, Warren He, Mingyan Liu, dawn song ICLR2018 poster Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models Wieland Brendel, Jonas Rauber, ICLR2018 poster Communication Algorithms via Deep Learning Hyeji Kim, Yihan Jiang, Ranvir B Rana, Sreeram Kannan, Sewoong Oh, Pramod Viswanath ICLR2018 poster Towards Image Understanding from Deep Compression Without Decoding Róbert Torfason, Fabian Mentzer, Eirikur Agustsson, Michael Tschannen, Radu Timofte, Luc V Gool ICLR2018 poster Boosting the Actor with Dual Critic Bo Dai, Albert Shaw, Niao He, Lihong Li, Le Song ICLR2018 poster A DIRT-T Approach to Unsupervised Domain Adaptation Rui Shu, Hung H Bui, Hirokazu Narui, Stefano Ermon ICLR2018 poster LEARNING TO SHARE: SIMULTANEOUS PARAMETER TYING AND SPARSIFICATION IN DEEP LEARNING Dejiao Zhang, Haozhu Wang, Mario Figueiredo, Laura Balzano ICLR2018 poster Parameterized Hierarchical Procedures for Neural Programming Roy Fox, Richard Shin, Sanjay Krishnan, Ken Goldberg, dawn song, Ion Stoica ICLR2018 poster Auto-Encoding Sequential Monte Carlo Tuan Anh Le, Maximilian Igl, Tom Rainforth, Tom Jin, Frank Wood ICLR2018 poster Learn to Pay Attention Saumya Jetley, Nicholas Lord, Namhoon Lee, Philip Torr ICLR2018 poster The power of deeper networks for expressing natural functions David Rolnick, Max Tegmark ICLR2018 poster WHAI: Weibull Hybrid Autoencoding Inference for Deep Topic Modeling Hao Zhang, Bo Chen, Dandan Guo, Mingyuan Zhou ICLR2018 poster Divide and Conquer Networks Alex Nowak, David Folqué Garcia, Joan Bruna ICLR2018 poster Hierarchical Representations for Efficient Architecture Search Hanxiao Liu, Karen Simonyan, Oriol Vinyals, Chrisantha Fernando, Koray Kavukcuoglu ICLR2018 poster CMU, DeepMind 構造を進化計算により探索。候補の数を減らすために階層性を仮定。ImageNetのtop-1エラーで20.3%くらいと、多くの手動でのチューニングのアルゴリズムを上回る。 Beyond Shared Hierarchies: Deep Multitask Learning through Soft Layer Ordering Elliot Meyerson, Risto Miikkulainen ICLR2018 poster Towards Deep Learning Models Resistant to Adversarial Attacks Aleksander Madry, Aleksandar A Makelov, Ludwig Schmidt, Dimitris Tsipras, Adrian Vladu ICLR2018 poster MIT 敵対的な攻撃にロバストなモデルを学習する。 テストの最も強い敵対的攻撃に89%の精度。射影勾配効果(PGD)というのを、ユニバーサルな一次敵対として扱う。 Neural Speed Reading via Skim-RNN Minjoon Seo, Sewon Min, Ali Farhadi, Hannaneh Hajishirzi ICLR2018 poster TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning Gregory Farquhar, Tim Rocktaeschel, Maximilian Igl, Shimon Whiteson ICLR2018 poster Gradient Estimators for Implicit Models Yingzhen Li, Richard E Turner ICLR2018 poster Rethinking the Smaller-Norm-Less-Informative Assumption in Channel Pruning of Convolution Layers Jianbo Ye, Xin Lu, Zhe Lin, James Z Wang ICLR2018 poster When is a Convolutional Filter Easy to Learn? Simon S Du, Jason D Lee, Yuandong Tian ICLR2018 poster MGAN: Training Generative Adversarial Nets with Multiple Generators Quan Hoang, Tu D Nguyen, Trung Le, Dinh Phung ICLR2018 poster Improving GAN Training via Binarized Representation Entropy (BRE) Regularization Yanshuai Cao, Gavin Weiguang Ding, Yik Chau Lui, Ruitong Huang ICLR2018 poster Distributed Distributional Deterministic Policy Gradients Gabriel Barth-maron, Matthew Hoffman, David Budden, Will Dabney, Daniel Horgan, Dhruva Tirumala Bukkapatnam, Alistair M Muldal, Nicolas Heess, Timothy Lillicrap ICLR2018 poster Reinforcement Learning on Web Interfaces using Workflow-Guided Exploration Evan Z Liu, Kelvin Guu, Panupong Pasupat, Tim Shi, Percy Liang ICLR2018 poster Learning a Generative Model for Validity in Complex Discrete Structures David Janz, Jos van der Westhuizen, Brooks Paige, Matt J Kusner, José Miguel Hernández Lobato ICLR2018 poster TRUNCATED HORIZON POLICY SEARCH: COMBINING REINFORCEMENT LEARNING & IMITATION LEARNING Wen Sun, J. A Bagnell, Byron Boots ICLR2018 poster Flipout: Efficient Pseudo-Independent Weight Perturbations on Mini-Batches Yeming Wen, Paul Vicol, Jimmy Ba, Dustin Tran, Roger Grosse ICLR2018 poster Lifelong Learning with Dynamically Expandable Networks Jaehong Yoon, Eunho Yang, Jeongtae Lee, Sung Ju Hwang ICLR2018 poster Simulated+Unsupervised Learning With Adaptive Data Generation and Bidirectional Mappings Kangwook Lee, Hoon Kim, Changho Suh ICLR2018 poster Quantitatively Evaluating GANs With Divergences Proposed for Training Daniel Im, He Ma, Graham W Taylor, Kristin Branson ICLR2018 poster Attacking Binarized Neural Networks Angus Galloway, Graham W Taylor, Medhat Moussa ICLR2018 poster Go for a Walk and Arrive at the Answer: Reasoning Over Paths in Knowledge Bases using Reinforcement Learning Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer, Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum ICLR2018 poster Mixed Precision Training of Convolutional Neural Networks using Integer Operations Dipankar Das, Naveen Mellempudi, Dheevatsa Mudigere, Dhiraj Kalamkar, Sasikanth Avancha, Kunal Banerjee, Srinivas Sridharan, Karthik Vaidyanathan, Bharat Kaul, Evangelos Georganas, Alexander Heinecke, Pradeep K Dubey, Jesus Corbal, Nikita Shustrov, Roma Dubtsov, Evarist Fomenko, Vadim Pirogov ICLR2018 poster Imitation Learning from Visual Data with Multiple Intentions Aviv Tamar, Khashayar Rohanimanesh, Yinlam Chow, Chris Vigorito, Ben Goodrich, Michael Kahane, Derik Pridmore ICLR2018 poster Demystifying MMD GANs Mikolaj Binkowski, Dougal Sutherland, Michael Arbel, Arthur Gretton ICLR2018 poster Decision Boundary Analysis of Adversarial Examples Warren He, Bo Li, dawn song ICLR2018 poster Routing Networks: Adaptive Selection of Non-Linear Functions for Multi-Task Learning Clemens Rosenbaum, Tim Klinger, Matt Riemer ICLR2018 poster Compositional Attention Networks for Machine Reasoning Drew A. Hudson, Christopher D Manning ICLR2018 poster Memory-based Parameter Adaptation Pablo Sprechmann, Siddhant Jayakumar, Jack Rae, Alexander Pritzel, Adria P Badia, Benigno Uria, Oriol Vinyals, Demis Hassabis, Razvan Pascanu, Charles Blundell ICLR2018 poster Semi-parametric topological memory for navigation Nikolay Savinov, Alexey Dosovitskiy, Vladlen Koltun ICLR2018 poster Latent Constraints: Learning to Generate Conditionally from Unconditional Generative Models Jesse Engel, Matthew D Hoffman, Adam Roberts ICLR2018 poster Sensitivity and Generalization in Neural Networks: an Empirical Study Roman Novak, Yasaman Bahri, Daniel Abolafia, Jeffrey Pennington, Jascha Sohl-Dickstein ICLR2018 poster Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training Yujun Lin, song han,, Yu Wang, Bill Dally ICLR2018 poster Skip Connections Eliminate Singularities Emin Orhan, Xaq Pitkow ICLR2018 poster Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting Yaguang Li, Rose Yu, Cyrus Shahabi, Yan Liu ICLR2018 poster Simulating Action Dynamics with Neural Process Networks Antoine Bosselut, Omer Levy, Ari Holtzman, Corin Ennis, Dieter Fox, Yejin Choi ICLR2018 poster Deep Learning as a Mixed Convex-Combinatorial Optimization Problem Abram Friesen, Pedro Domingos ICLR2018 poster Multi-Mention Learning for Reading Comprehension with Neural Cascades Swabha Swayamdipta, Ankur Parikh, Tom Kwiatkowski ICLR2018 poster Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning Sandeep Subramanian, Adam Trischler, Yoshua Bengio, Christopher Pal ICLR2018 poster Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering Shuohang Wang, Mo Yu, Jing Jiang, Wei Zhang, Xiaoxiao Guo, Shiyu Chang, Zhiguo Wang, Tim Klinger, Gerald Tesauro, Murray Campbell ICLR2018 poster Predicting Floor-Level for 911 Calls with Neural Networks and Smartphone Sensor Data William A Falcon, Henning Schulzrinne ICLR2018 poster Deep Active Learning for Named Entity Recognition Yanyao Shen, Hyokun Yun, Zachary Lipton, Yakov Kronrod, anima anandkumar ICLR2018 poster Variational Network Quantization Jan Achterhold, Jan M Koehler, Anke Schmeink, Tim Genewein ICLR2018 poster Neural-Guided Deductive Search for Real-Time Program Synthesis from Examples Ashwin Vijayakumar, Abhishek Mohta, Alex Polozov, Dhruv Batra, Prateek Jain, Sumit Gulwani ICLR2018 poster Cascade Adversarial Machine Learning Regularized with a Unified Embedding Taesik Na, Jong Hwan Ko, Saibal Mukhopadhyay ICLR2018 poster Hierarchical Subtask Discovery with Non-Negative Matrix Factorization Adam Earle, Andrew Saxe, Benjamin Rosman ICLR2018 poster Dynamic Neural Program Embeddings for Program Repair Ke Wang, Rishabh Singh, Zhendong Su ICLR2018 poster Stochastic Activation Pruning for Robust Adversarial Defense Guneet S Dhillon, Kamyar Azizzadenesheli, Zachary Lipton, Jeremy Bernstein, Jean Kossaifi, Aran Khanna, anima anandkumar ICLR2018 poster Do GANs learn the distribution? Some Theory and Empirics Sanjeev Arora, Andrej Risteski, Yi Zhang ICLR2018 poster Learning Parametric Closed-Loop Policies for Markov Potential Games Sergio Valcarcel Macua, Javier Zazo, Santiago Zazo ICLR2018 poster Learning Approximate Inference Networks for Structured Prediction Lifu Tu, Kevin Gimpel ICLR2018 poster Fidelity-Weighted Learning Mostafa Dehghani, Arash Mehrjou, Stephan Gouws, Jaap Kamps, Bernhard Schoelkopf ICLR2018 poster HexaConv Emiel Hoogeboom, Jorn Peters, Taco Cohen, Max Welling ICLR2018 poster Generalizing Across Domains via Cross-Gradient Training Shiv Shankar, Vihari Piratla, Soumen Chakrabarti, Siddhartha Chaudhuri, Preethi Jyothi, Sunita Sarawagi ICLR2018 poster Understanding image motion with group representations Andrew Jaegle, Stephen Phillips, Daphne Ippolito, Kostas Daniilidis ICLR2018 poster Global Optimality Conditions for Deep Neural Networks Chulhee Yun, Suvrit Sra, Ali Jadbabaie ICLR2018 poster A PAC-Bayesian Approach to Spectrally-Normalized Margin Bounds for Neural Networks Behnam Neyshabur, Srinadh Bhojanapalli, Nathan Srebro ICLR2018 poster Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach Tsui-Wei Weng, Huan Zhang, Pin-Yu Chen, Jinfeng Yi, Dong Su, Yupeng Gao, Cho-Jui Hsieh, Luca Daniel ICLR2018 poster Sobolev GAN Youssef Mroueh, Chun-Liang Li, Tom Sercu, Anant Raj, Yu Cheng ICLR2018 poster Divide-and-Conquer Reinforcement Learning Dibya Ghosh, Avi Singh, Aravind Rajeswaran, Vikash Kumar, Sergey Levine ICLR2018 poster i-RevNet: Deep Invertible Networks Joern-Henrik Jacobsen, Arnold W Smeulders, Edouard Oyallon ICLR2018 poster Multi-View Data Generation Without View Supervision Mickael Chen, Ludovic Denoyer, thierry artieres ICLR2018 poster Action-dependent Control Variates for Policy Optimization via Stein Identity Hao Liu, Yihao Feng, Yi Mao, Dengyong Zhou, Jian Peng, ICLR2018 poster Model-Ensemble Trust-Region Policy Optimization Thanard Kurutach, Ignasi Clavera, Yan Duan, Aviv Tamar, Pieter Abbeel ICLR2018 poster Generating Wikipedia by Summarizing Long Sequences Peter J Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser, Noam Shazeer ICLR2018 poster Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection Bo Zong, Qi Song, Martin Min, Wei Cheng, Cristian Lumezanu, Daeki Cho, Haifeng Chen ICLR2018 poster NEC Lab. America, Washington Stete U. 異常検知のためのDAGMM。オートエンコーダによる圧縮ネットワークと、その表現を使った推定ネットワークの2つの部分から成る。推定ネットワークではガウス混合モデルで、低次元空間のサンプルのエネルギーを求める。KDDCUP(99年のもの。41属性、攻撃か普通か),Thyroid(甲状腺の病気), Arrhythmia(不整脈)などのデータセットで検証。 An efficient framework for learning sentence representations Lajanugen Logeswaran, Honglak Lee ICLR2018 poster Latent Space Oddity: on the Curvature of Deep Generative Models Georgios Arvanitidis, Lars K Hansen, Søren Hauberg ICLR2018 poster N2N learning: Network to Network Compression via Policy Gradient Reinforcement Learning Anubhav Ashok, Nicholas Rhinehart, Fares Beainy, Kris M Kitani ICLR2018 poster Variational Message Passing with Structured Inference Networks Wu Lin, Nicolas Daniel Hubacher, Mohammad Emtiyaz Khan ICLR2018 poster SCAN: Learning Hierarchical Compositional Visual Concepts Irina Higgins, Nicolas Sonnerat, Loic Matthey, Arka Pal, Christopher P Burgess, Matko Bošnjak, Murray Shanahan, Matthew Botvinick,, Alexander Lerchner ICLR2018 poster The Role of Minimal Complexity Functions in Unsupervised Learning of Semantic Mappings Tomer Galanti, Lior Wolf, Sagie Benaim ICLR2018 poster Learning Sparse Latent Representations with the Deep Copula Information Bottleneck Aleksander Wieczorek, Mario Wieser, Damian Murezzan, Volker Roth ICLR2018 poster Learning From Noisy Singly-labeled Data Ashish Khetan, Zachary Lipton, anima anandkumar ICLR2018 poster Gaussian Process Behaviour in Wide Deep Neural Networks Alexander Matthews, Jiri Hron, Mark Rowland, Richard E Turner, Zoubin Ghahramani ICLR2018 poster Critical Points of Linear Neural Networks: Analytical Forms and Landscape Properties Yi Zhou, Yingbin Liang ICLR2018 poster Wavelet Pooling for Convolutional Neural Networks Travis Williams, Robert Li ICLR2018 poster Learning Intrinsic Sparse Structures within Long Short-Term Memory Wei Wen, Yuxiong He, Samyam Rajbhandari, Minjia Zhang, Wenhan Wang, Fang Liu, Bin Hu, Yiran Chen, Hai Li ICLR2018 poster FearNet: Brain-Inspired Model for Incremental Learning Ronald Kemker, Christopher Kanan ICLR2018 poster Variational Inference of Disentangled Latent Concepts from Unlabeled Observations Abhishek Kumar, Prasanna Sattigeri, Avinash Balakrishnan ICLR2018 poster Meta-Learning for Semi-Supervised Few-Shot Classification Mengye Ren, Eleni Triantafillou, Sachin Ravi, Jake Snell, Kevin Swersky, Joshua B Tenenbaum, Hugo Larochelle, Richard Zemel ICLR2018 poster Deep Neural Networks as Gaussian Processes Jaehoon Lee, Yasaman Bahri, Roman Novak, Samuel S Schoenholz, Jeffrey Pennington, Jascha Sohl-Dickstein ICLR2018 poster Google Brain 単一レイヤーの全結合ネットワークは無限の幅があれば、ガウス過程とみなせることは知られている。対応するGPを評価することで、回帰のタスクにおける無限に幅の広いニューラルネットワークにおけるベイズ推論を可能にすることもできる。最近では、多層のランダムニューラルネットワークを模擬するカーネル関数が開発されたが、ベイズ推論の枠組みの外である。したがって従来研究は、これらのカーネルがGPの共分散関数として使え、DNNでの完全なベイズ予測ができることを示していない。 この研究では、無限に幅の広いディープネットワークとGPの厳密な等価性を示す。 Initialization matters: Orthogonal Predictive State Recurrent Neural Networks Krzysztof Choromanski, Carlton Downey, Byron Boots ICLR2018 poster Expressive power of recurrent neural networks Valentin Khrulkov, Alexander Novikov, Ivan Oseledets ICLR2018 poster Skolkovo Inst. of Science and Technology RNNの表現力について。深いモデルで表せるものを、浅いモデルだと指数的に大きくなる。DLの技術をテンソル分解に対応させて議論。CNNが階層的テンソル分解だったが、RNNはテンソルトレイン分解というのになる。 Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models Pouya Samangouei, Maya Kabkab, Rama Chellappa ICLR2018 poster Certified Defenses against Adversarial Examples Aditi Raghunathan, Jacob Steinhardt, Percy Liang ICLR2018 poster Semantic Interpolation in Implicit Models Yannic Kilcher, Aurelien Lucchi, Thomas Hofmann ICLR2018 poster Learning One-hidden-layer Neural Networks with Landscape Design Rong Ge, Jason Lee, Tengyu Ma ICLR2018 poster Thermometer Encoding: One Hot Way To Resist Adversarial Examples Jacob Buckman, Aurko Roy, Colin Raffel, Ian Goodfellow ICLR2018 poster Training GANs with Optimism Constantinos C Daskalakis, Andrew Ilyas, Vasilis Syrgkanis, Haoyang Zeng ICLR2018 poster Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Tianmin Shu, Caiming Xiong, Richard Socher ICLR2018 poster The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning Audrunas Gruslys, Will Dabney, Mohammad Gheshlaghi Azar, Bilal Piot, Marc G Bellemare, Remi Munos ICLR2018 poster Distributed Prioritized Experience Replay Daniel Horgan, John Quan, David Budden, Gabriel Barth-maron, Matteo Hessel, Hado van Hasselt, David Silver ICLR2018 poster Adversarial Dropout Regularization Kuniaki Saito, Yoshitaka Ushiku, Tatsuya Harada, Kate Saenko ICLR2018 poster Countering Adversarial Images using Input Transformations Chuan Guo, Mayank Rana, Moustapha Cisse, Laurens van der Maaten ICLR2018 poster Cornell U. FAIR 入力画像を変形して敵対的な変更を取り除く。イメージクロッピング、リスケーリング、ビットの深さ(ピクセルごとのビット)を浅くする、JPEG圧縮をする、分散を最小化するなど。これらを比較している。 Generating Natural Adversarial Examples Zhengli Zhao, Dheeru Dua, Sameer Singh ICLR2018 poster Smooth Loss Functions for Deep Top-k Classification Leonard Berrada, Andrew Zisserman, M. Pawan Kumar ICLR2018 poster Can Neural Networks Understand Logical Entailment? Richard Evans, David Saxton, David Amos, Pushmeet Kohli, Edward Grefenstette ICLR2018 poster DeepMind 論理的含意の新しいデータセットを提案する。含意の予測タスクにおいて、論理表現の構造を掴むことができるのかのモデルの能力を測る。PossibleWorldNetsという新しいモデルも提案(TreeNNを使う)。A, B, A→Bというデータセットで、AやBは命題論理の式。 Many Paths to Equilibrium: GANs Do Not Need to Decrease a Divergence At Every Step William Fedus, Mihaela Rosca, Balaji Lakshminarayanan, Andrew Dai, Shakir Mohamed, Ian Goodfellow ICLR2018 poster Learning Latent Permutations with Gumbel-Sinkhorn Networks gonzalo mena, David Belanger, Scott Linderman, Jasper Snoek ICLR2018 poster Can recurrent neural networks warp time? Corentin Tallec, Yann Ollivier ICLR2018 poster Learning Differentially Private Recurrent Language Models H. Brendan McMahan, Daniel Ramage, Kunal Talwar, Li Zhang ICLR2018 poster Deep Gaussian Embedding of Graphs: Unsupervised Inductive Learning via Ranking Aleksandar Bojchevski, Stephan Günnemann ICLR2018 poster SEARNN: Training RNNs with global-local losses Rémi Leblond, Jean-Baptiste Alayrac, Anton Osokin, Simon Lacoste-Julien ICLR2018 poster Learning to Teach Yang Fan, Fei Tian, Tao Qin, Tie-Yan Liu ICLR2018 poster U. Sci and Tech of China, MSR 教師エージェントが生徒エージェントに教えることを強化学習で学んでいく。データ、損失関数、仮説空間などを生徒モデルに指定する。(引用数は間違い) Active Learning for Convolutional Neural Networks: A Core-Set Approach Ozan Sener, Silvio Savarese ICLR2018 poster Sparse Persistent RNNs: Squeezing Large Recurrent Networks On-Chip Feiwen Zhu, Jeff Pool, Michael Andersch, Jeremy Appleyard, Fung Xie ICLR2018 poster WRPN: Wide Reduced-Precision Networks Asit Mishra, Eriko Nurvitadhi, Jeffrey J Cook, Debbie Marr ICLR2018 poster Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan Arik, Ajay Kannan, SHARAN NARANG, Jonathan Raiman, John Miller ICLR2018 poster Combining Symbolic Expressions and Black-box Function Evaluations in Neural Programs Forough Arabshahi, Sameer Singh, anima anandkumar ICLR2018 poster UC Irvine ニューラルプログラミングが複雑なタスクに対応できないのに対して、本論文では記号表記ツリーを用い、ツリーLSTMを適用する。 Debiasing Evidence Approximations: On Importance-weighted Autoencoders and Jackknife Variational Inference Sebastian Nowozin ICLR2018 poster Measuring the Intrinsic Dimension of Objective Landscapes Chunyuan Li, Heerad Farkhoor, Ruoqian Liu, Jason Yosinski ICLR2018 poster A Hierarchical Model for Device Placement Azalia Mirhoseini, Anna Goldie, Hieu Pham, Benoit Steiner, Quoc V Le, Jeff Dean ICLR2018 poster Synthesizing realistic neural population activity patterns using Generative Adversarial Networks Manuel Molano-Mazon, Arno Onken, Eugenio Piasini, Stefano Panzeri ICLR2018 poster FastGCN: Fast Learning with Graph Convolutional Networks via Importance Sampling Jie Chen, Tengfei Ma, Cao Xiao ICLR2018 poster Learning Robust Rewards with Adverserial Inverse Reinforcement Learning Justin Fu, Katie Luo, Sergey Levine ICLR2018 poster Boundary Seeking GANs R Devon Hjelm, Athul P Jacob, Adam Trischler, Tong Che, Kyunghyun Cho, Yoshua Bengio ICLR2018 poster GANITE: Estimation of Individualized Treatment Effects using Generative Adversarial Nets Jinsung Yoon, James Jordan, Mihaela v Schaar ICLR2018 poster Ensemble Adversarial Training: Attacks and Defenses Florian Tramer, Alexey Kurakin, Nicolas Papernot, Ian Goodfellow, Dan Boneh, Patrick McDaniel ICLR2018 poster Stanford, Google Brain, Penn State U. 敵対的な訓練のときに、ひとつのステップでデータに摂動が入れられるときには、悪い大域的最適値に収束してしまう。アンサンブルにした方法ではうまくいく。 CausalGAN: Learning Causal Implicit Generative Models with Adversarial Training Murat Kocaoglu, Christopher Snyder, Alexandros Dimakis, Sriram Vishwanath ICLR2018 poster Policy Optimization by Genetic Distillation Tanmay Gangwani, Jian Peng ICLR2018 poster PixelDefend: Leveraging Generative Models to Understand and Defend against Adversarial Examples Yang Song, Taesup Kim, Sebastian Nowozin, Stefano Ermon, Nate Kushman ICLR2018 poster Modular Continual Learning in a Unified Visual Environment Kevin Feigelis, Blue Sheffer, Daniel L Yamins ICLR2018 poster Trust-PCL: An Off-Policy Trust Region Method for Continuous Control Ofir Nachum, Mohammad Norouzi, Kelvin Xu, Dale Schuurmans ICLR2018 poster mixup: Beyond Empirical Risk Minimization Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, David Lopez-Paz ICLR2018 poster Few-shot Autoregressive Density Estimation: Towards Learning to Learn Distributions Scott Reed, Yutian Chen, Thomas Paine, Aaron v den, S. M. Ali Eslami, Danilo J Rezende, Oriol Vinyals, Nando d Freitas ICLR2018 poster Interpretable Counting for Visual Question Answering Alexander Trott, Caiming Xiong, ICLR2018 poster Improving the Universality and Learnability of Neural Programmer-Interpreters with Combinator Abstraction Da Xiao, Jo-Yu Liao, Xingyuan Yuan ICLR2018 poster Variational Continual Learning Viet Cuong Nguyen, Yingzhen Li, Thang Bui, Richard E Turner ICLR2018 poster Loss-aware Weight Quantization of Deep Networks LU HOU, James Kwok ICLR2018 poster Memory Architectures in Recurrent Neural Network Language Models Dani Yogatama, yishu miao, Gábor Melis, Wang Ling, Adhiguna Kuncoro, Chris Dyer, Phil Blunsom ICLR2018 poster Monotonic Chunkwise Attention Chung-Cheng Chiu, Colin Raffel ICLR2018 poster On the State of the Art of Evaluation in Neural Language Models Gábor Melis, Chris Dyer, Phil Blunsom ICLR2018 poster DeepMind ニューラル言語モデルでいろいろ提案されているが、ハイパーパラメータの条件をきちんと揃えれば、結局、普通のLSTMが一番いいという結論。再帰ハイウェイネットワーク、NAS(ニューラルアーキテクチャサーチ)とも比較しているが、LSTMがよい。Penn Treebank、Wikitext-2, Enwik8で実験。 Fix your classifier: the marginal value of training the last weight layer Elad Hoffer, Itay Hubara, Daniel Soudry ICLR2018 poster VoiceLoop: Voice Fitting and Synthesis via a Phonological Loop Yaniv Taigman, Lior Wolf, Adam Polyak, Eliya Nachmani ICLR2018 poster Learning Sparse Neural Networks through L_0 Regularization Christos Louizos, Max Welling, Diederik Kingma ICLR2018 poster A Scalable Laplace Approximation for Neural Networks Hippolyt Ritter, Aleksandar Botev, David Barber ICLR2018 poster Training Confidence-calibrated Classifiers for Detecting Out-of-Distribution Samples Kimin Lee, Honglak Lee, Kibok Lee, Jinwoo Shin ICLR2018 poster Identifying Analogies Across Domains Yedid Hoshen, Lior Wolf ICLR2018 poster On the importance of single directions for generalization Ari Morcos, David GT Barrett, Neil C Rabinowitz, Matthew Botvinick ICLR2018 poster Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Modeling Tao Shen, Tianyi Zhou, Guodong Long,, Chengqi Zhang ICLR2018 poster Alternating Multi-bit Quantization for Recurrent Neural Networks Chen Xu, Jianqiang Yao, Zhouchen Lin, Baigui Sun, Yuanbin Cao, Zhirong Wang, Hongbin Zha ICLR2018 poster SGD Learns Over-parameterized Networks that Provably Generalize on Linearly Separable Data Alon Brutzkus, Amir Globerson, Eran Malach, Shai Shalev-Shwartz ICLR2018 poster Few-Shot Learning with Graph Neural Networks Victor Garcia Satorras, Joan Bruna ICLR2018 poster Temporally Efficient Deep Learning with Spikes Peter OConnor, Efstratios Gavves, Matthias Reisser, Max Welling ICLR2018 poster Stochastic gradient descent performs variational inference, converges to limit cycles for deep networks Pratik A Chaudhari, Stefano Soatto ICLR2018 poster On Unifying Deep Generative Models Zhiting Hu,,, Eric P Xing ICLR2018 poster Neumann Optimizer: A Practical Optimization Algorithm for Deep Neural Networks Shankar Krishnan, Ying Xiao, Rif A. Saurous ICLR2018 poster Guide Actor-Critic for Continuous Control Voot Tangkaratt,, Masashi Sugiyama ICLR2018 poster TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning Artemij Amiranashvili, Alexey Dosovitskiy, Vladlen Koltun, Thomas Brox ICLR2018 poster Neural Map: Structured Memory for Deep Reinforcement Learning Emilio Parisotto, ICLR2018 poster Eigenoption Discovery through the Deep Successor Representation Marlos C. Machado, Clemens Rosenbaum, Xiaoxiao Guo, Miao Liu, Gerald Tesauro, Murray Campbell ICLR2018 poster Learning a neural response metric for retinal prosthesis Nishal Shah, Sasidhar Madugula, E.J. Chichilnisky, Yoram Singer, Jonathon Shlens ICLR2018 poster Self-ensembling for visual domain adaptation Geoff W French, Michal Mackiewicz, Mark Fisher ICLR2018 poster PixelNN: Example-based Image Synthesis Aayush Bansal, Yaser Sheikh, Deva Ramanan ICLR2018 poster Emergent Communication through Negotiation Kris Cao, Angeliki Lazaridou, Marc Lanctot, Joel Z Leibo, Karl Tuyls, Stephen Clark ICLR2018 poster Emergent Communication in a Multi-Modal, Multi-Step Referential Game Katrina Evtimova, Andrew Drozdov, Douwe Kiela, Kyunghyun Cho ICLR2018 poster Stabilizing Adversarial Nets with Prediction Methods Abhay Kumar Yadav, Sohil Shah, Zheng Xu, David Jacobs, Tom Goldstein ICLR2018 poster cGANs with Projection Discriminator Takeru Miyato, Masanori Koyama ICLR2018 poster Emergent Translation in Multi-Agent Communication Yunjae Lee, Kyunghyun Cho, Jason Weston, Douwe Kiela ICLR2018 poster Minimal-Entropy Correlation Alignment for Unsupervised Deep Domain Adaptation Pietro Morerio, Jacopo Cavazza, Vittorio Murino ICLR2018 poster An image representation based convolutional network for DNA classification Bojian Yin, Marleen Balvert, Davide Zambrano, Alexander Schoenhuth, Sander Bohte ICLR2018 poster Overcoming Catastrophic Interference using Conceptor-Aided Backpropagation Xu He, Herbert Jaeger ICLR2018 poster Deep Sensing: Active Sensing using Multi-directional Recurrent Neural Networks Jinsung Yoon, William R Zame, Mihaela v Schaar ICLR2018 poster Non-Autoregressive Neural Machine Translation Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK Li, ICLR2018 poster Compressing Word Embeddings via Deep Compositional Code Learning Raphael Shu, Hideki Nakayama ICLR2018 poster Emergence of grid-like representations by training recurrent neural networks to perform spatial localization Christopher Cueva, Xue-Xin Wei ICLR2018 poster FusionNet: Fusing via Fully-aware Attention with Application to Machine Comprehension Hsin-Yuan Huang, Chenguang Zhu,, Weizhu Chen ICLR2018 poster Depthwise Separable Convolutions for Neural Machine Translation Lukasz Kaiser, Aidan Gomez, Francois Chollet ICLR2018 poster Parallelizing Linear Recurrent Neural Nets Over Sequence Length Eric Martin, Christopher Cundy ICLR2018 poster Large scale distributed neural network training through online distillation Rohan Anil, Gabriel Pereyra, Alexandre Tachard Passos, Robert Ormandi, George Dahl, Geoffrey E Hinton ICLR2018 poster Viterbi-based Pruning for Sparse Matrix with Fixed and High Index Compression Ratio Dongsoo Lee, Daehyun Ahn, Taesu Kim, Pierce I Chuang, Jae-Joon Kim ICLR2018 poster DCN+: Mixed Objective And Deep Residual Coattention for Question Answering Caiming Xiong, richard socher, Victor Zhong ICLR2018 poster Enhancing The Reliability of Out-of-distribution Image Detection in Neural Networks R. Srikant, Shiyu Liang, Yixuan Li ICLR2018 poster Residual Connections Encourage Iterative Inference Stanislaw Jastrzebski, Devansh Arpit, Nicolas Ballas, Vikas Verma, Tong Che, Yoshua Bengio ICLR2018 poster Towards Synthesizing Complex Programs From Input-Output Examples Xinyun Chen, Chang Liu, dawn song ICLR2018 poster Don't Decay the Learning Rate, Increase the Batch Size Samuel Smith, Pieter-Jan Kindermans, Chris Ying, Quoc V Le ICLR2018 poster Google Brain バッチサイズを増やすことは学習率を落とすことと同様の効果がある。バッチサイズBと学習率εは比例する。また、バッチサイズBとモメンタム係数mから1を引いた値は反比例する。ImageNetのResNet-50を30分で学習した。 Minimax Curriculum Learning: Machine Teaching with Desirable Difficulties and Scheduled Diversity Tianyi Zhou, Jeff Bilmes ICLR2018 poster A Deep Reinforced Model for Abstractive Summarization Romain Paulus, Caiming Xiong, richard socher ICLR2018 poster Salesforce Research 抽象的な要約。すごい。要約には2種類あり文抽出と抽象的な要約。文中にない語を使う。DLを使った抽象的な要約自体は2016ごろから提案されているが、短い文をより短くするもの。この論文では、NY TImesのデータセットではじめてできた。 Unbiased Online Recurrent Optimization Corentin Tallec, Yann Ollivier ICLR2018 poster Kernel Implicit Variational Inference Jiaxin Shi, Shengyang Sun, Jun Zhu ICLR2018 poster Generative networks as inverse problems with Scattering transforms Tomas Angles, Stéphane Mallat ICLR2018 poster Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling Carlos Riquelme, George Tucker, Jasper Snoek ICLR2018 poster Large Scale Optimal Transport and Mapping Estimation Vivien Seguy, Bharath Bhushan Damodaran, Rémi Flamary, Nicolas Courty, Antoine Rolet, Mathieu Blondel ICLR2018 poster Backpropagation through the Void: Optimizing control variates for black-box gradient estimation Will Grathwohl, Dami Choi, Yuhuai Wu, Geoffrey Roeder, David Duvenaud ICLR2018 poster Activation Maximization Generative Adversarial Nets Zhiming Zhou, Han Cai, Shu Rong, Yuxuan Song, Kan Ren, Weinan Zhang, Jun Wang, Yong Yu ICLR2018 poster Parameter Space Noise for Exploration Matthias Plappert, Rein Houthooft, Prafulla Dhariwal, Szymon Sidor, Richard Chen, Xi Chen, Tamim Asfour, Pieter Abbeel, Marcin Andrychowicz ICLR2018 poster OpenAI, KIT, UCB 深層強化学習で探索的行動をするために、パラメータにノイズを入れることがある。進化的な計算ではこういうことをやるが、一回一回の試行が無駄になる。そこで、パラメータのノイズと方策オン/方策オフの強化学習(DQN, DDPG, TRPOなど)をうまく組み合わせる。 RESIDUAL LOSS PREDICTION: REINFORCEMENT LEARNING WITH NO INCREMENTAL FEEDBACK Hal Daumé III, John Langford, Paul Mineiro, Amr Mohamed Nabil Aly Aly Sharaf ICLR2018 poster Mitigating Adversarial Effects Through Randomization cihang xie, Jianyu Wang, Zhishuai Zhang, Zhou Ren, Alan Yuille ICLR2018 poster Understanding Short-Horizon Bias in Stochastic Meta-Optimization Yuhuai Wu, Mengye Ren, Renjie Liao, Roger Grosse ICLR2018 poster Towards Reverse-Engineering Black-Box Neural Networks Seong Joon Oh, Max Augustin, Mario Fritz, Bernt Schiele ICLR2018 poster The High-Dimensional Geometry of Binary Neural Networks Alexander Anderson, Cory P Berg ICLR2018 poster On the Discrimination-Generalization Tradeoff in GANs Pengchuan Zhang, Qiang Liu, Dengyong Zhou, Tao Xu, Xiaodong He ICLR2018 poster Learning Latent Representations in Neural Networks for Clustering through Pseudo Supervision and Graph-based Activity Regularization Ozsel Kilinc, Ismail Uysal ICLR2018 poster Coulomb GANs: Provably Optimal Nash Equilibria via Potential Fields Thomas Unterthiner, Bernhard Nessler, Calvin Seward, Günter Klambauer, Martin Heusel, Hubert Ramsauer, Sepp Hochreiter ICLR2018 poster Learning to Multi-Task by Active Sampling Sahil Sharma, Ashutosh Kumar Jha, Parikshit Hegde, Balaraman Ravindran ICLR2018 poster Learning from Between-class Examples for Deep Sound Recognition Yuji Tokozume, Yoshitaka Ushiku, Tatsuya Harada ICLR2018 poster Emergent Complexity via Multi-Agent Competition Trapit Bansal, Jakub Pachocki, Szymon Sidor, Ilya Sutskever, Igor Mordatch ICLR2018 poster DORA The Explorer: Directed Outreaching Reinforcement Action-Selection Lior Fox, Leshem Choshen, Yonatan Loewenstein ICLR2018 poster Polar Transformer Networks Carlos Esteves, Christine Allen-Blanchette, Xiaowei Zhou, Kostas Daniilidis ICLR2018 poster Compositional Obverter Communication Learning from Raw Visual Input Edward Choi, Angeliki Lazaridou, Nando d Freitas ICLR2018 poster Auto-Conditioned Recurrent Networks for Extended Complex Human Motion Synthesis Yi Zhou, Zimo Li, Shuangjiu Xiao, Chong He, Zeng Huang, Hao Li ICLR2018 poster Multi-Task Learning for Document Ranking and Query Suggestion Wasi Ahmad, Kai-Wei Chang, Hongning Wang ICLR2018 poster Adaptive Quantization of Neural Networks Soroosh Khoram, Jing Li ICLR2018 poster Interactive Grounded Language Acquisition and Generalization in a 2D World Haonan Yu, Haichao Zhang, Wei Xu ICLR2018 poster Hyperparameter optimization: a spectral approach Elad Hazan, Adam Klivans, Yang Yuan ICLR2018 poster Deep Learning with Logged Bandit Feedback Thorsten Joachims, Adith Swaminathan, Maarten de Rijke ICLR2018 poster Generalizing Hamiltonian Monte Carlo with Neural Networks Daniel Levy, Matthew D Hoffman, Jascha Sohl-Dickstein ICLR2018 poster Detecting Statistical Interactions from Neural Network Weights Michael Tsang, Dehua Cheng, Yan Liu ICLR2018 poster Robustness of Classifiers to Universal Perturbations: A Geometric Perspective Seyed Mohsen Moosavi Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal Frossard, ICLR2018 poster Adaptive Dropout with Rademacher Complexity Regularization Ke Zhai, Huan Wang ICLR2018 poster Mixed Precision Training Paulius Micikevicius, SHARAN NARANG, Jonah Alben, Gregory Diamos, Erich K Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu ICLR2018 poster SpectralNet: Spectral Clustering using Deep Neural Networks Uri Shaham, Kelly Stanton, Henry (Fangyi) Li, Ronen Basri, Boaz Nadler, Yuval Kluger ICLR2018 poster Deep Rewiring: Training very sparse deep networks Guillaume Bellec, David Kappel, Wolfgang Maass, Robert Legenstein ICLR2018 poster A Neural Representation of Sketch Drawings David Ha, Douglas Eck ICLR2018 poster Leveraging Grammar and Reinforcement Learning for Neural Program Synthesis Rudy Bunel, Matthew Hausknecht, Jacob Devlin, Rishabh Singh, Pushmeet Kohli ICLR2018 poster All-but-the-Top: Simple and Effective Postprocessing for Word Representations Jiaqi Mu, Pramod Viswanath ICLR2018 poster Graph Attention Networks Petar Veličković, Guillem Cucurull Preixens, Arantxa Casanova Paga, Adriana Romero, Pietro Liò, Yoshua Bengio ICLR2018 poster Towards better understanding of gradient-based attribution methods for Deep Neural Networks Marco Ancona, Enea Ceolini, Cengiz Öztireli, Markus Gross ICLR2018 poster Critical Percolation as a Framework to Analyze the Training of Deep Networks Zohar Ringel, Rodrigo Andrade de Bem ICLR2018 poster Learning to Count Objects in Natural Images for Visual Question Answering Yan Zhang, Jonathon Hare, Adam Prugel-Bennett ICLR2018 poster Variational image compression with a scale hyperprior Johannes Ballé, David Minnen, Saurabh Singh, Sung Jin Hwang, Nick Johnston ICLR2018 poster NerveNet: Learning Structured Policy with Graph Neural Networks Tingwu Wang, Renjie Liao, Jimmy Ba, Sanja Fidler ICLR2018 poster Proximal Backpropagation Thomas Frerix, Thomas Möllenhoff, Michael Moeller, Daniel Cremers ICLR2018 poster On the Expressive Power of Overlapping Architectures of Deep Learning Or Sharir, Amnon Shashua ICLR2018 poster The Implicit Bias of Gradient Descent on Separable Data Daniel Soudry, Elad Hoffer, Mor Shpigel Nacson, Nathan Srebro ICLR2018 poster Multi-level Residual Networks from Dynamical Systems View Bo Chang, Lili Meng, Eldad Haber, Frederick Tung, David Begert ICLR2018 poster TRAINING GENERATIVE ADVERSARIAL NETWORKS VIA PRIMAL-DUAL SUBGRADIENT METHODS: A LAGRANGIAN PERSPECTIVE ON GAN Xu Chen, Jiang Wang, Hao Ge ICLR2018 poster Implicit Causal Models for Genome-wide Association Studies Dustin Tran, David Blei ICLR2018 poster Unsupervised Cipher Cracking Using Discrete GANs Aidan Gomez, Sicong(Sheldon) Huang, Ivan Zhang, Bryan M Li, Muhammad Osama, Lukasz Kaiser ICLR2018 poster Semantically Decomposing the Latent Spaces of Generative Adversarial Networks Chris Donahue, Zachary Lipton, Akshay Balsubramani, Julian McAuley ICLR2018 poster Not-So-Random Features Brian Bullins, Cyril Zhang, Yi Zhang ICLR2018 poster A Bayesian Perspective on Generalization and Stochastic Gradient Descent Samuel Smith, Quoc V Le ICLR2018 poster Memorization Precedes Generation: Learning Unsupervised GANs with Memory Networks Youngjin Kim, Minjung Kim, Gunhee Kim ICLR2018 poster Reinforcement Learning Algorithm Selection Romain Laroche, Raphaël Féraud ICLR2018 poster MSR Maluuba, Orange Labs 強化学習のどの手法を使うかを選択するメタ学習。ESBAS(新確率バンディットアルゴリズム選択)。 Improving GANs Using Optimal Transport Tim Salimans, Han Zhang, Alec Radford, Dimitris Metaxas ICLR2018 poster Efficient Sparse-Winograd Convolutional Neural Networks Xingyu Liu, Jeff Pool, song han, Bill Dally ICLR2018 poster Progressive Reinforcement Learning with Distillation for Multi-Skilled Motion Control Glen Berseth, Cheng Xie, Paul Cernek, Michiel van de Panne ICLR2018 poster An Online Learning Approach to Generative Adversarial Networks Paulina Grnarova, Kfir Y Levy, Aurelien Lucchi, Thomas Hofmann, Andreas Krause ICLR2018 poster Espresso: Efficient Forward Propagation for Binary Deep Neural Networks Fabrizio Pedersoli, George Tzanetakis, Andrea Tagliasacchi ICLR2018 poster Learning Wasserstein Embeddings Nicolas Courty, Rémi Flamary, Mélanie Ducoffe ICLR2018 poster Towards Neural Phrase-based Machine Translation Po-Sen Huang, Chong Wang, Sitao Huang, Dengyong Zhou, Li Deng ICLR2018 poster Noisy Networks For Exploration Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Matteo Hessel, Ian Osband, Alex Graves, Volodymyr Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell, Shane Legg ICLR2018 poster Unsupervised Learning of Goal Spaces for Intrinsically Motivated Goal Exploration Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer ICLR2018 poster Deep Learning and Quantum Entanglement: Fundamental Connections with Implications to Network Design Yoav Levine, David Yakira, Nadav Cohen, Amnon Shashua ICLR2018 poster Training wide residual networks for deployment using a single bit for each weight Mark D. McDonnell ICLR2018 poster Skip RNN: Learning to Skip State Updates in Recurrent Neural Networks Víctor Campos, Brendan Jou, Xavier Giro-i-Nieto, Jordi Torres, Shih-Fu Chang ICLR2018 poster Recasting Gradient-Based Meta-Learning as Hierarchical Bayes Erin Grant, Chelsea Finn, Sergey Levine, Trevor Darrell, Thomas L Griffiths ICLR2018 poster Learning Discrete Weights Using the Local Reparameterization Trick Oran Shayer, Dan Levi, Ethan Fetaya ICLR2018 poster Regularizing and Optimizing LSTM Language Models Stephen Merity, Nitish Shirish Keskar, richard socher ICLR2018 poster Active Neural Localization Devendra Singh Chaplot, Emilio Parisotto, ICLR2018 poster Memory Augmented Control Networks Arbaaz Khan, Clark Zhang, Nikolay Atanasov, Konstantinos Karydis, Vijay Kumar, Daniel D Lee ICLR2018 poster Learning how to explain neural networks: PatternNet and PatternAttribution Pieter-Jan Kindermans, Kristof T Schütt, Maximilian Alber, Klaus R Muller, Dumitru Erhan, Been Kim, Sven Dähne ICLR2018 poster A New Method of Region Embedding for Text Classification Chao Qiao, Bo Huang, Guocheng Niu, daren li, daxiang dong, wei he, Dianhai Yu, hua wu ICLR2018 poster Distributed Fine-tuning of Language Models on Private Data Vadim Popov, Mikhail Kudinov, Irina Piontkovskaya, Petr Vytovtov, Alex Nevidomsky ICLR2018 poster Automatically Inferring Data Quality for Spatiotemporal Forecasting Sungyong Seo, Arash Mohegh, George Ban-Weiss, Yan Liu ICLR2018 poster Empirical Risk Landscape Analysis for Understanding Deep Neural Networks Pan Zhou, Jiashi Feng, Pan Zhou ICLR2018 poster Decoupling the Layers in Residual Networks Ricky Fok, Aijun An, Zana Rashidi, Xiaogang Wang ICLR2018 poster Learning to cluster in order to transfer across domains and tasks Yen-Chang Hsu, Zhaoyang Lv, Zsolt Kira ICLR2018 poster Natural Language Inference over Interaction Space Yichen Gong, Heng Luo, Jian Zhang ICLR2018 poster Consequentialist conditional cooperation in social dilemmas with imperfect information Alex Peysakhovich, Adam Lerer ICLR2018 poster Synthesizing the preferred inputs for neurons in neural networks via deep generator networks Anh Nguyen, Alexey Dosovitskiy, Jason Yosinski, Thomas Brox, Jeff Clune 2016 Improving zero-shot transfer in reinforcement learning a 2017 Using simulation and domain adaptation to improve efficiency of deep robotic grasping Konstantinos Bousmalis, Alex Irpan, Paul Wohlhart, Yunfei Bai, Matthew Kelcey, Mrinal Kalakrishnan, Laura Downs, Julian Ibarz, Peter Pastor, Kurt Konolige, Sergey Levine, Vincent Vanhoucke 2017 Google Brain Grasp GAN。シミュレーションをうまく活用している。実際の画像と合成したものを区別できないようにするGANを作り、そのデータを把持の判定のCNNに入れている。 On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and RNN World Models Jurgen Schmidhuber 2015 The Swiss AI Lab SchmidhuberさんのRNNを使った世界モデルのコンセプトペーパーのような大作。 Composable Deep Reinforcement Learning for Robotic Manipulation Tuomas Haarnoja, Vitchyr Pong, Aurick Zhou, Murtaza Dalal, Pieter Abbeel, Sergey Levine 2018 UCB ソフトQ学習を使って、最大エントロピーの方策を学習し、マニュピレーション用のロボットに適用。簡単なタスクを組み合わせる構成性(compositionality)もあり。 World Models David Ha, Jürgen Schmidhuber 2018 INDSIA まさにという感じ。VAEで次元を圧縮して、VAEでモデル化。その上で簡単なコントローラーで強化学習。車のゲームで従来よりも良い。また、夢モードで学習して、それを実際にもっていくようなことも。(引用数は間違い) Learning Contact-Rich Manipulation Skills with Guided Policy Search a 2015 High-Dimensional Continuous Control Using Generalized Advantage Estimation a 2015 Infinite-horizon policy-gradient estimation: temporally decomposed policy gradient a 2001 Reinforcement learning of motor skills with policy gradients a 2008 Simple statistical gradient-following algorithms for connectionist reinforcement learning Ronald J. Williams 1992 Northeastern U. REINFORCEの提案。 From virtual demonstration to real-world manipulation using LSTM and MDN Rouhollah Rahmatizadeh, Pooya Abolghasemi, Aman Behal, Ladislau Bölöni 2016, AAAI2018 U. Central Florida シミュレータ上で模倣学習をしてそれを実ロボットに転移させる。持ち上げて置く、動かすの2つのタスク。 A Machine Learning Approach to Visual Perception of Forest Trails for Mobile Robots Alessandro Giusti, Jérôme Guzzi, Dan C. Ciresan, Fang-Lin He, Juan P. Rodríguez, Flavio Fontana, Matthias Faessler, Christian Forster, Jürgen Schmidhuber, Gianni Di Caro, Davide Scaramuzza, Luca M. Gambardella IEEE Robotics and Automation, 2015 IDSIA Learning Transferable Policies for Monocular Reactive MAV Control Shreyansh Daftry, J. Andrew Bagnell, Martial Hebert 2016 Unsupervised learning models of primary cortical receptive fields and receptive field plasticity a 2011 DLと脳の関係のようだ。 Reinforcement learning in the brain a 2009 Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm Qiang Liu, Dilin Wang 2016 Matrix Capsules with EM Routing Geoffrey Hinton, Sara Sabour, Nicholas Frosst ICLR 2018 Google Brain ひとつのカプセルは、4x4のポーズ行列Mと、活性確率αをもっている。あるレイヤーのカプセルiと、次のレイヤーのカプセルjは、4x4の変換行列W_ijでつながれる。M_i W_ijがカプセルjへの投票になる。 SmallNORBデータセットでCNNよりも良い性能。 On Unifying Deep Generative Mmodels Zhiting Hu, Zichao Yang, Ruslan Salakhutdinov, Eric P. Xing ICLR 2018 CMU GANとVAEは両方とも、事後確率と逆方向の推論分布のKLダイバージェンスを最小化しており、wake-sleepアルゴリズムの2つのフェーズの拡張であることを示す。 Deep Reinforcement Learning using Capsules in Advanced Game Environments PER-ARNE ANDERSEN 修論, 2018 Agder大 カプセルネットワークを使ったDQN。あまりうまくいかないようだ。普通のCNNを使ったDQNのほうがスコアが高い。(カプセル論文でもデータセットと処理の仕方を相当工夫しているようだったからそうなのだろう。) Lip Reading Sentences in the Wild a 2016 DeepMind Synthesizing Obama: Learning Lip Sync from Audio SUPASORN SUWAJANAKORN, STEVEN M. SEITZ, and IRA KEMELMACHER-SHLIZERMAN, University 2017 Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio 2014 On the Properties of Neural Machine Translation: Encoder-Decoder Approaches Kyunghyun Cho, Bart van Merrienboer, Dzmitry Bahdanau, Yoshua Bengio 2014 DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, Bernt Schiele 2015 DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, Bernt Schiele 2016 WIDER FACE: A Face Detection Benchmark Shuo Yang, Ping Luo, Chen Change Loy, Xiaoou Tang 2015 Joint Training of Cascaded CNN for Face Detection H. Qin 2016 Face detection with the faster r-cnn Huaizu Jiang, Erik Learned-Miller 2016 Face Detection with End-to-End Integration of a ConvNet and a 3D Model Yunzhu Li, Benyuan Sun, Tianfu Wu, Yizhou Wang 2016 Beyond Short Snippets: Deep Networks for Video Classification Joe Yue-Hei Ng, Matthew Hausknecht, Sudheendra Vijayanarasimhan, Oriol Vinyals, Rajat Monga, George Toderici 2015 YouTube-8M: A Large-Scale Video Classification Benchmark Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Paul Natsev, George Toderici, Balakrishnan Varadarajan, Sudheendra Vijayanarasimhan 2016 Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Joao Carreira, Andrew Zisserman 2017 A Review on Deep Learning Techniques Applied to Semantic Segmentation Alberto Garcia-Garcia, Sergio Orts-Escolano, Sergiu Oprea, Victor Villena-Martinez, Jose Garcia-Rodriguez 2017 Rethinking Atrous Convolution for Semantic Image Segmentation Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam 2017 Large Kernel Matters Chao Peng, Xiangyu Zhang, Gang Yu, Guiming Luo, Jian Sun 2017 Pyramid Scene Parsing Network Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia 2016 RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation Guosheng Lin, Anton Milan, Chunhua Shen, Ian Reid 2016 Feature Pyramid Networks for Object Detection Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie 2017 Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks Sean Bell, C. Lawrence Zitnick, Kavita Bala, Ross Girshick CVPR 2016 Learning to Refine Object Segments Pedro O. Pinheiro, Tsung-Yi LinRonan CollobertPiotr Dollár ECCV 2016 Multidimensional recurrent neural networks Alex Graves, Santiago Fernandez, Juergen Schmidhuber 2007 Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks Yu-Hsin Chen, Tushar Krishna, Joel S. Emer, Vivienne Sze 2017 MIT CNN用のアクセラレータ。168の処理エレメントにrow stationary (RS)というデータフロー処理をのっけている。 The Neural Autoregressive Distribution Estimator Hugo Larochelle, Iain Murray AISTATS 2011 Neural Variational Inference and Learning in Belief Networks A. Mnih et al. 2014 Learning representations for automatic colorization G. Larsson et al. 2016 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa SIGGRAPH 2016 Waseda U. 写真の色つけ。特徴量からアップサンプリングで最後にもとの画像と重ねる。 Improved Training of Wasserstein GANs Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, Aaron Courville 2017 Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros 2016 UCB conditional GANを使って、一方の画像を条件として他方の画像を生成する。 BEGAN: Boundary Equilibrium Generative Adversarial Networks David Berthelot, Thomas Schumm, Luke Metz 2017 Google Data-efficient Deep Reinforcement Learning for Dexterous Manipulation Ivaylo Popov, Nicolas Heess, Timothy Lillicrap, Roland Hafner, Gabriel Barth-Maron, Matej Vecerik, Thomas Lampe, Yuval Tassa, Tom Erez, Martin Riedmiller DeepMind 2017 シミュレータ上でのマニピュレーション。レゴブロックを積む。DDPGだが2つの拡張。 Deep Q-learning from Demonstrations Todd Hester, Matej Vecerik, Olivier Pietquin, Marc Lanctot, Tom Schaul, Bilal Piot, Dan Horgan, John Quan, Andrew Sendonaris, Gabriel Dulac-Arnold, Ian Osband, John Agapiou, Joel Z. Leibo, Audrunas Gruslys 2017 DeepMind A Deep Hierarchical Approach to Lifelong Learning in Minecraft Chen Tessler, Shahar Givony, Tom Zahavy, Daniel J. Mankowitz, Shie Mannor AAAI-17 Technion Israel Institute of Technology, Israel Emergence of Locomotion Behaviours in Rich Environments Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne, Yuval Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver 2017 DeepMind Gated-Attention Architectures for Task-Oriented Language Grounding Devendra Singh Chaplot, Kanthashree Mysore Sathyendra, Rama Kumar Pasumarthi, Dheeraj Rajagopal, Ruslan Salakhutdinov 2017 DeepMind Analyzing Achievable Stiffness Control Bounds of Robotic Hands with Compliantly Coupled Finger Joints P. Rao et al. ICRA 2017 ICRA2017 best paper award in robot manipulation Optimal Control with Learned Local Models: Application to Dexterous Manipulation Vikash Kumar, Emanuel Todorov, Sergey Levine ICRA 2016 ICRA2016 best paper award in robot manipulation Learning Contact-Rich Manipulation Skills with Guided Policy Search Sergey Levine, Nolan Wagener, Pieter Abbeel ICRA 2015 ICRA2015 best paper award in robot manipulation Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics Ken Kansky, Tom Silver, David A. Mély, Mohamed Eldawy, Miguel Lázaro-Gredilla, Xinghua Lou, Nimrod Dorfman, Szymon Sidor, Scott Phoenix, Dileep George 2017 Learning model-based planning from scratch Razvan Pascanu, Yujia Li, Oriol Vinyals, Nicolas Heess, Lars Buesing, Sebastien Racanière, David Reichert, Théophane Weber, Daan Wierstra, Peter Battaglia 2017 DeepMind End-to-End Dexterous Manipulation with Deliberate Interactive Estimation Nicolas Hudson et al. ICRA 2012 Real-Time Grasp Detection Using Convolutional Neural Networks Joseph Redmon, Anelia Angelova ICRA 2015 Leveraging big data for grasp planning Daniel Kappler, Jeannette Bohg, Stefan Schaal 2015 DLで把持できるかどうかを判定。ロジスティック回帰より良い。 Data-Driven Grasp Synthesis - A Survey Joannette Bohg, Antonio Morales, Tamin Asfour, Danica Kragic IEEE Trans. on Robotics, 2014 Tubingen, U. Jaume I Castello, KIT, KTH 把持のサーベイ。 Neural Fitted Q Iteration - First Experiences with a Data Efficient Neural Reinforcement Learning Method Martin Riedmiller 2005 全サンプルを使ってQの関数近似をNNで行う。 End-to-end memory networks Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus 2015 Pixel-Level Domain Transfer Donggeun Yoo, Namil Kim, Sunggyun Park, Anthony S. Paek, In So Kweon 2016 Generating images with recurrent adversarial networks Daniel Jiwoong Im, Chris Dongjoo Kim, Hui Jiang, Roland Memisevic 2016 Visualizing and Understanding Recurrent Networks Andrej Karpathy, Justin Johnson, Li Fei-Fei 2015 Stanford Convolution by Evolution -- Differentiable Pattern Producing Networks Chrisantha Fernando, Dylan Banarse, Malcolm Reynolds, Frederic Besse, David Pfau, Max Jaderberg, Marc Lanctot, Daan Wierstra 2016 DeepMind CNNの構造を進化的計算で。ラマルク的な獲得形質が遺伝という設定。 Grounded Language Learning in a Simulated 3D World Karl Moritz Hermann, Felix Hill, Simon Green, Fumin Wang, Ryan Faulkner, Hubert Soyer, David Szepesvari, Wojciech Marian Czarnecki, Max Jaderberg, Denis Teplyashin, Marcus Wainwright, Chris Apps, Demis Hassabis and Phil Blunsom† 2017 Fashion Forward: Forecasting Visual Style in Fashion Ziad Al-Halah, Rainer Stiefelhagen, Kristen Grauman 2017 カールスルエ、UT Austin ファッションの流行を予測。AlexNetのようなCNNを使う。Amazonで6年間に売れた8万のファッション商品に対して、適用。 A Generative Model of People in Clothing Christoph Lassner, Gerard Pons-Moll, Peter V. Gehler 2017 BCCN, Tubingen, U. Wuzburg シルエットに服を着せる。VAEを使ったモデル。Chictopa 10Kデータセット。 Exploring the limits of language modeling Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu 2016 Google Brain キャラクターCNNとLSTMをあわせたモデル。出力はソフトマックス。One Billion WOrd Benchmardで学習。 Recurrent Recommender Networks Chao-Yuan Wu, et al. WSDM 2017 Network Dissection: Quantifying Interpretability of Deep Visual Representations David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, and Antonio Torralba 2017 MIT Realtime Multi­person Pose Estimation Zhe Cao, Shih­En Wei, Tomas Simon, and Yaser Sheikh ECCV2016 Best demo award Real-Time 3D Reconstruction and 6-DoF Tracking with an Event Camera Hanme Kim, Stefan Leutenegger, and Andrew J. Davison ECCV2016 Best paper Deep Neural Decision Forests Peter Kontschieder, Madalina Fiterau, Antonio Criminisi, and Samual Rota Bulo ICCV2015 Marr Prize Paper Holistically-Nested Edge Detection Saining Xie and Zhuowen Tu, ICCV2015 Marr Prize Honorable Mention Focal Loss for Dense Object Detection Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár ICCV2017 Best student award Open Set Domain Adaptation Pau Panareda Busto, Juergen Gall ICCV2017 Marr Prize Honorable Mention。 First-Person Activity Forecasting with Online Inverse Reinforcement Learning Nicholas Rhinehart, Kris M. Kitani ICCV2017 Marr Prize Honorable Mention。 Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Correspondence Dylan Campbell, Lars Petersson, Laurent Kneip, Hongdong Li ICCV2017 Marr Prize Honorable Mention。 The kinetics human action video dataset Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, Andrew Zisserman 2017 Adversarial examples in the physical world A Kurakin, I Goodfellow, S Bengio 2016 The PASCAL Visual Object Classes Challenge: A Retrospective Mark Everingham, S. M. Ali Eslami, Luc Van Gool, Christopher K. I. Williams, John Winn, Andrew Zisserma 2015 Understanding the difficulty of training deep feedforward neural networks Xavier Glorot Yoshua Bengio 2010 U. Montreal 引用回数の多い重要論文。なぜ深いニューラルネットワークの訓練が難しいのか。Sharpsetという独自の簡単なデータセット(円や三角形が2つあり少しの重なりは許容するもの)を使って実験し、挙動を観察している。 ひとつめは、出力に最も近い層のユニットは、学習の初期に平均化し、0で飽和してしまい、勾配が後ろの層に伝わらないという問題がある。(初期値をうまく設定した場合にはそうならない。)6層とかであれば、100エポック後とかに急に飽和から抜け出す。(がもっと多い層だともっと遅いということになる。) ふたつめは、活性化関数としてシグモイド関数を使った場合は、出力に近い側から入力層に近づくにつれ、ユニットの活性値が0の周辺に偏りはじめる。正規化をした場合にはこの限りではない。 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun 2014 A Bayesian Perspective on Generalization and Stochastic Gradient Descent Samuel L. Smith, Quoc V. Le 2017 Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes Lei Wu, Zhanxing Zhu, Weinan E 2017 Princeton, TTI Chicago, FAIR ユニットごとの容量に基づく新しい複雑さの指標を提案する。これはテストエラーがネットワークの容量が大きくなったときに下がっていく現象ともよく相関する。 Generalization in Deep Learning Kenji Kawaguchi, Leslie Pack Kaelbling, Yoshua Bengio MIT, U. Montreal 2017 Conditional generative adversarial nets Mehdi Mirza, Simon Osindero 2014 Deep learning and cultural evolution Y. Bengio 2014 The Consciousness Prior Yoshua Bengio 2017 U. Montreal 意識プライアーの提案。脳全体をRNNと考えると高次元のhを予測するような低次元のcを考える。c_t-1がhtとマッチするようなプライアーを入れると良いのではないか。このことが言語と関係している。 Independently controllable features Emmanuel Bengio, Valentin Thomas, Joelle Pineau, Doina Precup, Yoshua Bengio 2017 Deep Learning for Computational Chemistry Garrett B. Goh, Nathan O. Hodas, Abhinav Vishnu 2017 Automatic Differentiation Variational Inference Alp Kucukelbir, Dustin Tran, Rajesh Ranganath, Andrew Gelman, David M. Blei 2016 Depth Creates No Bad Local Minima Haihao Lu, Kenji Kawaguchi 2017 Deep Nets Don't Learn via Memorization David Krueger, Nicolas Ballas, Stanislaw Jastrzebski, Devansh Arpit, Maxinder S. Kanwal, Tegan Maharaj, Emmanuel Bengio, Asja Fischer, Aaron Courville 2017 Train faster, generalize better: Stability of stochastic gradient descent Moritz Hardt, Benjamin Recht, Yoram Singer 2015 Google SGDが安定性を上げていることを示す。 Theory of Deep Learning III: explaining the non-overfitting puzzle Tomaso Poggio, Kenji Kawaguchi, Qianli Liao, Brando Miranda, Lorenzo Rosasco, Xavier Boix, Jack Hidary, Hrushikesh Mhaskar 2017 Theory II: Landscape of the Empirical Risk in Deep Learning Qianli Liao, Tomaso Poggio 2017 The Landscape of Empirical Risk for Non-convex Losses Song Mei, Yu Bai, Andrea Montanari 2016 Stanford Shallow vs. Deep Sum-Product Networks Olivier Delalleau and Yoshua Bengio 2011 U. Montreal 関数を表すのに浅いネットワークは深いネットワークよりも指数オーダでたくさんのノードが必要。 和積ネットワークというのを使う。 The Power of Depth for Feedforward Neural Networks Ronen Eldan, Ohad Shamir 2016 Benefits of depth in neural networks Matus Telgarsky 2016 On the Expressive Power of Deep Learning: A Tensor Analysis Nadav Cohen, Or Sharir, Amnon Shashua 2016 Why and When Can Deep – but Not Shallow – Networks Avoid the Curse of Dimensionality: a Review Tomaso Poggio, Hrushikesh Mhaskar, Lorenzo Rosasco, Brando Miranda1 Qianli Liao 2017 Gradient-based learning applied to document recognition Y LeCun, L Bottou, Y Bengio, P Haffner Proceedings of the IEEE, 1998 Rectified linear units improve restricted boltzmann machines Vinod Nair, Geoffrey E. Hinton 2010 U. Toronto ReLUは、同じ重み、バイアスのバイナリユニットがN個コピーされていると見ることができる。ノイズの入ったノイジーReLUがバイナリよりも良いことを示している。 Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks? Eriko Nurvitadhi, Ganesh Venkatesh, Jaewoong Sim, Debbie Marr, Randy Huang, Jason Ong Gee Hock, Yeong Tat Liew, Krishnan Srivatsan, Duncan Moss, Suchit Subhaschandra, Guy Boudoukh 2017 Ternary Weight Networks Fengfu Li, Bo Zhang, Bin Liu 2016 DoReFa-Net: Training Low Bitwidth Convolutional Neural Networks with Low Bitwidth Gradients Shuchang Zhou, Yuxin Wu, Zekun Ni, Xinyu Zhou, He Wen, Yuheng Zou 2016 Megvii Inc. 中国のFace++の会社。重み、活性値だけでなく、勾配も離散化する。それにあわせたCPU/FPGA/ASIC/GPUがあれば、効率的に学習できるかも。 Quantized Convolutional Neural Networks for Mobile Devices Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, Jian Cheng 2015 中国科学院 Hardware-oriented approximation of convolutional neural networks Philipp Gysel, Mohammad Motamedi, Soheil Ghiasi 2016 UC Davis Systematic evaluation of CNN advances on the ImageNet Dmytro Mishkin, Nikolay Sergievskiy, Jiri Matas 2016 In-Datacenter Performance Analysis of a Tensor Processing Unit Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson, Gaurav Agrawal, Raminder Bajwa, Sarah Bates, Suresh Bhatia, Nan Boden, Al Borchers, Rick Boyle, Pierre-luc Cantin, Clifford Chao, Chris Clark, Jeremy Coriell, Mike Daley, Matt Dau, Jeffrey Dean, Ben Gelb, Tara Vazir Ghaemmaghami, Rajendra Gottipati, William Gulland, Robert Hagmann, C. Richard Ho, Doug Hogberg, John Hu, Robert Hundt, Dan Hurt, Julian Ibarz, Aaron Jaffey, Alek Jaworski, Alexander Kaplan, Harshit Khaitan, Andy Koch, Naveen Kumar, Steve Lacy, James Laudon, James Law, Diemthu Le, Chris Leary, Zhuyuan Liu, Kyle Lucke, Alan Lundin, Gordon MacKean, Adriana Maggiore, Maire Mahony, Kieran Miller, Rahul Nagarajan, Ravi Narayanaswami, Ray Ni, Kathy Nix, Thomas Norrie, Mark Omernick, Narayana Penukonda, Andy Phelps, Jonathan Ross ISCA2017 Google TPU論文 Backpropagation for energy-efficient neuromorphic computing Steve K. Esser, Rathinakumar Appuswamy, Paul Merolla, John V. Arthur, Dharmendra S. Modha NIPS2015 Stanford, NVIDIA Expectation Backpropagation: Parameter-Free Training of Multilayer Neural Networks with Continuous or Discrete Weights Daniel Soudry, Itay Hubara, Ron Meir NIPS2014 Training deep neural networks with low precision multiplications Matthieu Courbariaux, Yoshua Bengio, Jean-Pierre David 2014 Compressing deep convolutional networks using vector quantization Yunchao Gong, Liu Liu, Ming Yang, Lubomir Bourdev 2014 Deep Learning Face Attributes in the Wild Ziwei Liu, Ping Luo, Xiaogang Wang, Xiaoou Tang ICCV 2015 Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics M. Hodosh, P. Young and J. Hockenmaier JAIR 2013 The Conditional Analogy GAN: Swapping Fashion Articles on People Images Nikolay Jetchev, Urs Bergmann 2017 Rectifier Nonlinearities Improve Neural Network A.L. Maas, A.Y. Hannun, A.Y. Ng ICML2013 DESIRE: Distant Future Prediction in Dynamic Scenes with Interacting Agents Namhoon Lee, Wongun Choi, Paul Vernaza, Christopher B. Choy, Philip H. S. Torr, Manmohan Chandraker CVPR2017 Learning to reason: End-to-end module networks for visual question answering Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko 2017 To Fall Or Not To Fall: A Visual Approach to Physical Stability Prediction Wenbin Li, Seyedmajid Azimi, Aleš Leonardis, Mario Fritz 2016 Semi-Supervised Learning with Context-Conditional Generative Adversarial Networks Emily Denton, Sam Gross, Rob Fergus 2016, Learning Visual Reasoning Without Strong Priors Ethan Perez, Harm de Vries, Florian Strub, Vincent Dumoulin, Aaron Courville 2017 CLEVRで現時点の最高精度。 Newtonian Image Understanding: Unfolding the Dynamics of Objects in Static Images Roozbeh Mottaghi, Hessam Bagherinezhad, Mohammad Rastegari, Ali Farhadi 2015 How to Grow a Mind: Statistics, Structure, and Abstraction Joshua B. Tenenbaum, Charles Kemp, Thomas L. Griffiths, Noah D. Goodman Science 2011 Understanding image representations by measuring their equivariance and equivalence. K. Lenc and A. Vedaldi. CVPR, 2015. Transfer from Simulation to Real World through Learning Deep Inverse Dynamics Model Paul Christiano, Zain Shah, Igor Mordatch, Jonas Schneider, Trevor Blackwell, Joshua Tobin, Pieter Abbeel, Wojciech Zaremba 2016 The Arcade Learning Environment: An Evaluation Platform for General Agents Marc G. Bellemare, Yavar Naddaf, Joel Veness, Michael Bowling 2012, IJCAI2015 Learning Features by Watching Objects Move Deepak Pathak, Ross Girshick, Piotr Dollár, Trevor Darrell, Bharath Hariharan 2016, CVPR2017 見るだけで物体の部分の動きとかを学習する。 Image-based localization using LSTMs for structured feature correlation F. Walch, C. Hazirbas, L. Leal-Taixe, T. Sattler, S. Hilsenbeck, D. Cremers 2017 Deepvo: Towards end-to-end visual odometry with deep recurrent convolutional neural networks Wang, Sen & Clark, Ronald & Wen, Hongkai & Trigoni, Niki. ICRA2017 視覚的な走行距離計測。 Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age Cesar Cadena, Luca Carlone, Henry Carrillo, Yasir Latif, Davide Scaramuzza, José Neira, Ian Reid, John J. Leonard 2016 Posenet: A convolutional network for real-time 6-dof camera relocalization Alex Kendall, Matthew Grimes, Roberto Cipolla 2015 Modelling uncertainty in deep learning for camera relocalization Alex Kendall, Roberto Cipolla Learning to Fly by Crashing Dhiraj Gandhi, Lerrel Pinto, Abhinav Gupta 2017 UAVのシミュレーションによるクラッシュデータベース。 Cross-Domain Self-supervised Multi-task Feature Learning using Synthetic Imagery Zhongzheng Ren, Yong Jae Lee 2017 深さとは表面とか輪郭とかを全部まとめて学習。 Rainbow: Combining Improvements in Deep Reinforcement Learning Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver 2017 ATARIの手法をいろいろ比較。6つの拡張を入れることで大きく良くなっている。 ViZDoom: A Doom-based AI research platform for visual reinforcement learning Michał Kempka, Marek Wydmuch, Grzegorz Runc, Jakub Toczek, Wojciech Jaśkowski 2016 Playing FPS games with deep reinforcement learning Guillaume Lample, Devendra Singh Chaplot 2016 CASSL: Curriculum Accelerated Self-Supervised Learning Adithyavairavan Murali, Lerrel Pinto, Dhiraj Gandhi, Abhinav Gupta 2017 GPLAC: Generalizing Vision-Based Robotic Skills using Weakly Labeled Images Avi Singh, Larry Yang, Sergey Levine 2017 From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots Mark Pfeiffer, Michael Schaeuble, Juan Nieto, Roland Siegwart and Cesar Cadena 2016 Hindsight experience replay Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba 2017 重要そう。 Vision-Based Multi-Task Manipulation for Inexpensive Robots Using End-To-End Learning from Demonstration Rouhollah Rahmatizadeh, Pooya Abolghasemi, Ladislau Boloni, Sergey Levine 2017 これはすごい。簡単なロボットが複数のタスクを学習。GANを使っている。 HyperFace: A Deep Multi-task Learning Framework for Face Detection, Landmark Localization, Pose Estimation, and Gender Recognition Rajeev Ranjan, Vishal M. Patel, Rama Chellappa 2016 DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille 2016 Designing deep networks for surface normal estimation Xiaolong Wang, David F. Fouhey, Abhinav Gupta 2014 2d-to-3d image conversion by learning depth from examples Janusz Konrad, Meng Wang, Prakash Ishwar 2012 Temporal Generative Adversarial Nets with Singular Value Clipping Masaki Saito, Eiichi Matsumoto, Shunta Saito ICCV 2017 PFN GANを使った動画の未来のフレーム予測。TGAN。 Learning Temporal Transformations From Time-Lapse Videos Yipin Zhou, Tamara L. Berg ECCV2016 GANを使って未来の予測。花が枯れるとかバナナが腐るとか。 Generating the Future with Adversarial Transformers Carl Vondrick and Antonio Torralba CVPR 2017 MIT An uncertain future: Forecasting from static images using variational autoencoders Jacob Walker, Carl Doersch, Abhinav Gupta, Martial Hebert 2016 Se3-nets: Learning rigid body motion using deep neural networks Arunkumar Byravan, Dieter Fox ICRA 2017 Winograd Schema Challenge H. J. Levesque 2012 Neural module networks Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein 2015 Visual Turing test for computer vision systems Geman, Donald; Geman, Stuart; Hallonquist, Neil; Younes, Laurent PNAS 2015 Learning to Compose Neural Networks for Question Answering Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein 2016 Visual7W: Grounded Question Answering in Images Yuke Zhu, Oliver Groth, Michael Bernstein, Li Fei-Fei 2015 Visual madlibs: Fill in the blank image generation and question answering Licheng Yu, Eunbyung Park, Alexander C. Berg, Tamara L. Berg 2015 Generative image modeling using spatial LSTMs Lucas Theis, Matthias Bethge 2015 Generative image modeling using style and structure adversarial networks Xiaolong Wang, Abhinav Gupta ECCV2016 Plug & play generative networks: Conditional iterative generation of images in latent space Anh Nguyen, Jeff Clune, Yoshua Bengio, Alexey Dosovitskiy, Jason Yosinski CVPR 2017 つなぎかえてエネルギー関数を設計するだけでうまく画像の生成ができるようなモデル。NguyenらのDGN-AM(Deep Generator Network-based Activation Maximization)を発展させたもの。 Conditional generative adversarial nets for convolutional face generation Jon Gauthier 2015 Learning deep representations for fine-grained visual descriptions. Scott Reed, Zeynep Akata, Bernt Schiele, Honglak Lee 2016 The PASCAL visual object classes (VOC) challenge Mark Everingham, Luc Van Gool, Christopher K. I. Williams, John Winn, Andrew Zisserman 2010 Skip-Thought Vectors Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler 2015 Deep Feature Flow for Video Recognition Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, Yichen Wei 2017 ILSVRC2017 VIDで優勝。 ImageNet: A large-scale hierarchical image database Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li and Li Fei-Fei CVPR 2009 Face detection, pose estimation, and landmark localization in the wild X Zhu, D Ramanan CVPR2012 UC Irvine Before DLの方法。mixture of treeの手法。 FREAK: Fast Retina Keypoint A Alahi, R Ortiz, P Vandergheynst CVPR2012 Multi-column deep neural networks for image classification D Ciregan, U Meier, J Schmidhuber CVPR2012 IDSIA 複数のDNNの平均を取る方法。それまでのMNISTの記録を更新した。 Are we ready for autonomous driving? The KITTI vision benchmark suite A Geiger, P Lenz, R Urtasun CVPR2012 Online Object Tracking: A Benchmark Y Wu, J Lim, MH Yang CVPR2013 UC Merced, Hanyang U. 物体トラッキングのさまざまな手法を比較している。ただ、DL以前の手法。 Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures Raffaella Bernardi, Ruket Cakici, Desmond Elliott, Aykut Erdem, Erkut Erdem, Nazli Ikizler-Cinbis, Frank Keller, Adrian Muscat, Barbara Plank 2016 キャプション生成を、文生成するもの、検索するもの、マルチモーダル検索するものの3つのグループに分けてサーベイ。(この分類いいの?)いずれもNNベースのものと古典的なものの両方を紹介。 A Dataset for Movie Description Anna Rohrbach, Marcus Rohrbach, Niket Tandon, Bernt Schiele 2015 Visual Storytelling Ting-Hao (Kenneth) Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, Lucy Vanderwende, Michel Galley, Margaret Mitchell 2016 Microsoft MSR-VTT: A Large Video Description Dataset for Bridging Video and Language Jun Xu, Tao Mei, Ting Yao, Yong Rui CVPR 2016 Microsoft A multi-world approach to question answering about real-world scenes based on uncertain input Mateusz Malinowski, Mario Fritz 2014 Ask, attend and answer: Exploring question-guided spatial attention for visual question answering H Xu, K Saenko ECCV2016 Salient object detection: A benchmark A Borji, MM Cheng, H Jiang, J Li IEEE Trans. on Image Processing 2015 ECCV 2012 物体検出とセグメンテーションを、40個の最新のモデルで6つのデータセットに対して行った。 Ask your neurons: A neural-based approach to answering questions about images M Malinowski, M Rohrbach, M Fritz ICCV2015 Are you talking to a machine? dataset and methods for multilingual image question Haoyuan Gao, Junhua Mao, Jie Zhou, Zhiheng Huang, Lei Wang, Wei Xu NIPS2015 Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Fei-Fei Li 2016 Microsoft COCO: Common Objects in Context 2014 Deep speech: Scaling up end-to-end speech recognition Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Y. Ng 2014 Baidu Research RNNとCTCで学習。複数のGPUを使う。スペクトログラムを入力にして文字を返す。CTCロスを最小化。後で言語モデルを使って正しい系列を推測。Switchbord Hub5'00で、16%のエラー。 Aligning books and movies: Towards story-like visual explanations by watching movies and reading books Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler ICCV2015 U. Toront, MIT 本と映画をつなげるデータセット Attribute2image: Conditional image generation from visual attributes a 2016 A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation a 2016 Multimodal compact bilinear pooling for visual question answering and visual grounding Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, Marcus Rohrbach 2016 VQAのReal Imageチャレンジで優勝 Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models IV Serban, A Sordoni, Y Bengio, AC Courville, J Pineau AAAI2016 Chainer: a next-generation open source framework for deep learning S Tokui, K Oono, S Hido, J Clayton 2015 Densecap: Fully convolutional localization networks for dense captioning Justin Johnson, Andrej Karpathy, Li Fei-Fei CVPR 2016 Flownet: Learning optical flow with convolutional networks a CVPR2015 Escaping from saddle points—online stochastic gradient for tensor decomposition a JMLR 2015 Gradient descent only converges to minimizers JD Lee, M Simchowitz, MI Jordan, B Recht JMLR 2016 Return of the devil in the details: Delving deep into convolutional nets Ken Chatfield, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman 2014 Oxford 画像特徴量について網羅的に調べた論文 The devil is in the details: an evaluation of recent feature encoding methods(2011)に対して、CNN系の評価を行ったもの。データ拡張による精度の増加や、最終層でSVMをするなど。 Understanding neural networks through deep visualization Jason Yosinski, Jeff Clune, Anh Nguyen, Thomas Fuchs, Hod Lipson 2015 Learning to compare image patches via convolutional neural networks a CVPR2015 Understanding Deep Image Representations by Inverting Them Aravindh Mahendran, Andrea Vedaldi CVPR 2015 Deepfool: a simple and accurate method to fool deep neural networks a CVPR2016 The limitations of deep learning in adversarial settings a Security and Privacy 2016 Multi-scale orderless pooling of deep convolutional activation features Yunchao GongLiwei WangRuiqi GuoSvetlana Lazebnik ECCV 2014 Fitnets: Hints for thin deep nets Adriana Romero, Nicolas Ballas, Samira Ebrahimi Kahou, Antoine Chassang, Carlo Gatta, Yoshua Bengio 2014 Learning both weights and connections for efficient neural network Song Han, Jeff Pool, John Tran, William J. Dally NIPS2015 Xnor-net: Imagenet classification using binary convolutional neural networks a ECCV2016 Saliency detection by multi-context deep learning a 2015 Learning fine-grained image similarity with deep ranking a 2014 Identifying and attacking the saddle point problem in high-dimensional non-convex optimization Yann N. Dauphin, Razvan Pascanu, Caglar Gulcehre, Kyunghyun Cho, Surya Ganguli, Yoshua Bengio NIPS2014 鞍点の問題に対応するために2次の最適化である、鞍点のないニュートン法を使う。 Joint training of a convolutional network and a graphical model for human pose estimation Jonathan J. Tompson, Arjun Jain, Yann LeCun, Christoph Bregler NIPS 2014 Deep learning of representations: Looking forward Y. Bengio SLSP 2013 Deepreid: Deep filter pairing neural network for person re-identification a 2014 Explaining and harnessing adversarial examples Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy 2014 FaceNet: A Unified Embedding for Face Recognition and Clustering Florian Schroff, Dmitry Kalenichenko, James Philbin CVPR2015 Weakly-supervised disentangling with recurrent transformations for 3d view synthesis Jimei Yang, Scott E. Reed, Ming-Hsuan Yang, Honglak Lee NIPS2015 UC Merced, U. Michigan いすとか顔の回転など。 Convolutional two-stream network fusion for video action recognition Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman CVPR 2016 Learning to see by moving a ICCV 2015 Unsupervised learning of visual representations using videos Nitish Srivastava, Elman Mansimov, Ruslan Salakhutdinov ICCV2015 U. Toronto LSTMで未来のフレームから学習し、正しい未来のフレームをランキング学習で学習。得られた素性を、物体検出や表面正常推定などに使えることを示す。 Sequence to sequence-video to text Subhashini Venugopalan, Marcus Rohrbach, Jeffrey Donahue, Raymond Mooney, Trevor Darrell, Kate Saenko ICCV2015 Describing videos by exploiting temporal structure Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, Aaron Courville ICCV 2015 Learning spatiotemporal features with 3d convolutional networks Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri ICCV2015 FAIR Segnet: A deep convolutional encoder-decoder architecture for image segmentation Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla 2015 Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture David Eigen, Rob Fergus ICCV2015 Video Frame Synthesis using Deep Voxel Flow Ziwei Liu, Raymond A. Yeh, Xiaoou Tang, Yiming Liu, Aseem Agarwala 2017 Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks Tianfan Xue, Jiajun Wu, Katherine Bouman, Bill Freeman NIPS2016 Began: Boundary equilibrium generative adversarial networks a 2017 Autoencoding beyond pixels using a learned similarity metric Anders Boesen Lindbo Larsen, Søren Kaae Sønderby, Hugo Larochelle, Ole Winther 2015 Tech. U. Denmark, U. Copenhagen, Twitter Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros 2017 UCB Cycle GAN。しまうまをウマに。昼を夜に。 Deep Learning of Visual Control Policies S. Lange and M. Riedmiller, ESANN, 2010 Universal Value Function Approximators T. Schaul, D. Horgan, K. Gregor, and D. Silver ICML, 2015 Language Understanding for Text-based Games Using Deep Reinforcement Learning K. Narasimhan, T. Kulkarni, and R. Barzilay, EMNLP, 2015 Deep Recurrent Q-Learning for Partially Observable MDPs M. Hausknecht and P. Stone 2015 UT Austin DQNの最終層にLSTMを加えたもの。DRQN。部分観測な環境でスコアの減り方がゆるやか。 Giraffe: Using Deep Reinforcement Learning to Play Chess M. Lai arXiv. 2015 Towards Vision-Based Deep Reinforcement Learning for Robotic Motion Control F. Zhang, J. Leitner, M. Milford, B. Upcroft, and P. Corke, ACRA, 2015 Increasing the Action Gap: New Operators for Reinforcement Learning M. G. Bellemare, G. Ostrovski, A. Guez, P. S. Thomas, and R. Munos AAAI, 2016 Learning to Communicate to Solve Riddles with Deep Distributed Recurrent Q-Networks J. N. Foerster, Y. M. Assael, N. de Freitas, and S. Whiteson arXiv, 2016 Deep Reinforcement Learning from Self-Play in Imperfect-Information Games J. Heinrich and D. Silver 2016 Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation T. D. Kulkarni, K. R. Narasimhan, A. Saeedi, and J. B. Tenenbaum arXiv, 2016 MIT Deep Successor Reinforcement Learning T. D. Kulkarni, A. Saeedi, S. Gautam, and S. J. Gershman 2016 MIT, Harvard Compatible Value Gradients for Reinforcement Learning of Continuous Deep Policies D. Balduzzi and M. Ghifary arXiv, 2015 N. Heess, G. Wayne, D. Silver, T. Lillicrap, Y. Tassa, and T. Erez Learning Continuous Control Policies by Stochastic Value Gradients NIPS, 2015 On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models J. Schmidhuber arXiv, 2015 Active Object Localization with Deep Reinforcement Learning J. C. Caicedo and S. Lazebnik ICCV, 2015 Using Deep Q-Learning to Control Optimization Hyperparameters S. Hansen arXiv, 2016 Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning S. Mohamed and D. J. Rezende arXiv, 2015 State of the Art Control of Atari Games Using Shallow Reinforcement Learning Y. Liang, M. C. Machado, E. Talvitie, and M. Bowling arXiv, 2015 Measuring Invariances in Deep Networks Ian Goodfellow, Quoc Le, Andrew Saxe, Andrew Ng NIPS2009 Learning to segment object candidates Pinheiro, P.O., Collobert, R., Dollar, P. 2015 DeepMaskらしい。 Instance-aware semantic segmentation via multi-task network cascades Dai, J., He, K., Sun, J. CVPR. 2016 Instance-sensitive Fully Convolutional Networks Dai, J., He, K., Sun, J. 2016 Inceptionism: Going Deeper into Neural Networks Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike 2015 Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks Champandard, Alex J. 2016 Colorful Image Colorization Zhang, Richard, Phillip Isola, and Alexei A. Efros 2016 Perceptual losses for real-time style transfer and super-resolution Johnson, Justin, Alexandre Alahi, and Li Fei-Fei 2016 Stanford U. ピクセルごとではなく高レベルの特徴量で損失関数を定義。 A learned representation for artistic style Vincent Dumoulin, Jonathon Shlens and Manjunath Kudlur 2016, ICLR2017 Controlling Perceptual Factors in Neural Style Transfer Gatys, Leon and Ecker, et al. 2016 Texture Networks: Feed-forward Synthesis of Textures and Stylized Images Ulyanov, Dmitry and Lebedev, Vadim, et al. 2016 Evolving large-scale neural networks for vision-based reinforcement learning. Jan Koutník Giuseppe Cuccu Jürgen Schmidhuber Faustino Gomez Proceedings of the 15th annual conference on Genetic and evolutionary computation. ACM, 2013. IDSIA ドライビングゲームをRNNで解くようなものでセンスいい。 Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours Pinto, Lerrel, and Abhinav Gupta. 2015 CMU ロボットの把持。 Learning to Push by Grasping: Using multiple tasks for effective learning Lerrel Pinto and Abhinav Gupta 2016 CMU 把持と押すで2500例ずつのほうが、把持だけで5000例よりも、把持のパフォーマンスで上回る。マルチタスクのほうが良いという論文。 Collective Robot Reinforcement Learning with Distributed Asynchronous Guided Policy Search Yahya, Ali, et al. 2016 Deep Reinforcement Learning for Robotic Manipulation Gu, Shixiang, et al. 2016 Addressing the rare word problem in neural machine translation Luong, Minh-Thang, et al. 2014 Neural Machine Translation of Rare Words with Subword Units Sennrich, et al. 2015 Effective approaches to attention-based neural machine translation Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. 2015 A Character-Level Decoder without Explicit Segmentation for Neural Machine Translation Chung, et al. 2016 Fully Character-Level Neural Machine Translation without Explicit Segmentation Lee, et al. 2016 Learning a recurrent visual representation for image caption generation Chen, Xinlei, and C. Lawrence Zitnick 2014 Transferring rich feature hierarchies for robust visual tracking Wang, Naiyan, et al. 2015 Visual tracking with fully convolutional networks Wang, Lijun, et al. Proceedings of the IEEE International Conference on Computer Vision. 2015 Learning to Track at 100 FPS with Deep Regression Networks Held, David, Sebastian Thrun, and Silvio Savarese 2016 Fully-Convolutional Siamese Networks for Object Tracking Bertinetto, Luca, et al. 2016 Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking Martin Danelljan, Andreas Robinson, Fahad Khan, Michael Felsberg ECCV 2016 Modeling and Propagating CNNs in a Tree Structure for Visual Tracking Nam, Hyeonseob, Mooyeol Baek, and Bohyung Han 2016 VOT2016 winner R-FCN: Object Detection via Region-based Fully Convolutional Networks Dai, Jifeng, et al. 2016 Very Deep Convolutional Networks for Natural Language Processing Alexis Conneau, et al. 2016 Bag of Tricks for Efficient Text Classification Armand Joulin, et al. 2016 Siamese Neural Networks for One-shot Image Recognition Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov 2015 One-shot Learning with Memory-Augmented Neural Networks Santoro, Adam, et al. 2016 Low-shot visual object recognition Hariharan, Bharath, and Ross Girshick. 2016 Lifelong Machine Learning Systems: Beyond Learning Algorithms Silver, Daniel L., Qiang Yang, and Lianghao Li. AAAI Spring Symposium: Lifelong Machine Learning. 2013 Reinforcement learning neural Turing machines Zaremba, Wojciech, and Ilya Sutskever 2015 Network Morphism Wei, Tao, et al. 2016 Achieving Human Parity in Conversational Speech Recognition W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig 2016 Fast and accurate recurrent neural network acoustic models for speech recognition Sak, Haşim, et al. 2015 Towards End-To-End Speech Recognition with Recurrent Neural Networks Graves, Alex, and Navdeep Jaitly ICML 2014 Google DeepMind, U. Toronto LSTMとCTCを使った音声認識。スペクトログラムが入力で、できるだけ多くの部分をRNNで置き換えようとしている。 Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks Ying Zhang, Mohammad Pezeshki, Philemon Brakel, Saizheng Zhang, Cesar Laurent Yoshua Bengio, Aaron Courville 2017 Reducing the dimensionality of data with neural networks Hinton, Geoffrey E., and Ruslan R. Salakhutdinov Science 2006 U. Toronto RBMを使ったディープボルツマンマシン。MNISTで1.2%。ディープラーニングの幕開けの論文。 SQuAD: 100,000+ Questions for Machine Comprehension of Text Rajpurkar et al. 2016 Stanford Stanford Question Answering Dataset (SQuAD)。短文を読んで問題に答える。 OpenAI gym G. Brockman et al. 2016 TensorFlow: Large-scale machine learning on heterogeneous distributed systems Martín Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dan Mane, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Viegas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, Xiaoqiang Zheng 2016 テンソルフロー論文。 Theano: A Python framework for fast computation of mathematical expressions R. Al-Rfou et al. Torch7: A matlab-like environment for machine learning R. Collobert et al. MatConvNet: Convolutional neural networks for matlab A. Vedaldi and K. Lenc 2015 Imagenet large scale visual recognition challenge Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, Li Fei-Fei 2015 Stanford ImageNetのILSVRC論文。詳しく書かれており参考になる。 Caffe: Convolutional architecture for fast feature embedding Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, Trevor Darrell 2014 UCB DLフレームワークのCaffe。 On the Origin of Deep Learning H. Wang and Bhiksha Raj. 2017 Deep Reinforcement Learning: An Overview Y. Li 2017 Neural Machine Translation and Sequence-to-sequence Models: A Tutorial, G. Neubig. 2017 Neural Network and Deep Learning Michael Nielsen. Book, Jan 2017 Deep learning (book) Goodfellow et al. Book, 2016 LSTM: A search space odyssey Klaus Greff, Rupesh K. Srivastava, Jan Koutn´ık, Bas R. Steunebrink, Jurgen Schmidhuber IEEE Trans. on NNLS, 2016 IDSIA 8つのLSTMのタイプ。入力ゲートなし、忘却ゲートなし、出力ゲートなし、入力活性化関数なし、出力活性化関数なし、入力と忘却ゲートを統合、ピープホールなし、全ゲートあり。 3つのタスク。音声認識、手書き文字認識、音楽音素モデリング。 結論として普通の設定が良い。 Tutorial on Variational Autoencoders C. Doersch. 2016 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam 2017 Google モバイルやエンベッドされたビジョンの応用で使うための効率的なモデルであるモバイルネットを提案。深さ方向に分離可能なコンボリューションを使う、ストリームラインのアーキテクチャ。 深さごとのコンボリューションと、ポイントのコンボリューションを組み合わせる。 Convolutional Sequence to Sequence Learning Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin 2017 FAIR Seq2seqをコンボリューションでやる。中間にマトリックス状のもの(アテンションに相当)を加える。 A Knowledge-Grounded Neural Conversation Model Marjan Ghazvininejad et al. 2017 TACOTRON: Towards end-to-end speech synthesis Y. Wang et al. 2017 Deep Photo Style Transfer F. Luan et al. 2017 Deformable Convolutional Networks Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, Yichen Wei 2017 MSRA コンボリューションとプーリングを定形でなく非定型にする。 Mask R-CNN Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick 2017 PixelNet: Representation of the pixels, by the pixels, and for the pixels A. Bansal et al. 2017 Least squares generative adversarial networks X. Mao et al. 2016 Layer Normalization J. Ba, J. Kiros, G. Hinton 2016 U. Toronto 層ごとに正規化する。RNNでも使える。 Domain-adversarial training of neural networks Y. Ganin et al. 2016 WaveNet: A Generative Model for Raw Audio A. Oord et al. 2016 Colorful image colorization R. Zhang et al. 2016 Generative visual manipulation on the natural image manifold J. Zhu et al. ECCV 2016 Texture networks: Feed-forward synthesis of textures and stylized images D Ulyanov et al. 2016 SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 1MB model size Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer 2016 DeepScale, UCB, Stanford squeezeレイヤーとして、1x1のコンボリューション、次に、1x1と3x3のコンボリューションフィルタを複数concatする。これをfireモジュールという。そもそもネットワークのアーキテクチャからしてパラメータ数が約50分の1くらいに少なくなるが、さらにDeep Compressionを組み合わせると、AlexNetが精度がほとんど変わらずに、モデルのサイズで510分の1にできる。 EIE: Efficient inference engine on compressed deep neural network Song Han, Xingyu Liu, Huizi Mao, Jing Pu, Ardavan Pedram, Mark A. Horowitz, William J. Dally 2016 Stacked attention networks for image question answering Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola 2016 CMU, MSR アテンションつきの画像QA。CNNとアテンションつきLSTM。DAQUAR, COCO-QA, VQAで実験 Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection Sergey Levine, Peter Pastor, Alex Krizhevsky, Deirdre Quillen 2016 Google グーグルのロボットアームの論文。 Speech recognition with deep recurrent neural networks Alex Graves, Abdel-rahman Mohamed, Geoffrey Hinton ICASSP 2013 U. Toronto RNN(LSTM)を使った音声認識。ICML2014版とほとんど同じだが、こちらのほうが音声コミュニティで引用が多いということか。 End-to-end attention-based large vocabulary speech recognition D. Bahdanau et al. 2016 Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara Sainath, and Brian Kingsbury 2012 U. Toronto DLの音声認識論文。深層信念ネットワーク。 Learning phrase representations using RNN encoder-decoder for statistical machine translation K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, Y. Bengio 2014 U. Montreal (Canada), Jacobs U. (Germany), U. du Maine (France) RNNのエンコーダ、デコーダの提案。 A convolutional neural network for modeling sentences N. Kalchbrenner et al. 2014 GloVe: Global vectors for word representation Jeffrey Pennington, Richard Socher, Christopher D. Manning 2014 Stanford グローバルな行列因子分解と局所的な文脈窓の方法を使った分散表現。word2vecより良い。 Distributed representations of sentences and documents Q. Le and T. Mikolov 2014 Google パラグラフベクトル。word2vecのような感じで、周りの段落のベクトルを予測するように学習する。 Recursive deep models for semantic compositionality over a sentiment treebank Richard Socher, Alex Perelygin, Jean Y. Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng and Christopher Potts 2013 Stanford U. センチメントツリーバンク。再帰的ニューラルテンソルネットワークを提案。 Long-term recurrent convolutional networks for visual recognition and description Jeff Donahue, Lisa Anne Hendricks, Marcus Rohrbach, Subhashini Venugopalan, Sergio Guadarrama, Kate Saenko, Trevor Darrell 2014 UCB, UT Austin, UMass Lowell 行動認識、画像キャプション付け、動画ディスクリプションそれぞれで、どのようなCNN+LSTMの構造がいいかを検証。 Neural Architectures for Named Entity Recognition Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer 2016 CMU 双方向LSTMとCRF、スタックLSTMという2つの方法を提案。固有表現抽出で良い結果。 Exploring the limits of language modeling R. Jozefowicz et al. 2016 Teaching machines to read and comprehend K. Hermann et al. 2015 Conditional random fields as recurrent neural networks Shuai Zheng, Sadeep Jayasumana, Bernardino Romera-Paredes, Vibhav Vineet, Zhizhong Su, Dalong Du, Chang Huang, Philip H. S. Torr 2015 U. Oxford, Stanford U., Baidu Institute of Deep Learning RNNをCRFと見なすことができる。セマンティックセグメンテーションに応用。 3D convolutional neural networks for human action recognition S. Ji et al. 2013 DeepFace: Closing the gap to human-level performance in face verification Y. Taigman, M. Yang, M. Ranzato, L. Wolf 2014 FAIR, Tel Aviv U. 3Dのモデルを使って顔をクロップ。その後にCNN。Conv, Pooling, Conv, 局所結合x3、全結合x2のネットワーク。(局所結合は、Convの場所制約を外した感じのもの。)SFC(Social Face Classifier)データセット。これは4030人の440万の顔画像。検証のためにLFWも使う(5749人の芸能人の13323枚の顔)。YTF(YouTube Faces)も使う(1592人の3425本の動画)。4000人の分類でエラーが8.7%とか。LWFでは97.35%。 Image Super-Resolution Using Deep Convolutional Networks Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang 2014 香港大学, MRSA 低解像度から高解像度へ戻すCNN。 Spatial pyramid pooling in deep convolutional networks for visual recognition K. He et al 2014 SPPNet Learning hierarchical features for scene labeling C. Farabet et al. 2013 Semantic image segmentation with deep convolutional nets and fully connected CRFs Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille 2014 UCLA, Google CNNの最終レイヤーをCRFにして、オブジェクトセグメンテーションを行う。 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun 2015 MSR, 中国科技大 Faster R-CNN。 Identity Mappings in Deep Residual Networks Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun 2016 MSR 残余ユニットの定義を変える。Weight, BN, ReLU, Weight, BNではなく、BN, ReLU, Weight, BN, ReLu, Weight。このほうが同一性が保持しやすくてよいようだ。1001レイヤーのResNet等で実験。 Deep neural networks are easily fooled: High confidence predictions for unrecognizable images A. Nguyen et al. 2015 Building high-level features using large scale unsupervised learning Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean, Andrew Y. Ng arxiv 2012, IEEE conf. on acoustic, speech and signal processing, 2013 Google グーグルのネコ論文 Improving neural networks by preventing co-adaptation of feature detectors Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan R. Salakhutdinov 2012 ドロップアウトの提案。 Dropout: A simple way to prevent neural networks from overfitting Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov JMLR 2014 U. Toronto ドロップアウト論文。 CNN features off-the-Shelf: An astounding baseline for recognition Ali Sharif Razavian Hossein Azizpour Josephine Sullivan Stefan Carlsson 2014 KTH, Sweden さまざまなタスクに対して転移できる Learning and transferring mid-Level image representations using convolutional neural networks Maxime Oquab, Leon Bottou, Ivan Laptev, Josef Sivic 2014 INRIA (Paris, France), NSR (New York) 素性の転移のやり方を示した論文。 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis 2017 Mastering the Game of Go without Human Knowledge David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Fan Hui, Laurent Sifre, George van den Driessche, Thore Graepel, Demis Hassabis. Nature 2017 Mastering the game of Go with deep neural networks and tree search David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel & Demis Hassabis Nature 2016 Deep learning Y LeCun, Y Bengio, G Hinton Nature 2015 FAIR, NYU, U. Montreal, Google, U. Toronto ディープラーニング紹介のNatureのレビュー記事。 Why does unsupervised pre-training help deep learning? Dumitru Erhan, Yoshua Bengio, Aaron Courville, Pierre-Antoine Manzagol, Pascal Vincent, Samy Bengio JMLR 2010 Deep Learning: Methods and Applications Li Deng, Dong Yu Book, 2014 Microsoft A fast learning algorithm for deep belief nets G. Hinton, S. Osindero and Y. Teh 2006 U. Toronto, NUS 深層信念ネットワーク。MNISTで1.25%。ディープラーニングの幕開けの論文。 Representation Learning: A Review and New Perspectives Yoshua Bengio, Aaron Courville, Pascal Vincent 2012 表現学習のレビュー。超いい。 Conditional Image Generation with PixelCNN Decoders Oord, Aaron van den, et al. 2016 PixelCNN Transforming Auto-encoders G. E. Hinton, A. Krizhevsky, and S. D. Wang 2011 U. Toronto カプセルについて。いまのCNNはおかしい。ひとつのカプセルは、中をencapsulate(カプセル化)し、情報量の多い小さなベクトルを出力すべきだ。このカプセルは、ひとつの視覚的なエンティティを担当し、結果的に見る条件や変形に対しても頑健になる。すこしずつ画像をずらすようなカプセルが連なっている。MNISTで実験。30個のカプセル、それぞれが10の認識ユニットと20の生成ユニット。画像をランダムに何ピクセルかx方向、y方向に動かす。 A Compositional Object-Based Approach to Learning Physical Dynamics Michael B. Chang, Tomer Ullman, Antonio Torralba, Joshua B. Tenenbaum ICLR2017 MIT ニューラル物理エンジン(NPE)を提案。オブジェクトをプリミティブと見る、コンテキストが重要、ファクタライゼーションと構成性が重要などが主張されているが、モデルとしてはただのLSTM? Deep Multi Scale Video Prediction Beyond Mean Square Error Michael Mathieu, Camille Couprie, Yann LeCun ICLR 2016 NYU, FAIR 動画のシーケンスから未来の画像を予測することは、画像の展開(したがって、その内容や動き)を正確にモデル化する内部表現が必要である。したがって、ピクセル空間の動画予測が、教師なし素性学習の有望な道であると見られる理由である。加えて、オプティカルフローは、コンピュータビジョンの領域で長く研究されてきた問題であるが、未来のフレーム予測はほとんど手がつけられていない。しかし、多くの視覚の応用は、動画の次のフレームの知識から多くの利益を得ることができ、すべてのピクセルの軌跡を必要とはしない。本研究では、CNNを次のフレームの予測のために用いる。MSEの損失関数を使うとぼやけるので、3つの異なる素性学習の戦略を用いる。マルチスケールのアーキテクチャ、敵対的訓練、画像勾配差異のロス関数である。UCF101(動作認識)と、Sports1mのデータセットに適用した。 動画から未来の画像を予測する学習は、画像の進展(つまり、内容と動き)を正確にモデル化する内部表現の構築が必要である。この理由で、ピクセル空間の動画予測は、教師なしの素性学習に対しての有望な道と見ることができる。加えて、オプティカルフローはコンピュータビジョンではよく研究された問題だが、未来のフレーム予測はほとんど行われていない。しかしながら、多くのビジョンの応用が、すべてのピクセルの軌跡のトラッキングという複雑さを必要としない、動画での次のフレームの知識により利益を得ることができる。この論文では、入力の系列が与えられたときに将来のフレームを生成するCNNを学習する。MSE損失関数によるぼやけた画像に対応するため、3つの素性学習の戦略を用いる:マルチスケールアーキテクチャ、敵対的トレーニング、画像勾配差異のロス関数である。 KW: 物理モデル DeepStereo: Learning to predict new views from the world’s imagery. J. Flynn, I. Neulander, J. Philbin, and N. Snavely. CVPR2016 Google フォンテーヌブロー宮殿のなかの映像のデモの論文。新しいビューの画像合成。深さを予測するものと、色を予測するものを組み合わせたニューラルネットワークのモデルになっている。 Dynamic Routing Between Capsules Sara Sabour, Nicholas Frosst, Geoffrey E Hinton 2017 Google Brain ヒントン先生の新作。ずっとやってたものが、そこそこの結果が出るようになった。とくにオーバーラップが高いMNISTに対して好結果。カプセルのコネクションの重みを変える。ConvとかReLUと組み合わされている。 Revisiting unreasonable effectiveness of data in deep learning era. In C. Sun, A. Shrivastava, S. Singh, and A. Gupta. ICCV 2017 Google Research, CMU JFT-300Mデータセットについて。データを増やすとパフォーマンスは上がる。 データを増やすと対数的に精度が上がる。データを作ろうねという論文。 Knowledge Concentration: Learning 100K Object Classifiers in a Single CNN Jiyang Gao, Zijian (James)Guo, Zhen Li, Ram Nevatia 2017 USC, Google Research EFTデータセット。4億枚、10万クラス。これを複数の教師ネットワークを使って、生徒ネットワークに教える。蒸留。 Deep Predictive Learning: A Comprehensive Model of Three Visual Streams Randall C. O'Reilly, Dean R. Wyatte, John Rohrlich 2017 U. COlorado Boulder 脳科学的な予測学習について。100m秒後とかに見るものを予測する仕組み。whatとwhere。 Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations Aravind Rajeswaran, Vikash Kumar, Abhishek Gupta, John Schulman, Emanuel Todorov, Sergey Levine 2017 手のコントロール。24自由度あるので大変。教示学習と方策勾配を組み合わせたロス関数を定義。VRで作業してそれを教師データにしている。 High-dimensional dynamics of generalization error in neural networks Madhu S. Advani, Andrew M. Saxe 2017 Backpropagation through the Void: Optimizing control variates for black-box gradient estimation Will Grathwohl, Dami Choi, Yuhuai Wu, Geoff Roeder, David Duvenaud 2017 TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning Train longer, generalize better: closing the generalization gap in large batch training of neural networks a NIPS2017 Gradient descent GAN optimization is locally stable a NIPS2017 Off-policy evaluation for slate recommendation a NIPS2017 Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results a NIPS2017 Net-Trim: Convex Pruning of Deep Neural Networks with Performance Guarantee a NIPS2017 On the Complexity of Learning Neural Networks a NIPS2017 On Separability of Loss Functions, and Revisiting Discriminative Vs Generative Models a NIPS2017 Estimating Mutual Information for Discrete-Continuous Mixtures Weihao Gao, Sreeram Kannany, Sewoong Ohz, Pramod Viswanath NIPS2017 U. Illinois at Urbana-Champaign 相互情報量を推定するのは基礎的で重要。従来の推定法は、完全に離散か完全に連続かのどちらかだった。難しいところは、これらの方法はX, Yと(X,Y)のエントロピーを最初に求め、それを足し合わせることで推定を得る。この方法は混合空間の場合にはエントロピーがうまく定義できないので使えない。この場合にも対応できる新しい推定の仕方を提案する。 Towards Accurate Binary Convolutional Neural Network a NIPS2017 Poincaré Embeddings for Learning Hierarchical Representations a NIPS2017 What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? a NIPS2017 Deep Voice 2: Multi-Speaker Neural Text-to-Speech a NIPS2017 Modulating early visual processing by language a NIPS2017 f-GANs in an Information Geometric Nutshell a NIPS2017 Unsupervised Image-to-Image Translation Networks Ming-Yu Liu, Thomas Breuel, Jan Kautz NIPS2017 NVIDIA GANとVAEに基づいたUNITフレームワークというのを提案。カップルGANに、潜在空間の仮定を入れる。 The Numerics of GANs a NIPS2017 Dual Discriminator Generative Adversarial Nets a NIPS2017 Dualing GANs a NIPS2017 Generalizing GANs: A Turing Perspective a NIPS2017 Dual Attention Networks for Multimodal Reasoning and Matching Hyeonseob Nam, Jung-Woo Ha, Jeonghee Kim 2016 VQA2016のabstractタスクで準優勝 DualNet: Domain-Invariant Network for Visual Question Answering Kuniaki Saito, Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada 2016 VQA2016のabstractタスクで優勝 Attention is All you Need Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin NIPS2017 Google Brain, U. Toronto Transformerという、かなり変わったネットワークの提案。エンコーダは、6つの同じレイヤーからなり、それぞれ2つのサブレイヤーから構成されている。ひとつめが複数ヘッドの自己アテンション機構で、2つめがポジションごとの全結合フィードフォワードネットワークである。残余コネクションと、レイヤー正規化を行っている。デコーダも同様だがエンコーダからの出力へのアテンションが加わって、サブレイヤーが3つになっている。WMTで28.4(EN-DE), 41.8(EN-FR)でGNMTとかより良い。 Multi-Information Source Optimization a NIPS2017 Doubly Stochastic Variational Inference for Deep Gaussian Processes a NIPS2017 EX2: Exploration with Exemplar Models for Deep Reinforcement Learning a NIPS2017 Successor Features for Transfer in Reinforcement Learning a NIPS2017 Deep Multi-task Gaussian Processes for Survival Analysis with Competing Risks a NIPS2017 Learning to See Physics via Visual De-animation NIPS2017 Jiajun Wu, Erika Lu, Pushmeet Kohli, Bill Freeman, Josh Tenenbaum MIT, U. Oxford, DeepMind 物理エンジンとグラフィックエンジンを使う。学習によって、システムは物理世界の状態を復元し、未来を予測する。ビリヤードとか積み木の世界とか。 Self-Supervised Intrinsic Image Decomposition a NIPS2017 Temporal Coherency based Criteria for Predicting Video Frames using Deep Multi-stage Generative Adversarial Networks Prateep Bhattacharjee, Sukhendu Das NIPS2017 IIT Madras, インド GANを使って未来のフレーム予測をする。割ときれいにできてるが、結構たいへんそうなモデル。 MarrNet: 3D Shape Reconstruction via 2.5D Sketches Jiajun Wu, Yifan Wang, Tianfan Xue, Xingyuan Sun, Bill Freeman, Josh Tenenbaum NIPS2017 MIT, Shanghai Tech., Shanghai Jiao Tao 画像から2.5Dのスケッチへ、3次元の形状へ直す。椅子とか飛行機とか。 Pixels to Graphs by Associative Embedding a NIPS2017 MaskRNN: Instance Level Video Object Segmentation Yuan-Ting Hu, Jia-Bin Huang, Alexander Schwing NIPS2017 Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models a NIPS2017 Self-supervised Learning of Motion Capture a NIPS2017 Maximizing Subset Accuracy with Recurrent Neural Networks in Multi-label Classification a NIPS2017 Discriminative State Space Models a NIPS2017 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments a NIPS2017 Dynamic Safe Interruptibility for Decentralized Multi-Agent Reinforcement Learning a NIPS2017 A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning a NIPS2017 A Disentangled Recognition and Nonlinear Dynamics Model for Unsupervised Learning a NIPS2017 Distral: Robust multitask reinforcement learning a NIPS2017 Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles a NIPS2017 Variational Walkback: Learning a Transition Operator as a Stochastic Recurrent Net Anirudh Goyal, Nan Rosemary Ke, Surya Ganguli, Yoshua Bengio NIPS2017 MILA, U. Montreal, Stanford U. 面白い。ノイズを入れて外れたのを戻すような学習をする。 Adversarial Ranking for Language Generation a NIPS2017 PixelGAN Autoencoders a NIPS2017 Structured Generative Adversarial Networks a NIPS2017 Triangle Generative Adversarial Networks a NIPS2017 Bayesian GAN a NIPS2017 Good Semi-supervised Learning That Requires a Bad GAN a NIPS2017 VEEGAN: Reducing Mode Collapse in GANs using Implicit Variational Learning a NIPS2017 Fisher GAN a NIPS2017 Deanonymization in the Bitcoin P2P Network a NIPS2017 Maximizing Subset Accuracy with Recurrent Neural Networks in Multi-label Classification a NIPS2017 Ensemble Sampling Xiuyuan Lu, Benjamin Van Roy NIPS2017 Stanford U. 探索と活用のトレードオフをとる効果的なヒューリスティックであるトンプソンサンプリングは、オンラインの意思決定問題に使えるが、事後分布からのサンプリングを必要とするため、簡単なケースにしか使えない。そこでこの方法では、それを拡張する。 Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards. M. Vecerik, T. Hester, J. Scholz, F. Wang, O. Pietquin, B. Piot, N. Heess, T. Rothörl, T. Lampe, and M. A. Riedmiller. 2017 DeepMind DDPGをSawyerロボットアームに実装。 Reinforcement Learning under Model Mismatch Aurko Roy, Huan Xu, and Sebastian Pokutta NIPS2017 Google, Gorgia Tech. 最悪の環境条件でも最良のパフォーマンスになるようなロバストバージョンのQ学習やSARSA、TD学習などを提案。ロバストベルマン方程式を使うが、モデルフリーだと使えないので、サンプリングをする。 Bridging the Gap Between Value and Policy Based Reinforcement Learning a NIPS2017 State Aware Imitation Learning a NIPS2017 Active Exploration for Learning Symbolic Representations G. Andersen, G. Konidaris ケンブリッジ、ブラウン大学 NIPS2017 状態をまとめてシンボルとしてプラニングするという内容だが、ディープラーニングベースの話にはなってない。2つのゲームで評価している。 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning a NIPS2017 Multi-Modal Imitation Learning from Unstructured Demonstrations using Generative Adversarial Nets a NIPS2017 Information-theoretic analysis of generalization capability of learning algorithms Aolin Xu and Maxim Raginsky NIPS2017 イリノイ大学 入力と出力の相互情報量の観点から汎化誤差の上限について議論する。この上限は、情報理論からの汎化の理解につながり、また、データの適合と汎化のよいバランスを取ることを可能にする。いろいろな方法を提案するが、なかでも経験リスク最小化アルゴリズムを正則化する方法について述べる。 Safe Model-based Reinforcement Learning with Stability Guarantees a NIPS2017 Exploring Generalization in Deep Learning Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, Nathan Srebro NIPS2017 TTI Chicago Compression-aware Training of Deep Networks NIPS2017 Variational Memory Addressing in Generative Models NIPS2017 Neural Discrete Representation Learning Aaron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu NIPS2017 DeepMind ベクトル量子化(Vector Quantization)によるVQ-VAEを提案。離散の潜在変数を入れる。従来よりも綺麗に画像が再構成できるようになっている。離散化の重要性を示す重要論文。 Predictive-State Decoders: Encoding the Future into Recurrent Networks Arun Venkatraman, Nicholas Rhinehart, Wen Sun, Lerrel Pinto, Martial Hebert, Byron Boots, Kris M. Kitani, J. Andrew Bagnell CMU, Georgia Tech. NIPS2017 予測状態表現(Predictive-State Representation)という考え方があって、それをRNNの目的関数に加える。具体的には、内部状態の予測がどのくらい当たったかどうかの項を加える。 Recurrent Ladder Networks a NIPS2017 Fast-Slow Recurrent Neural Networks a NIPS2017 Wider and Deeper, Cheaper and Faster: Tensorized LSTMs for Sequence Learning a NIPS2017 Language Modeling with Recurrent Highway Hypernetworks a NIPS2017 Label Distribution Learning Forests a NIPS2017 Emergence of Language with Multi-agent Games: Learning to Communicate with Sequences of Symbols Serhii Havrylov and Ivan Titov NIPS2017 U. Edinburgh 複数のエージェントが通信をする。送り手と受け手がRNNになっており、その伝達のロスを最小化する。全体が強化学習で学習させる。 Policy Gradient With Value Function Approximation For Collective Multiagent Planning a NIPS2017 Do Deep Neural Networks Suffer from Crowding? a NIPS2017 Invariance and Stability of Deep Convolutional Representations a NIPS2017 Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model a NIPS2017 Pose Guided Person Image Generation a NIPS2017 Toward Multimodal Image-to-Image Translation a NIPS2017 Stabilizing Training of Generative Adversarial Networks through Regularization a NIPS2017 Adversarial Symmetric Variational Autoencoder a NIPS2017 PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, Philip S. Yu NIPS2017 Tsinghua U. 従来のConv LSTMの構成を変えている。前時点の上(出力に近い側)から次時点の下(入力に近い側)へ下ろすようなパスを作ったPredRNN。動画の予測で従来手法よりも精度を良いことを示している。あと、Spatiotemporal LSTMというのも提案している。 The Reversible Residual Network: Backpropagation Without Storing Activations Aidan N. Gomez, Mengye Ren, Raquel Urtasun, Roger B. Grosse NIPS2017 U. Toronto ResNetのバイパスと層という2つの経路を、FとGに分けて2つの経路の間にうまく配置する。逆向きの計算もできるようにしている。メモリの使用量が少ない。 Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis a NIPS2017 Learning ReLUs via Gradient Descent a NIPS2017 Learning Disentangled Representations with Semi-Supervised Deep Generative Models a NIPS2017 A Probabilistic Framework for Nonlinearities in Stochastic Neural Networks a NIPS2017 InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations a NIPS2017 Hybrid Reward Architecture for Reinforcement Learning a NIPS2017 Shallow Updates for Deep Reinforcement Learning a NIPS2017 Towards Generalization and Simplicity in Continuous Control a NIPS2017 Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning a NIPS2017 AdaGAN: Boosting Generative Models a NIPS2017 Decoding with Value Networks for Neural Machine Translation a NIPS2017 Learning Deconvolution Network for Semantic Segmentation a 2015 VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection a 2017 Apple Embed to Control: A Locally Linear Latent Dynamics Model for Control from Raw Images Manuel Watter, Jost Tobias Springenberg, Joschka Boedecker, Martin Riedmiller NIPS2015 Learning Deep Dynamical Models from Image Pixels. 2015 MinimalRNN: Toward More Interpretable and Trainable Recurrent Neural Networks Minmin Chen 2017 Google LSTMやGRUよりもシンプルなモデル。隠れ変数からの影響と入力からの影響を、アップデートゲートで調整するだけ。精度はあまり変わらない。 Memory-based control with recurrent neural networks Nicolas Heess, Jonathan J Hunt, Timothy Lillicrap, David Silver NIPS2015 DL RL workshop Bridging the Gap Between Value and Policy Based Reinforcement Learning Ofir Nachum, Mohammad Norouzi, Kelvin Xu, Dale Schuurmans 2017 Multi-step Reinforcement Learning: A Unifying Algorithm Sample Efficient Actor-Critic with Experience Replay Ziyu Wang, Victor Bapst, Nicolas Heess, Volodymyr Mnih, Remi Munos, Koray Kavukcuoglu, Nando de Freitas ICLR2017 poster Adding Navigation to the Equation: Turning Decisions for End-to-End Vehicle Control a 2017 Temporal Tessellation: A Unified Approach for Video Analysis Dotan Kaufman, Gil Levi, Tal Hassner, and Lior Wolf ICCV2017 Tel Aviv U., USC, Open U. of Israel, FAIR 動画をシーンに分けて、シーンごとにキャプションをつけて、首尾一貫した説明を探す。 A Recurrent Latent Variable Model for Sequential Data Junyoung Chung, Kyle Kastner, Laurent Dinh, Kratarth Goel, Aaron Courville, Yoshua Bengio 2015 Efficient Estimation of Word Representations in Vector Space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean ICLR 2013 Google Word2vec論文。Skip-gramとC-BOW。周りの語から中心の語を予測するのがC-BOWで、中心の語から周りの語を予測するのがSkip-gram。アナロジータスク。 従来手法として挙げられているNNLMとRNNLMは、前の数語から次の語を予測する。 畳むロボットワークショップ a http://idealab.asu.edu/folding_in_robotics/ Learning Deep Generative Spatial Models for Mobile Robots a IROS2017 Deep Reinforcement Learning for High Precision Assembly Tasks a IROS2017 Socially Aware Motion Planning with Deep Reinforcement Learning a IROS2017 Recursive Neural Network Based Semantic Navigation of an Autonomous Mobile Robot through Understanding Human Verbal Instructions a IROS2017 Sensor Modality Fusion with CNNs for UGV Autonomous Driving in Indoor Environments a IROS2017 Deep Dynamic Policy Programming for Robot Control with Raw Images a IROS2017 Only Look Once, Mining Distinctive Landmarks from ConvNet for Visual Place Recognition a IROS2017 GeoCueDepth: Exploiting Geometric Structure Cues to Estimate Depth from a Single Image a IROS2017 Connecting Generative Adversarial Networks and Actor-Critic Methods David Pfau, Oriol Vinyals 2016 DeepMind GANとアクタークリティックの関係。 Image-embodied Knowledge Representation Learning Ruobing Xie, Zhiyuan Liu, Huanbo Luan, Maosong Sun 2016 Why does deep and cheap learning work so well? Henry W. Lin (Harvard), Max Tegmark (MIT), David Rolnick (MIT) 2016 Harvard U., MIT ユーラルネットワークは任意の関数を近似できるが、実際に興味がある関数のクラスは、指数的にパラメータの数が少ない「安い学習」によって近似される。ここでは、物理学でよく出現する特性、例えば、対称性、局在性、構成性、多項対数確率などが簡単なニューラルネットワークにつながるのかを示す。 StarCraft II: A New Challenge for Reinforcement Learning Oriol Vinyals, Timo Ewalds, Sergey Bartunov, Petko Georgiev, Alexander Sasha Vezhnevets, Michelle Yeo, Alireza Makhzani, Heinrich Küttler, John Agapiou, Julian Schrittwieser, John Quan, Stephen Gaffney, Stig Petersen, Karen Simonyan, Tom Schaul, Hado van Hasselt, David Silver, Timothy Lillicrap, Kevin Calderone, Paul Keet, Anthony Brunasso, David Lawrence, Anders Ekermo, Jacob Repp, Rodney Tsing 2017 DeepMind, Blizzard End-to-End Training of Deep Visuomotor Policies Sergey Levine, Chelsea Finn, Trevor Darrell, and Pieter Abbeel JMLR2016 UCB 方策探索法により、ロボットはさまざまなタスクの制御方策を学習することができるが、実際の応用ではしばしば、知覚、状態推定、低レベルのコントロールに手作りの要素が必要であった。この論文では、次の問題に答える。知覚や制御システムを同時にend-to-endで訓練することは、それぞれを単独で訓練するよりもよい性能をもたらすのか?この目的のために、生のイメージの観測をロボットのモーターのトルクに直接マップする方策を学習する方法を開発した。方策は、92000パラメータのCNNで表現され、ガイド付き方策探索法で訓練される。軌跡中心の強化学習により、方策探索は教師あり学習になる。 Towards Bayesian Deep Learning: A Survey Hao Wang, Dit-Yan Yeung 2016 香港科技大 物体認識や言語理解のような知覚的タスクは人間の知能に重要だが、それに続く推論や類推、プランニングなどのタスクはさらに高いレベルの知能を必要とする。ここ数年で多くの知覚的なタスクでディープラーニングによる前進を見てきたが、高いレベルの知能には、ベイジアンの性質をもつ確率的なグラフィカルモデルが強力で柔軟である。したがって、ディープラーニングとベイジアンモデルを、統一された確率的な枠組みで捉えることは重要であり、ここではベイジアンディープラーニングと呼ぶ。このフレームワークでは、テキストや画像の知覚は、より高いレベルの推論をブーストし、また、推論プロセスからのフィードバックが、テキストや画像の知覚を促進する。このサーベイをする。 問題意識はいいと思うけど、ごく当たり前のDLのサーベイと、ウェブ系(レコメンデーションとか)のモデルを組み合わせようとしているだけなので、なんか安易。 Unsupervised learning of visual structure using predictive generative networks. William Lotter, Gabriel Kreiman, and David Cox ICLR 2016 Harvard U. 環境の将来の状態を予測する能力は、知能の大黒柱である。そのなかでも、効果的な予測は、世界の内的なモデルを必要とし、世界が変化するルールの理解を必要とする。ここでは、合成的な動画のシーケンスの未来のフレームを予測する損失を使って、CNN-LSTN-DeCNNという深層学習によって作られた内部モデルを探索する。このアーキテクチャは、視覚的な系列予測タスクで素晴らしいパフォーマンスを達成する。最新の「跳ねるボールのデータセット」(Sutskever et al.2009)も含む。さらに、ピクセルレベルの情報でend-to-endで学習するにも関わらず、我々の予測生成ネットワークは、背景にある3次元のオブジェクトの潜在的な構造の表現を学習することができる。この表現は、オブジェクトの変形に強く、新しいタスクに対しても汎化できる。 モデルは良さそう。 Learning to Perform Physics Experiments via Deep Reinforcement Learning Misha Denil, Pulkit Agrawal, Tejas D Kulkarni, Tom Erez, Peter Battaglia, Nando de Freitas ICLR2017 poster DeepMind, UCB, U. Oxford, CIFAR 新しい物体に遭遇すると、人間は、目標駆動型の方法でそれらと相互作用することによって、質量、摩擦、変形可能性などの広い物理特性を推論することができます。能動的な相互作用のこのプロセスは、科学者が隠れた事実を発見するための実験を行うのと同じ趣旨である。人工知能の最近の進歩により、Go、Atari、自然言語処理、および複雑な制御問題で超人的なパフォーマンスを達成できるマシンが生まれました。しかし、これらのシステムが幼児の科学的な直感に匹敵することは明らかではない。この作業では、オブジェクトを操作して結果を観察できるインタラクティブなシミュレート環境で、エージェントがオブジェクトの質量や凝集などのプロパティを推定することをエージェントに要求する基本的な一連のタスクを紹介します。我々は、最先端の深層強化学習方法が、そのような隠れた特性を発見するのに必要な実験を行うことを学ぶことができることを見出した。実験を行うためにエージェントが被る問題の難しさとコストを体系的に操作することにより、エージェントは情報を収集するコストとさまざまな状況でミスを犯すコストとのバランスをとるさまざまな戦略を学ぶことがわかりました。 「どちらが重い?」データセットと、タワーデータセット。ものを直接動かす。(ハンドのシミュレーションはない。)3層のCNNで、隠れユニットが100のLSTM。A3Cで強化学習。 面白いけど、結果があまり迫力ない。 Why Deep Neural Networks for Function Approximation? Shiyu Liang, R. Srikant ICLR2017 poster UIUC ユニバーサルアプロキシメーション理論を、ちょっと違う問題設定で議論している。近似誤差の特定の上限に対して、浅いネットワークは、深いネットワークに比べ指数的に多くのニューロンを必要とする。 Why Deep Neural Networks: A Possible Theoretical Explanation a 2015 Recurrent Batch Normalization Tim Cooijmans, Nicolas Ballas, César Laurent, Çağlar Gülçehre, Aaron Courville ICLR2017 poster Learning to Act by Predicting the Future Alexey Dosovitskiy, Vladlen Koltun ICLR2017 Intel Labs Doomのゲームの強化学習で、何らかの複数の指標(例えば、ゲーム中で体力キットを集めるとか、毒地を避けるとか)を入れて学習しておけば、ゴールに対する学習が早くなる。複数の指標に対する予測精度も目的関数に入れる。いい研究。 Learning Visual Servoing with Deep Features and Trust Region Fitted Q-Iteration Alex X. Lee, Sergey Levine, Pieter Abbeel ICLR2017 poster Stochastic Neural Networks for Hierarchical Reinforcement Learning Carlos Florensa, Yan Duan, Pieter Abbeel ICLR2017 poster Reinforcement Learning with Unsupervised Auxiliary Tasks Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo, David Silver, Koray Kavukcuoglu ICLR2017 DeepMind UNREAL。深層強化学習を行うときに、補助問題を使って教師なしのように学習を加速する。ピクセルをコントロールする、特徴量をコントロールするなどの補助問題を入れる。報酬の予測の補助問題も入れる。(これは普通に考えると単なるQの学習だが、そうではなくて歴史的な文脈から報酬を予測するようなもの)。ラビリンスとかATARIで学習速度があがっている。すごい。というか当然こうなるよね。 Learning Real Manipulation Tasks from Virtual Demonstrations using LSTM R. Rahmatizadeh, P. Abolghasemi, A. Behal, and L. Bölöni. 2016 What value do explicit high level concepts have in vision to language problems? Q. Wu, C. Shen, A. Hengel, L. Liu, and A. Dick. CVPR, 2016. From captions to visual concepts and back. Hao Fang, Saurabh Gupta, Forrest Iandola, Rupesh Srivastava, Li Deng, Piotr Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence Zitnick, Geoffrey Zweig CVPR, 2015. Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning Junhyuk Oh, Satinder Singh, Honglak Lee and Pushmeet Kholi ICML2017 U. Michigan, Google Brain, MSR 階層的深層強化学習。指示を受け取るのと、メタコントローラがサブタスクを切り替える。 On the Expressive Power of Deep Neural Networks Maithra Raghu, Ben Poole, Jon Kleinberg, Surya Ganguli, Jascha Sohl Dickstein ICML2017 コーネル大学、Google Brain, スタンフォード大学 ディープニューラルネットワークの表現力。まず、1989年からのよいサーベイになっている。その上で、入力を微小変化させたときの出力の変化をたどった軌跡の長さによって表現の複雑さを表すことができ、それが深さによって、指数的に大きくなることを示している。 Local Bayesian Optimization of Motor Skills a ICML2017 The Predictron: End-To-End Learning and Planning David Silver, Hado van Hasselt, Matteo Hessel, Tom Schaul, Arthur Guez, Tim Harley, Gabriel Dulac-Arnold, David Reichert, Neil Rabinowitz, Andre Barreto, Thomas Degris ICML2017 DeepMind Predictron(予測子)というものを提案している。強化学習とプランニングをつなぐもの。次の状態、報酬を予測し、何手か先まで読む。ビリヤードみたいなので試している。状態空間の切り分けがまだできてない? Prediction and Control with Temporal Segment Models Nikhil Mishra, Pieter Abbeel, Igor Mordatch ICML2017 UCB, OpenAI すごい論文。VAEで状態を抽象化しながら、過去の状態と過去の行為、あと将来の行為から将来の状態を予測する。潜在アクションプライアーというのも提案していて、ある種の行為の抽象化か。 実験結果は驚くようなものではなさそうだが、内容は極めてもっともな感じ。 (Even More) Efficient Reinforcement Learning via Posterior Sampling a ICML2017 Visual Interaction Networks Nicholas Watters, Andrea Tacchetti, Th´eophane Weber, Razvan Pascanu, Peter Battaglia, and Daniel Zoran NIPS2017 DeepMind Value Iteration Networksと間違いやすいが違う。汎用の、視覚情報から物理システムを構築するモデル。視覚エンコーダは、状態の表現に直す。(3時点前からの画像からのCNN)。動的予測器は、次の状態を予測する。(普通のMLP)。状態デコーダは、状態から視覚情報に戻す。(線形関数。ものの位置、速度のベクトルという4つの値だけを出す。deconvにはなってないので画像は生成しない。) ばね、重力、磁石ビリヤード、ビリヤード、ドリフトなどのドメインで実験している。視覚LSTMとかよりも良い。 重力とかバネの力とか仮定してるらしいが、デモが全く意味が分からない。 StreetStyle: Exploring world-wide clothing styles from millions of photos Kevin Matzen, Kavita Bala, Noah Snavely 2017 Cornell U. 世界の人達が何を着ているかを分析。インスタグラムのデータ。StreetStle-27kデータセット。 Learning to reinforcement learn Jane X Wang, Zeb Kurth-Nelson, Dhruva Tirumala, Hubert Soyer, Joel Z Leibo, Remi Munos, Charles Blundell, Dharshan Kumaran, Matt Botvinick 2016 Neural combinatorial optimization with reinforcement learning. a 2017 DeepMind Inverse Compositional Spatial Transformer Networks a CVPR2017 Towards a Learning Theory of Cause-Effect Inference a ICML2015 ChestX-ray8: Hospital-Scale Chest X-Ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases a CVPR2017 A Joint Speaker-Listener-Reinforcer Model for Referring Expressions a CVPR2017 Learning physical intuition of block towers by example. A. Lerer, S. Gross, and R. Fergus. International Conference on Machine Learning (ICML), 2016. FAIR 木のブロックは、よくある幼児のおもちゃだが、幼児の運動能力や世界の物理的な振る舞いについての直感を発達させる。この論文では、深層のフィードフォワードのモデルの能力で、このような直感的物理学を学習する。3Dのゲームのエンジンを使って、木のブロックの小さなタワーを作り、その安定性はランダムで、崩れるかそのままかを描く。このデータをCNNで訓練し、その結果を予測できるようになった。またブロックの軌跡を推定できるようになった。さらに、新しい物理シナリオ、またリアルの木のブロックにも適用できる。 KW: 物理モデル Evolution strategies as a scalable alternative to reinforcement learning Tim Salimans, Jonathan Ho, Xi Chen, Ilya Sutskever 2017 OpenAI 非常に簡単な進化計算、つまり現在の値から適当にずらして、適応度を取り、その適応度の重心になるように値をずらす、だけで、結構、強化学習がうまくいく。ポリシーグラディエントと同じくらいうまくいく。 Building machines that learn and think like people Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum, and Samuel J. Gershman 2016 NYU, MIT, Harvard 面白い。ディープラーニングの現状を踏まえた上で、何が足りないか。直観的物理、直観的心理学。因果モデル。構成性。深層強化学習から深層生成モデルでプランニングに行くという流れは共通。具体的にどうしたらいいのかというヒントは書いてない。だいたい同じような思考。直観的心理学については、あまり考えたことなかったが、まあ難しいよね。 Unsupervised learning of depth and ego-motion from video. T. Zhou, M. Brown, N. Snavely, and D. Lowe. CVPR, 2017. Google KITTYのデータだけから、深さ方向を推定する。時間的な対応関係を見つけて学習させる。重要。 Unsupervised monocular depth estimation with left-right consistency. a CVPR, 2017 Unsupervised cnn for single view depth estimation: Geometry to the rescue. R. Garg and I. Reid. ECCV, 2016. 3D-R2N2: A unified approach for single and multi-view 3d object reconstruction C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. In ECCV, 2016. Stanford U. いすとか飛行機の模型の3次元のリコンストラクション。 Where do features come from? Geoffrey Hinton 2013 これまでの歴史の振り返り的な論文。勾配情報の重要性、オートエンコーダ、グラフィカルモデル、ボルツマンマシン、変分推論、ウェークスリープアルゴリズム、RBM、深層信念ネット、深層ボルツマンマシン、将来的なスパイクニューロンなど。ヒントン先生の系列のわかりやすいまとめ。 SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient Lantao Yu, Weinan Zhang, Jun Wang, Yong Yu 2016 上海交通大学 系列のデータ生成に、強化学習を使う手法。 GANは実数のデータを生成するのに大きな成功を収めている。しかし、離散的なトークンの系列を生成するときには問題がある。大きな理由は、生成モデルからの離散的な出力は、勾配の更新を識別モデルから生成モデルへパスするのが難しいためである。さらに、識別モデルは完全な系列を査定することしかできず、また部分的に生成された系列に対して、現在のスコアと系列が完成した将来のスコアをバランスさせることも自明ではない。この論文では、SeqGANとよぶ系列を生成するフレームワークを提案する。データの生成器を強化学習の確率的な方策としてモデル化し、SeqGANは方策の勾配の更新を直接行うことで、生成器の微分の問題を回避する。強化学習の報酬の信号は、完全な系列のGANの識別器からきて、モンテカルロ探索により中間的な状態アクションのステップに戻される。 Network in network Min Lin, Qiang Chen, Shuicheng Yan 2013 NUS CNNの線形和の代わりに、MLPを使う。パラメータ数が多くなりそうな気がするが、評価実験ではMNIST, CIFAR10, CIFAR100とかで結構よい結果を出している。Inceptionのもとになった論文。 SSD: single shot multibox detector Wei Liu, Dragomir Anguelov, Dumitru Erhan3, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg 2015 UNC, Zoox, Google, U. Michigan Ann-Anbor ひとつのネットワークで複数のオブジェクトのディテクションをする。YOLOとかOverfeat系。異なるサイズのConv層からディテクションをしているのがYOLOとの大きな違いのようで、こちらのほうが早くて精度がよい。 Deep3D: Fully Automatic 2D-to-3D Video Conversion with Deep Convolutional Neural Networks Junyuan Xie, Ross Girshick, Ali Farhadi ECCV2016 2Dから3Dにする。というか、左目の画像から右目の画像を作る。詳細な深さの検出は不必要だという仮定にたって、左目から右目を作るCNNのモデルを提案。階層ごとにDevonv(アップサンプリング)し、それを足し合わせる。 View synthesis by appearance flow T. Zhou, S. Tulsiani,W. Sun, J. Malik, and A. A. Efros. ECCV 2016 Depth map prediction from a single image using a multi-scale deep network David Eigen, Christian Puhrsch, Rob Fergus NIPS2014 NYU CNNを使った深度推定。NYUデータセットとKITTIデータセットでいずれも深度の教師データがある。ローカルとグローバルの2つのCNNを使っている。 Universal Adversarial Perturbations Seyed-Mohsen, Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawziz, Pascal Frossardy CVPR2017 EPFL, リヨン大学 どんな画像にでもクラスを高い確率で変更してしまうノイズを見つけた。個々の画像ではなく、全画像に共通したもの。といっても、そのような最適化問題を作って解いているだけで、新たな法則を発見したわけではないので、普通の話。 Unsupervised Pixel-Level Domain Adaptation With Generative Adversarial Networks Konstantinos Bousmalis, Nathan Silberman, David Dohan, Dumitru Erhan, Dilip Krishnan CVPR2017 Google Research, Google Brain 合成データを使ってデータを増やそうとするもので、同じCVPR2017のAppleのベストペーパーと近い。こちらは、合成データとノイズから負例を生成するものと、識別器が戦う仕組み。明示的なrefinerといってるApple論文のほうがエレガントだし結果も良さそうな感じ。 Global Hypothesis Generation for 6D Object Pose Estimation Frank Michel, Alexander Kirillov, Eric Brachmann, Alexander Krull, Stefan Gumhold, Bogdan Savchynskyy, Carsten Rother CVPR2017 TU Dresden 6Dポーズ(3次元の位置と3次元の回転)をCRFで推定する方法。DLとは関係ない。 CATS: A Color and Thermal Stereo Benchmark Wayne Treible, Philip Saponaro, Scott Sorensen, Abhishek Kolagunda Michael O’Neal, Brian Phelan, Kelly Sherbondy, Chandra Kambhamettu CVPR2017 CATSデータセットの提案。1400の画像で、歩行者、車、電子機器などに関する画像と温度画像のペア。 Multi-View Supervision for Single-View Reconstruction via Differentiable Ray Consistency Shubham Tulsiani, Tinghui Zhou, Alexei A. Efros, Jitendra Malik CVPR2017 UCB マルチビューの画像から、空間上の立体を復元する。光の透過等を考慮したモデル。3次元の情報を復元するサーベイも参考になる。CNNを使っている。実験では、PASCAL VOCを使って、いすや飛行機の3D形状を再現したり、Cityscapesデータセットから空間情報を再現したり。 On-The-Fly Adaptation of Regression Forests for Online Camera Relocalisation Tommaso Cavallari, Stuart Golodetz, Nicholas A. Lord, Julien Valentin, Luigi Di Stefano, Philip H. S. Torr CVPR2017 U. of Bologna, U. Oxford, perceptive 回帰フォレストを使って、2Dと3Dのキーポイントのアライメントを取る。DLではない。 Deep Video Deblurring for Hand-Held Cameras a CVPR2017 FC4: Fully Convolutional Color Constancy With Confidence-Weighted Pooling Yuanming Hu, Baoyuan Wang, Stephen Lin CVPR2017 清華大学、MSR もとの色に戻すために、色が変わるもの(壁の色)、変わらないもの(バナナ)に応じて自信度マップを作り、それをもとに補正する。 Face Normals “In-The-Wild” Using Fully Convolutional Networks George Trigeorgis, Patrick Snape, Iasonas Kokkinos, Stefanos Zafeiriou CVPR2017 インペリアル・カレッジ・ロンドン 顔の表層の標準形(?)を求める。Resnet50をベースにしたCNNを使う。 Transition Forests: Learning Discriminative Temporal Transitions for Action Recognition and Detection a CVPR2017 Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition With Convolutional Neural Networks a CVPR2017 A Domain Based Approach to Social Relation Recognition Qianru Sun Bernt Schiele Mario Fritz CVPR2017 Max Planck Inst. 写真のデータセット(PIPAデータセット、37000枚、2300人がのべ63000回写っている)に社会的関係のタグをつけてデータセットを作る。ダブルのCNNにFC層を重ねたモデルで学習。父と娘とか兄弟とか同僚とか。 Spatio-Temporal Naive-Bayes Nearest-Neighbor (ST-NBNN) for Skeleton-Based Action Recognition a CVPR2017 Personalizing Gesture Recognition Using Hierarchical Bayesian Neural Networks a CVPR2017 Discover and Learn New Objects From Documentaries Kai Chen Hang Song Chen Change Loy Dahua Lin CVPR2017 Chinese University of Hong Kong 動物のドキュメンタリーの映像から、オブジェクトと言語を結びつける。CNNで特徴抽出し、半教師あり学習。60種類の動物。74万フレーム。 Deep Reinforcement Learning-Based Image Captioning With Embedding Reward Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv1 Li-Jia Li CVPR2017 SNAP Inc., Google イメージ・キャプショニングを強化学習を使って行う。画像と文の円ベッティングがどのくらい近いかをリワードにして、強化学習でバリューネットワーク、ポリシーネットワークを作る。MS-COCOとかで評価。多少良くなっている。 From Red Wine to Red Tomato: Composition With Context Ishan Misra Abhinav Gupta Martial Hebert CVPR2017 CMU 赤ワインと赤いトマトの赤いの意味はだいぶ違う。大きな象と大きなへびの大きさも全然違う。ということで、構成性(composinionality)に焦点を当てた論文。原始的な分類器(象とか大きいとか)を組み合わせる組み合わせ方を学習する。FC層をいくつか重ねた、変形ネットワーク(Transformation Network)を構成する。分類器なので、画像の生成ではない。 Predicting Behaviors of Basketball Players From First Person Videos a CVPR2017 LCR-Net: Localization-Classification-Regression for Human Pose a CVPR2017 Learning Residual Images for Face Attribute Manipulation a CVPR2017 Deep Learning on Lie Groups for Skeleton-Based Action Recognition a CVPR2017 Harvesting Multiple Views for Marker-Less 3D Human Pose Annotations a CVPR2017 Weakly Supervised Action Learning With RNN Based Fine-To-Coarse Modeling a CVPR2017 Disentangled Representation Learning GAN for Pose-Invariant Face Recognition a CVPR2017 ArtTrack: Articulated Multi-Person Tracking in the Wild a CVPR2017 Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields a CVPR2017 Deep 360 Pilot: Learning a Deep Agent for Piloting Through 360° Sports Videos Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Yung-Ju Chang, Min Sun CVPR2017 清華大学、NVIDIA 360度のカメラから、物体をいい感じで切り出す。Faster R-CNNで切り出して、RNNで選択し、RNNでカメラを動かすべき場所を予測する。スケボーをやってるシーンなど。 One-Shot Metric Learning for Person Re-Identification a CVPR2017 Learning From Simulated and Unsupervised Images Through Adversarial Training Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb CVPR2017 Apple CVPR2017ベストペーパー。Appleの最初のDL論文らしい。シミュレーションで作った画像データをrefinerというので洗練して、リアルな画像に近づける。このrefinerとdiscriminatorが、GANのように競ってよくする。これによって、データを増やすというもの。 Photorealistic Facial Texture Inference Using Deep Neural Networks a CVPR2017 Detecting Visual Relationships With Deep Relational Networks a CVPR2017 Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes a CVPR2017 Person Re-Identification in the Wild Liang Zheng, Hengheng Zhang, Shaoyan Sun, Manmohan Chandraker, Yi Yang, Qi Tian CVPR2017 シドニー工科大学、テキサス大学サンアントニオ校、中国科技大 人の再同定のデータセットPRWを作った。932の人の11816フレーム。さらに歩行者検出がre-IDを助けることを示す。 Scalable Person Re-Identification on Supervised Smoothed Manifold a CVPR2017 Joint Detection and Identification Feature Learning for Person Search a CVPR2017 Consistent-Aware Deep Learning for Person Re-Identification in a Camera Network a CVPR2017 Level Playing Field for Million Scale Face Recognition a CVPR2017 Social Scene Understanding: End-To-End Multi-Person Action Localization and Collective Activity Recognition a CVPR2017 Detangling People: Individuating Multiple Close People and Their Body Parts via Region Assembly a CVPR2017 Seeing Invisible Poses: Estimating 3D Body Pose From Egocentric Video a CVPR2017 End-To-End Learning of Driving Models From Large-Scale Video Datasets Huazhe Xu, Yang Gao, Fisher Yu, Trevor Darrell CVPR2017 UCB 動画からFCNで高次の特徴量にして、前の動きと合わせて、LSTMで自車の動きを予測する。かなりちゃんとしたモデルっぽい。Berkeley DeepDrive Videoデータセットを公開している。 Learning to Extract Semantic Structure From Documents Using Multimodal Fully Convolutional Neural Networks a CVPR2017 Age Progression/Regression by Conditional Adversarial Autoencoder a CVPR2017 What Is and What Is Not a Salient Object? Learning Salient Object Detector by Ensembling Linear Exemplar Regressors Changqun Xia, Jia Li, Xiaowu Chen, Anlin Zheng, Yu Zhang CVPR2017 Beihang U. 前景性、形、アテンションから、顕著なオブジェクトか、そうでないかを線形のアンサンブルで判別する。アテンションのところは、深層モデルを使っているが他はそうでもなさそう。 Deep Variation-Structured Reinforcement Learning for Visual Relationship and Attribute Detection Xiaodan Liang Lisa Lee Eric P. Xing CVPR2017 CMU 深層強化学習を使って、画像から、サブジェクト、オブジェクト、関係を取り出す。画像全体の特徴量、サブジェクトの特徴量、オブジェクトの特徴量、これまでのフレーズのエンベでィングをコンカテネートして、アクションとして、属性、述語、オブジェクトの判定をする。結構すごい。 Modeling Relationships in Referential Expressions With Compositional Modular Networks Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell, Kate Saenko CVPR2017 UCB, Boston U. 参照表現は、画像からの検索で解けるような関連研究の紹介がある。このモデルは、言語の表現、画像からの局所的な情報、画像からの2つの領域の関係情報という3つのコンポネントで、サブジェクト、オブジェクト、関係を学習する。合成的なデータセットと、Visual Genomeデータセット。 Semantic Autoencoder for Zero-Shot Learning Elyor Kodirov Tao Xiang Shaogang Gong CVPR2017 Queen Mary U. of London 線形のオートエンコーダでゼロショット学習をする。シンプルなモデル。深層でない。 CityPersons: A Diverse Dataset for Pedestrian Detection a CVPR2017 GuessWhat?! Visual Object Discovery Through Multi-Modal Dialogue a CVPR2017 Creativity: Generating Diverse Questions Using Variational Autoencoders Unnat Jain, Ziyu Zhang, Alexander Schwing CVPR2017 UIUC VAEとLSTMを使って、画像から質問文を生成する。 Recurrent 3D Pose Sequence Machines Mude Lin, Liang Lin, Xiaodan Liang, Keze Wang, Hui Cheng CVPR2017 Sun Yat-sen U.(中山大学), China 2次元映像から3次元のポーズの推定。2Dポーズのモジュール(CNN)、3Dのポーズのモジュール(LSTM)、それらをつなぐ特徴量適応モジュール(CNN+FC)の3つから構成される。 Learning Detailed Face Reconstruction From a Single Image a CVPR2017 Adversarially Tuned Scene Generation VSR Veeravasarapu, Constantin Rothkopf, Ramesh Visvanathan CVPR2017 Goethe U., Frankfurt 3Dのレンダラーが描く画像と実際の画像のアドバーサリアル。レンダラーのパラメータをアップデートする。手法は良さそうに思うが。CityScapesデータと、CamVidデータで学習。得られた画像は、だいぶ実際のに近づいている感じ。 Residual Attention Network for Image Classification a CVPR2017 The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives a CVPR2017 CNN-SLAM: Real-Time Dense Monocular SLAM With Learned Depth Prediction Keisuke Tateno, Federico Tombari, Iro Laina, Nassir Navab, CVPR2017 TU Munich, Canon, John Hopkins U. 単眼カメラから深さを推定する.CNNを使う。またカメラポーズを推定し、大域的なマップにフュージョンする。結構すごい。 SyncSpecCNN: Synchronized Spectral CNN for 3D Shape Segmentation a CVPR2017 UltraStereo: Efficient Learning-Based Matching for Active Stereo Systems a CVPR2017 Stereo-Based 3D Reconstruction of Dynamic Fluid Surfaces by Global Optimization a CVPR2017 A Point Set Generation Network for 3D Object Reconstruction From a Single Image a CVPR2017 3D Face Morphable Models “In-The-Wild” a CVPR2017 Multi-View 3D Object Detection Network for Autonomous Driving a CVPR2017 OctNet: Learning Deep 3D Representations at High Resolutions Gernot Riegler, Ali Osman Ulusoy, Andreas Geiger CVPR2017 Graz大学(オーストリア)、MPI, ETH Zurich 高解像度の3Dデータ(といっても64^3とか)からのCNNを行うために、偏ったOctTree(必ず8つの子がいるツリー。3Dでよく使われる)を使う。空間には疎なところがあるので。 3D Shape Segmentation With Projective Convolutional Networks a CVPR2017 End-To-End 3D Face Reconstruction With Deep Neural Networks Pengfei Dou, Shishir K. Shah, and Ioannis A. Kakadiaris CVPR2017 U. Houston 3次元の顔を再構成するために、CNNで顔と表情に分けたモデルを使う。合成的なデータを作って学習。加えて3つの3D顔データ・セットを使う。FRGC2、BU-3DFE、UHDB31データベース。 Densely Connected Convolutional Networks Gao Huang, Zhuang Liu, Kilian Q. Weinberger CVPR2017 コーネル大学、清華大学 スキップコネクションをひとつじゃなくて複数張る。かえってパラメータ数を減らすことができる。同じパラメータ数でもだいぶ精度がいい。言われてみればそうかもと思うけど、すごい論文。CVPR2017ベストペーパー Annotating Object Instances with a Polygon-RNN Lluís Castrejón, Kaustav Kundu, Raquel Urtasun, & Sanja Fidler CVPR2017準ベストペーパー YOLO9000: Better, Faster, Stronger Joseph Redmon & Ali Farhadi CVPR2017 ワシントン大 CVPR2017準ベストペーパー。昨年のYOLO(You Onloy Look Once)の改良版。9000以上のカテゴリのオブジェクトをリアルタイムに検出できる。バッチノーマライゼーションや、解像度の高い画像を使う、次元のクラスタ化など細かい改良をたくさん重ねている。 Computational Imaging on the Electric Grid Mark Sheinin, Yoav Y. Schechner, Kiriakos N. Kutulakos CVPR2017 イスラエル工科大、トロント大 さまざまな光源を模擬して、夜の光の画像をうまく作り出すもの。DLではない。CVPR2017学生ベストペーパー DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time Richard A. Newcombe, Dieter Fox, Steven M. Seitz CVPR2015ベストペーパー Efficient Globally Optimal Consensus Maximisation with Tree Search Tat-Jun Chin, Pulak Purkait, Anders Eriksson, David Suter CVPR2015準ベストペーパー Fully Convolutional Networks for Semantic Segmentation Jonathan Long, Evan Shelhamer, Trevor Darrell 2015 UCB セマンティックセグメンテーション。VGGとかGoogLeNetとかAlexNetとか使って、最終章をセグメンテーション用にファインチューニング。CVPR2015準ベストペーパー Picture: A Probabilistic Programming Language for Scene Perception Tejas D Kulkarni, Pushmeet Kohli, Joshua B Tenenbaum, Vikash Mansinghka CVPR2015準学生ベストペーパー Category-Specific Object Reconstruction from a Single Image Abhishek Kar, Shubham Tulsiani, João Carreira, Jitendra Malik CVPR2015 CVPR2015学生ベストペーパー。2次元から3次元を再構成 Sublabel-Accurate Relaxation of Nonconvex Energies Thomas Möllenhoff, Emanuel Laude, Michael Moeller, Jan Lellmann, Daniel Cremers CVPR2016準ベストペーパー。 Structural-RNN: Deep Learning on Spatio-Temporal Graphs, Ashesh Jain, Amir R. Zamir, Silvio Savarese, Ashutosh Saxena CVPR2016 コーネル大、スタンフォード、Brain of Things Inc. 時空間のグラフィカルモデルの入力をRNNに直す。時間に展開して、要素に分解するようだ。 CVPR2016ベスト学生ペーパー。 Neuroscience-Inspired Artificial Intelligence Demis Hassabis, Dharshan Kumaran, Christopher Summerfield, and Matthew Botvinick Neuron, 2017 DeepMind 想像とプランニングの重要性が書かれている。深層生成モデルの重要性も。未来を想像したり、ありきたりの要素を新しい方法で組み合わせたりできる。自分の考えと全く一致することがちゃんと書かれていて良い。 Metacontrol for Adaptive Imagination-Based Optimization Jessica B. Hamrick, Andrew J. Ballard, Razvan Pascanu, Oriol Vinyals, Nicolas Heess, Peter W. Battaglia ICLR2017 poster Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun MSR 2015 4.9%を達成した論文。人間を上回る。PRELU(パラメータ化RELU) Rethinking the Inception Architecture for Computer Vision Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna 2015 Google Imagenetで3.5%。Inception-v3のアンサンブル。 Striving for simplicity: The all convolutional net a 2014 Learning Important Features Through Propagating Activation Differences a DeepLift。どの素性が効いているかを調べる方法。 Do GANs actually learn the distribution? An empirical study Sanjeev Arora Yi Zhang 2017 GANが本当にターゲットの分布を学習しているのか。著者らの最近の研究(ICML2017)によると、識別器が有限のときはそうでもないのではと述べている。生成された分布が低いサポートの場合でも、最適値に近づく。この論文では、この現象が起こることを、実験的にも検証している。 Exponential expressivity in deep neural networks through transient chaos a Advances in Neural Information Processing Systems, 2016 Trust Region Policy Optimization John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel 2015 TRPO Building Machines That Learn and Think Like People Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum, and Samuel J. Gershman Behavioral and Brain Science, 2016 MIT ディープラーニングを踏まえて従来のAIから見て足りないものを議論している。直感的物理、直感的心理学、因果モデル、合成性(compositionality)、学ぶことを学習する(learning-to-learn)など。新しいDLの研究もちゃんと網羅していて、ポイントはだいたい正しい。こうした議論をちゃんと古い研究者がやっているのはすごいし、うらやましい。 A simple neural network module for relational reasoning Adam Santoro, David Raposo, David G.T. Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap 2017 DeepMind 関係ネットワーク(Relation Network)の提案。NIPS2016のとはメンバーはかなり違う。関係を学習。CNNで取り出して、MLPで関係概念に相当する関数を学習。そのときに、自然言語文を入れたLSTMをあわせて、答えを出力させる。CLEVRデータセット、bAbIデータセット、動的物理システムなどで実験。 Clevr: A diagnostic dataset for compositional language and elementary visual reasoning. Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick CVPR2017 Stanford U., FAIR まさに積み木の世界のような視覚的推論と言語的な質問のデータセット。VQAだとどこが間違っているのか分からない。SHURDLUの話も出てくる。1900年代の賢い馬、クレバーハンスから取っている。 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello 2016 Xception: Deep Learning with Depthwise Separable Convolutions Franc ̧ois Chollet Google 2016 Inceptionが、深さ方向に分離可能な複数のモジュールの組み合わせであるというアイディアで、分離可能なConvレイヤーを全体に入れている。ImageNetでInception V3をちょっと上回るくらい、もっと大きいグーグル内部のJFTデータセットだと、だいぶ良くなる。 Multilayer feedforward networks are universal approximators. Kurt Hornik, Maxwell Stinchcombe, and Halbert White 1989 Tech Univ. Wien, UC San Diego ニューラルネットワークの普遍性定理の超有名論文。 Approximations by superpositions of sigmoidal functions a 1989 See, Hear, and Read: Deep Aligned Representations Yusuf Aytar, Carl Vondrick, Antonio Torralba 2017 MIT 画像、音声、テキストを入力として、共有する表現に直してクラスを当てる。3つのペアのロスが少なくなるように共通の表現を近づけている。クロスモーダルの検索や、隠れたユニットの可視化(例えば画像からありそうな音や文を出す)、ゼロショット分類などができる。手法としては割とシンプルで、方向性としてはごく自然。 One Model To Learn Them All Łukasz Kaiser, Aidan N. Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, Jakob Uszkoreit 2017 Google Brain 画像、音声、言語、カテゴリカル・データという4つのモーダルを入力にして、モーダル毎のエンコード部分、アテンションの機構と、出力用のデコーダーから構成する。MutiModelというモデル。画像認識や翻訳などのタスクで、最新にはいかないがそこそこの精度を出す。アテンションのおかげで、他のモジュールが邪魔をしないようだ。 Recurrent orthogonal networks and long-memory tasks Li Jing, Caglar Gulcehre John Peurifoy, Yichen Shen, Max Tegmark, Marin Soljaˇci´c, Yoshua Bengio 2017 MIT, モントリオール大 GAUを直交複素行列にする。勾配消失に有効らしい。bAbI質問応答とかいくつかのタスクで、他の複素数を使った方法(EURNN)と同程度かそれより良い。 Tunable efficient unitary neural networks (eunn) and their application to rnns Gated Orthogonal Recurrent Units: On Learning to Forget Hyperparameter Optimization: A Spectral Approach Elad Hazan, Adam Klivans, Yang Yuan 2017 Adversarially Regularized Autoencoders for Generating Discrete Structures An End-to-End Computer Vision Pipeline for Automated Cardiac Function Assessment by Echocardiography Quantum Entanglement in Neural Network States Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour Priya Goyal, Piotr Doll´ar, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, Kaiming He 2017 Facebook 大きなバッチサイズをCPUで動かす。8192画像のミニバッチで、256個のCPUで、ResNet50を1時間で訓練できる。(8つのTesla P100 GPUだと、29時間。)学習率をバッチサイズにあわせるのと、ウォームアップを工夫している。 学習率をミニバッチのサイズにあわせてスケールさせることで、8192画像の大きなミニバッチでも精度が落ちないことを示した。 Hybrid Reward Architecture for Reinforcement Learning Harm van Seijen, Mehdi Fatemi, Joshua Romoff1, Romain Laroche, Tavian Barnes, Jeffrey Tsang 2017 Microsoft Maluuba, McGill U. (カナダ) 報酬を複数にする。Ms Packmanとかで、フルーツを集めるとか、いろいろな報酬を作って、その重み和を最大化するように学習させたほうが、スコアが上がる。まあ、そりゃそうだろうね。けど重要。 Fast R-CNN Ross Girshick ICCV2015 Microsoft Research 画像全体をCNNに通し、その後、領域プロポーザルごとに特徴量を出して、フルコネクトを通して、バウンディングボックスの回帰とクラス分類に。 You Only Look Once: Unified, Real-Time Object Detection Y. Redmon, S. Divvala, R. Girshick, and A. Farhadi CVPR2016 U. Washington, Allen Inst., FAIR 画像から部分を切り出して、リサイズしてCNN。回帰の問題にする。高速である。1秒で45フレーム(早いものでは155フレーム)処理できる。 Deep Tensor Convolution on Multicores David Budden, Alexander Matveev, Shibani Santurkar, Shraman Ray Chaudhuri, Nir Shavit ICML2017 MIT 3DのConvNetのためのアーキテクチャ。CPUを使って5から25倍早くする。 Beyond Filters: Compact Feature Map for Portable Deep Model a ICML2017 Deep Transfer Learning with Joint Adaptation Networks Mingsheng Longy, JianminWangy, Michael I. Jordan ICML2017 清華大学、UCB 転移学習を一般的なシナリオで行うために、ヒルベルト空間の分布の埋め込みを使って、同時分布の分離を測定する方法を提案する。これを最小化するようなドメイン間の層の同時分布を見つける。 Combined Group and Exclusive Sparsity for Deep Neural Networks a ICML2017 Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, Trevor Darrell ICML2017 UCB 好奇心。自分が周りをコントロールできるか、あるいは周りによって自分が影響されるかを予測する。予測されるアクションとの差を尤度に入れているようだ。マリオなどのゲームで検証。まあ、こうなるよね。 Learning Deep Architectures via Generalized Whitened Neural Networks a ICML2017 SplitNet: Learning to Semantically Split Deep Networks for Parameter Reduction and Model Parallelization a ICML2017 Deep Spectral Clustering Learning Marc T. Law, Raquel Urtasun, Richard S. Zemel ICML2017 U. Toronto スペクトラルクラスタリングのディープ版。値を高次にして、類似度行列を作る。それがクラスタになるように学習する。 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn, Pieter Abbeel, Sergey Levine ICML2017 UCB, OpenAI 面白い論文。MAML。モデル不可知のメタ学習。複数のタスクに対して、同じ表現(か何か)を勾配をとって学習していく。メタ学習器は、モデルの初期値を与える。適切な内部表現は複数のタスクに役に立つので。たぶん、強化学習での複数タスクが念頭にあるのでは。 KW: メタ学習 Learning to Discover Cross-Domain Relations with Generative Adversarial Networks Taeksoo Kim, Moonsu Cha, Hyunsoo Kim, Jung Kwon Lee, Jiwon Kim ICML2017 SK T-Brain (韓国) Disco-GAN。バッグと同じデザインの靴を作る。GANのコスト関数を工夫して、バッグ柄の靴、靴柄のバッグ、お互いが見破れないように識別器を訓練。 Image-to-Markup Generation with Coarse-to-Fine Attention Yuntian Deng, Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush ICML2017 ハーバード大 数式からLaTeXの数式を書き出す。問題設定は面白い。CNNからRNN(LSTM)でモデルは普通。階層アテンションを使っている。 State-Frequency Memory Recurrent Neural Networks a ICML2017 Deep Value Networks Learn to Evaluate and Iteratively Refine Structured Outputs a ICML2017 構造化された出力を出すのを学習するが、正解データとのロスを最小化するようなディープニューラルネットワーク。なので、valueと言っている。画像のセグメンテーションとかができる。TaskarとかKollerらのstructured predictionのディープ版。 Delta Networks for Optimized Recurrent Network Computation Daniel Neil, Jun Haeng Lee, Tobi Delbruck, Shih-Chii Liu ICML2017 UZH and ETH Zurich (スイス) RNNにおいてデルタだけを入力にするようなモデル。信号が安定であることが多いので、そのほうが効率的。精度が変わらずスピードが上がる。TIDIGITS(音声認識用の音声データ)で検証。 Cognitive Psychology for Deep Neural Networks: A Shape Bias Case Study a ICML2017 Convexified Convolutional Neural Networks Yuchen Zhang Percy Liangy Martin J. Wainwrightz ICML2017 Stanford U. 非線形の畳込みフィルターをRKHSのベクトルで表し、低次元の行列にする。従来と同じくらいの精度が出る。 FeUdal Networks for Hierarchical Reinforcement Learning Alexander Sasha Vezhnevets, Simon Osindero, Tom Schaul, Nicolas Heess, Max Jaderberg, David Silver, Koray Kavukcuoglu ICML2017 DeepMind ヒントン先生が1993年に提案した、封建的ネットワークのディープ版。マネージャーは、遅いタイムステップで動作・学習する。マネージャーがワーカーに指示を出し、ワーカーは早いタイムステップで動作・学習する。マネージャーには、delated LSTM (拡張LSTM)を使って、長い時間ギャップも対応できるようにしている。ATARIのゲームとか、3Dの環境で従来よりよい成績。 Modular Multitask Reinforcement Learning with Policy Sketches Jacob Andreas, Dan Klein, and Sergey Levine ICML2017 UCB 階層的なタスクの学習。ポリシースケッチというのは、タスクに、名前をつけたサブタスクのシーケンスをアノテートする。個々のサブタスクは強化学習で学習する。 Accelerating Eulerian Fluid Simulation With Convolutional Networks Jonathan Tompson, Kristofer Schlachter, Pablo Sprechmann, Ken Perlin ICML2017 Google Brain, NYU, Google DeepMind 流体のナビエ・ストークス方程式のシミュレーションをディープラーニングで。非圧縮のオイラー方程式を解くのに、自由度がいろいろあるらしく、それをデータによって学習する。CNNを使って線形方程式を解くらしい。煙のシミュレーションとか。直感的物理(intuitive physics)系のひとつ。 An Analytical Formula of Population Gradient for two-layered ReLU network and its Applications in Convergence and Critical Point Analysis Yuandong Tian ICML2017 FAIR 2つのニューラルネットワークで、ひとつが教師、ひとつが生徒のときに学習する場合の解析的な論文。 Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning Oron Anschel, Nir Baram, Nahum Shimkin ICML2017 イスラエル DQNで最近のK個のQ値を平均する。アンサンブルのようになってパフォーマンスがよくなる。アーケード学習環境(ALE)で学習。 meProp: Sparsified back propagation for accelerated deep learning with reduced overfitting Xu Sun, Xuancheng Ren, Shuming Ma, HoufengWang ICML2017 北京大学 最小限の努力のプロパゲーションという意味で、meProp。上位5つの変更の大きな重みだけ更新する。計算時間が早くなる(数十倍)だけでなく、精度も若干あがる。MNISTとかPOS-Tag、Parsingで実験。ドロップアウトのようなものだろうとのこと。あまり考察はないが、簡単で面白い手法。 MEC: Memory-efficient Convolution for Deep Neural Network Minsik Cho, Daniel Brand ICML2017 IBM T. J. Watson Research Center CNNで行列を工夫することで、メモリ効率を上げようというもの。研究の背景がちょっと微妙。(im2colとかFFTとかそんなに使われるのか?) End-to-End Differentiable Adversarial Imitation Learning Nir Baram, Oron Anschel, Itai Caspi, Shie Mannor ICML2017 Technion Institute of Technology, Israel 模倣学習をGANを使ってやる。モデルに基づく生成的敵対模倣学習(MGAIL) (More) Efficient Reinforcement Learning via Posterior Sampling Ian Osband, Benjamin Van Roy, and Daniel Russo 2013 Stanford U. 強化学習において、「楽観的」に考えるために、不確実性に対するボーナスを与えるような従来手法ではなく、事後確率のサンプリングによってやるほうが良いという内容。 Sharp Minima Can Generalize For Deep Nets Laurent Dinh, Razvan Pascanu, Samy Bengio, Yoshua Bengio ICML2017 モントリオール大、DeepMind, Google Brain, CIFAR 最近よく述べられているような、フラットな局所解が汎化性能を説明するということではないことを解析的に議論している。 Learning to Generate Long-term Future via Hierarchical Prediction Ruben Villegas, Jimei Yang, Yuliang Zou, Sungryull Sohn, Xunyu Lin, Honglak Lee ICML2017 U. Michigan 前景と背景にわけ、前景(人の部分)はポーズ推定をして、ポーズの動きから長期の未来の画像を作る。ポーズは、人のヒートマップデータから学習している。 Deep Voice: Real-time Neural Text-to-Speech Sercan O¨ . Arık, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi ICML2017 Baidu DLによるTTSなのだが、いくつかのモジュールに分かれている。書記素から音素への変換、音声のセグメンテーション、音素持続モデル、F0予測、音声合成など。それぞれ、深層のニューラルネットワークを使っている。音声合成のところが、WaveNet相当だが、早くなるように工夫している。評価は自己手法間の比較なのでよく分からない。 Dance Dance Convolution Chris Donahue, Zachary C. Lipton, and Julian McAuley ICML2017 UCSD ダンスダンスレボリューションのステップを生成する。生の音楽ファイルを入れる。CNNで高次の特徴量にしてLSTM。 Recurrent highway networks J. G. Zilly, R. K. Srivastava, J. Koutnik, and J. Schmidhuber. 2016 ICML2017 ひとつの時点に複数のノードと状態遷移がある深層遷移RNN。ハイウェイネットワークを使う。深さは1, 2, 4, 6とか。Wikipediaの言語モデルなどで評価。 Learning Continuous Semantic Representations of Symbolic Expressions Miltiadis Allamanis, Pankajan Chanthirasegaran, Pushmeet Kohli, Charles Sutton ICML2017 Microsoft Research Cambridge, U. Edinburgh, DeepMind アンドとかオアのオペレータが同じものを表すように、学習する。サブ表現オートエンコーダと呼んでいる。それによって得られるのが、ニューラル等価ネットワーク。SemVecのように意味を表すことができる。山川さんの昔からやってたのに近いのでは。 The ZipML Framework for Training Models with End-to-End Low Precision: The Cans, the Cannots, and a Little Bit of Deep Learning Hantian Zhang, Jerry Li, Kaan Kara, Dan Alistarh, Ji Liu, Ce Zhang ICML2017 ETH Zurich, U. Rochester, MIT 精度を落として軽くするモデルがたくさん提案されているが、これをend-to-endで学習できないかというもの。リニアモデルだとできる。FPGAのプロトタイプを作って、6.5倍早くなった。あまりディープラーニング系の言及はない。 Learning Texture Manifolds with the Periodic Spatial GAN a ICML2017 Decoupled Neural Interfaces using Synthetic Gradients a ICML2017 Adversarial Variational Bayes: Unifying Variational Autoencoders and Generative Adversarial Networks Lars Mescheder, Sebastian Nowozin, Andreas Geiger ICML2017 Microsoft ケンブリッジ VAEとGANを結びつけるモデルのひとつ。補助的な識別ネットワークを、最大尤度問題と読み替える。 A new formulation for deep ordinal classification a ICML2017 Learning to learn without gradient descent by gradient descent Yutian Chen, MatthewW. Hoffman, Sergio G´omez Colmenarejo, Misha Denil, Timothy P. Lillicrap, Matt Botvinick Nando de Freitas ICML2017 DeepMind RNNを使って微分のとれないブラックボックスのアルゴリズムを最適化する。開発と活用のトレードオプをうまく学習する。 Failures of Gradient-Based Deep Learning Shai Shalev-Shwartz, Ohad Shamir, and Shaked Shammah ICML2017 Hebrew U. 勾配に基づくアルゴリズムがうまくいかない、4つの単純な問題について述べる。パリティと線形周期関数、分解とエンドトゥエンド、アーキテクチャーと条件付け、平坦なアクティベーション。 Fairness in Reinforcement Learning Shahin Jabbari, Matthew Joseph, Michael Kearns, Jamie Morgenstern, Aaron Roth, Department of Computer and Information Science, University of Pennsylvania ICML2017 U. Penn あるアクションを他より重視するかどうかということをあまりやらない(フェアな)制約をかけることについて。普通は悪くなるが、工夫をしている。 Automated Curriculum Learning for Neural Networks Alex Graves, Marc G. Bellemare, Jacob Menick, R´emi Munos, Koray Kavukcuoglu ICML2017 Google DeepMind LSTMのカリキュラム学習を、バンディット問題と捉えて、2つの指標を使って適応的にカリキュラムを作る。ひとつが学習の進歩で、新しいサンプルにより、どのくらい予測精度が上がっているか。もうひとつが複雑さで、どのくらい複雑さが上がっているか。言語モデルとかbAbIデータセットで実験している。 Bayesian surprise attracts human attention a 2009 Curriculum Learning Yoshua Bengio, Jerome Louradour, Ronan Collobert, Jason Weston 2009 U. Montreal, NEC laboratories America 簡単なものから難しいものにサンプルを並び替えると学習が早くなる。 McGan: Mean and Covariance Feature Matching GAN Youssef Mroueh, Tom Sercu, Vaibhava Goel ICML2017 IBM T. J. Watson Reserch Center Wasserstein GANをさらに汎用にするようなモデル。IPM(統合確率測度)というのを使う。平均と共分散の2つの値を使う。 Deeply AggreVaTeD: Differentiable Imitation Learning for Sequential Prediction Wen Suny, Arun Venkatramany, Geoffrey J. Gordony, Byron Boots, J. Andrew Bagnell ICML2017 CMU, Georgia Tech. 最初のオラクルが与えられた時の強化学習。初期値にして、学習と試行を交互に繰り返すAggreVaTeというのの微分可能バージョン。 Understanding Synthetic Gradients and Decoupled Neural Interfaces a ICML2017 The loss surface of deep and wide neural networks Quynh Nguyen, Matthias Hein ICML2017 Saarland U., Germany DNNでは、多くの局所最適解が大域的最適解に近いと言われてきた。フルコネクトのネットワークで、2乗ロスを使っている場合には、これが実際に正しいことを示す。 DeepBach: A Steerable Model for Bach Chorales Generation a ICML2017 Improving Stochastic Policy Gradients in Continuous Control with Deep Reinforcement Learning using the Beta Distribution Po-Wei Chou, Daniel Maturana, Sebastian Scherer ICML2017 CMU 深層強化学習の連続値版で、ガウス分布の仮定をベータ分布にする。バイアスがなくなって、早く収束して、結果も良いようだ。 Multichannel End-to-end Speech Recognition a ICML2017 On orthogonality and learning recurrent networks with long term dependencies a ICML2017 Analytical Guarantees on Numerical Precision of Deep Neural Networks a ICML2017 Neural Episodic Control Alexander Pritzel, Benigno Uria, Sriram Srinivasan, Adria Puigdomenech, Oriol Vinyals, Demis Hassabis, Daan Wierstra, Charles Blundell ICML2017 DeepMind 神経エピソードコントロール(NEC)という手法。key-valueペアのような形でエピソードをとっておいて、必要なときのQ(s,a)をエピソードを引き出して足し合わせることで計算する。いくつかのATARIのゲームで実験しているが、DQNとかA3Cとかよりだいぶ良さそう。同じ著者らのMFEC(Model-Free Epsodic Control)というのも良さそう。 Model-free episodic control. Charles Blundell, Benigno Uria, Alexander Pritzel, Yazhe Li, Avraham Ruderman, Joel Z Leibo, Jack Rae, Daan Wierstra, Demis Hassabis 2016 DeepMind 深層強化学習をエピソードに基づく手法でやる。単純に、過去に似たような状況でのQ値の平均を取るだけ。シンプル。素性を減らすのに、ランダム射影とVAEを比較している。 From Patches to Images: A Nonparametric Generative Model a ICML2017 Robust Adversarial Reinforcement Learning Lerrel Pinto, James Davidson, Rahul Sukthankar, Abhinav Gupta ICML2017 CMU, Google Brain 敵対的な強化学習。2つ目のエージェントは、障害となるものを入れて邪魔をする。それでもうまくできるようにする。OpenAI gymで実験。まあ、そうだよね。。 Accurate and Timely Real-time Prediction of Sepsis Using an End-to-end Multitask Gaussian Process RNN Classifier a ICML2017 Intelligible Language Modeling with Input Switched Affine Networks Jakob N. Foerster, Justin Gilmery, Jan Chorowskiz, Jascha Sohl-Dickstein, David Sussillo ICML2017 Google Brain RNNのなかで何が起こっているのかを見るために、線形なモデルを仮定。これでもほとんど精度が落ちない。その上で、いろいろな分析をしている。 Tensor-Train Recurrent Neural Networks for Video Classification a ICML2017 Adversarial Feature Matching for Text Generation Yizhe Zhang, Zhe Gan, Kai Fan, Zhi Chen, Ricardo Henao, Dinghan Shen, Lawrence Carin ICML2017 Duke U. テキストを生成するGAN(テキストGAN)。LSTMで生成し、識別器はCNN。 Discovering Discrete Latent Topics with Neural Variational Inference a ICML2017 Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning Jakob Foerster, Nantas Nardelli, Gregory Farquhar, Triantafyllos Afouras, Philip. H. S. Torr, Pushmeet Kohli, Shimon Whiteson ICML2017 U. Oxford ネットワークのパケットとか、都市交通のようなマルチエージェントの強化学習をディープラーニングでやる。そのために、経験リプレイにフィンガープリントをつける等の工夫をする。 Variational Dropout Sparsifies Deep Neural Networks a ICML2017 Deep Bayesian Active Learning with Image Data Yarin Gal, Riashat Islam, Zoubin Ghahramani ICML2017 U. Cambridge, UK アクティブラーニングの考え方をDLに入れる。少ないデータから学習し、次にどのデータのラベルをユーザにつけて欲しいかをアルゴリズムが決めるというもの。ベイジアンCNNという形になり、従来のCNNよりも少ないデータで学習できる。(というか、必要なデータを早く見つけることができる。)MNISTだけでなく、皮膚がんのデータセットでも検証。 Active Learning with Statistical Models a 1996 Compressed Sensing using Generative Models a ICML2017 Wasserstein Generative Adversarial Networks Martin Arjovsky, Soumith Chintala, and Leon Bottou ICML2017 Courant Inst. of Mathematical Science, FAIR 地面を動かす(Earth Mover)距離(あるいはWasserstein距離)を使ったGAN。Jensen-Shannonとかf-measureとかの代わりに。で、バッチ正則化やReLUを使わないときにも、ロバストにGANが動くことを実験的に示している。 Convolutional Sequence to Sequence Learning Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin ICML2017 FAIR seq2seqを全部CNNで。エンコーダのところは文字のエンベッティング+位置情報でconvolutionをしてGRU。アテンションをかけて、出力。WMT14とかWMT16とかのデータセットでBLEUスコアで上回っている。あと、要約のDUC-2004とかGigawordのデータセットでも。 Follow the Moving Leader in Deep Learning a ICML2017 Controllable Text Generation a ICML2017 Latent LSTM Allocation: Joint clustering and non-linear dynamic modeling of sequence data a ICML2017 Improved Variational Autoencoders for Text Modeling using Dilated Convolutions a ICML2017 Input Convex Neural Networks Brandon Amos, Lei Xu, J. Zico Kolter ICML2017 CMU ネットワークの出力(1つ)が入力の凸な関数になっているような制約をかけたネットワーク。最適化によって予測ができるようになるなど、いろいろと便利なことがある。重みWが非負で、非線形の活性化関数が凸で非減少であれば、関数fは凸になる。(定理1) End-to-End Learning for Structured Prediction Energy Networks David Belanger, Bishan Yang, Andrew McCallum ICML2017 U. Mass Amherst 構造化予測エネルギーネットワーク(SPEN)は、構造化出力の候補に対するエネルギー関数がディープネットワークで与えられる。従来の構造化SVMでは複雑な構造のアプリケーションには適用できなかった。そこで、我々は、SPENのend-to-endの学習を提案する。McCallumさんのよくやってるセマンティックロールラベリングとかに適用。 Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, Sergey Levine ICML2017 UCB, OpenAI いろんな手法を統一するエネルギーベースのモデル。Q関数やV関数にソフト関数を使うので、ソフトQ学習とよぶ。サンプリングするのにSVGD(Stein変分勾配降下)という方法を使う。 OptNet: Differentiable Optimization as a Layer in Neural Networks Brandon Amos, J. Zico Kolter ICML2017 CMU ディープネットワークのレイヤーごとに最適化する手法。いまいちディープニューラルネットワークからの式展開になってないのでよくわからないが、各層ごとに二次計画問題にするのと、ラグランジュ乗数を上下でやりとりするとか。実験も貧弱。 Axiomatic Attribution for Deep Networks Mukund Sundararajan, Ankur Taly, Qiqi Yan ICML2017 Google 何が予測に寄与しているのかを調べる手法。機械学習の判定の説明用に。機械学習の線形なモデルでは、よくモデルの係数を調べるが、それの自然な拡張は勾配を調べる方法である。あと、センシティビティ。それによってどのくらいクラスが変わるか。あと、実装不変であることもアルゴリズムの性質としては重要。 それらを考慮した統合勾配(Integrated Gradients)というのを提案。ベースラインを考慮した時の勾配から、ベースラインを考慮しないときの勾配までを徐々に割合を変化させながら足していく。画像のなかでどこが効いているかを図示する際には、単なる勾配よりも良い。 Learning Hierarchical Features from Generative Models Shengjia Zhao, Jiaming Song, Stefano Ermon ICML2017 Stanford U. ラダー変分オートエンコーダと似た、変分ラダーオートエンコーダを定義。モデルが少し違う。 Generalization and Equilibrium in Generative Adversarial Nets (GANs) Sanjeev Arora, Rong Ge, Yingyu Liang, Tengyu Max, Yi Zhang ICML2017 Princeton U. GANの学習はうまくいっているように思うが、学習された分布は本来の分布とは普通の距離でいうとだいぶ遠い。しかし、ニューラルネット距離とよぶより弱い測度に関しては汎化が起こっている。生成器のキャパシティと訓練データのサイズが適当な時に、識別器と生成器のよい平衡が生まれる。 そのために、本論文ではMIX-GANとよぶ生成器を複数用いるモデルを提案する。 Grammar Variational Autoencoder Matt J. Kusner, Brooks Paige, José Miguel Hernández-Lobato ICML2017 Alan Turing Institute, U. Warwick, U. Cambridge (イギリス) パースした木を使ったVAE。デコーダに、スタックするとかスタックから取り出すとかそんな感じの操作を入れている。分子構造とか数式とかを扱える。 A Closer Look at Memorization in Deep Networks Devansh Arpit, Stanisław Jastrzebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S. Kanwal 5 Tegan Maharaj 1 6 Asja Fischer 7 Aaron Courville 1 2 8 Yoshua Bengio 1 2 9 Simon Lacoste-Julien ICML2017 ディープネットワークがノイズデータでも覚えてしまうことと、汎化にはどのような関係があるのだろうか。ノイズデータのなかでも簡単なパターンを優先的に学習することを示す。そして、ノイズのデータセットに対しての学習結果を悪くするような正規化を行うことができることを示す。データセットに依存しない「有効なキャパシティ」という概念では、汎化性能をうまく説明しない。なぜなら、データそのものも記憶の程度を決めるのに大きく影響しているからである。 Learning Deep Latent Gaussian Models with Markov Chain Monte Carlo a ICML2017 Know-Evolve: Deep Temporal Reasoning for Dynamic Knowledge Graphs Rakshit Trivedi, Hanjun Dai, Yichen Wang, Le Song ICML2017 Georgia Tech. エンティティの関係性の時間的変化を捉える。エンベディングを使っているところに少し深層学習を使っている。Global Database for Events, Language and Tone (GDELT)というデータセットと、Integrated Crisis Early Warning System (ICEWS)というデータセットを使っている。知識グラフが取り出しやすいらしい。 Deep IV: A Flexible Approach for Counterfactual Prediction a ICML2017 Language Modeling with Gated Convolutional Networks Yann N. Dauphin, Angela Fan, Michael Auli, David Grangier ICML2017 FAIR RNNをCNNで置き換える系の論文。NLMをRNNではなくゲート付きのCNNで行う。モデルは比較的単純。ルックアップして、コンボリューションする。ゲートのほうも同様にコンボリューションし、それらをかけあわせて、最後はソフトマックス。Google Billion Wordとか、wikitext-103で実験。LSTMよりも良い結果。 Device Placement Optimization with Reinforcement Learning Azalia Mirhoseini, Hieu Pham, Quoc V. Le, Benoit Steiner, Rasmus Larsen, Yuefeng Zhou, Naveen Kumar, Mohammad Norouzi, Samy Bengio, Jeff Dean ICML2017 Google Brain 結構、衝撃的。tensorflowの計算グラフの各オペレーションをどのデバイスで実行したらよいかを、強化学習で学習する。seq2seqのLSTMでエンコードし、REINFORCEで強化学習。アテンションつきLSTMで戻す。 人間が設計するよりも19%とかよくなるらしい。ニューラル言語モデル、NMT、Inception-V3で実験。まあ、こういう技術が積もって、誰も勝てなくなっていくんだよなぁ。。 Learning Sleep Stages from Radio Signals: A Deep Adversarial Architecture Mingmin Zhao, Shichao Yue, Dina Katabi, Tommi S. Jaakkola, Matt T. Bianchi ICML2017 MIT CSAIL 睡眠の状態(起床、浅い眠り、深い眠り、レム睡眠)を無線の周波数で測る。EEGによる方法は正確だが、睡眠の状態を阻害してしまっていた。これにCNN-RNNをいれて、さらに敵対的学習をすることで精度をあげている。25人の被験者の100日分の睡眠のデータを使い、EEGによる睡眠状態を正解データにしている。応用上は重要。 Visual Attribute Transfer through Deep Image Analogy Jing Liao1, Yuan Yao, Lu Yuan1, Gang Hua, and Sing Bing Kang 2017 マイクロソフト、上海交通大学 2つの画像でのアナロジー。対応を見つける。その変化を画像に施した上で、リコンストラクションをする。 Generating Video Description using Sequence-to-sequence Model with Temporal Attention Natsuda Laokulrat, Sang Phan, Noriki Nishida, Raphael Shu, Yo Ehara, Naoaki Okazaki, Yusuke Miyao and Hideki Nakayama COLING2016 産総研, ARIC, NII, 東大、東北大 キャプションづけ。seq2seq(2レイヤーのLSTM)に時間的アテンションをかけるモデル。MSVDと、モントリオール動画アノテーションデータセット(M-VAD)。 An Empirical Study of Language CNN for Image Captioning Jiuxiang Gu, Gang Wang, Jianfei Cai, Tsuhan Chen 2017 NTU, シンガポール RNNではなくCNNを使ってキャプションづけを行う方法。といっても、語順があるので、CNNとRNNを交互に使うような構成になっている。 Image Captioning with Deep Bidirectional LSTMs Cheng Wang, Haojin Yang, Christian Bartz, Christoph Meinel 2016 U. Potsdam, Germany バイディレクショナルなLSTMを使ったキャプショニング。上のほうに全結合層を入れている。Flickr 8K, 30K, MSCOCOで評価。 Deep Visual-Semantic Alignments for Generating Image Descriptions Andrej Karpathy Li Fei-Fei CVPR2015 Stanford U. キャプション生成。Man in black shirt論文。NICのほうが精度は良さそう。 Cider: Consensus-based image description evaluation. a CVPR, 2015. Show and tell: A neural image caption generator O. Vinyals, A. Toshev, S. Bengio, and D. Erhan arxiv 2014, CVPR, 2015. Google CNNとRNNを使ったキャプション生成。ニューラルイメージキャプショニング(NIC)。 Variational Autoencoder for Deep Learning of Images, Labels and Captions a NIPS2016 Encode, Review, and Decode: Reviewer Module for Caption Generation NIPS2016 U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger, Philipp Fischer, Thomas Brox 2015 University of Freiburg, Germany スキップコネクションつきのエンコーダ、デコーダモデル。下書きから色をつけるのとかに使われてる。 13000を超える引用(2020)。 Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics. Sergey Levine, Pieter Abbeel NIPS2014 Synthesis and Stabilization of Complex Behaviors through Online Trajectory Optimization. Synthesis of Robust Behaviors with Online Trajectory Optimization A Survey of Monte Carlo Tree Search Methods. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning Unsupervised Cross-Domain Image Generation a 2016 Making Neural Programming Architectures Generalize via Recursion Jonathon Cai, Richard Shin, Dawn Song ICLR2017 NPIに再帰を入れたもの。NPA。実装はよく分からない。 End-to-end Optimized Image Compression Johannes Ballé, Valero Laparra, Eero P. Simoncelli ICLR2017 NYU 画像圧縮だが、圧縮率とエラーを足し合わせた関数を最小化する。VAEと近いモデル。JPEGの粗い画像が、非常にきれいに再現されている。 Learning End-to-End Goal-Oriented Dialog Antoine Bordes, Y-Lan Boureau, Jason Weston ICLR2017 FAIR 目的をもった会話をするのは苦手だったが、スロットを埋めるというタスクの形にして、メモリーネットワークで解く。データセットをいろいろと工夫して作っている。レストランの予約とかができる。 Towards Principled Methods for Training Generative Adversarial Networks Martin Arjovsky, Leon Bottou ICLR2017 Courant Institute of Mathematical Sciences, and FAIR GANがうまく訓練できない問題。KLではなくJSDのほうがよいはずだが、それでもうまくいかない。その理由は、分布の「台」が低次元の多様体にあるからである、ということを証明している。で、これを解決するには、識別器の入力にノイズを加えればよいらしい。が、実験もなにもなし。すごい論文だがめちゃ硬派。 Multi-Agent Cooperation and the Emergence of (Natural) Language Angeliki Lazaridou, Alexander Peysakhovich, Marco Baroni ICLR2017 FAIR 言語の創発をマルチエージェント的に考える。画像をみてその特徴量を使って、2枚のうちどちらを指し示すかを、別のエージェントに語彙の中からの言葉を使って伝える。画像の認識にCNNを、どの語彙を使うかに簡単なFFのニューラルネットワークを使う。このゲームを繰り返すことで、コミュニケーションの成功の可能性が急激にあがる。問題意識は面白いけど(というかまさに)、やってることはまだ単純。 Understanding deep learning requires rethinking generalization Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals ICLR2017 MIT, UCB, Google Brain, Google DeepMind なぜDNNが高い汎化性能を持つか。調べたところ、ランダムなラベルでも学習してしまう。というか、パラメータがサンプルを越えた時点で(通常こうなっている)、完全に覚えることができてしまう。ドロップアウトとかの明示的な正則化は効くけど部分的で、それよりSGDとかが暗黙的な正規化になっている。 Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic Shixiang Gu, Timothy Lillicrap, Zoubin Ghahramani, Richard E. Turner, Sergey Levine ICLR2017 U. Cambridge, Max Planck, Google Brain, DeepMind, UCB Shaneさんの論文。オンポリシーとオフポリシーの良いところをあわせた強化学習。テイラー展開の一次項を使うらしい。Open AI GymもMuJoCoで評価している。 On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima Nitish Shirish Keskar, Dheevatsa Mudigere, Jorge Nocedal, Mikhail Smelyanskiy, Ping Tak Peter Tang ICLR2017 ノースウェスタン大学、Intel SGDはよく32から512くらいの小さいバッチで訓練されるが、これを大きくすると結果が悪くなることが多い。この理由をきちんと説明する。大きなバッチを使うと、シャープな最小解を見つけるので、局所解に陥りやすくなる。 Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data Nicolas Papernot, Martín Abadi, Úlfar Erlingsson, Ian Goodfellow, Kunal Talwar ICLR2017 Penn State U., Google, OpenAI プライバシーに敏感なデータを扱うために、データをn個に分けて学習し、そのアンサンブルをとる。それを教師とし、「生徒モデル」を半教師ありで学習させる。 Learning Graphical State Transitions Daniel D. Johnson ICLR2017 Harvey Mudd College グラフの入力でグラフを出力する学習。GRUぽいものをネットワーク状につなげる。ノードは隠れ状態h_vを持っている。ノードを加えたり、状態を更新したりする。bAbIタスクに適用。 Nonparametric Neural Networks George Philipp, Jaime G. Carbonell ICLR2017 poster Distributed Second-Order Optimization using Kronecker-Factored Approximations Jimmy Ba, Roger Grosse, James Martens ICLR2017 poster Pruning Filters for Efficient ConvNets Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, Hans Peter Graf ICLR2017 poster Learning to Generate Samples from Noise through Infusion Training Florian Bordes, Sina Honari, Pascal Vincent ICLR2017 poster FILTER SHAPING FOR CONVOLUTIONAL NEURAL NETWORKS Xingyi Li, Fuxin Li, Xiaoli Fern, Raviv Raich ICLR2017 poster Normalizing the Normalizers: Comparing and Extending Network Normalization Schemes Mengye Ren, Renjie Liao, Raquel Urtasun, Fabian H. Sinz, Richard S. Zemel ICLR2017 poster Multilayer Recurrent Network Models of Primate Retinal Ganglion Cell Responses Eleanor Batty, Josh Merel, Nora Brackbill, Alexander Heitman, Alexander Sher, Alan Litke, E.J. Chichilnisky, Liam Paninski ICLR2017 poster Improving Generative Adversarial Networks with Denoising Feature Matching David Warde-Farley, Yoshua Bengio ICLR2017 poster Efficient Vector Representation for Documents through Corruption Minmin Chen ICLR2017 poster Learning Invariant Feature Spaces to Transfer Skills with Reinforcement Learning Abhishek Gupta, Coline Devin, YuXuan Liu, Pieter Abbeel, Sergey Levine ICLR2017 poster Transfer of View-manifold Learning to Similarity Perception of Novel Objects Xingyu Lin, Hao Wang, Zhihao Li, Yimeng Zhang, Alan Yuille, Tai Sing Lee ICLR2017 poster What does it take to generate natural textures? Ivan Ustyuzhaninov, Wieland Brendel, Leon Gatys, Matthias Bethge ICLR2017 poster Emergence of foveal image sampling from learning to attend in visual scenes Brian Cheung, Eric Weiss, Bruno Olshausen ICLR2017 poster An Information-Theoretic Framework for Fast and Robust Unsupervised Learning via Neural Population Infomax Wentao Huang, Kechen Zhang ICLR2017 poster PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications Tim Salimans, Andrej Karpathy, Xi Chen, Diederik P. Kingma ICLR2017 poster Mode Regularized Generative Adversarial Networks Tong Che, Yanran Li, Athul Jacob, Yoshua Bengio, Wenjie Li ICLR2017 poster Highway and Residual Networks learn Unrolled Iterative Estimation Klaus Greff, Rupesh K. Srivastava, Jürgen Schmidhuber ICLR2017 poster Improving Neural Language Models with a Continuous Cache Edouard Grave, Armand Joulin, Nicolas Usunier ICLR2017 poster Unsupervised Cross-Domain Image Generation Yaniv Taigman, Adam Polyak, Lior Wolf ICLR2017 poster Third Person Imitation Learning Bradly C Stadie, Pieter Abbeel, Ilya Sutskever ICLR2017 poster UCB, OpenAI GAN-RLを第三者の視点で適用。CNNで特徴抽出して、エキスパートかそうでないかを判定するような識別器と、それに基づいてそれっぽいものをTRPOで作るものが協調する。 Variational Recurrent Adversarial Deep Domain Adaptation Sanjay Purushotham, Wilka Carvalho, Tanachat Nilanon, Yan Liu ICLR2017 poster Program Synthesis for Character Level Language Modeling Pavol Bielik, Veselin Raychev, Martin Vechev ICLR2017 poster Episodic Exploration for Deep Deterministic Policies for StarCraft Micromanagement Nicolas Usunier, Gabriel Synnaeve, Zeming Lin, Soumith Chintala ICLR2017 poster Soft Weight-Sharing for Neural Network Compression Karen Ullrich, Edward Meeds, Max Welling ICLR2017 poster Neural Program Lattices Chengtao Li, Daniel Tarlow, Alexander L. Gaunt, Marc Brockschmidt, Nate Kushman ICLR2017 poster Steerable CNNs Taco S. Cohen, Max Welling ICLR2017 poster Learning to Query, Reason, and Answer Questions On Ambiguous Texts Xiaoxiao Guo, Tim Klinger, Clemens Rosenbaum, Joseph P. Bigus, Murray Campbell, Ban Kawas, Kartik Talamadupula, Gerry Tesauro, Satinder Singh ICLR2017 poster Diet Networks: Thin Parameters for Fat Genomics Adriana Romero, Pierre Luc Carrier, Akram Erraqabi, Tristan Sylvain, Alex Auvolat, Etienne Dejoie, Marc-André Legault, Marie-Pierre Dubé, Julie G. Hussin, Yoshua Bengio ICLR2017 poster Deep Biaffine Attention for Neural Dependency Parsing Timothy Dozat, Christopher D. Manning ICLR2017 poster PixelVAE: A Latent Variable Model for Natural Images Ishaan Gulrajani, Kundan Kumar, Faruk Ahmed, Adrien Ali Taiga, Francesco Visin, David Vazquez, Aaron Courville ICLR2017 poster Snapshot Ensembles: Train 1, Get M for Free Gao Huang, Yixuan Li, Geoff Pleiss, Zhuang Liu, John E. Hopcroft, Kilian Q. Weinberger ICLR2017 poster Training Agent for First-Person Shooter Game with Actor-Critic Curriculum Learning Yuxin Wu, Yuandong Tian ICLR2017 poster Neuro-Symbolic Program Synthesis Emilio Parisotto, Abdel-rahman Mohamed, Rishabh Singh, Lihong Li, Dengyong Zhou, Pushmeet Kohli ICLR2017 poster Decomposing Motion and Content for Natural Video Sequence Prediction Ruben Villegas, Jimei Yang, Seunghoon Hong, Xunyu Lin, Honglak Lee ICLR2017 poster Generative Models and Model Criticism via Optimized Maximum Mean Discrepancy Dougal J. Sutherland, Hsiao-Yu Tung, Heiko Strathmann, Soumyajit De, Aaditya Ramdas, Alex Smola, Arthur Gretton ICLR2017 poster Learning Curve Prediction with Bayesian Neural Networks Aaron Klein, Stefan Falkner, Jost Tobias Springenberg, Frank Hutter ICLR2017 poster Learning to Optimize Ke Li, Jitendra Malik ICLR2017 poster A Compare-Aggregate Model for Matching Text Sequences Shuohang Wang, Jing Jiang ICLR2017 poster Data Noising as Smoothing in Neural Network Language Models Ziang Xie, Sida I. Wang, Jiwei Li, Daniel Lévy, Aiming Nie, Dan Jurafsky, Andrew Y. Ng ICLR2017 poster Training Compressed Fully-Connected Networks with a Density-Diversity Penalty Shengjie Wang, Haoran Cai, Jeff Bilmes, William Noble ICLR2017 poster Neural Variational Inference For Topic Models Akash Srivastava, Charles Sutton ICLR2017 poster Optimal Binary Autoencoding with Pairwise Correlations Akshay Balsubramani ICLR2017 poster On the Quantitative Analysis of Decoder-Based Generative Models Yuhuai Wu, Yuri Burda, Ruslan Salakhutdinov, Roger Grosse ICLR2017 poster Trained Ternary Quantization Chenzhuo Zhu, Song Han, Huizi Mao, William J. Dally ICLR2017 poster DSD: Dense-Sparse-Dense Training for Deep Neural Networks Song Han, Jeff Pool, Sharan Narang, Huizi Mao, Enhao Gong, Shijian Tang, Erich Elsen, Peter Vajda, Manohar Paluri, John Tran, Bryan Catanzaro, William J. Dally ICLR2017 poster Learning to Remember Rare Events Lukasz Kaiser, Ofir Nachum, Aurko Roy, Samy Bengio ICLR2017 poster Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks Zhilin Yang, Ruslan Salakhutdinov, William W. Cohen ICLR2017 poster Words or Characters? Fine-grained Gating for Reading Comprehension Zhilin Yang, Bhuwan Dhingra, Ye Yuan, Junjie Hu, William W. Cohen, Ruslan Salakhutdinov ICLR2017 poster A Simple but Tough-to-Beat Baseline for Sentence Embeddings Sanjeev Arora, Yingyu Liang, Tengyu Ma ICLR2017 poster Capacity and Trainability in Recurrent Neural Networks Jasmine Collins, Jascha Sohl-Dickstein, David Sussillo ICLR2017 poster Google Brain RNNのキャパシティと訓練の可能性についての論文。従来は訓練の可能性の話が多かった。バニラRNNのほうがキャパシティがやや大きいが訓練が難しい。そして、パラメータごとに5ビット覚えられる。 Improving Policy Gradient by Exploring Under-appreciated Rewards Ofir Nachum, Mohammad Norouzi, Dale Schuurmans ICLR2017 poster Deep Learning with Dynamic Computation Graphs Moshe Looks, Marcello Herreshoff, DeLesley Hutchins, Peter Norvig ICLR2017 poster Calibrating Energy-based Generative Adversarial Networks Zihang Dai, Amjad Almahairi, Philip Bachman, Eduard Hovy, Aaron Courville ICLR2017 poster Pruning Convolutional Neural Networks for Resource Efficient Inference Pavlo Molchanov, Stephen Tyree, Tero Karras, Timo Aila, Jan Kautz ICLR2017 poster Query-Reduction Networks for Question Answering Minjoon Seo, Sewon Min, Ali Farhadi, Hannaneh Hajishirzi ICLR2017 poster Machine Comprehension Using Match-LSTM and Answer Pointer Shuohang Wang, Jing Jiang ICLR2017 poster DeepDSL: A Compilation-based Domain-Specific Language for Deep Learning Tian Zhao, Xiao Bing Huang, Yu Cao ICLR2017 poster Incorporating long-range consistency in CNN-based texture generation Guillaume Berger, Roland Memisevic ICLR2017 poster Dynamic Coattention Networks For Question Answering Caiming Xiong, Victor Zhong, Richard Socher ICLR2017 poster SampleRNN: An Unconditional End-to-End Neural Audio Generation Model Soroush Mehri, Kundan Kumar, Ishaan Gulrajani, Rithesh Kumar, Shubham Jain, Jose Manuel Rodriguez Sotelo, Aaron Courville, Yoshua Bengio ICLR2017 poster Exploring Sparsity in Recurrent Neural Networks Sharan Narang, Greg Diamos, Shubho Sengupta, Erich Elsen ICLR2017 poster Lossy Image Compression with Compressive Autoencoders Lucas Theis, Wenzhe Shi, Andrew Cunningham, Ferenc Huszár ICLR2017 poster Structured Attention Networks Yoon Kim, Carl Denton, Luong Hoang, Alexander M. Rush ICLR2017 poster Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations David Krueger, Tegan Maharaj, Janos Kramar, Mohammad Pezeshki, Nicolas Ballas, Nan Rosemary Ke, Anirudh Goyal, Yoshua Bengio, Aaron Courville, Christopher Pal ICLR2017 poster Deep Probabilistic Programming Dustin Tran, Matthew D. Hoffman, Rif A. Saurous, Eugene Brevdo, Kevin Murphy, David M. Blei ICLR2017 poster LR-GAN: Layered Recursive Generative Adversarial Networks for Image Generation Jianwei Yang, Anitha Kannan, Dhruv Batra, Devi Parikh ICLR2017 poster Variational Lossy Autoencoder Xi Chen, Diederik P. Kingma, Tim Salimans, Yan Duan, Prafulla Dhariwal, John Schulman, Ilya Sutskever, Pieter Abbeel ICLR2017 poster A recurrent neural network without chaos Thomas Laurent, James von Brecht ICLR2017 poster Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean ICLR2017 poster Google Brain LSTMの間に、疎なゲートつき、エキスパートの混合レイヤーを入れる。1370億のパラメータ。 Tree-structured decoding with doubly-recurrent neural networks David Alvarez-Melis, Tommi S. Jaakkola ICLR2017 poster Introspection:Accelerating Neural Network Training By Learning Weight Evolution Abhishek Sinha, Aahitagni Mukherjee, Mausoom Sarkar, Balaji Krishnamurthy ICLR2017 poster Hyperband: Bandit-Based Configuration Evaluation for Hyperparameter Optimization Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar ICLR2017 poster Lie-Access Neural Turing Machines Greg Yang, Alexander Rush ICLR2017 poster Quasi-Recurrent Neural Networks James Bradbury, Stephen Merity, Caiming Xiong, Richard Socher ICLR2017 poster Recurrent Environment Simulators Silvia Chiappa, Sébastien Racaniere, Daan Wierstra, Shakir Mohamed ICLR2017 poster Silvia Chiappa, Sébastien Racaniere, Daan Wierstra & Shakir Mohamed DeepMind 世界のモデル化に近い。Oh2015の発展。 A deep learning approach for joint video frame and reward prediction in atari games. Felix Leibfried, Nate Kushman, and Katja Hofmann. 2016 EPOpt: Learning Robust Neural Network Policies Using Model Ensembles Aravind Rajeswaran, Sarvjeet Ghotra, Balaraman Ravindran, Sergey Levine ICLR2017 poster Attend, Adapt and Transfer: Attentive Deep Architecture for Adaptive Transfer from multiple sources in the same domain Janarthanan Rajendran, Aravind Lakshminarayanan, Mitesh M. Khapra, Prasanna P, Balaraman Ravindran ICLR2017 poster Multi-view Recurrent Neural Acoustic Word Embeddings Wanjia He, Weiran Wang, Karen Livescu ICLR2017 poster Learning Features of Music From Scratch John Thickstun, Zaid Harchaoui, Sham Kakade ICLR2017 poster A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks Dan Hendrycks, Kevin Gimpel ICLR2017 poster Learning to superoptimize programs Rudy Bunel, Alban Desmaison, M. Pawan Kumar, Philip H.S. Torr, Pushmeet Kohli ICLR2017 poster Trusting SVM for Piecewise Linear CNNs Leonard Berrada, Andrew Zisserman, M. Pawan Kumar ICLR2017 poster Sigma Delta Quantized Networks Peter O'Connor, Max Welling ICLR2017 poster A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, Yoshua Bengio ICLR2017 poster Regularizing CNNs with Locally Constrained Decorrelations Pau Rodríguez, Jordi Gonzàlez, Guillem Cucurull, Josep M. Gonfaus, Xavier Roca ICLR2017 poster The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables Chris J. Maddison, Andriy Mnih, Yee Whye Teh ICLR2017 poster Unrolled Generative Adversarial Networks Luke Metz, Ben Poole, David Pfau, Jascha Sohl-Dickstein ICLR2017 poster TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency Adji B. Dieng, Chong Wang, Jianfeng Gao, John Paisley ICLR2017 poster Frustratingly Short Attention Spans in Neural Language Modeling Michał Daniluk, Tim Rocktäschel, Johannes Welbl, Sebastian Riedel ICLR2017 poster Recurrent Hidden Semi-Markov Model Hanjun Dai, Bo Dai, Yan-Ming Zhang, Shuang Li, Le Song ICLR2017 poster Deep Variational Bayes Filters: Unsupervised Learning of State Space Models from Raw Data Maximilian Karl, Maximilian Soelch, Justin Bayer, Patrick van der Smagt ICLR2017 poster Generative Multi-Adversarial Networks Ishan Durugkar, Ian Gemp, Sridhar Mahadevan ICLR2017 poster U. Mass GMAN。識別器を複数。精度はあまり変わらないけど収束が早くなる。 Mollifying Networks Caglar Gulcehre, Marcin Moczulski, Francesco Visin, Yoshua Bengio ICLR2017 poster Offline Bilingual Word Vectors Without a Dictionary Samuel L. Smith, David H. P. Turban, Steven Hamblin, Nils Y. Hammerla ICLR2017 poster Visualizing Deep Neural Network Decisions: Prediction Difference Analysis Luisa M Zintgraf, Taco S Cohen, Tameem Adel, Max Welling ICLR2017 poster Categorical Reparameterization with Gumbel-Softmax Eric Jang, Shixiang Gu, Ben Poole ICLR2017 poster Online Bayesian Transfer Learning for Sequential Data Modeling Priyank Jaini, Zhitang Chen, Pablo Carbajal, Edith Law, Laura Middleton, Kayla Regan, Mike Schaekermann, George Trimponias, James Tung, Pascal Poupart ICLR2017 poster Latent Sequence Decompositions William Chan, Yu Zhang, Quoc Le, Navdeep Jaitly ICLR2017 poster Paleo: A Performance Model for Deep Neural Networks Hang Qi, Evan R. Sparks, Ameet Talwalkar ICLR2017 poster PGQ: Combining policy gradient and Q-learning Brendan O'Donoghue, Remi Munos, Koray Kavukcuoglu, Volodymyr Mnih ICLR2017 poster SGDR: Stochastic Gradient Descent with Warm Restarts Ilya Loshchilov, Frank Hutter ICLR2017 poster Learning a Natural Language Interface with Neural Programmer Arvind Neelakantan, Quoc V. Le, Martin Abadi, Andrew McCallum, Dario Amodei ICLR2017 poster Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU Mohammad Babaeizadeh, Iuri Frosio, Stephen Tyree, Jason Clemons, Jan Kautz ICLR2017 poster Learning to Navigate in Complex Environments Piotr Mirowski, Razvan Pascanu, Fabio Viola, Hubert Soyer, Andy Ballard, Andrea Banino, Misha Denil, Ross Goroshin, Laurent Sifre, Koray Kavukcuoglu, Dharshan Kumaran, Raia Hadsell ICLR2017 poster DeepMind 3D迷路。深さとループの構造を補助的な関数として学習する。 DeepCoder: Learning to Write Programs Matej Balog, Alexander L. Gaunt, Marc Brockschmidt, Sebastian Nowozin, Daniel Tarlow ICLR2017 poster Learning and Policy Search in Stochastic Dynamical Systems with Bayesian Neural Networks Stefan Depeweg, José Miguel Hernández-Lobato, Finale Doshi-Velez, Steffen Udluft ICLR2017 poster Variable Computation in Recurrent Neural Networks Yacine Jernite, Edouard Grave, Armand Joulin, Tomas Mikolov ICLR2017 poster Deep Variational Information Bottleneck Alexander A. Alemi, Ian Fischer, Joshua V. Dillon, Kevin Murphy ICLR2017 poster The Neural Noisy Channel Lei Yu, Phil Blunsom, Chris Dyer, Edward Grefenstette, Tomas Kocisky ICLR2017 poster Automatic Rule Extraction from Long Short Term Memory Networks W. James Murdoch, Arthur Szlam ICLR2017 poster Dialogue Learning With Human-in-the-Loop Jiwei Li, Alexander H. Miller, Sumit Chopra, Marc'Aurelio Ranzato, Jason Weston ICLR2017 poster Adversarially Learned Inference Vincent Dumoulin, Ishmael Belghazi, Ben Poole, Alex Lamb, Martin Arjovsky, Olivier Mastropietro, Aaron Courville ICLR2017 poster Learning through Dialogue Interactions Jiwei Li, Alexander H. Miller, Sumit Chopra, Marc'Aurelio Ranzato, Jason Weston ICLR2017 poster Deep Information Propagation Samuel S. Schoenholz, Justin Gilmer, Surya Ganguli, Jascha Sohl-Dickstein ICLR2017 poster FractalNet: Ultra-Deep Neural Networks without Residuals Gustav Larsson, Michael Maire, Gregory Shakhnarovich ICLR2017 poster Revisiting Classifier Two-Sample Tests David Lopez-Paz, Maxime Oquab ICLR2017 poster Topology and Geometry of Half-Rectified Network Optimization C. Daniel Freeman, Joan Bruna ICLR2017 poster Learning to Repeat: Fine Grained Action Repetition for Deep Reinforcement Learning Sahil Sharma, Aravind S. Lakshminarayanan, Balaraman Ravindran ICLR2017 poster Loss-aware Binarization of Deep Networks Lu Hou, Quanming Yao, James T. Kwok ICLR2017 poster Learning to Play in a Day: Faster Deep Reinforcement Learning by Optimality Tightening Frank S.He, Yang Liu, Alexander G. Schwing, Jian Peng ICLR2017 poster Central Moment Discrepancy (CMD) for Domain-Invariant Representation Learning Werner Zellinger, Thomas Grubinger, Edwin Lughofer, Thomas Natschläger, Susanne Saminger-Platz ICLR2017 poster Incremental Network Quantization: Towards Lossless CNNs with Low-precision Weights Aojun Zhou, Anbang Yao, Yiwen Guo, Lin Xu, Yurong Chen ICLR2017 poster Entropy-SGD: Biasing Gradient Descent Into Wide Valleys Pratik Chaudhari, Anna Choromanska, Stefano Soatto, Yann LeCun, Carlo Baldassi, Christian Borgs, Jennifer Chayes, Levent Sagun, Riccardo Zecchina ICLR2017 poster Deep Multi-task Representation Learning: A Tensor Factorisation Approach Yongxin Yang, Timothy M. Hospedales ICLR2017 poster Temporal Ensembling for Semi-Supervised Learning Samuli Laine, Timo Aila ICLR2017 poster On Detecting Adversarial Perturbations Jan Hendrik Metzen, Tim Genewein, Volker Fischer, Bastian Bischoff ICLR2017 poster Robert Bosch GmbH 敵対的攻撃に対して検知する方法。各層に補助的な識別器を取り付ける。 Training deep neural-networks using a noise adaptation layer Jacob Goldberger, Ehud Ben-Reuven ICLR2017 poster Learning to Compose Words into Sentences with Reinforcement Learning Dani Yogatama, Phil Blunsom, Chris Dyer, Edward Grefenstette, Wang Ling ICLR2017 poster Delving into Transferable Adversarial Examples and Black-box Attacks Yanpei Liu, Xinyun Chen, Chang Liu, Dawn Song ICLR2017 poster Identity Matters in Deep Learning Moritz Hardt, Tengyu Ma ICLR2017 poster Towards the Limit of Network Quantization Yoojin Choi, Mostafa El-Khamy, Jungwon Lee ICLR2017 poster Faster CNNs with Direct Sparse Convolutions and Guided Pruning Jongsoo Park, Sheng Li, Wei Wen, Ping Tak Peter Tang, Hai Li, Yiran Chen, Pradeep Dubey ICLR2017 poster Stick-Breaking Variational Autoencoders Eric Nalisnick, Padhraic Smyth ICLR2017 poster Batch Policy Gradient Methods for Improving Neural Conversation Models Kirthevasan Kandasamy, Yoram Bachrach, Ryota Tomioka, Daniel Tarlow, David Carter ICLR2017 poster Support Regularized Sparse Coding and Its Fast Encoder Yingzhen Yang, Jiahui Yu, Pushmeet Kohli, Jianchao Yang, Thomas S. Huang ICLR2017 poster Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling Hakan Inan, Khashayar Khosravi, Richard Socher ICLR2017 poster Towards Deep Interpretability (MUS-ROVER II): Learning Hierarchical Representations of Tonal Music Haizi Yu, Lav R. Varshney ICLR2017 poster Discrete Variational Autoencoders Jason Tyler Rolfe ICLR2017 poster Do Deep Convolutional Nets Really Need to be Deep and Convolutional? Gregor Urban, Krzysztof J. Geras, Samira Ebrahimi Kahou, Ozlem Aslan, Shengjie Wang, Abdelrahman Mohamed, Matthai Philipose, Matt Richardson, Rich Caruana ICLR2017 poster Geometry of Polysemy Jiaqi Mu, Suma Bhat, Pramod Viswanath ICLR2017 poster Learning Invariant Representations Of Planar Curves Gautam Pai, Aaron Wetzler, Ron Kimmel ICLR2017 poster Reasoning with Memory Augmented Neural Networks for Language Comprehension Tsendsuren Munkhdalai, Hong Yu ICLR2017 poster Learning recurrent representations for hierarchical behavior modeling Eyrun Eyjolfsdottir, Kristin Branson, Yisong Yue, Pietro Perona ICLR2017 poster Adversarial Machine Learning at Scale Alexey Kurakin, Ian J. Goodfellow, Samy Bengio ICLR2017 poster Predicting Medications from Diagnostic Codes with Recurrent Neural Networks Jacek M. Bajor, Thomas A. Lasko ICLR2017 poster Recurrent Mixture Density Network for Spatiotemporal Visual Attention Loris Bazzani, Hugo Larochelle, Lorenzo Torresani ICLR2017 poster Inductive Bias of Deep Convolutional Networks through Pooling Geometry Nadav Cohen, Amnon Shashua ICLR2017 poster Efficient Representation of Low-Dimensional Manifolds using Deep Networks Ronen Basri, David W. Jacobs ICLR2017 poster Sparsely-Connected Neural Networks: Towards Efficient VLSI Implementation of Deep Neural Networks Arash Ardakani, Carlo Condo, Warren J. Gross ICLR2017 poster Adversarial Training Methods for Semi-Supervised Text Classification Takeru Miyato, Andrew M. Dai, Ian Goodfellow ICLR2017 poster Fine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction Tasks Yossi Adi, Einat Kermany, Yonatan Belinkov, Ofer Lavi, Yoav Goldberg ICLR2017 poster Pointer Sentinel Mixture Models Stephen Merity, Caiming Xiong, James Bradbury, Richard Socher ICLR2017 poster An Actor-Critic Algorithm for Sequence Prediction Dzmitry Bahdanau, Philemon Brakel, Kelvin Xu, Anirudh Goyal, Ryan Lowe, Joelle Pineau, Aaron Courville, Yoshua Bengio ICLR2017 poster Understanding Trainable Sparse Coding with Matrix Factorization Thomas Moreau, Joan Bruna ICLR2017 poster Tighter bounds lead to improved classifiers Nicolas Le Roux ICLR2017 poster HolStep: A Machine Learning Dataset for Higher-order Logic Theorem Proving Cezary Kaliszyk, François Chollet, Christian Szegedy ICLR2017 poster Hierarchical Multiscale Recurrent Neural Networks Junyoung Chung, Sungjin Ahn, Yoshua Bengio ICLR2017 poster Dropout with Expectation-linear Regularization Xuezhe Ma, Yingkai Gao, Zhiting Hu, Yaoliang Yu, Yuntian Deng, Eduard Hovy ICLR2017 poster A Learned Representation For Artistic Style Vincent Dumoulin, Jonathon Shlens, Manjunath Kudlur ICLR2017 poster Hadamard Product for Low-rank Bilinear Pooling Jin-Hwa Kim, Kyoung-Woon On, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhang ICLR2017 poster Continuous Deep Q-Learning with Model-based Acceleration Shixiang Gu, Timothy Lillicrap, Ilya Sutskever, Sergey Levine 2016 NAF Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic Shixiang Gu, Timothy Lillicrap, Zoubin Ghahramani, Richard E. Turner, Sergey Levine Universal Correspondence Network Christopher B Choy, Manmohan Chandraker, JunYoung Gwak, Silvio Savarese 2016 Sequential Neural Models with Stochastic Layers Marco Fraccaro, Søren Kaae Sønderby, Ulrich Paquet, Ole Winther Is a Cambrian Explosion Coming for Robotics? Gill A. Pratt Journal of Economic Perspectives, 2015 TRI カンブリア爆発。ディープラーニングとクラウドロボット(経験の共有)。技術的なドライバーとして、コンピュータの計算の速さや、電気エネルギーの貯蔵等、8つの要因を挙げている。 Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation Melvin Johnson, Mike Schuster, Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Viégas, Martin Wattenberg, Greg Corrado, Macduff Hughes, Jeffrey Dean 2016 Google GNMTの論文。many to manyとかで、ゼロショットラーニングができる。精度があがっている。 Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean 2016 Google 8つのエンコーダとデコーダから成る深層のLSTMであり、デコーダネットワークからエンコーダネットワークへの残余コネクションとアテンションのコネクションがある。早くするための工夫をいろいろしている。 A Critical Review of Recurrent Neural Networks for Sequence Learning Zachary C. Lipton, John Berkowitz, Charles Elkan 2015 無数の学習タスクでは、順次データを扱う必要があります。画像キャプション、音声合成、および音楽生成はすべて、モデルがシーケンスである出力を生成することを必要とする。時系列予測、ビデオ分析、音楽情報検索などの他の分野では、モデルはシーケンスから入力から学習する必要があります。自然言語の翻訳、対話のやりとり、ロボットの制御などのインタラクティブなタスクは、しばしば両方の機能を必要とします。リカレントニューラルネットワーク(RNN)は、ノードのネットワーク内のサイクルを介してシーケンスのダイナミックスを捕捉するコネクショニストモデルです。標準的なフィードフォワードニューラルネットワークとは異なり、反復ネットワークは、任意に長いコンテキストウィンドウからの情報を表すことができる状態を保持する。リカレントニューラルネットワークは伝統的に訓練が困難であり、しばしば何百万ものパラメータを含んでいるが、近年のネットワークアーキテクチャの進歩、最適化技術、並列計算により、大規模な学習が成功している。近年、ロング短期記憶(LSTM)および双方向(BRNN)アーキテクチャに基づくシステムは、画像キャプション、言語翻訳、手書き認識などの様々なタスクで画期的な性能を発揮しています。この調査では、過去30年間にわたり最初に得られた研究をレビューし、合成し、これらの強力な学習モデルを実践しました。適切な場合は、矛盾する表記法と命名法を調和させます。私たちの目標は、歴史的な視点と1次研究への言及とともに、最先端の自己完結型の解説を提供することです。 A machine learning approach to visual perception of forest trails for mobile robots Alessandro Giusti, et al. 2015, 2016 我々は、歩行するロボットの視点から獲得した単一の単眼画像から、森林や山道を知覚する問題を研究する。以前の文献は、トレイルセグメンテーションに焦点を当て、画像の顕著性や外観のコントラストなどの低レベルの特徴を使用しました。我々は、教師付き画像分類器として使用される深いニューラルネットワークに基づく別のアプローチを提案する。一度に画像全体を操作することで、私たちのシステムはトレイルの主方向を視線方向と比較して出力します。実際の大規模なデータセット(ダウンロード用に提供)で計算された定性的および定量的結果は、我々のアプローチが代替案より優れており、同じ画像分類タスクでテストされた人間の精度に匹敵する精度をもたらすことを示しています。この情報を目に見えないトレイルでの四輪制御に使用する予備的結果が報告されている。私たちが知る限りでは、これは、空間試行を知覚するアプローチを記述した最初の手紙であり、空間往還機マイクロ航空車両で実証されています。 How to Grow a Mind: Statistics, Structure, and Abstraction Joshua B Tenenbaum et al. Science 2011 世界の学習概念、言語の獲得、因果関係の把握に至るまでに、私たちの心は、利用可能なデータをはるかに超えるように見える推論を行います。 どうやってやるの? このレビューでは、人間の学習と認知発達をリバースエンジニアリングするための最近のアプローチと、より人間的な機械学習システムを工学と並行して説明しています。 柔軟に構造化された表現の階層に対して確率論的推論を実行する計算モデルは、人間の思考の本質と起源に関する最も深刻な問題に取り組むことができます。抽象的知識は学習と推論をどのように疎データから誘導するのですか? さまざまなドメインやタスクにわたり、私たちの知識はどのような形をとっていますか? その抽象的な知識そのものはどのようにして獲得されていますか? Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition G. E. Dahl, D. Yu, L. Deng, A. Acero 2011 IEEE SPS U. Toronto, MSR 音声認識で精度があがった2010の論文。 我々は、電話認識のために深い信念ネットワークを使用する最近の進歩を活用する、大規模な語彙音声認識(LVSR)のための新しい文脈依存(CD)モデルを提案する。 DNN-HMMハイブリッドアーキテクチャは、DNNをトレーニングして出力としてセノン(結合トライフォン状態)上の分布を生成する事前トレーニングされた深いニューラルネットワーク隠れマルコフモデル(DNN-HMM)ハイブリッドアーキテクチャを記述する。ディープ・ビリーフ・ネットワーク・プレトレーニング・アルゴリズムは、最適化に役立ち、一般化エラーを減らすことができるディープ・ニューラル・ネットワークを生成的に初期化するための堅牢でしばしば有用な方法である。モデルの主要コンポーネントを説明し、LVSRにCD-DNN-HMMを適用する手順を説明し、様々なモデリングの選択肢がパフォーマンスに及ぼす影響を分析します。困難なビジネス検索データセットの実験は、CD-DNN-HMMが従来の文脈依存ガウス混合モデル(GMM)-HMMよりも著しく優れていることを示しています。絶対精度は5.8%と9.2%(または相対誤差16.0 GMM-HMMに比べて、最小電話誤り率(MPE)および最大尤度(ML)基準を用いて訓練されたCDM-GMM-HMMに比べて有意に高かった(%および23.2%)。 End to End Learning for Self-Driving Cars Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, Bernhard Firner, Beat Flepp, Prasoon Goyal, Lawrence D. Jackel, Mathew Monfort, Urs Muller, Jiakai Zhang, Xin Zhang, Jake Zhao, Karol Zieba 2016 NVIDIA 我々は、畳み込みニューラルネットワーク(CNN)をトレーニングして、単一の前面カメラから生のピクセルをステアリングコマンドに直接マッピングしました。このエンドツーエンドのアプローチは、驚くほど強力なものでした。人間の訓練データを最小限に抑えて、車線表示の有無にかかわらず、高速道路で地方道路の交通量を知ることができます。また、駐車場や舗装されていない道路などの視覚的なガイダンスが不明な地域でも機能します。システムは、訓練信号として人間の操舵角のみを有する有用な道路特徴を検出するなど、必要な処理ステップの内部表現を自動的に学習する。道路の概要などを検出するために明示的に訓練したことはありませんでした。レーンマーキング検出、経路計画、制御など、問題の明示的な分解と比較して、エンドツーエンドのシステムはすべての処理ステップを同時に最適化します。我々はこれが最終的により良い性能とより小さなシステムにつながると主張する。人間が選択した中間基準(例えば車線検出)を最適化するのではなく、内部コンポーネントが自己最適化して全体のシステム性能を最大にするので、より良い性能が得られる。このような基準は、人間の解釈を容易にするために選択されており、最大限のシステム性能を自動的には保証しない。最小限の処理ステップでシステムが問題を解決することを学習するため、より小さいネットワークが可能です。トレーニングにはNVIDIA DevBoxとTorch 7を使用し、運転する場所を決定するにはTorch 7を実行するNVIDIA DRIVE(TM)PX自走車コンピュータを使用しました。システムは毎秒30フレーム(FPS)で動作します。 Learning to Protect Communications with Adversarial Neural Cryptography Martín Abadi, David G. Andersen 2016P Google Brain 我々は、ニューラルネットワークが他のニューラルネットワークから情報を保護するために秘密鍵を使用することを学ぶことができるかどうかを尋ねる。 具体的には、マルチエージェントシステムにおける機密性の確保に焦点を当て、敵対的にそれらのプロパティーを指定します。 したがって、システムは、アリスとボブという名前のニューラルネットワークで構成されていて、アリスとボブの間の通信について盗聴から、イーブという第3のニューラルネットワークが盗聴することを制限することを目指しています。 これらのニューラルネットワークには特定の暗号アルゴリズムを規定していません。 代わりに、私たちは端的に、敵対的に訓練する。 我々は、ニューラルネットワークがどのように暗号化と復号化の形式を実行するか、また機密性の目標を達成するためにこれらの操作を選択的に適用する方法を学ぶことができることを示します。 Adversarial Autoencoders Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, Brendan Frey U. Toronto, Google Brain, OpenAI 2015 本論文では、最近提案された生成敵対的ネットワーク(GAN)を用いて、オートエンコーダの隠れコードベクトルの集約された後部を(a)とマッチングさせることによって変分推論を行う確率的オートエンコーダである "adversarial autoencoder"(AAE)任意の事前分布。前に集約された事後確率を一致させることは、先行空間の任意の部分からの生成が意味のあるサンプルをもたらすことを保証する。その結果、敵対的なオートエンコーダのデコーダは、データ配信に先立って課された深い生成モデルを学習する。我々は、反監督的なオートエンコーダーが、半教師付き分類、イメージの解体スタイルおよびコンテンツ、管理されていないクラスター化、次元削減、データ視覚化などのアプリケーションでどのように使用できるかを示します。我々は、MNIST、ストリートビューハウスナンバー、トロントフェイスのデータセットに関する実験を行い、生成的モデリングと半教師付き分類タスクにおいて、敵対的な自動エンコーダーが競争力のある結果を達成することを示した。 Neural Photo Editing with Introspective Adversarial Networks Andrew Brock, Theodore Lim, J.M. Ritchie, Nick Weston 2016, ICLR2017 poster Heriot-Watt U. 生成画像モデルの潜在空間を探索し、既存の画像に大きく意味的に一貫した変更を加えるためのインタフェースであるNeural Photo Editorを紹介します。 私たちのインターフェイスは、Introspective Adversarial Network、Generative Adversarial Networkとエディターで使用するために設計されたVariational Autoencoderのハイブリダイゼーションによって強化されています。 我々のモデルは、拡張された畳み込みに基づく新しい計算ブロックと、新しい重み正則化法である直交正規化を利用する。 CelebA、SVHN、およびImageNetのモデルを検証し、視覚的に正確なサンプルと再構成を生成します。 Conditional Image Synthesis With Auxiliary Classifier GANs Augustus Odena, Christopher Olah, Jonathon Shlens ICML2017, 2016 Google Brain AC-GAN。高解像度のフォトリアリスティックな画像を合成することは、機械学習において長年の課題でした。本稿では、画像合成のための生成的敵対ネットワーク(GAN)の改良された訓練のための新しい方法を紹介する。我々は、ラベルコンディショニングを用いたGANの変形を構築し、128x128解像度の画像サンプルがグローバルな一貫性を示すようにする。 以前の画像品質評価の作業を拡張して、クラス条件付き画像合成モデルからサンプルの識別可能性と多様性を評価する2つの新しい分析を提供しました。 これらの分析は、高分解能サンプルが低分解能サンプルに存在しないクラス情報を提供することを示している。 ImageNetの1000クラスの中で、128x128のサンプルは人為的にサイズが変更された32x32のサンプルの2倍以上の識別性があります。 さらに、クラスの84.7%は、実際のImageNetデータに匹敵する多様性を示すサンプルを持っています。 Amortised MAP Inference for Image Super-resolution Casper Kaae Sønderby, Jose Caballero, Lucas Theis, Wenzhe Shi, Ferenc Huszár ICLR2017 Twitter Cortex, U. Copenhagen 画像超解像(SR)は、決定的でない逆問題であり、多数の妥当な高解像度画像が同じダウンサンプリング画像を説明することができる。現在の単一画像SR法のほとんどは、経験的リスク最小化を使用し、しばしばピクセルワイズ平均二乗誤差(MSE)損失を伴う。しかしながら、そのような方法からの出力は、ぼやけ、過剰平滑化され、一般的には不安定に見える傾向がある。より望ましいアプローチは、画像の下で常に高い確率を有する解を優先し、より妥当であるように見える最大事後(MAP)推論を採用する。 SRの直接MAP推定は、サンプルよりも前の画像のモデルを構築する必要があるため、自明ではありません。さらに、MAP推論は、ニューラルネットワークベースの代替案の効率とよく比較されない最適化ベースの反復アルゴリズムによって実行されることが多い。ここでは、畳み込みニューラルネットワークを用いてMAP推定を直接計算する償却MAP推定の新しい方法を紹介する。有効なSR解のアフィン部分空間への射影を実行してネットワークの高解像度出力が低解像度入力と常に一致することを保証する新規なニューラルネットワークアーキテクチャを最初に導入する。このアーキテクチャを使用して、償却MAP推論問題は、訓練生成モデルと同様に、2つの分布間のクロスエントロピーを最小化することに減少することを示している。この最適化問題を解く方法として、(1)ネットワークを訓練するために雑音除去からの勾配推定を逆伝播する雑音誘導SR、(3)最尤法を用いるベースライン法あらかじめ訓練された画像。我々の実験は、GANベースのアプローチが実際の画像データで最もよく機能し、写真的にリアルなテクスチャSRにおいて特に良好な結果を達成することを示している。 低解像度の画像から高解像度の画像にする。基本、GAN。アフィン変換がきちんと戻るかとか確かるとか、ノイズ加えるとか。普通っぽい。 Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi CVPR2017, 2016 Twitter SRGAN(Super Resolution-GAN)。低解像度の画像を入れて、高解像度に直す。これをスーパー解像度というが、これをGANを使って行う。割りと普通のGANで、生成器のノイズの代わりに低解像度の画像を入れる。ロス関数を少し工夫。マントヒヒの写真が上手に再現できている。 Energy-based Generative Adversarial Network J. Zhao, M. Mathieu, and Y. LeCun ICLR2017 poster, 2016 NYU, FAIR エネルギーに基づくGANモデルを提案する。識別器をエネルギー関数と見なし、低いエネルギーをデータ多様体の近くの領域、高いエネルギーを他の領域に結びつける。確率的なGANと同様、生成器は最小のエネルギーで対象的なサンプルを生成するよう学習され、識別器はこれらの生成されたサンプルに高いエネルギーを割り当てるように訓練される。識別器をエネルギー関数と見ることで、通常のバイナリ分類器に加えて、多様なアーキテクチャとロス関数を使えるようになる。そのなかでも、オートエンコーダを使い、エネルギーを再構成エラーとしたものが、より安定的な振る舞いを生むことを示す。 Density estimation using Real NVP L. Dinh, J. Sohl-Dickstein, S. Bengio ICLR2017, 2016 U. Montreal, Google 確率モデルの教師なし学習は、中心的で挑戦的な課題である。特に、実行可能な学習、サンプリング、推論、評価を伴ったモデルを設計することは、この課題において最も重要である。このようなモデルの空間を、実数の非ボリューム保存(real NVP)変換、すなわち、逆交換可能で学習可能な変換の集合、を用いて拡張する。これにより、正確な対数尤度計算、正確なサンプリング、正確な潜在変数の推論と、計算可能な潜在空間を備えた教師なし学習のアルゴリズムとなる。 Canonical Microcircuits for Predictive Coding Andre M. Bastos, W. Martin Usrey, Rick A. Adams, George R. Mangun, Pascal Fries, and Karl J. Friston Neuron, 2012 UC Davis, UCL カノニカルな(皮質の)小型回路の概念について述べる。特に、小型回路の量的な研究と、神経計算の関数論理を統合する。階層的な皮質におけるメッセージの受け渡しは、ある種のベイズ推論であるという古くからのアイディアを再訪する。特に、ニューロンのポピュレーションの内的なつながりに対する含意に特段の注意を払う。これらの計算の標準的な形を導き出すことで、特定のニューロンのポピュレーションを特定の計算の役割に対応させることができる。この分析は、皮質のコラムの小型回路と、予測コーディングによるつながりの間での驚くべき一致をもたらす。さらに、フェードフォワードとフィードバックのつながりと、それらの特徴的な周波数の間での機能的非対称性に関する洞察も得る。 Deep Predictive Coding Networks R. Chalasani and J. Principe ICLR2013 U. Florida 表現にどのようなpriorモデルを仮定するかが重要である。 データの文脈に応じて調整できるものを提案する。 深層予測コーディングネットワークとよぶものは、 経験的にpriorを変えるものである。 (このモデルが、2016のD. Coxのものと同じか不明。) Cerebral hierarchies : predictive processing precision and the pulvinar R. Kanai, Y. Komura, S. Shipp, K. Friston Philosophical Transactions B, 2015 U. Sussex, AIST 計算論的な観点から、ニューロンのアーキテクチャを考察し、神経計算の性質から、神経解剖学や神経生理学のどの面が明らかになるのかを論じる。特に、脳を推論の器官であるという現在の考え方を拡張し、階層的な予測コーディングに基づくものであり、これらの推論がどのように強調するかについて考える。ニューロンのポピュレーションの繊細なコントロールが、予測エラーの信号を選択しコーディネイトし、皮質の階層を上っていく。これが重要であるのは、2つの別々のクラスを形作る外的なコネクションの階層的な仕組みと成るからである。2つのクラスとは、 ニューラル表現のエンコーディングに関わる駆動するコネクションのクラスと、コンテキストを確立する修飾的なコネクション(権限性あるいは正確性の形で)のクラスである。 Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects Rajesh P. N. Rao & Dana H. Ballard Nature Neuroscience 1999 U. Rochester 我々は、高次から低次の視覚皮質領域からのフィードバック接続が低レベルの神経活動の予測を担う視覚処理のモデルを記述するが、フィードフォワード接続は、予測と実際の低レベル活動との間の残留誤差を運ぶ 。 自然な画像にさらされたとき、そのようなモデルを実装するモデルニューロンの階層的ネットワークは、単純な細胞様の受容野を発達させた。 残留誤差を担うニューロンのサブセットは、エンドストップおよび他の古典的な受容野効果を示した。 これらの結果は、排他的にフィードフォワード現象ではなく、視覚野における非古典的なサラウンド効果が、自然画像を符号化するための効率的な階層的戦略を用いた視覚システムの結果としての皮質 - 皮質フィードバックに起因する可能性があることを示唆している。 Predictive codes for forthcoming perception in the frontal cortex Summerfield C, Egner T, Greene M, Koechlin E, Mangels J, Hirsch J. Science 2006 来るべき知覚情報はしばしばあいまいであり、脳は知覚の間に決定を下さなければならない。 「予測的コーディング」は、今後の感覚環境を予測し、観察された知覚の証拠と一致するテンプレートを生成することによって、脳が知覚的あいまいさを解決することを提案する。 我々は、内側前頭皮質における予測された知覚の神経表現を観察したが、人間の被験者は、視覚物体が顔であるか否かを決定した。 さらに、顔に関する知覚的決定は、顔の存在に関する予測された証拠と観察された証拠の一致に一致して、前頭皮質から顔に敏感な視覚的領域へのトップダウン接続の増加と関連していた。 Unsupervised learning of generative and discriminative weights encoding elementary image components in a predictive coding model of cortical function. N Spratling MW Neural Comput. 2012 King's College London 大脳皮質機能の予測符号化モデルによって要求される逆フィードフォワードおよびフィードバック接続を学習する方法が提示される。この方法が使用されるとき、フィードフォワードおよびフィードバック接続は、同時に生物学的にもっともらしい方法で独立して学習される。提案アルゴリズムの性能は、人工画像と自然画像の基本成分を学習することにより評価される。人工画像の場合、バーの問題が採用され、提案されたアルゴリズムは、このタスクの最先端のパフォーマンスを生成するために示されている。自然画像の場合、ガボール関数に似た構成要素が第1の処理段階で学習され、角に応答するニューロンが第2の処理段階で学習される。これらの学習された表現の特性は、V1およびV2からの神経生理学的データと良好に一致する。提案されたアルゴリズムは、単一の計算理論が皮質のRFsの形成を説明することができ、かつそれらのRFが学習されると皮質ニューロンの応答特性を説明することができることを初めて示している。 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning C. Szegedy, S. Ioffe, V. Vanhoucke, A. Alemi 2016 Google インセプションアーキテクチャーは、比較的低い計算コストでよいパフォーマンスを示してきた。また、最近では残余コネクションによって、2015 ILSVRCで最新の性能を示した。それは、最近のインセプションv3と同じくらいであった。そこで、この2つを組み合わせるとよいのではないか。本論文ではそれによって、3.08%という最新のエラー率を出した。 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks Pierre Sermanet; Rob Fergus; Yann LeCun; Xiang Zhang; David Eigen; Michael Mathieu ICLR2014 NYU ConvNetによる分類、局在化、検出(detection)の統合的なフレームワークを提案する。ConvNetの枠組みで、マルチスケールのスライディングウィンドウを使う。さらにオブジェクトの境界を予測する学習をすることで、局在化する方法も示す。バウンディングボックスは、検出の精度を挙げるため、抑圧されるのではなく、蓄積される。この統合したフレームワークは、ILSVRC2013の局在化タスクで勝ち、検出と分類でもかなりいい線いった。 Rich feature hierarchies for accurate object detection and semantic segmentation R. Girshick, J. Donahue, T. Darrell, J. Malik CVPR 2014 UCB R-CNN論文。 物体認識の性能は、標準的なPASCAL VOCデータセットで測られるが、ここ数年は伸び悩んでいる。最良の方法は、複数の低レベルの画像素性と高レベルの文脈を合わせる複雑なシステムである。この論文では、単純でスケーラブルなアルゴリズムを提案する。VOC 2012年の結果より、mAPを30%も良くして、53.3%を達成した。2つの洞察から成る。(1) ひとつは、オブジェクトの局在化とセグメンテーションのために、CNNをボトムアップな領域の提案に使う。(2) ラベル付きの訓練データが少ないとき、補助的なタスクに対する教師ありのプリトレーニングのあとに、領域固有のファインチューニングが行われ、性能をブーストする。この方法を、R-CNN(CNN素性による領域)とよぶ。OverFeatとくらべて、、200クラスのILSVRC2013検出データセットでだいぶ良いことを示す。 領域プロポーザルから、CNNを通して、特徴量をSVMに。 Ladder Variational Autoencoders Casper Kaae Sønderby, Tapani Raiko, Lars Maaløe, Søren Sønderby, Ole Winther NIPS2016 University of Copenhagen, Technical University of Denmark VAEは教師なし学習で強力だが、たくさんの層がある深いモデルは訓練が難しい。ここでは、新しい推論モデルである、ラダーVAEを提案する。ラダーネットワークと似たプロセスによって、データに依存した近似尤度による生成分布を再帰的に集める。このモデルは、最新の予測的対数尤度と、よりきつい対数尤度の下界を示す。 KW: 新しいモデル, ToRead Deep Kalman Filters R. Krishnan, U. Shalit, D. Sontag 2015 NYU カルマンフィルターは、時間変化の現象のなかで、最も影響のあるモデルのひとつである。直感的な確率解釈、簡単な関数系で、多くの分野で採用されている。最新の深層学習のモデルの変分法に動機づけられて、ここではカルマンフィルターの幅広いスペクトラムを効率的に学習する統合的なアルゴリズムを提案する。 Discrete Variational Autoencoders J. T. Rolfe D-Wave Systems 離散潜在変数の確率モデルは離散クラスからなるデータセットを捉えることができるが、学習が難しく、誤差逆伝搬が通常はできない。ここでは、新しいクラスの確率モデルを提案し、方向なしの離散コンポネントと方向ありの階層的な連続コンポネントから成り、変分オートエンコーダのフレームワークで効率的に学習させることができる。 Learning in Implicit Generative Models S. Mohamed and B. Lakshminarayanan 2016 DeepMind GANは尤度関数を特定する必要がなく、生成する手続きだけを必要とする。シャープで抵抗し難いサンプルを生成する。そして、精度の高い分類を可能にする。GANをさまざまな統計的なトピックと関連付け、アイディアの交換ができるようにする。GANを暗黙的な生成モデルを学習するアルゴリズムの幅広いランドスケープのなかに位置づけ、このアイディアを、例えば、エコノメトリックスや近似ベイズ計算などの関連する分野のモデリングの問題と関連づける。我々は、尤度のない推論方法を提案し、暗黙的な生成モデルを学習するための原理として仮説のテストをハイライトする。テストの視点は、密度比推定のより一般的な問題へと我々の焦点を向ける。4つの密度比推定の方法があり、そのひとつは、分類器を使って実データと生成されたデータを区別するものである。他のアプローチは、発散の最小化や、モメンタムマッチングである。(我々の論文をひいたもの) Rejection Sampling Variational Inference C. A. Naesseth, F. Ruiz, S. Linderman, D. Blei 2016 Linkoping U., Columbia U. U. Cambridge リパラメタライゼーショントリックを使った変分推論は、複雑な確率モデルで、大規模な近似ベイズ推論を可能にした。リパラメタライゼーショントリックが利用可能であるのは、分布が固定の補助確率変数上の決定的関数を適用することで、確率変数をシミュレートできるときである。興味のあるたくさんの分布に対して、確率変数のシミュレーションは、棄却サンプリングに依存する。受理-棄却のステップによる非連続性は、標準的なリパラメタライゼーショントリックが適用可能でないことを意味する。この論文では、変数が棄却サンプリングアルゴリズムの結果であるときでも、リパラメタライゼーションの勾配を促進する新しい方法を提案する。 Ask Me Anything: Dynamic Memory Networks for Natural Language Processing A. Kumar, P. Ondruska, M. Iyyer, J. Bradbury, I. Gulrajani, V. Zhong, R. Paulus, R. Socher metamind.io 2015 ほとんどの自然言語処理のタスクは、言語の入力に対するQAの問題になる。本論文では、動的メモリーネットワーク(DMN)を提案する。入力された系列と質問を処理して、エピソード記憶を作り、関連する答えを出すニューラルネットワークのアーキテクチャである。質問は、反復的なアテンションのプロセスをトリガーし、モデルに、入力のアテンションと以前の反復での結果をを条件付けるようにする。これらの結果は、階層的なリカレントの系列のモデルで推論される。DMNはエンドトゥエンドで訓練され、さまざまなタイプのタスクやデータセットで最新の結果を生み出している。例えば、FacebookのbAbIデータセット、Stanfordセンチメントツリーバンク、WSJのpart-of-speech taggingなど。 GRUを使っている。メモリーネットワークとかと近い。 Dynamic Memory Networks for Visual and Textual Question Answering C. Xiong, S. Merity, R. Socher MetaMind 2016 記憶と注意をもつニューラルネットワークのアーキテクチャは、質問応答に必要な推論能力を示す。動的メモリーネットワーク(DMN)はそのひとつであり、さまざまな言語タスクに高い精度を得ている。しかし、アーキテクチャが支持仮説が訓練時にマークされてないときでも強い結果を示すのかどうか、あるいは画像などの他のモダリティにも適用できるのかどうかは明らかではない。DMNの分析に基いて、我々は記憶や入力モジュールのいくつかの改良を行う。これらの改良とともに、視覚的な質問に答えられるように、新規な入力モジュールを提案する。 Neural Programmer: Inducing Latent Programs with Gradient Descent A. Neelakantan, Quoc V. Le, Ilya Sutskever ICLR2016 UM Amherst, Google DNNは、さまざまなタスクで印象的なパフォーマンスを出しているが、質問応答など、複雑な算術的、論理的推論を必要とする応用ではそれほどの成功はしていない。これらのモデルの大きな制約は、簡単な算術あるいは論理操作ですら学習ができないことである。例えば、ニューラルネットワークは2つのバイナリの数を足すのを学習するのにも失敗する。この論文では、神経プログラマーを提案する。基礎的な算術や論理演算を備えたニューラルネットワークであり、誤差逆伝搬を使ってエンドトゥエンドで訓練ができる。神経プログラマーは、これらの何ステップかに渡るこれらのオペレーションを呼び出すことができ、より複雑な構成的なプログラムを導き出すこともできる。このモデルは、正しいプログラムの実行の結果である弱い教師信号からはじめ、正しいプログラムそのものの大変なアノテーションを必要としない。どの処理を呼び出すか、どのデータセグメントに適用するかは、神経プログラマーにより推測される。これらの決定は、訓練時には、微分可能な方法で行われ、勾配降下によって学習させることができる。 Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio ICLR2015 Jacobs U. (ドイツ), モントリオール大 ニューラル機械翻訳は、機械翻訳の分野で近年提案されているアプローチである。伝統的な統計的機械翻訳と異なり、ニューラル機械翻訳は、単一のニューラルネットワークで、翻訳のパフォーマンスを最大化するものを狙いとする。最近のものは、エンコーダ、デコーダのファミリーであり、固定長のベクトルを扱う。本論文では、固定長のベクトルがボトルネックになるので、自動的に文の部分を探せるようにモデルを拡張する。最新の英語ーフランス語と同じくらいの性能が出ることを示す。 https://github.com/lisa-groundhog/GroundHog Multi-task Sequence to Sequence Learning Minh-Thang Luong, Quoc Le, Ilya Sutskever, Oriol Vinyals, Lukasz Kaiser ICLR 2016 Google Brain seq2seq学習は、教師あり学習の新しいパラダイムだが、普通はひとつのタスクに対して行われ、複数のタスクは行われていない。3つの複数タスク学習を行う。(a) 一対多:エンコーダーが共有されている、翻訳や構文解析、(b) 多対一:デコーダが共有されている。翻訳やキャプション生成とか。(c)多対多:複数のエンコーダと複数のデコーダが共有されている。特に翻訳に対して実験している。 Effective Approaches to Attention-based Neural Machine Translation M. Luong, Hieu Pham, and C. Manning 2015 Stanford アテンションメカニズムは、ニューラル機械翻訳(NMT)を改善するために最近よく使われており、翻訳時にソース文の部分に選択的に焦点を当てる。しかし、これまでアテンションに基づく翻訳の有用なアーキテクチャを探す研究はほとんどなかった。この論文では、2つのシンプルで効果的な、アテンションメカニズムのクラスを提案する。グローバルアプローチは、すべてのソース語に焦点をあて、ローカルアプローチは、ソース語の部分集合に一時点で焦点をあてる。英語とドイツ語の翻訳で、両方のアプローチの有用性を示した。ローカルアプローチでは、5.0 BLEUポイントを改善した。 Compression of Neural Machine Translation Models via Pruning A. See, M. Luong, C. Manning 2016 Stanford ニューラル機械翻訳(NMT)は、他のドメインと同じく、パラメータの過剰さに悩まされ、結果的に大きなストレージを必要とする。この論文では、3つのシンプルな大きさに基づく枝刈りのスキームを提案し、NMTのモデルを圧縮する。すなわち、クラスブラインド、クラス一様、クラス分布であり、どのように枝刈りのしきい値が計算されるかが異なる。2億パラメータのNMTのモデルが、非常に小さなパフォーマンスの低減で40%枝刈りすることができた。リトレーニングを使うと、80%枝刈りのレベルでは、もとのパフォーマンスを上回った。 ImageNet Classification with Deep Convolutional Neural Networks Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton NIPS 2012 U. Toronto 2012のILSVRCで15.3%で勝った歴史的論文。 ImageNet LSVRC2010コンテストの、120万の高解像度の画像を、1000の異なるクラスに分ける深層の畳み込みネットワークを訓練した。テストデータでは、top-1とtop-5のエラーがそれぞれ37.5%、17.0%であり、以前の最新のものよりだいぶよかった。このニューラルネットワークは、6000万のパラメータと、65万のニューロンを持ち、5つの畳み込み層と、いくつかのmax-pool層、3つのFC層をもち、最後は1000通りのソフトマックスである。飽和しないニューロンと、効率的なGPUの実装を用い、FC層の過学習を避けるために、ドロップアウトを使った。ILSVRC2012のコンペティションでは、top-5エラーで、15.3%を出した。2位は、26.2%であった。 Hybrid computing using a neural network with dynamic external memory Alex Graves, ..., Demis Hassabis Nature 2016 DeepMind 外部メモリがないため、ニューラルネットワークは変数やデータ構造を表現したり、データを長い間ためたりすることができなかった。ここでは、微分可能なニューラルコンピュータ(DNC)と呼ばれる機械学習のモデルを提案する。これは、ランダムアクセスメモリのように、外部のメモリ行列から読み出したり書き込んだりできる。普通のコンピュータと同じように、複雑なデータ構造を表現したり扱うことができ、ニューラルネットワークのようにデータから学習して行うことができる。推論等の問題を解くことができる。最短路を見つけたり、欠落したリンクを見つけたり、さらにそれを汎化したタスクを解くことができる。強化学習と組み合わせると、DNCはブロックを動かすパズルを解くことができる。 http://www.nature.com/nature/journal/vaop/ncurrent/full/nature20101.html http://www.nature.com/articles/nature20101.epdf?author_access_token=ImTXBI8aWbYxYQ51Plys8NRgN0jAjWel9jnR3ZoTv0MggmpDmwljGswxVdeocYSurJ3hxupzWuRNeGvvXnoO8o4jTJcnAyhGuZzXJ1GEaD-Z7E6X_a9R-xqJ9TfJWBqz Variational Neural Machine Translation Biao Zhang, Deyi Xiong, Jinsong Su, Hong Duan and Min Zhang 2016 Soochow U. (東呉大学)、Xiamen University(厦門大学)(中国) ニューラル機械翻訳のモデルは、ソース文が与えられたときのターゲット文の条件分布を学習するエンコーダ・デコーダの識別的ファミリーであることが多い。この論文では、条件分布を学習する変分モデルを提案する。変分エンコーダーとデコーダーで、end-to-endで訓練できるものである。vanillaエンコーダー-デコーダーモデルと違って、変分モデルは連続的潜在変数を導入し明示的にソース文のセマンティクスをモデル化し、ターゲットの翻訳の生成をガイドする。効率的な事後推論と大規模な訓練を行うために、ニューラル事後近似とよばれるものを作り、リパラメタライゼーショントリックで変分下界を推定する。中国語と英語、英語とドイツ語の翻訳で、従来手法を大きく上回ることを示す。 Generative Adversarial Nets from a Density Ratio Estimation Perspective Masatoshi Uehara, Issei Sato, Masahiro Suzuki, Kotaro Nakayama, Yutaka Matsuo 2016 UT 密度比推定のGAN版。 https://arxiv.org/abs/1610.02920 Hierarchical Variational Models Rajesh Ranganath, Dustin Tran, David M. Blei プリンストン大、コロンビア大 2016 ブラックボックスの変分推論により、研究者は簡単にたくさんのモデルのプロトタイプを作り評価することができる。最近ではそのようなアルゴリズムが高次元になっている。しかし、中心的な問題は、効率的な計算を維持しながら、高い表現力を持つ変分分布をどのように特定すればよいかである。このために、階層的変分モデル(HVM)を提案する。階層的変分モデルは、そのパラメータにプライアーをもつ変分近似であり、離散あるいは連続潜在変数の両方の複雑な構造を捉えることができる。 Black Box Variational Inference Rajesh Ranganath, Sean Gerrish, David M. Blei AISTATS 2014 プリンストン大学 変分推論は、複雑な潜在変数のモデルの事後確率の推定に広く用いられている。しかし、変分推論のアルゴリズムを出すのには、モデル特有の分析が必要である。これらの手間により、対象とする問題に対してすばやくさまざまなモデルを試すことができない。この論文では、「ブラックボックス」変分推論アルゴリズムを提案する。付加的な変更がほとんどなしに、多くのモデルに適用できる。変分分布からのモンテカルロサンプルからノイズのある勾配を計算し、変分目的関数の確率的な最適化を行う。 Improved Recurrent Neural Networks for Session-based Recommendations Yong Kiam Tan, Xinxing Xu, Yong Liu Institute of HPC, A*STAR (シンガポール) DLRS'16 セッションベースのレコメンデーションにRNNを適用する方法が最近提案されている。この論文ではそれを拡張する。データ拡大と、汎化蒸留を使うことである。RecSysチャレンジ2015のデータセットで検証。 Attention Based Recurrent Neural Networks for Online Advertising Shuangfei Zhai, Keng-hao Chang, Ruofei Zhang, Zhongfei Zhang Microsoft WWW2016 (ポスター) クエリーとアドを、実数のベクトルし、RNNを用いる。さらにアテンションネットワークを使って、異なる語の位置にスコアを割り当てる。 DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks Shuangfei Zhai, Keng-hao Chang, Ruofei Zhang, Zhongfei Zhang Microsoft, Binghamton U. (USA) KDD2016 RNNを、検索に基づくオンライン広告の文脈で使う。クエリーとアドをベクトルで表し、RNNを使い、アテンションネットワークをつける。WWW2016のロング版。 Predicting online user behaviour using deep learning algorithms Armando Vieira 2016 Redzebra Analytics 大規模なECのウェブサイトでのユーザ行動にもとづき、ロバストに買いたいという意図を予測する分類器を提案する。従来からの機械学習のアルゴリズムと、DLを比べる。DBNと、SDAEが、よい結果を示すことを示す。(レベルは高くない) Multimodal Deep Learning Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Ng ICML2011 Stanford DNNは、ひとつのモダリティ(テキスト、画像、音声)に対する教師なしの素性学習にはうまく応用されている。この論文では、複数のモダリティにわたる素性学習のためのDNNの応用を提案する。クロスモダリティの素性学習では、ひとつのモダリティにとってよい素性はほかのモダリティがあるときにも学習できる。またモダリティをまたがる共有した表現を学習することを示す。 DeepContour: A Deep Convolutional Feature Learned by Positive-sharing Loss for Contour Detection Wei Shen, Xinggang Wang, Yan Wang, Xiang Bai, Zhijiang Zhang CVPR2015 上海大学、華中科学技術大学、南洋工科大学 輪郭検出は、画像のセグメンテーションや物体認識の基盤となる。メインストリームは、人工的な勾配素性を設計することである。この論文では、CNNで作った素性を用いることで、輪郭検出の精度が大きく向上することを示す。輪郭のデータをサブクラスに分け、それぞれのサブクラスを異なるモデルでフィッティングする。新しい損失関数は、ポジティブ共有ロスと呼ばれ、それぞれのサブクラスが全体の生のクラスへの損失を共有しているというものである。Berkeley Segmentation Dataset and Bechmark (BSD500)でトップの性能を示し、NYUDデータセットでトップに近い性能を出した。 Tagger: Deep Unsupervised Perceptual Grouping Klaus Greff, IDSIA; Antti Rasmus, The Curious AI Company; Mathias Berglund, The Curious AI Company; Tele Hao, The Curious AI Company; Harri Valpola, The Curious AI Company NIPS2016 The Curious AI Company, IDSIA 入力と素性のセグメンテーションを推測する効率的な知覚推論の枠組みを提案する。 教師なしで学習する。ラダーネットワークをだいぶ上回っているとのこと。もうちょっと理解したほうが良さそう。 iTerative Amortized Grouping (TAG、反復償却グループ)。複数のオブジェクトを認識する。ひとつのオブジェクトを認識し、そのマスクを生成するというのを繰り返すことによって、複数のものを認識する。すごい。ラダーネットワークを少し改良したものを使う。 KW: 世界モデル, ToRead Learning to generate chairs with convolutional neural networks. A. Dosovitskiy, J. T. Springenberg, and T. Brox. CVPR, 2015. U. Freiburg (German) CNNを逆にして、カテゴリやポジションのパラメータから椅子が生成できるようにする。CNNを逆にしただけなので、任意の絵を生成するように学習するのではなくて、特定の椅子とかになるのでは。カテゴリのところのベクトルの演算で、椅子の足しあわせとかできる。up-convolutionというのが、unpoolingとconvolutionを組み合わせたもの。そのまま大きくして、重ね合わせる。クラスと視点、変形のパラメータを入力として、リコンストラクションされた画像と目的とする画像のロスを最小化する。(重要) KW: 生成モデル Large-scale video classification with convolutional neural networks A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. CVPR, 2014. Stanford U. CNNは画像認識で強力なモデルであり、CNNを大規模な動画分類で試せるような、487のクラスに属する100万のYouTubeのビデオのデータセットによる評価を提案する。早い段階で時間ごとのフレームをマージしてしまうアーリーフュージョンや、だいぶたってから統合するレイトフュージョンなど、いろいろ提案している。レイトのほうがよく、ゆっくり徐々に統合するスローのほうがもっとよい。 KW: 世界モデル, 記号 Bayesian learning of recursively factored environments. M. G. Bellemare, J. Veness, and M. Bowling. ICML, 2013. アルバータ大(カナダ) モデルに基づく強化学習の技術は、大きな観測空間にスケールアップするのに、歴史的にたくさんの問題にぶつかってきた。ひとつの方法は、モデルを学習するタスクを、たくさんの細かい、管理できる部分問題に分割することである。たくさんの要素化の方法があるので、どれかひとつを選ぶのは難しい。この論文では、再帰的に分解できる要素化を提案し、ベイジアン推論がこのクラスの最適な要素化と近い予測性能を保証することを示す。 Skip context tree switching M. G. Bellemare, J. Veness, and E. Talvitie In ICML, 2014. DeepMind 文脈木重み付けは、限定された深さのすべての予測suffix木のクラスの平均をとるベイジアンモデルを実行するための、強力な確率系列予測技術である。 DeepMPC: Learning deep latent features for model predictive control I. Lenz, R. Knepper, and A. Saxena. RSS, 2015. Cornell Univ. 果物を切るやつ。 複雑な非線形なダイナミクスのタスクのコントローラーを作るのは大変難しく、時間がかかり、ほとんどの場合、不可能である。この難しさは、ロボットによる食品を切るタスクなどでは大変大きく、環境(材料や道具)の特性が違ったり、それが時間的に変わったりする。この論文では、DeepMPCとよぶ、オンラインのリアルタイムモデル予測制御アプローチを提案する。このアプローチでは、深層のアーキテクチャを使って、難しいタスクのコントローラーを学習する。20のクラスの1488の材料を切る試行と、450のロボットの実際の経験のデータセットを使う。実際にきゅうりとかりんごとかを切っている。PR2のロボット。 ナイフの高さとかの制御でビジョンは関係ない。 Convolutional LSTM network: A machine learning approach for precipitation nowcasting. S. Xingjian, Z. Chen, H. Wang, D. Yeung, W. Wong, and W. Woo. NIPS 2015 香港科技大学 降雨のナウキャスティングの目的は、近い未来の局所的な降雨の激しさ予測することである。畳み込みLSTM(ConvLSTM)を使う。 Simulation as an engine of physical scene understanding. P. W. Battaglia, J. B. Hamrick, and J. B. Tenenbaum. Proceedings of the National Academy of Sciences, 110(45), 2013. 我々は、お皿の山が崩れるか、枝が子どもの体重を支えられるか、買い物袋に下手につめこんで破れるか中身がこぼれるか、道具がテーブルにくっついているか簡単に持ち上がるかを、ひと目見て知覚することができる。こうした高速な物理推論は、どのように人々が世界と相互作用しているかに関しての中心的なテーマである。本論文では、直感的な物理エンジンによるモデルを提案する。ビデオゲームやグラフィックスと同じく、豊かな物理現象をシミュレートするが、近似の確率的なシミュレーションを使うものである。 Learning predictive models of a depth camera & manipulator from raw execution traces. B. Boots, A. Byravan, and D. Fox. In International Conference on Robotics and Automation (ICRA), 2014. 生の実行トレースから、深度カメラとマニピュレータの予測的モデルを学習するという問題を解く。従来の方法は、ロボットの構造や観測する空間の素性の仮定に依存していた。この研究ではそういった仮定を置かず、高次元のコントロールされた確率プロセスの学習の問題として定式化する。 Attend, Infer, Repeat: Fast Scene Understanding with Generative Models S. M. Ali Eslami, Google DeepMind; Nicolas Heess, ; Theophane Weber, ; Yuval Tassa, Google DeepMind; David Szepesvari, Google DeepMind; Koray Kavukcuoglu, Google DeepMind; Geoffrey Hinton, Google NIPS2016 Google DeepMind AIRというモデルを提案している。シーンから複数の物体を読み取って、潜在変数に直し、それを復元する。物体の数nを含む生成モデル。(ここまでできていれば言語とくっつければほぼシーン理解ができるはず。あと、関係概念。) KW: 記号 Vision meets robotics: The KITTI dataset A. Geiger, P. Lenz, C. Stiller, and R. Urtasun. International Journal of Robotics Research (IJRR), 2013. カールスルエ工科大学(ドイツ) フォルクスワーゲンのステーションワゴンで、自動運転の研究用のデータセットを作る。6時間の運転のシナリオで、さまざまなセンサーを使う。高解像度のカラーとグレースケールのステレオカメラ。3Dのレーザースキャナ、高解像度のGPS/IMU。 Spatial Transformer Networks Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu NIPS2015 DL symposium DeepMind, UK CNNで認識したものを空間的に変形する。重要。(たぶん3DにしてMNIST never dieと言っていたやつ。) Dense optical flow prediction from a static image. J. Walker, A. Gupta, and M. Hebert. In International Conference on Computer Vision (ICCV), 2015. CMU シーンが与えられて、何が動くか、どこに動くか?こういった質問はアクション予測の意味的でないバージョンと考えられる。この論文では、動作予測に対して、CNNに基づくアプローチを提案する。画像の全てのピクセルの光学フローを予測する。普通に未来画像を正解としてCNNをしているだけ。まあ正しい。 Patch to the future: Unsupervised visual prediction. J. Walker, A. Gupta, and M. Hebert. In Computer Vision and Pattern Recognition (CVPR), 2014. CMU 時間のモデルと中間レベルの視覚要素の影響を結びつける強力な視覚予測の方法を提案する。交差点で車がどう動きそうかとか予測できる。昔からある特徴量を使ってパッチを切り合わせるような方法のようだ。 Anticipating the future by watching unlabeled video C. Vondrick, H. Pirsiavash, and A. Torralba 2015 MIT Anticipating Visual Representations from Unlabeled Video(2016)と同じ。 コンピュータビジョンにおいては、現在と将来を予測することは重要だが、世界知識が必要であり、多くのラベルづけされてない動画を利用するのが有望だと考える。 この研究では、将来のアクションとオブジェクトの両方を予期する学習ができる時間構造を捉える大きなフレームワークを提案する。 Anticipating Visual Representations from Unlabeled Video Carl Vondrick, Hamed Pirsiavash, Antonio Torralba CVPR2016 MIT, U. Maryland, Baltimore Youtubeからの600時間の動画。CNNを使って現在のフレームと、将来のフレームの損失を最小化する。(将来のフレームからは、AlexNetとかGoogLeNetとか。)分類器として、SVM, NN等と、DLの3層のものとか。握手とかハイファイブとかハグとかキスとかの確率を出している。研究の意図は面白いけど、手法とかは微妙。LSTMとかではない。 Video (language) modeling: a baseline for generative models of natural videos. Marc’Aurelio Ranzato, Arthur Szlam, Joan Bruna, Michael Mathieu, Ronan Collobert, Sumit Chopra, 2014 FAIR, NYU 動画のデータを使って、教師なしの素性学習のための強いベースラインモデルを提案する。欠損するフレームを予測したり、入力の動画のシーケンスから未来のフレームを予測する学習を行うことで、モデルは、複雑な変形や動きのパターンを表す、空間的あるいは時間的な相関を見つける。我々が提案するモデルは、言語モデリングの文献からもってきており、イメージのパッチを膨大な辞書にいれて量子化することで、空間のドメインに適用している。 Newtonian image understanding: Unfolding the dynamics of objects in static images. Roozbeh Mottaghi, Hessam Bagherinezhad, Mohammad Rastegari, Ali Farhadi 2015 静止画でどの動きを予測するという問題を扱う。クエリーオブジェクトが与えられると、オブジェクトにかかる力と長期的な動きの理解を提供することがゴールである。中間的な物理的な抽象化をニュートンシナリオと呼び、ニュートンニューラルネットワーク(N^3)を提案する。ひとつの画像をニュートンシナリオにマップすることができる。(これも分かりやすい論文) What happens if... learning to predict the effect of forces in images Roozbeh Mottaghi, Mohammad Rastegari, Abhinav Gupta, Ali Farhadi 2016 Allen Institute for AI, CMU, U. Washington テーブルの上のカップをはしっこまで押したらどうなるのか?机を壁に押すとどうなるのか?この論文では、オブジェクトへの外部の力を与えた結果、オブジェクトの動きがどうなるかを学習する問題を扱う。CNNとRNNと結合したモデルを用いる。物理シミュレータで、SUN RGB-Dデータセットというものを作る。 Playing Atari with Deep Reinforcement Learning V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wiestra, and M. Riedmiller NIPS2013 Deep Learning Workshop, 2013 DeepMind Technologies 経験リプレイとして知られる方法を使って、Qラーニングを行う。インプットは、84×84×4、最初の隠れ層は、16個の8×8、2番めは32個の4×4、最終層は全結合の256のrectifierユニットから成る。(エストニアのタルトゥ大学がこれのオープンソースを出している。) 伝説的論文。 Unsupervised Learning of Video Representations using LSTMs Nitish Srivastava, Elman Mansimov, Ruslan Salakhudinov ICML2015 LSTMを使って映像の表現を学習する。最も良かったのは、オートエンコーダーと未来予測器の複合モデル。時間の範囲の外の動きもちゃんと出すことができた。 KW: 物理モデル Deep Predictive Coding Networks for Video Prediction and Unsupervised Learning William Lotter, Gabriel Kreiman, David Cox 2016, ICLR2017 Harvard Univ. DLにおいて、教師なし学習の利用は、まだ解かれていない課題である。ここでは、視覚世界の構造を学習する教師なし学習のルールとして、動画の系列の将来フレームの予測を取り上げる。神経科学からの予測的コーディングの概念に基づく、予測的ニューラルネットワーク(PredNet)のアーキテクチャーについて述べる。このネットワークは、動画の系列の将来のフレームを予測し、それぞれの層は局所的な予測をし、この予測からの逸脱だけを他のネットワークの層に伝える。このネットワークは、合成的なオブジェクトの動きを予測することができ、ネットワークは、潜在的なオブジェクトのパラメータをデコードするのに有用な内部表現を学習する。その内部表現は、数少ない学習例で物体認識をすることができる。このネットワークは、複雑な自然画像のストリームにスケールすることができ、エゴセントリックな(自分視点での)動きや視覚シーンでの動きを捉えることができ、一般化することができる。 リカレントネットワークによる生成部分による入力の予測と、実際の入力を比較して、その差分が出力される。で、それがまた予測される。 KW: 物理モデル Learning Visual Predictive Models of Physics for Playing Billiards Katerina Fragkiadaki, Pulkit Agrawal, Sergey Levine, Jitendra Malik NIPS2015 DL RL workshop & ICLR2016 UC Berkeley 「視覚的想像(visual imagination)」。ニュートンの方程式を解いているわけでもないのに、ボールがどう転がるか予想できる。ビリヤードで、現在の画像と、かける力から次のフレームを予測する。AlexNetと4フレームのLSTMでボールの位置を予測。(力とか使っちゃまずいんじゃないのかな?と思ったら打つための力だった。)もとのシミュレータはどうやっているのだろう。摩擦とか回転とかあるのかな。この延長線でベイジアン的なモデルがどう出て来るのだろうか。 KW: 物理モデル Unsupervised Learning for Physical Interaction through Video Prediction Chelsea Finn, Google, Inc.; Ian Goodfellow, ; Sergey Levine, University of Washington NIPS2016 ピクセルの動きを予測する。5万本のロボットのインタラクション(押す動作)の動画でも学習している。物理的な動きの学習の関連研究あり。動的ニューラル移流(advection)(DNA)は、次のフレームの全てのピクセルに対して、前のフレームの場所の分布を出す。畳み込み動的ニューラル移流(CDNA)は複数の正規化された畳み込みのカーネルを適用し次のピクセルの値を得る。空間変形予測子(STP)は、複数のアフィン変換のパラメータを出力し、前の画像に適用して、教師あり学習のような空間的変換を行う。3つの方法のどれも同じくらいのパフォーマンスだった。 重要論文。 KW: 物理モデル Generating Videos with Scene Dynamics Carl Vondrick, Hamed Pirsiavash, Antonio Torralba MIT NIPS2016 ラベルなしの動画から、動画認識(行動分類)と動画生成(未来予測)の両方に使えるシーンダイナミクスを学習する。時空間の畳み込み+GANを使って、背景と前景を切り分ける。このモデルは、1秒までの短いビデオをフルフレームで生成できる。 http://web.mit.edu/vondrick/tinyvideo/ http://www.popsci.com/this-ai-generates-video-from-stills KW: 物理モデル Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning Jiajun Wu, MIT; Ilker Yildirim, MIT; William Freeman, MIT; Josh Tenenbaum, MIT NIPS2015 MIT 生成モデルにより物理世界の予測をしている。150の動画。オブジェクトの位置とか形、場所などの値を持つと想定している。DLのモデルはLeNetを摩擦等の推定に使っているだけのようだ。 KW: 物理モデル A Simple Way to Initialize Recurrent Networks of Rectified Linear Units Quoc V. Le, Navdeep Jaitly, and Geoffrey E. Hinton 2015 Google RNNで長い依存関係を学習することは、勾配の消失あるいは爆発によって難しい。これまで、洗練された最適化法やネットワークアーキテクチャが提案されてきた。この論文では、ReLUを用いたRNNに使える簡単な方法を提案する。リカレントの重み行列を、単位行列あるいはそのスケールしたバージョンで初期化することである。4つのベンチマークで、通常のLSTMと同じくらいの解を示した。 Control of Memory, Active Perception, and Action in Minecraft Junhyuk Oh, Valliappa Chockalingam, Satinder Singh, Honglak Lee ICML2016 ミシガン大 マインクラフト上で、いくつかのタスクを定義する。その上で、既存の深層強化学習(DRL)と、新しいメモリーベースDRLを比較する。部分的観測、遅れた報酬、高次元の視覚的観測、正しい方法で主体的な知覚を使わないといけないなどの問題が含まれる。新しいアーキテクチャは、既存のものよりも良いことを示す。 KW: RL Benchmarking Deep Reinforcement Learning for Continuous Control Yan Duan University of California, Berk, Xi Chen University of California, Berkeley, Rein Houthooft Ghent University, John Schulman University of California, Berkeley, Pieter Abbeel Berkeley ICML2016 UCB, Ghent U.(ベルギー), Open AI 深層強化学習においてATARIゲームなどが使われるが、連続的な制御の領域では、よく使われるベンチマークがない。カート-ポール、スイングアップ、3次元のヒューマノイドの動きなどのベンチマークを提案する。githubがあるので、使えるのかどうか検証してみる必要あり。 https://github.com/rllab/rllab KW: RL DeepText Facebook Facebook BRNNで自然言語の対話を理解する。(FbLerner Flowという機械学習のパイプラインも内部で作ったらしい。)Text Understanding from Scratchがもとになっている。 https://code.facebook.com/posts/181565595577955/introducing-deeptext-facebook-s-text-understanding-engine/ Text Understanding from Scratch Xiang Zhang, Yann LeCun 2016 NYU 文字から抽象的な概念までの自然言語理解に、時系列のCNNを適用する。オントロジー分類、感情分析、文書分類等の大規模なデータセットに適用する。単語や文、構文や意味的な理解がなくても驚くべき精度を出せることを示す。英語と中国語に適用する。 Swapout: Learning an ensemble of deep architectures Saurabh Singh, Derek Hoiem, David Forsyth NIPS2016 イリノイ大学アーバナシャンペーン校 CIFAR10とCIFAR100で、同じ構造のResNetを上回る、新しい確率的な学習方法 Swapout を提案する。 Swapoutは、ドロップアウト、確率的深さ、残余アーキテクチャなど、豊富なアーキテクチャからサンプルする。正則化の方法として見た場合に、Swapoutは、層内でのユニットの共適応だけでなく、ネットワークの層をまたがっての共適応になっている。したがって、層をまたがるパラメータの正則化になっている。32層のモデルが、1001層のResNetと同じような精度を出している。すごい! VQA: Visual Question Answering A. Agrawal, J. Lu, S. Antol, M. Mitchell, C. Zitnick, D. Batra, D. Parikh ICCV2015 Virginia Tech, MSR, FAIR 視覚的質問応答のタスクを提案する。画像と自然言語の質問を与えられて、正しい自然言語の答えを返すタスクである。「ひげは何でできている?」「バナナ」。VWAは自動で評価もできる。(答えがいくつかの語になるから。)25万の画像、76万の質問、10万の答えから構成される。ひとまずLSTMでやってみている。 KW: 記号 Adam: A Method for Stochastic Optimization Diederik Kingma, Jimmy Ba ICLR 2015 アムステルダム大、トロント大 Adam論文。低次のモーメントの適応的推測に基づく、確率的な目的関数の、一次勾配に基づく最適化のアルゴリズムを提案する。実装が容易で、効率的で、メモリーの必要が少なく、勾配の対角的なりスケーリングにも不変で、データやパラメータが多い大きな問題に向いている。AdaMaxという、無限ノルムに基づく変種も提案する。 KW: 最適化 ADADELTA: An Adaptive Learning Rate Method Matthew D. Zeiler 2012. Google, NYU 勾配降下のための次元ごとの学習率の方法であるADADELTAを提案する。この方法は一次情報だけを用いて適応し、通常の勾配降下を超える最小限の計算オーバーヘッドですむ。手動のチューニングもいらず、ノイズのある勾配情報やアーキテクチャ、データモダリティやハイパーパラメータにも強い。 KW: 最適化 Residual Networks are Exponential Ensembles of Relatively Shallow Networks Andreas Veit, Cornell University; Michael Wilber, ; Serge Belongie, Cornell University NIPS2016 Conell U. 110層のResNetは、10-34層のたくさんのネットワークのアンサンブルと考えることができる。幅と深さだけでなく、多重度(multiplicity)も考える必要がある。ResNetは、勾配消失問題を解決しているのではなく、たくさんのアンサンブルでやっているということ。面白そうな論文。 KW: 理論 Convolutional Neural Fabrics Shreyas Saxena, INRIA; Jakob Verbeek, NIPS2016 INRIA タスクにあわせてCNNの最適なアーキテクチャを選ぶのは難しい。ひとつの最適なアーキテクチャを選ぶのを目指すのではなく、ここでは、指数的に多くの数のCNNアーキテクチャの「織物」の方法を提案する。異なるレイヤー、スケール、チャネルの反応マップの3Dの格子から成る。ハイパーパラメータであるチャネルや層の数は、性能にクリティカルではない。それぞれのCNNは、格子のひとつのパスに該当する。(ResNetがアンサンブルであるというのと同じ方向か。) KW: 理論 Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering Michaël Defferrard, EPFL; Xavier Bresson, ; pierre Vandergheynst, EPFL NIPS2016 EPFL 画像(2D)、動画(3D)、音声(1D)だけでなく、高次元で非正規なドメイン、例えばソーシャルネットワークやバイオロジカルネットワークなどのグラフにCNNを適用する手法を提案する。Graph畳み込みという処理をする。論文書く上では、けっこう重要かも。 Learning to Communicate with Deep Multi-Agent Reinforcement Learning Jakob Foerster, University of Oxford; Yannis Assael, University of Oxford; Nando de Freitas, University of Oxford; Shimon Whiteson, NIPS2016 オックスフォード大学 複数のエージェントが、環境中で共有する効用を最大化する問題。通信のプロトコルを学ばないといけない。強化エージェント間学習(RIAL)と、微分可能エージェント間学習(DIAL)を提案。言語の創発という意味では重要な論文。 KW: 記号, ToRead A Neural Algorithm Of Artistic Style Leon Gatys NIPS2015 DL symposium 2015 U. Tubingen (German), Max Planc (German), Baylor Colledge of Medicine (USA) 美術、特に絵画では、内容とスタイルの間の複雑な相互作用を構成する、独特な視覚的な経験を作り出すスキルをマスターする。このプロセスのアルゴリズム的な基礎は知られておらず、同様の能力をもつ人工的なシステムはない。ここでは、DNNに基いて高い知覚的質の芸術的な画像を作り出すシステムを提案する。このシステムでは、内容とスタイルを分離し、結びつける。 KW: 生成モデル Texture synthesis using convolutional neural networks. Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. NIPS2015 U. Tubingen, Max Planck 物体認識に最適化したCNNの素性空間を使った自然なテキスチャのモデルを提案する。このモデルからのサンプルは、純粋に識別的な学習をしたネットワークの生成的な力を示し、かなり知覚的に高い質である。このモデルでは、テキスチャは、いくつかの層での素性マップ間の相関で表される。層を超えるにしたがって、テキスチャーの表現は自然画像の統計的性質を保存し、またオブジェクトの情報をより明確にする。上がって下りてくるようなネットワークで損失を定義。確かに上にあがるほど、ちゃんとした画像が得られる。 KW: 生成モデル Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan, Andrew Zisserman (Oxford) ICLR2015 オックスフォード大 画像認識におけるCNNの深さによる効果を調査する。3 x 3の畳み込みフィルターを使った場合は、事前の入念な設定をすると、16-19層で改善が見られる。これによって、ImageNet Challenge 2014で、局所化と分類のタスクで1位と2位をとった。 On Multiplicative Integration with Recurrent Neural Networks Yuhuai Wu, University of Toronto; Saizheng Zhang, University of Montreal; ying Zhang, University of Montreal; Yoshua Bengio, U. Montreal; Ruslan Salakhutdinov, University of Toronto NIPS2016 モントリオール大、トロント大 「乗算積分」(MI)とよぶ設計をRNNに導入する。MIは、追加のパラメータなしに、異なるソースからの情報が流れる方法を変える。 LSTMとかで、状態遷移と入力からの情報を「足し合わせて」いたのを、「掛け合わせる」ようにする。と良くなるらしい。へー。 KW: 進んだモデル Learning to learn by gradient descent by gradient descent Marcin Andrychowicz, Google Deepmind; Misha Denil, ; Sergio Gomez, Google DeepMind; Matthew Hoffman, Google DeepMind; David Pfau, Google DeepMind; Tom Schaul, ; Nando Freitas, Google NIPS2016 DeepMind 素性を学習できるのはすごい進歩だが、最適化アルゴリズム自体は、手で作られている。そこも学習でできるようにする。LSTMで同じような構造をもつ問題に対して汎化することができる。 KW: メタ学習 Strategic Attentive Writer for Learning Macro-Actions Alexander Vezhnevets, Google DeepMind; Volodymyr Mnih, ; Simon Osindero, Google DeepMind; Alex Graves, ; Oriol Vinyals, ; John Agapiou, ; Koray Kavukcuoglu, Google DeepMind NIPS2016 DeepMind 環境とインタラクションし、強化学習により内部プランを作るRNN。STRategic Attentive Writer (STRAW)。戦略的な注意深い書き込み器。時間的に抽象的な、マクロなアクションを学習できる。うーむ、こういうのやられるとやることなくなる。。 KW: ToRead Interaction Networks for Learning about Objects, Relations and Physics Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, Koray Kavukcuoglu NIPS2016 DeepMind オブジェクトや関係、そして物理学を推論することは、人間の知能の中心であり、人工知能の鍵となる目的である。ここでは、インタラクションネットワークとよぶモデルを提案する。それは、どのようにオブジェクトが複雑なシステムのなかで相互作用するかを予測し、動的な予測やシステムの抽象的な性質を推論することをサポートする。我々のモデルは、DNNで実装され、グラフをインプットとし、オブジェクトあるいは関係に基づく推論を、シミュレーションと類似の方法で行う。その推論の能力を、評価する際に、n個の物体の問題、堅い物体のぶつかり、柔らかいダイナミクスなどの課題を用いた。数十のオブジェクトの物理的軌跡を正確にシミュレートすることができ、エネルギーなどの抽象的な量を推定することができた。これは、最初の、汎用の学習可能な物理エンジンであり、複雑な実世界のたくさんのオブジェクトと関係性に関する推論の強力な汎用のフレームワークである。 オブジェクトの状態を表すベクトルや関係を表すベクトルを作って、MLPにかけるようだ。 KW: ToRead Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning Jean-Bastien Grill, Inria Lille - Nord Europe; Michal Valko, Inria Lille - Nord Europe; Remi Munos, Google DeepMind NIPS2016 DeepMind あなたはロボットで、マルコフ決定過程に住む。脳があって、行動する前にプランすることができる。幸運にも、あなたのロボ親は、生成モデルをつけてくれたので、モンテカルロプランニングができる。自分のプランニングを効率的にしたい。「サンプル効率的」に。モンテカルロサンプリングの拡張の何かが欲しい。それがTrailBlazerである。 Safe and Efficient Off-Policy Reinforcement Learning Remi Munos, Google DeepMind; Thomas Stepleton, Google DeepMind; Anna Harutyunyan, Vrije Universiteit Brussel; Marc Bellemare, Google DeepMind NIPS2016 オンラインの報酬に基づくオフポリシーの制御アルゴリズム。GLIE(無限探索の制限のなかで貪欲)の仮定を必要としない。 KW: RL Unifying Count-Based Exploration and Intrinsic Motivation Marc Bellemare, Google DeepMind; Srinivasan Sriram, ; Georg Ostrovski, Google DeepMind; Tom Schaul, ; David Saxton, Google DeepMind; Remi Munos, Google DeepMind NIPS2016 DeepMind Countに基づく方法は、探索的なボーナスを入れる工夫などいろいろあるが、基本的にはcountがない状態に対して弱い。状態は多くの場合、再び訪れることがない。したがって状態をまたがる汎化を行って、pseudo-countという概念を持ち込む。特にMontezuma's revengeで強くなった。 http://www.slideshare.net/ItsukaraIitsuka/deepmind20166-unifying-countbased-exploration-and-intrinsic-motivation-pseudocount-montezumas-revenge KW: RL Adaptive Skills Adaptive Partitions (ASAP) Daniel Mankowitz, Technion; Timothy Mann, Google DeepMind; Shie Mannor, Technion NIPS2016 イスラエル工科大学、DeepMind (1)スキルを獲得するとともに、(2)どこで使うかも学習できる、適応スキル適応分割(ASAP)フレームワークを提案する。普通の強化学習の話で、deepにするのは今後の課題とのこと。 Matching Networks for One Shot Learning Oriol Vinyals, ; Charles Blundell, DeepMind; Timothy Lillicrap, Google DeepMind; Koray Kavukcuoglu, Google DeepMind; Daan Wierstra, Google DeepMind NIPS2016 DeepMind ワンショット学習の精度をかなりあげた。メトリック学習のアイディアを利用? The Forget-me-not Process Kieran Milan, Google DeepMind; Joel Veness, ; James Kirkpatrick, Google DeepMind; Michael Bowling, ; Anna Koop, University of Alberta; Demis Hassabis, NIPS2016 DeepMind 忘れないでプロセスを導入する。これは、部分的に静的で繰り返しのあるソースに対しての、オンラインの確率的系列予測の効率的でノンパラメトリックなメタアルゴリズムである。 Deep Exploration via Bootstrapped DQN Ian Osband, DeepMind; Charles Blundell, DeepMind; Alexander Pritzel, ; Benjamin Van Roy, NIPS2014 DeepMind ブートストラップDQNというのを提案。トンプソンサンプリングというのを使って、そのエピソード中での最適なポリシーにしたがって行動し、それを繰り返して、Q値の分布を得るような方法のようだ。深層探索(Deep Exploration)といっているのは、複数手、先を読むような方法で、プランニング。重要論文。 KW: プランニング Learning values across many orders of magnitude Hado Van Hasselt, ; Arthur Guez, ; Matteo Hessel, Google DeepMind; Volodymyr Mnih, ; David Silver, NIPS2016 DeepMind 普通の機械学習は大きさの違いに対応できない。大きさに対応できるような手法。ATARIゲームのスコアが違うところから。POP-ARTとなづけられた適応的な正規化のアルゴリズムを使う。 Using Fast Weights to Attend to the Recent Past Jimmy Ba, Geoffrey Hinton, Volodymyr Mnih, Joel Leibo, Catalin Ionescu NIPS2016 University of Toronto, DeepMind 最近まで、ANNの研究は2つの変数のタイプに限られていた。ニューロンの活動と、重みである。このような限定の理由は特にない。シナプスは異なるタイムスケールで動的であり、つまり、ANNは通常の重みよりもずっと速く変化するがニューロンよりも遅く変化する変数が有益かもしれない。これらの「速い重み」は、一時的な記憶を貯蔵するのに使われ、神経科学的に可能なアテンションの実装を提案する。 KW: ToRead Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes Jack Rae, Google DeepMind; Jonathan Hunt, ; Ivo Danihelka, ; Tim Harley, Google DeepMind; Andrew Senior, ; Greg Wayne, ; Alex Graves, ; Timothy Lillicrap, Google DeepMind NIPS2016 DeepMind 外部メモリのあるニューラルネットワークは、複雑なタスクに対しての解を学習する能力がある。言語モデリングや翻訳などには有望に思えるが、空間や時間に対して必要なメモリの量が増大し、うまくスケールしない。この研究では、end-to-endの微分可能なメモリアクセスのスキームを提案し、Sparse Access Memory (SAM)と呼ぶ。SAMは、1000倍速く、また3000倍少ないメモリで動く。 Memory-Efficient Backpropagation Through Time Audrunas Gruslys, Google DeepMind; Remi Munos, Google DeepMind; Ivo Danihelka, ; Marc Lanctot, Google DeepMind; Alex Graves, NIPS2016 DeepMind 動的計画法を使って、中間ノードの値をとっておくか、再計算するかを決めることで、RNNのバックプロップの必要なメモリを減らす。1000の長さのシーケンスだと、95%のメモリ使用が節約できる。 Learning What and Where to Draw Scott Reed, Zeynep Akata, Santosh Mohan, Samuel Tenka, Bernt Schiele, Honglak Lee NIPS2016 U. Michigan, Max Planck GANは、実世界の画像を合成する能力がある。現存するモデルは、クラスラベルやキャプションなどのグローバルな制約に基いて画像を合成するが、ポーズやオブジェクトの位置に関してのコントロールは提供しない。Generative Adversarial What-Where Network (GAWWN)と呼ぶ新しいモデルを提案し、どこに何を描くかの指示のもとで画像を合成する。 メッシュのどこに書くかで条件づけるGAN。Generative Adversarial What-Where Network (GAWWN)。テキストからの生成。ネットワークの構造がめちゃくちゃ複雑。 InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel NIPS2016 UC Berkeley, OpenAI 相互情報量に基づくGAN。生成器の潜在変数と識別器の特徴量の相互情報量を大きくする。 KW: ToRead Improved Techniques for Training GANs Tim Salimans, ; Ian Goodfellow, OpenAI; Wojciech Zaremba, OpenAI; Vicki Cheung, OpenAI; Alec Radford, OpenAI; Xi Chen, UC Berkeley; OpenAI NIPS2016 OpenAI GANの細かい技術とか、評価方法とか。 DeepMath - Deep Sequence Models for Premise Selection Geoffrey Irving, ; Christian Szegedy, ; Alexander Alemi, Google; Francois Chollet, ; Josef Urban, Czech Technical University in Prague NIPS2016 たくさんの数学の定理から学習。 Generative Adversarial Imitation Learning Jonathan Ho, Stanford; Stefano Ermon, NIPS2016 GAIL。逆強化学習を、GAN的に捉えるというのものようだ。 エキスパートの軌跡とそうでないものを見分けるように学習する。 Conditional Image Generation with Pixel CNN Decoders Aaron Van den Oord, Google Deepmind; Nal Kalchbrenner, ; Lasse Espeholt, ; Koray Kavukcuoglu, Google DeepMind; Oriol Vinyals, ; Alex Graves, NIPS2016 Gated PixelCNNというのを使う。PixelCNNは横方向だけだが、それを縦方向にも使う。 A Neural Transducer Navdeep Jaitly, Quoc Le, Oriol Vinyals, Ilya Sutskever, David Sussillo, Samy Bengio, NIPS2016 Google Brain ニューラル変換器(transducer)。seq2seqのモデルを拡張して、encoderとtransducerの両方を作ってつなぐ。入力をブロック単位で処理でき、長い入力でも可能。 Professor Forcing: A New Algorithm for Training Recurrent Networks Alex Lamb, Montreal, Anirudh Goyal, ying Zhang, Saizheng Zhang, Aaron Courville, Yoshua Bengio NIPS2016 U. Montreal 教師強制アルゴリズム(昔からある)は、訓練時に観測した系列の値を入力として供給し、ネットワークの1ステップの予測を複数ステップの予測をするように使うことで、リカレントネットを訓練する。ここで提案する教授強制アルゴリズムは、リカレントネットのダイナミクスが、訓練のときと複数の時点にわたってサンプリングするときで同じになるように促す、敵対的ドメイン適応である。これが正則化として働き、Penn TreebankやシーケンシャルMNISTでのテスト尤度をあげることを示す。 Can Active Memory Replace Attention? Łukasz Kaiser, Samy Bengio NIPS2016 Google Brain 入力やメモリの一部分にアテンションを当てるメカニズムは最近、ディープラーニングのモデルで成功している。画像分類やキャプショニング、音声認識、生成モデルなどの精度を上げるが、最も大きなインパクトは翻訳であろう。 近年、他の方法でもそういった効果が得られており、それはひとつの部分に焦点を当てるのではなく、全ての部分に平行に一様に操作するものである。このようなメカニズムを、アクティブメモリと呼び、アルゴリズミックなタスク、画像処理や生成モデルでよい結果を出している。 しかし、アクティブメモリは、ほとんどの自然言語処理のタスク、特に翻訳でうまくいっていない。この論文では、この欠点を分析し、現在のNMTのアテンションモデルとマッチするアクティブメモリの拡張されたモデルを提案する。 Combinatorial Energy Learning for Image Segmentation Jeremy Maitin-Shepard, Google; Viren Jain, Google; Michal Januszewski, Google; Peter Li, ; Pieter Abbeel, NIPS2016 Google, UCB 画像の素性と局所的なバイナリーの形記述を統合したエネルギーモデルを提案。 どのスケールでも形を上手に表現することができ、またオブジェクトのインタラクションも捉えることができる。 3Dの生物的な画像に適用。ショウジョウバエとか鳥の神経細胞。 Value Iteration Networks Aviv Tamar, Sergey Levine, Pieter Abbeel, Yi Wu, UC Berkeley, Garrett Thomas NIPS2016 UCB プランニングのできるニューラルネットワーク。価値反復ネットワーク(VIN)は、プランニングモジュールが埋め込まれた、完全に微分可能なニューラルネットワークである。VINは、プランすることを学習し、プランに基づく推論により結果を予測することができる。このキーとなるのは、新しく提案する価値反復アルゴリズムの微分可能な近似であり、CNNとして表すことができる。 KW: プランニング, ToRead Cooperative Inverse Reinforcement Learning Dylan Hadfield-Menell*, UC Berkeley; Stuart Russell, UC Berkeley; Pieter Abbeel, ; Anca Dragan, NIPS2016 UCB 協調的でインタラクティブな逆強化学習(CIRL)を提案。人間にとってよい報酬関数を与えるため。 KW: RL Backprop KF: Learning Discriminative Deterministic State Estimators Tuomas Haarnoja*, UC Berkeley; Anurag Ajay, UC Berkeley; Sergey Levine, University of Washington; Pieter Abbeel, UCB NIPS2016 RNNを使って複数のセンサ情報から状態を識別するモデル。 Variational Information Maximizing Exploration Rein Houthooft*, Ghent University - iMinds; UC Berkeley; OpenAI; Xi Chen, UC Berkeley; OpenAI; Yan Duan, UC Berkeley; John Schulman, OpenAI; Filip De Turck, Ghent University - iMinds; Pieter Abbeel, NIPS2016 UCB 情報利得を最大化する観点から探索行動を行う。変分情報最大化探索(VIME)。ベイジアンNNに、変分推論を使う。 KW: RL Architectural Complexity Measures of Recurrent Neural Networks Saizheng Zhang*, University of Montreal; Yuhuai Wu, University of Toronto; Tong Che, IHES; Zhouhan Lin, University of Montreal; Roland Memisevic, University of Montreal; Ruslan Salakhutdinov, University of Toronto; Yoshua Bengio, U. Montreal NIPS2016 モントリオール大 RNNのアーキテクチャをいろいろな設定で試す系の論文。リカレントの深さ、フィードフォワードの深さ、リカレントのスキップの係数。リカレントとフィードフォワードは深い方がいい。スキップの係数は大きいほうが長期の依存関係を捉えれられる。(わりと自明?) An Empirical Exploration of Recurrent Network Architecturesとかと近い? Reward Augmented Maximum Likelihood for Neural Structured Prediction Mohammad Norouzi*, ; Dale Schuurmans, ; Samy Bengio, ; zhifeng Chen, ; Navdeep Jaitly, ; Mike Schuster, ; Yonghui Wu, NIPS2016 Google Brain 構造出力予測の問題は、テストの評価に関係するタスクの報酬関数を直接最適化してしまうこと。タスクの報酬を、最大尤度のフレームワークに乗せる。 Incremental Boosting Convolutional Neural Network for Facial Action Unit Recognition Shizhong Han*, University of South Carolina; Zibo Meng, University of South Carolina; Ahmed Shehab Khan, University of South Carolina; Yan Tong, University of South Carolina NIPS2016 USC インクリメンタルブースティングCNN。ブースティングの層をつける?ちょっと良くわからないが微妙。顔のアクションユニットに特有の話なのか? Unsupervised Domain Adaptation with Residual Transfer Networks Mingsheng Long*, Tsinghua University; Han Zhu, Tsinghua University; Jianmin Wang, Tsinghua University; Michael Jordan, NIPS2016 清華大学 ドメイン適応で、ソースとターゲットが残余分だけ異なるように設定して学習する。残余転移ネットワーク。(図1がいまいち良くわからない。sourceとtargetが逆?) Integrated perception with recurrent multi-task neural networks Hakan Bilen*, University of Oxford; Andrea Vedaldi, NIPS2016 オックスフォード大学 DNNは、普遍的な画像の表現を学ぶのか?ひとつのタスクだけでなく全てに有用な。そして、どのように異なるタスクの解がこのフレームワークに統合されるのか。これに対して、multinetというアーキテクチャで答える。深い画像の特徴はタスク間で共有されるだけでなく、リカレントな方法でその結果を共通の表現にエンコードすることでタスクが相互作用する。 CNNpack: Packing Convolutional Neural Networks in the Frequency Domain Yunhe Wang*, Peking University ; Shan You, ; Dacheng Tao, ; Chao Xu, ; Chang Xu, NIPS2016 北京大。 Compressing Convolutional Neural Networks in the Frequency Domain (KDD2016)と近い? CNNはストレージも計算も多く必要なのでモバイルデバイスで使うのが難しい。ここでは、周波数領域における効果的なCNN圧縮を提案する。小さい重みだけではなく、すべての重みとその背後にあるコネクションに注目する。畳み込みフィルタをガズと見ることで、その表現を周波数領域における共通部分(クラスタの中心)とその他に分ける。多くの低いエネルギーの周波数係数が捨てられ、高い圧縮率となる。 KW:圧縮系 Compressing Convolutional Neural Networks in the Frequency Domain Wenlin Chen, James Wilson, Stephen Tyree, Kilian Q. Weinberger, Yixin Chen KDD2016 ワシントン大、NVIDIA 頻度センシティブなハッシュネット(FreshNets)というのを提案。フィルターの重みを周波数領域に変換して、離散コサイン変換をして、周波数変数をグループ化して、ハッシュのバスケットに入れる。圧縮系技術の周波数領域バージョン。 KW:圧縮系 f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization Sebastian Nowozin*, Microsoft Research; Botond Cseke, Microsoft Research; Ryota Tomioka, MSRC NIPS2016 Microsoft Research (ケンブリッジ) GANとかをより一般化するもので、生成的な変分ダイバージェンス推定。 重要そう。 Hierarchical Question-Image Co-Attention for Visual Question Answering Jiasen Lu*, Virginia Tech; Jianwei Yang, Virginia Tech; Dhruv Batra, ; Devi Parikh, Virginia Tech NIPS2016 バージニアテック 質問注意という、どの言葉を聞くかのアテンションモデル。どこを見るかのアテンションと両方を使い、質問応答に答える。COCOデータセットの質問応答タスクで、60%から65%くらいにちょっとだけ良くなった。 KW: 記号 FPNN: Field Probing Neural Networks for 3D Data Yangyan Li*, Stanford University; Soeren Pirk, Stanford University; Hao Su, Stanford University; Charles Qi, Stanford University; Leonidas Guibas, Stanford University NIPS2016 スタンフォード 3Dのデータを扱うために、3DCNNが使われているが、いろいろ問題がある。Field Probing based Neural Network (FPNN)というのを提案する。 CRF-CNN: Modeling Structured Information in Human Pose Estimation Xiao Chu*, Cuhk; Wanli Ouyang, ; hongsheng Li, cuhk; Xiaogang Wang, Chinese University of Hong Kong NIPS2016 香港大学 通常のNNでは、同レイヤーでメッセージの通過はないが、これを可能にするCRF-CNNフレームワークを提案する。人の姿勢の推定に使う。 Domain Separation Networks Dilip Krishnan, Google; George Trigeorgis, Google; Konstantinos Bousmalis*, ; Nathan Silberman, Google; Dumitru Erhan, Google NIPS2016 Google ドメインごとに特有のことをモデル化することは、ドメインに不変の特徴量を取り出すことになる。Private、Sharedエンコーダがある。 DISCO Nets : DISsimilarity COefficients Networks Diane Bouchacourt*, University of Oxford; M. Pawan Kumar, University of Oxford; Sebastian Nowozin, NIPS2016 オックスフォード大学 非類似係数ネットワーク(DISCO Nets)。真の分布と推定分布の非類似を最小化する。(というと、ごく普通の話だが、いまいち不明。)手のポーズの推定。 Multimodal Residual Learning for Visual QA Jin-Hwa Kim*, Seoul National University; Sang-Woo Lee, Seoul National University; Dong-Hyun Kwak, Seoul National University; Min-Oh Heo, Seoul National University; Jeonghee Kim, Naver Labs; Jung-Woo Ha, Naver Labs; Byoung-Tak Zhang, Seoul National University NIPS2016 ソウル大、ネイバーラボ 深層残余ネットワークのマルチモーダル化。Q(言語)とV(視覚)の両方でResNetを作って、アライメントを取る。(生データのところは、それぞれRNNとCNNで前処理。)どんな動物がいる?とか色は?などの質問に答えられる。いけてる気がする。 KW: 記号 Collaborative Recurrent Autoencoder: Recommend while Learning to Fill in the Blanks Hao Wang*, HKUST; Xingjian Shi, ; Dit-Yan Yeung, NIPS2016 香港科技大 内容とレイティングの両方を使うハイブリッド法は多くの推薦システムで使われてきた。しかし、その多くは手作りの素性か、bag of wordsの表現であり、効果的でも自然でもなかった。ここでは、協調リカレントオートエンコーダ(CRAE)を提案する。denoisingリカレントオートエンコーダであり、協調フィルタリングのコンテンツの系列をモデル化する。だいぶ良くなっているように見えるが本当だろうか。 Coupled Generative Adversarial Networks Ming-Yu Liu*, MERL; Oncel Tuzel, Mitsubishi Electric Research Labs (MERL) NIPS2016 Mitsubishi Electric Research Lab 結合化GAN(coupled GAN, CoGAN)を提案。2つの別のドメインでそれぞれ画像を生成。ふちどりの違う数字とか、白黒反転の数字とか、髪の色の違う顔写真とか。 Deep Learning without Poor Local Minima Kenji Kawaguchi*, MIT NIPS2016 MIT 1989の推測を証明する。1) 関数は非凸で非凹、2) すべての局所解は大域解、3) すべての大域解でないcritical点は按点、4) 按点の性質は浅いもの(3層)と深いもので異なる。 A Powerful Generative Model Using Random Weights for the Deep Image Representation Kun He, Huazhong University of Science and Technology; Yan Wang*, HUAZHONG UNIVERSITY OF SCIENCE; John Hopcroft, Cornell University NIPS2016 華中科技大学 学習させないで生成する。(識別器から初期値を持ってくる。) Generating Images with Perceptual Similarity Metrics based on Deep Networks Alexey Dosovitskiy*, ; Thomas Brox, University of Freiburg NIPS2016 画像の生成に使える損失関数のクラスを提案する。画像の復元(auto-encoding)、VAEによるランダム画像の生成、素性の逆変換の3つのタスクで試す。提案する損失関数は3つの項からなっており、特徴空間での距離、敵対的な識別器の精度、そして従来の画像の距離の3つを足し合わせたもので構成される。 Single-Image Depth Perception in the Wild Weifeng Chen*, University of Michigan; Zhao Fu, University of Michigan; Dawei Yang, University of Michigan; Jia Deng, NIPS2016 U. Michigan ひとつのイメージから、距離画像を作る。クラウドソーシングでデータセット作り。ピクセルワイズのCNNで予測。 Deep Alternative Neural Networks: Exploring Contexts as Early as Possible for Action Recognition Jinzhuo Wang*, PKU; Wenmin Wang, peking university; xiongtao Chen, peking university; Ronggang Wang, peking university; Wen Gao, peking university NIPS2016 北京大学 コンテキストは動画での行動認識において重要である。通常は、階層的な局所素性を抽出したあと、コンテキストを取り出すが、この論文では、コンテキストをできるだけ速く探し、行動認識に活かす。特に、深層代替ニューラルネットワーク(DANN)とよぶ新しいアーキテクチャを導入する。それぞれの代替レイヤーは、畳み込みレイヤーで、リカレントレイヤーが続く。それぞれ局所素性とコンテキストを取り出す。 Proximal Deep Structured Models Shenlong Wang*, University of Toronto; Sanja Fidler, ; Raquel Urtasun, NIPS2016 U. Toronto 現実世界の応用の多くは、統計的に関連した連続値の確率変数の予測である。この論文では、連続出力変数の間の依存関係をエンコードする複雑な非線形の関数を学習することのできる強力な深層構造のモデルを提案する。 SoundNet: Learning Sound Representations from Unlabeled Video Yusuf Aytar, MIT; Carl Vondrick*, MIT; Antonio Torralba, NIPS2016 MIT 自然界で集めた大量の教師なしの音のデータを活かした、豊かで自然な音の表現を学習する。(動画から取り出している。) Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks Tim Salimans*, ; Diederik Kingma, NIPS2016 OpenAI 重み正規化という手法を提案する。最適化の条件を良くして収束を早める。バッチ正規化(batch normalization)と似てるが、ミニバッチの訓練例間の依存が必要ない。そのため、LSTMとか、ノイズに敏感な深層強化学習や生成モデルなどにも使える。重要論文。 KW: 最適化 Normalization Propagation: A Parametric Technique for Removing Internal Covariate Shift in Deep Networks Devansh Arpit SUNY Buffalo, Yingbo Zhou SUNY Buffalo, Bhargava Kota SUNY Buffalo, Venu Govindaraju SUNY Buffalo ICML2016 SUNY Buffalo(ニューヨーク州立大学バッファロー校) バッチノーマライゼーション(BN)は、重要な問題、内部共変シフトを明らかにしたが、欠点がある。BNは層ごとの入力の正規化のためのバッチの統計量に依存しており、隠れ層への入力の平均や標準偏差を不正確にしている。さらに、BNは、バッチサイズが1のときには使えない。本論文では、正規化伝搬(Normalization Propagation)とよぶ、内部共変シフトを取り除く非適応的な正規化を提案する。 KW: 最適化 Unitary Evolution Recurrent Neural Networks Martin Arjovsky University of Buenos Aires, Amar Shah University of Cambridge, Yoshua Bengio ICML2016 U. Montrial RNNの勾配消失/爆発問題を避けるために、固有値が厳密に1になるように重み行列を学習する方法。 KW: 最適化 PerforatedCNNs: Acceleration through Elimination of Redundant Convolutions Michael Figurnov*, Skolkovo Inst. of Sc and Tech; Aijan Ibraimova, Skolkovo Institute of Science and Technology; Dmitry P. Vetrov, ; Pushmeet Kohli, NIPS2016 Slolkovo Institute of Science and Technology (Skoltech, ロシア), MSRC(英) perforated: 穴の空いた。いくつかの場所でのボトルネックとなる畳み込みレイヤーの計算を省略することで早くする。50%くらい時間が短縮できる。 Direct Feedback Alignment Provides Learning In Deep Neural Networks Arild Nøkland NIPS2016 None 最近のフィードバックアラインメントは、誤差の逆伝搬が、前方への伝搬と対称である必要はないとしている。 実際、ランダムコネクションでもうまくいく。この論文では、フィードバックアラインメントを使って隠れ層をより効率的に学習させる。これによって、生物的に可能な機械学習に一歩近づく。 KW: 進んだモデル, ToRead Towards Biologically Plausible Deep Learning Bengio et al. ICML2015 deep learning workshop U. Montreal 誤差逆伝播をやっていない問題、それ以外にも、(1)誤差逆伝播は線形だが、生物的なニューロンは線形と非線形、(2) フィードフォワード側の計算を知っておかないと微分できない問題、(3)フィードバックは、フィードフォワードと対称な重みを使っている問題、(4)本当のニューロンは、バイナリーで、連続値じゃない問題、(5)フィードフォワードとフィードバックをきっちり繰り返さないといけない問題、(6)出力のターゲットがどこに来るのか分からない問題、などがある。これをスパイクタイイング依存可塑性(STDP)で一部説明する。 KW: 進んだモデル Doubly Convolutional Neural Networks Shuangfei Zhai*, Binghamton University; Yu Cheng, IBM Research; Zhongfei Zhang, Binghamton University NIPS2016 Binghamton U., IBM T.J. Watson, Tsinghua U. 大きなモデルでパラメータを共有することが、CNNの成功の大半を説明する。この論文では、2重CNN(DCNN)を提案する。これは、独立に学習されるフィルターを使うより、フィルターのグループを作るものであり、グループ内で翻訳されるものである。実際、DCNNは2ステップの畳み込みの手続きで簡単に実装される。CIFAR-10, 100, ImageNet等で他のアーキテクチャを上回った。(ただ、ResNetとかのほうがまだいい。ResNet版作れば勝ちそうだけど。) 単純だが確かに良さそう。 How Deep is the Feature Analysis underlying Rapid Visual Categorization? Sven Eberhardt*, Brown University; Jonah Cader, Brown University; Thomas Serre, NIPS2016 ブラウン大学 Rapid categorazation(見てすぐに分類する)は実験心理学で長い歴史を持つ。計算のモデルと、人間の参加者に対して、rapidな分類(動物と非動物)の実験を行った。認識の正確さは、視覚処理が高次になるほど上がったが、人間同士の判断は中間くらいのときにもっとも一致した。 Local Similarity-Aware Deep Feature Embedding Chen Huang*, Chinese University of HongKong; Chen Change Loy, The Chinese University of HK; Xiaoou Tang, The Chinese University of Hong Kong NIPS2016 香港大学 ビジョンにおける既存の深層のエンベディングの方法は、コンパクトなユークリッド空間を学習することができ、ユークリッド距離は類似度に対応する。この論文では、位置依存の深層距離(PDDM)を提案する。局所的な素性の構造に適応した類似度を学習できるものである。 Deep Learning Models of the Retinal Response to Natural Scenes Lane McIntosh*, Stanford University; Niru Maheswaranathan, Stanford University; Aran Nayebi, Stanford University; Surya Ganguli, Stanford; Stephen Baccus, Stanford University NIPS2016 スタンフォード 感覚神経科学の中心的な課題は、動物行動学的に関連した自然な刺激のエンコーディングの背後に有る神経計算あるいは回路のメカニズムである。複数階層の神経回路では、シナプスの伝達やスパイクのダイナミクスなどの非線形なプロセスは、自然な刺激への反応の正確な計算モデルを作るための重大な障壁となる。ここでは、CNNが、セルの反応への可変性のなかで、自然風景への網膜の反応を捉え、線形なモデルなどよりも正確であることを示す。 CNNと脳の反応を比べる研究。 Deep Learning Games Dale Schuurmans*, ; Martin Zinkevich, Google NIPS2016 Google 教師あり学習をゲームプレイに変換することにより、そのつながりや学習方法について調べる。凸な一階層の問題では、訓練する問題の大域的な最小化とナッシュ均衡は等価である。次に、ゲームがどのように、微分可能な凸のゲートを持つ、一般的な非サイクルなニューラルネットワークに拡張できるかを示す。それにより、ナッシュ均衡と、深層学習の重要な点(KKT)のつながりを示す。 Diffusion-Convolutional Neural Networks James Atwood*, UMass Amherst NIPS2016 マサチューセッツ大 グラフ形式のデータのためのモデルDCNNを提案。ノードの分類、グラフの分類、エッジの分類とか。ディフュージョンに基づく表現を学習する。 Tensor Switching Networks Chuan-Yung Tsai*, ; Andrew Saxe, ; David Cox, NIPS2016 Harvard U. テンソルスイッチ(TS)ネットワークは、ReLUの非線形性を、テンソルの値を持つ隠れ層に拡張するものである。TSネットワークは、入力ベクトルを異なる場所にコピーする。その場所は、隠れ層の活動で決められる。このようにすると、TS表現からのシンプルな線形の読み出しが、深層学習のような高い表現力をもつ関数となる。 なんか面白そう。また、D. Cox。 Learning the Number of Neurons in Deep Networks Jose Alvarez*, NICTA; Mathieu Salzmann, EPFL NIPS2016 CSIRO(オーストラリア), EPFL(スイス) DNNのレイヤー数やニューロン数は手動で決められる。DNNは広く効果的ではあるが、メモリや計算コストが高く、制約されたプラットフォームでは実用的でない。これらのネットワークは、冗長なパラメータを持ち、よりコンパクトなアーキテクチャで置き換えられ得る。この論文では、自動的にニューロン数を決めるアプローチを提案する。この目的のために、パラメータ上のグループ疎性正則化を使い、それぞれのグループがひとつのニューロンのように働く。パラメータの数を80%くらい減らせることを示す。 Deep Learning for Predicting Human Strategic Behavior Jason Hartford*, University of British Columbia; Kevin Leyton-Brown, ; James Wright, University of British Columbia NIPS2016 UBC (カナダ) ゲーム等の戦略的な設定において、人間の参加者の行動を予測することは重要である。これまでの研究では、参加者が完全に合理的であるか、参加者の認知プロセスを直接モデル化するかであった。この研究では、それらの代替案となる、専門的な知識に頼ることなく認知的なモデリングを自動的に行う深層学習のアプローチを提案する。行列のユニットを用いて、異なる入力と出力の次元をひとつのネットワークで一般化する。 ゲーム理論とかを学習でやるようなもの。 Improved Dropout for Shallow and Deep Learning Zhe Li, The University of Iowa; Boqing Gong, University of Central Florida; Tianbao Yang*, University of Iowa NIPS2016 アイオワ大学 通常、ドロップアウトは互いに独立だが、これは準最適にすぎない。異なる素性/ニューロンに対して異なる確率の多項分布でドロップアウトのサンプリングを行う。適応的なドロップアウト(進化的ドロップアウトとよぶ)を提案。通常のドロップアウトに比べて、CIFAR100で精度が10%向上し、また、50%収束速度が向上した。 Stochastic Variational Deep Kernel Learning Andrew Wilson*, Carnegie Mellon University; Zhiting Hu, Carnegie Mellon University; Ruslan Salakhutdinov, University of Toronto; Eric Xing, Carnegie Mellon University NIPS2016 Cornell U., CMU 深層のカーネル学習は、カーネル法のノンパラメトリックな自由度と、深層学習の帰納的なバイアスをあわせるものである。新しい深層カーネル学習のモデルと、確率的な変分推論の手続きを提案する。 Deep Neural Networks with Inexact Matching for Person Re-Identification Arulkumar Subramaniam, IIT Madras; Moitreya Chatterjee*, IIT Madras; Anurag Mittal, IIT Madras NIPS2016 IIT, Madras (インド) 人物の再同定は、複数のカメラビューから人物の画像のマッチングを行うタスクである。ほとんど全ての先行研究が、訓練コーパスの異なるビューの人物を関連付けるような可能な変換を学習する。そして、この変換パターンを使って、クエリー画像とギャラリーの画像をマッチさせる。これは、画像のよい特徴表現を学習することを必要とし、ロバストな特徴マッチングの技術となる。深層学習のアプローチ、例えば、CNNは、これを同時にやり、よい成果を出している。 この論文では、2つのCNNに基づく人物再同定のアーキテクチャを提案する。ひとつめは、画像のペアが与えられると、畳込みとプーリングの複数のステージを経由してこれらの画像から2つの素性マップを取り出す。不完全なマッチングの技術を新しく提案し、最初の表現におけるピクセルを2つめ表現におけるピクセルとマッチさせる。 Spatiotemporal Residual Networks for Video Action Recognition Christoph Feichtenhofer*, Graz University of Technology; Axel Pinz, Graz University of Technology; Richard Wildes, York University Toronto NIPS2016 グラッツ工科大学 (カナダ) 2ストリームのCNNは、動画における人間行動の認識でよい性能を示している。この論文では、時空間のResNetを、2つのアプローチの組み合わせとして使う。我々のモデルでは、時空間のドメインのResNetを一般化し、残余のコネクションを2つの方法で導入する。まず、2つのストリームの時空間のインタラクションを許容する、見た目と動きのパスウェイのアーキテクチャの残余コネクションを推測する。次に、事前学習された画像のConvNetを、学習可能な畳込みフィルターを備えた時空間のネットワークに変換する。 動きのストリームと、見た目のストリームそれぞれでResNetを使うというもの。 Path-Normalized Optimization of Recurrent Neural Networks with ReLU Activations Behnam Neyshabur*, TTI-Chicago; Yuhuai Wu, University of Toronto; Ruslan Salakhutdinov, University of Toronto; Nathan Srebro, NIPS2016 Toyota Technological Institute at Chicago, トロント大, CMU RNNのパラメータ空間の幾何を調べて、path-SGD最適化の方法を提案する。ReLU RNNのパフォーマンスが良くなった。RNNと、フィードファワードのNNの重み共有と考える。 Deep Unsupervised Exemplar Learning MIGUEL BAUTISTA*, HEIDELBERG UNIVERSITY; Artsiom Sanakoyeu, Heidelberg University; Ekaterina Tikhoncheva, Heidelberg University; Björn Ommer, NIPS2016 ハイデルベルグ大学 模範学習は、教師なしで視覚的類似性を見つけるよい方法である。局所的な距離の推定が与えられると、相互に首尾一貫した関係のサンプルを見つける最適化問題を解く。模範の類似度を学習するのは、こういったクリークを見つけるのと同じになる。 Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences Daniel Neil*, Institute of Neuroinformatics; Michael Pfeiffer, Institute of Neuroinformatics; Shih-Chii Liu, NIPS2016 チューリッヒ大学、ETH チューリッヒ 現在のRNNは、センサーや他のニューロンにより連続時間で生成されるイベントにトリガーされるサンプルデータの扱いはうまくない。これらのデータは、例えば、イベントに基づくニューロンのセンサーから入力が来たり、異なる更新頻度の従来からあるセンサから来たりする。この研究では、フェーズ化LSTMモデルを提案し、新しくタイムゲートを導入する。このゲートは、メモリセルの更新を生み出す周波数のパラメタ化された振動によってコントロールされる。 KW: ToRead Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1 Matthieu Courbariaux, Itay Hubara, Daniel Soudry, Ran El-Yaniv, Yoshua Bengio NIPS2016 モントリオール大、イスラエル工科大 重みと活性がバイナリーであるニューラルネットワーク。 BinaryConnectとも違って、発展させたもののようだ。BinaryConnectは、重みが実数。 LightRNN: Memory and Computation-Efficient Recurrent Neural Networks Xiang Li*, NJUST; Tao Qin, Microsoft; Jian Yang, ; Xiaolin Hu, ; Tie-Yan Liu, Microsoft Research NIPS2016 南京理工大学、Microsoft Research Asia RNNは、多くの自然言語処理のタスクで最新の性能を発揮してきたが、語彙が多いときは、RNNのモデルがとても大きくなり(GPUデバイスのメモリ量を超え)、その訓練はとても非効率になる。この論文では、この問題に対応するために、語の表現に、2つのコンポネントの共有されたエンベディングを用いる。すべての語をテーブルに割当て、ひとつの行がベクトルに関連付けられ、ひとつの列もベクトルに関連付けられる。テーブルのポジションによって、語は2つのコンポネントで結合的に表される。こうすると、2√|V|個のベクトルで、|V|個の語を表せる。 良さそう。 Learning Deep Parsimonious Representations Renjie Liao*, UofT; Alexander Schwing, ; Rich Zemel, ; Raquel Urtasun, NIPS2016 トロント大学 学習された表現の相互運用性をサポートしながら、DNNの汎化性能をあげることを目指す。このために、節約的な表現を促す正則化に基づくクラスタリングを提案する。 Visual Question Answering with Question Representation Update (QRU) RUIYU LI*, CUHK; Jiaya Jia, CUHK NIPS2016 香港大学 自然言語の質問と視覚的画像に関する推論を扱う。画像に対する自然言語の質問が与えられると、我々のモデルは、質問の表現を反復的に更新し、クエリーに関連した画像の領域を選び、正しい答えを与えるように学習する。いくつかの推論レイヤーを含み、複雑な視覚的な関係と視覚的な質問応答のタスクを扱う。COCO-QAとVQAデータセットで試す。 わりと普通の(いまとなっては)画像CNNと文GRUの組み合わせ。最後にソフトマックス。 Improving Variational Autoencoders with Inverse Autoregressive Flow Diederik Kingma, Tim Salimans NIPS2016 Open AI, アムステルダム大、UC Irvine 自己回帰ネットワークを変形することで、変分推論の自由度を増す方法を提案する。RNNやMadeなどの自己回帰ネットワークは、強力だが、サンプリングが手続き的なので、GPU等で並列に変分推論するのに向いていなかった。逆自己回帰フロー(IAF)によって、潜在変数上の簡単な分布を、自由度の高い分布に変換する。 Optimal Architectures in a Solvable Model of Deep Networks Jonathan Kadmon*, Hebrew University; Haim Sompolinsky , NIPS2016 へブロー大学(イスラエル) DNNが注目を集めている。また、皮質の感覚階層のなかで、どのように感覚処理が行われているのかは興味深い。この論文は、これらのアーキテクチャの計算的な利点を理論的に理解することにある。クラスタ化された雑音のある入力と簡単な学習ルールで、DNNに沿う信号の伝達を記述する再帰的な関係を提供する。それによって、最適な深さがあることや、システムのパラメータに関する最適なアーキテクチャについても述べる。 An Architecture for Deep, Hierarchical Generative Models Philip Bachman*, NIPS2016 Maluuba Research (Bengioがアドバイザーしているモントリオールの会社) 多くの層の潜在変数をもつ、方向ありの深層生成モデルを学習するアーキテクチャを提案する。すべての潜在変数と出力の間の決定的なパスを含め、推論と生成の計算により豊かなつながりを与える。自然画像の性能をあげるため、簡単な自己回帰モデルを含める。画像の部分的な復元とかもできる。 なんか良さそうな論文。 Full-Capacity Unitary Recurrent Neural Networks Scott Wisdom*, University of Washington; Thomas Powers, ; John Hershey, ; Jonathan LeRoux, ; Les Atlas, NIPS2016 ワシントン大、Mitsubishi Electric Research Laboratories (MERL) RNNは時系列を処理する強力なモデルだが、勾配消失/爆発問題に悩まされる。ユニタリRNN(uRNN)は、ユニタリ行列を再起行列に使うもので、この問題を解く方法として最近提案された。しかし、以前の実験では、再起行列は、パラメタ化されたユニタリ行列の積に限られる。問題は、このようなパラメタ化はいつ失敗するのか、この制約された表現のキャパシティが、どのように学習に影響を与えるのか。この問題を解くために、ここでは、フルキャパシティのURNNを提案し、すべてのユニタリ行列状での再起行列の最適化を行う。その結果、これまでのuRNNよりも大きく性能が向上した。 Understanding the Effective Receptive Field in Deep Convolutional Neural Networks Wenjie Luo*, University of Toronto; Yujia Li, University of Toronto; Raquel Urtasun, ; Rich Zemel, NIPS2016 トロント大学 CNNの受容野の特徴を調べる。受容野のサイズは多くの視覚タスクで重要な問題である。出力が、大きなオブジェクトの情報を捉えるために、十分大きな画像の領域に反応する必要があるためである。効果的な受容野という概念を導入する。それは、ガウス分布を持ち、完全な理論的受容野の一部を占めるものである。 Disentangling factors of variation in deep representation using adversarial training Michael Mathieu, NYU; Junbo Zhao, NYU; Aditya Ramesh, NYU; Pablo Sprechmann*, ; Yann LeCun, NYU NIPS2016 NYU ラベル付けされた観測の集合の中での変異の潜在要因を解きほぐす学習のための、条件付き生成モデルを提案する。結果的に、相補的なコードに分けることができる。ひとつのコードは、ラベルと関連した変異の特定のファクターを要約し、他のコードは、残った特定されない変異を要約する。訓練の間に、唯一使える監督(supervision)のソースは、同じクラスに属する異なる観測を区別するところからである。このような観測の例は、異なる視点で取られた同じクラスのオブジェクト等である。クラス内の多様性は、変異の特定されない要因のソースとなる。特定の要因を不特定のものから解きほぐす学習は、強い監督が可能なときにはより簡単になる。学習の間に、2つの画像のアクセスがあり、同じ視点から取られた2つの別のものだとしよう。このアライメントのソースは、既存のモデルを使って解くことができる。しかし、特定されないファクターのラベルは通常、利用不可能である。この論文では、この解きほぐしの問題をより一般的な設定で取り扱い、CNNを敵対的訓練と結びつける。 ルカンさんの重要そうな論文。 KW: ToRead Deep ADMM-Net for Compressive Sensing MRI Yan Yang, Jian Sun, Huibin Li, and Zongben Xu 西安交通大学 NIPS2016 MRIで、圧縮センシングは有効なアプローチである。MR画像を少ない数のk-空間のデータサンプルから再構成し、MRIのデータ獲得を加速する。この論文では、吹き替えの(dubbed)ADMM-Netを提案する。ADMM-Netは、データフローグラフ上で定義され、交互方向乗数法(ADMM)の反復的な手続きから得られた方法である。 Memory Networks Jason Weston, Sumit Chopra, Antoine Bordes ICLR2015 Facebook AI Research I (入力素性マップ)、G(汎化)、O(出力素性マップ)、R(回答)の4つからなる。 Oは関連する事実を選び、Rは回答を作る。これをRNNで学習する。 KW: memory network Semi-supervised Learning with Deep Generative Models Diederik P Kingma, Shakir Mohamed, Danilo Jimenez Rezende, Max Welling NIPS2014 Google DeepMind, U. Amsterdam 半教師ありのVAE。深層生成モデルとベイズ推論が変分法を進展させ、半教師学習でも生成モデルが有用になることを示す。 Auto-Encoding Variational Bayes Diederik P. Kingma; Max Welling ICLR2014 Universiteit van Amsterdam 連続的な潜在変数をもつオンライン学習と推論の方法を提案した。 変分下界のリパラメタライゼーションが、普通の確率勾配法で最適化できる下界の推測になる。これをSGVB(Stochastic Gradient Variational Bayes)推測器と呼ぶ。iidデータセットに対して、自己符号化的変分ベイズ(AEVB)を提案する。 Stochastic backpropagation and approximate inference in deep generative models. Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra ICML2014 Google DeepMind VAEの基本論文のひとつ。ベイズ推論と深層NNを統合して、一般化した生成モデルと推論・学習のアルゴリズムを提案する。確率的バックプロパゲーションを構築する。 Generative Adversarial Nets Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio NIPS 2014 U. Montreal GANを提案。式(1)が全て。G(generator)とD(discriminator)でミニマックスゲームをする。 Pixel Recurrent Neural Networks Aaron Van den Oord Google Deepmind, Nal Kalchbrenner Google Deepmind, Koray Kavukcuoglu Google Deepmind ICML2016 Google DeepMind ピクセルごとに条件付けたRNN等を使う。LSTM, BiLSTM, Residual, マスクしたCNN, ピクセルCNNの5種類で試している。隠されたところも上手に復元することができる。 Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks Alec Radford, Luke Metz, Soumith Chintala ICLR 2016 indico Research, FAIR 重要論文。DCGAN。CNNから、(i)プーリング層を、ストライドコンボリューションに変える。(ii) バッチ正規化 (iii) FC層を省く、(iv)生成にはRELUを使う、(v) 識別にはLeakyReLUを使う。出てきた画像みるとすごい。 KW: 生成モデル DRAW: A Recurrent Neural Network For Image Generation Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Rezende, Daan Wierstra ICML2015 Google DeepMind 変分オートエンコーダをリカレントにしたような形で、エンコーディング側(推論側)と、デコーディング側(生成モデル側)の両方にRNN(LSTM)を使う。もとの絵が描けたかをロス関数にする。で、readとwriteの処理とつなぐ。この部分に視点が入っているので、視点を備えた画像生成ができる。重要論文。 KW: 生成モデル Discriminative unsupervised feature learning with exemplar convolutional neural networks Alexey Dosovitskiy, P. Fischer, J. Springenberg, M. Riedmiller, Thomas Brox NIPS2014 U. Freiburg ラベルなしのデータから畳み込みネットワークを学習する。種となる画像にさまざまな変更を加える。頑健な素性が得られる。 Deep unsupervised learning using nonequilibrium thermodynamics J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, S. Ganguli ICML 2015 Stanford U. ディフュージョンモデルの提案。 機械学習の中心的な問題は、確率分布の高度に自由なファミリーを使って、複雑なデータセットをモデル化することである。そこでは、学習、サンプリング、推論、評価が、分析的あるいは計算的に扱いやすい(tractable)方法で行われる。この論文では、自由で扱いやすいというのを同時に満たすアプローチを提案する。非平衡の確率的物理にインスパイアされ、反復的な前方伝搬のプロセスでデータ分布の構造を徐々に、システマティックに壊す。そして、データの構造を再現するような逆の伝搬のプロセスを学習する。 Stacked what-where autoencoders Junbo Zhao, Michael Mathieu, Ross Goroshin, Yann LeCun ICLR 2016 workshop New York U. ラダーネットワークのような形で、横にwhereを伝え、上にwhatを伝える。Pooling層にUnpooling層を対応させる。位置をずらして復元できる。 KW: ToRead A Theory of Generative ConvNet Jianwen Xie UCLA, Yang Lu UCLA, Song-Chun Zhu UCLA, Yingnian Wu UCLA ICML2016 UCLA サンプルを見ると結構すごい。コーヒー豆とか木の模様とか。RELUとガウシアンという仮定をおけば、識別モデルも生成モデルも同じように作れるということらしい。こんな簡単なのでできるのかなぁという感じ。 KW: 生成モデル Generative Moment Matching Networks Yujia Li, Kevin Swersky, Rich Zemel ICML2015 U. Toronto 敵対ネットワークだと、最小化と最大化の問題を解かないといけないので、本論文では最大平均分離(maximum mean discrepanscy, MMD)として知られる仮説に基づいて、いろんな次元の統計量がデータセットとサンプルでマッチするようにした。 Deep Generative Image Models Using A Laplacian Pyramid Of Adversarial Networks Emily Denton, Soumith Chintala, Arthur Szlam, and Rob Fergus NIPS2015 DL symposium NYU and FAIR LAPGAN. ラプラシアンのピラミッドのフレームワーク。GANを粗いほうから細かくする。ラプラシアンは画像処理でよく使われる、2次微分フィルタのこと。(ガウシアンに対しての差分。)つまり差分の部分だけをピラミッド的に組み上げていく。 KW: 生成モデル Max-Margin Deep Generative Models Chongxuan Li*, Tsinghua University; Jun Zhu, Tsinghua University; Tianlin Shi, Tsinghua University; Bo Zhang, Tsinghua University NIPS2015 精華大学, 中国 生成モデルにおいて、分類精度をあげるため、マージン最大化を入れる。良さそう。 KW: 生成モデル The Variational Fair Autoencoder Christos Louizos, Kevin Swersky, Yujia Li, Max Welling, Richard Zemel ICLR 2016 アムステルダム大、トロント大、CIFAR、UCアーバイン 変分フェアオートエンコーダ(VFAE)を提案。半教師あり学習で、対象となる問題の情報量を最大化しつつ、残りの情報もできるだけ残す。 Asynchronous Methods for Deep Reinforcement Learning V. Mnih, A. Badia, M. Mirza, A. Graves, T. Harley, T. Lillicrap, D. Silver, K. Kavukcuoglu Google DeepMind, モントリオール大学 2016 A3C論文。深層強化学習において、DNNコントローラーの最適化のために非同期の勾配降下を用いる簡単で軽い枠組みを提案する。4つの標準的な強化学習の非同期の変種を紹介し、並列なアクターと学習器は、学習の安定化に役立ち、うまくNNコントローラーを訓練することができる。最もうまくいった、非同期のアクター・クリティックの変種は、ATARIの最新のものを上回った。しかも、GPUの代わりに、単一のマルチコアCPUを用いて半分の時間で。3Dの迷路などの連続的なモーターの制御の問題にも適用できることを示す。 KW: RL Deep Reinforcement Learning David Silver (Google DeepMind), ICLR2015 Google DeepMind ICLRでの講演。DQNの概説。基本的だが抑えておく必要あり。ベルマン方程式。 Q値を使った尤度Lを作ってSGDで最小化する。 KW: RL Prioritized Experience Replay Tom Schaul, John Quan, Ioannis Antonoglou, David Silver ICLR 2016 Google DeepMind 全体のロスを下げるようなリプレイを選ぶように優先づける。(値に比例した方法と、ランクをつけてそれに基づく方法と。)「目隠し崖歩き」の例。 KW: RL Deep Reinforcement Learning with Double Qlearning Hado van Hasselt, Arthur Guez, and David Silver Google DeepMind AAAI2016 楽観的な予測にしたがって行動してしまうため、行動の選択時と評価時でのmaxオペレーションを分ける。それのDQN版。パラメータが2セットになる。 KW: RL Dueling Network Architectures for Deep Reinforcement Learning Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas Google DeepMind ICML2016 状態価値関数と、状態ごとの行動有利関数(state-dependent action advantage function)。有利関数は、Q(s,a)からV(s)を引いたもので、どのくらい相対的に有利な手かを示している。畳み込み層から、2つのFC層を作り、それらが価値関数と有利関数を表す。(たぶん、衝突を避けるときとそれ以外のときでの違いがうまくいくということか。) ICLRベストペーパー。 KW: RL Learning Deep Neural Network Policies with Continuous Memory States Marvin Zhang, Zoe McCarthy, Chelsea Finn, Sergey Levine, Pieter Abbeel NIPS2015 DL RL workshop UCB ガイド付きポリシー探索に、メモリ付きのRNNを使った。ガイド付きポリシー探索は、行動の系列のサンプルを生成するところと、それを元にアクションのポリシーを最適化する2重のループから成る。 KW: RL Deep Reinforcement Learning in Parameterized Action Space Matthew Hausknecht, Peter Stone ICLR 2016 U. Texas at Austin ロボカップサッカー(2Dシミュレーションリーグ)の説明。これまでのDQNでは、離散的な行動空間だったが、それを連続的な空間にしている。(たぶん、誤差関数Lの微分を、各行動のパラメータに対してしているだけ?) KW: RL Deep Learning for Real-Time Atari Game Play Using Offline Monte-Carlo Tree Search Planning Xiaoxiao Guo, Satinder Singh, Honglak Lee, Richard L Lewis, Xiaoshi Wang NIPS2014 U. Michigan ATARIのゲームをプラニングベースで解く。ただし遅いので、それを教師データに用いて普通のDQNを学習させる。ので、プラニングというわけではない。 UCT(Upper Confidence bound applied to Trees)を使う。 KW: RL Human-level control through deep reinforcement learning. V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al. Nature, 2015 ATARIのDQN論文。49のうち29で人間と同等かそれ以上。下手なのは、パックマンとかSeaquestとか。ピンボールが一番高い。84×84に直して、直近4フレームを使っている。 http://www.readcube.com/articles/10.1038/nature14236?shared_access_token=Lo_2hFdW4MuqEcF3CVBZm9RgN0jAjWel9jnR3ZoTv0P5kedCCNjz3FJ2FhQCgXkApOr3ZSsJAldp-tw3IWgTseRnLpAc9xQq-vTA2Z5Ji9lg16_WvCy4SaOgpK5XXA6ecqo8d8J7l4EJsdjwai53GqKt-7JuioG0r3iV67MQIro74l6IxvmcVNKBgOwiMGi8U0izJStLpmQp6Vmi_8Lw_A%3D%3D KW: RL Going Deeper with Convolutions C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich Google, U. Michigan, Magic Leap CVPR2015 ILSVRC14のGoogLeNet。22層のCNN。パラメータが少なく(2年前のKrizhevskyとSutskeverとHintonらのものに比べて12倍)、層が深い。Inceptionアーキテクチャ。畳み込みを1×1, 3×3, 5×5などを併用する。ローカルに完結しているのと、より広い領域に関連するのがあるから。 KW: CNN Convergent Learning: Do different neural networks learn the same representations? Yixuan Li, Jason Yosinski, Jeff Clune, Hod Lipson, John Hopcroft ICLR 2016 コーネル大学、ワイオミング大学、コロンビア大学 複数のDLが同じものを獲得しているかどうかマッピングする。 (1) いくつかの特徴は、複数のネットワークで確実に学習されるが、そうでないものもある。(2) ユニットは低い次元の部分空間にわたって学習し、特定の基底ベクトルは共通して学習されない、(3) 表現のコードは、局所的と分散的表現の中間であることを示している、(4) ニューロンの平均的活性はネットワーク内で相当変わるが、異なるネットワーク間では平均的な分布に落ち着く。 KW: 理論 Multilingual Image Description with Neural Sequence Models Desmond Elliott, Stella Frank, Eva Hasler 2015 U. Amsterdam (オランダ), U. Cambridge (イギリス) 味曽野君の紹介論文。キャプション生成のときに、ドイツ語から英語にseq2seqのLSTMで学習する。それを画像だけで条件づける場合と、画像と文の両方で条件づける場合。後者は翻訳と同じことになる。面白いけど、あまり精度が出てない。 KW: 記号 Decoupled Neural Interfaces using Synthetic Gradients Max Jaderberg, Wojciech Marian Czarnecki, Simon Osindero, Oriol Vinyals, Alex Graves, Koray Kavukcuoglu DeepMind 2016 3つのロック(forward locking, update locking, backwards locking)を解くために、DNIというのを作って、非同期に更新できるようにする。Mをどう構成しているのかが重要だが、ここもニューラルネットワークっぽい。PredNet的。やはりこうなるか。重要論文。 KW: 進んだモデル Deconstructing the Ladder Network Architecture Mohammad Pezeshki Universite de Montreal, Linxi Fan , Philemon Brakel , Aaron Courville , Yoshua Bengio U. of Montreal ICML2016 モントリオール大, CIFAR ラダーネットワークの各要素の何が効いているのかを検証する。再構成コストは重要、ノイズ(特に最初のレイヤー)は重要、横のつながりは必須(なくすと精度がめちゃ落ちる)、バニラcombinatorは、Augmented MLPの代わりに使ってもいいがその他の関数の組み合わせは大して効かない。 KW: 理論 Semi-Supervised Learning with Ladder Networks Antti Rasmus, Harri Valpola, Mikko Honkala, Mathias Berglund, Tapani Raiko NIPS2015 DL symposium The Curious AI Company, Aalto大学(フィンランド) ラダーネットワークは、結局、どのレベルで誤差を学習したらいいのか問題で、以前から考えてたことが実現されている。シンボル化されたものだけの復元だけでなく、それが元のデータに戻ったときの復元もあわせて誤差を考えるというもので、極めて妥当。 KW: 進んだモデル From Neural PCA to Deep Unsupervised Learning Harri Valpola 2015 ZenRobotics この論文でLadder Networkが提案されている。(タイトル悪い!) 教師なしを活用したほうが精度あがるはずなのに上がらない。 これは、教師ありとうまくマッチしてないからではないかという仮説。 KW: 進んだモデル Deep Residual Learning for Image Recognition Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun CVPR2016 Microsoft Research ResNet論文。152レイヤー。残余を学習させるために、ショートカットをつけたモデル。2段か3段飛ばしでショートカットをつける。フルコネクトのNNにもCNNでもできる。ImageNetで3.57%を達成して1位。 CVPR2016ベストペーパー。 Training Very Deep Networks Rupesh Srivastava*, IDSIA; Klaus Greff, IDSIA; J?rgen Schmidhuber, NIPS2015 IDSIA, Swiss ハイウェイネットワークとよぶ深いネットワークを訓練する。LSTMのように、情報の流れをコントロールする適応的なゲートを作る。数百層でも単一の勾配降下で学習できる。 KW: 進んだモデル Highway Networks Rupesh Srivastava*, IDSIA; Klaus Greff, IDSIA; Jurgen Schmidhuber, Idsia poster, ICML2015 deep learning workshop 情報ハイウェイのあるネットワークを、ハイウェイネットワークと呼ぶ。LSTMのように、一気にレイヤーを飛ばして情報を伝える。900レイヤーをモーメンタムつきのSGDで実現できた。(900レイヤーはまだ80エポックなので結果はない。) Pointer Networks Oriol Vinyals, Meire Fortunato, Navdeep Jaitly 2015 Google Brain 点の系列を入れると、その外周に該当する点を返したり、TSPの解を返したりする。seq2seqの入力に点を入れる、ということのようだ。 Sequence to Sequence Learning with Neural Networks I.lya Sutskever, Oriol Vinyals, Quoc V. Le 2014 Google DeppMind Seq2seq論文。 RNNはチューリング完全。人間のワーキングメモリの働き。 メモリ(M×N)に対して、読み出しのベクトル、消去のベクトル、書き込みのベクトルによって処理が定義される。 (以前のメモ:4レイヤーのLSTM。入力と出力側それぞれに。語順を入れ替える。それで、英語からフランス語の翻訳とかできる。重要な基本論文。) (以前のメモ:翻訳。34.8のBLEUスコア。シークエンスをシークエンスにマッピング。逆の順序にするのがなぜかいいとのこと。ソースとターゲットの言語でそれぞれ、LSTMを使う。4レイヤーの深層。) Recurrent Models of Visual Attention V. Mnih, N. Heess, A. Graves, K. Kavukcuoglu NIPS2014 Google DeepMind RNNを使った視点のモデル。POMDP(Partially Observable Markov Decision Process)の問題になる。 重要論文。 Generating sequences with recurrent neural networks. Alex Graves 2013 LSTMを使って、文を生成する。LSTMを順番に使っていく。文字単位での予測と語単位での予測。手書き文字にも適用。 重要論文。 Neural Turing Machines Alex Graves, Greg Wayne, Ivo Danihelka NIPS2015 DL symposium Google DeepMind ニューラルネットワークの能力を、焦点によって相互作用できる外部メモリと接続することで拡張する。このシステムは、チューリングマシン、あるいはフォン・ノイマンのアーキテクチャと類似であるが、end-to-endであるところが異なっており、勾配降下で効率的に訓練できる。NTMは、コピーやソート、入力から出力の連想などができることを示す。 Generating Images from Captions with Attention Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba & Ruslan Salakhutdinov RAM workshop, NIPS 2015 & ICLR2016 U. Toronto キャプションから画像生成。手法は単純。すごい。 重要論文 KW: 記号 Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation Xinlei Chen, and C. Lawrence Zitnick CVPR2015 CMU and MS 「心の眼」。画像と文のマッピングを作る。両方向。RNNを使って、画像から文、その逆をできるようにする。COCOデータセット。 The Loss Surfaces of Multilayer Networks A. Choromanska, M. Henaff, M. Mathieu, G. B. Arous, Y. LeCun AISTATS 2015 New York U. スピングラスの論文。どの経路を通るかが、各重みが採用されるかどうかに相当し、スピンの向きと相当する。したがって、グローバルな最適値があまりないことや、ローカルな最適値でも良いものがたくさんあることが説明される。 KW: 理論 Open Problem: The landscape of the loss surfaces of multilayer networks A. Choromanska, Y. LeCun, G. B. Arous 2015 New York U. スピングラスの論文。問題意識だけが書かれている。 KW: 理論 Learning Precise Timing with LSTM Recurrent Networks F. Gers, N. Scharaudolph, and J. Schmidhuber 2002 INDSIA LSTMを少し改良する論文。Gravesの論文とかで引かれていた。LSTMのモデルは書き方がややこしい。 How to Construct Deep Recurrent Neural Networks R. Pascanu, C. Gulcehre, K. Cho, and Y. Bengio 2013 U. Montreal RNNをディープにすることを議論。隠れ層から隠れ層への遷移をDeepにする方法、出力をディープにする方法、積み重ねる(隠れ層を増やす)方法などがある。隠れ層から隠れ層への遷移+出力をディープにする方法が最も良かった。 One-Shot Generalization in Deep Generative Models Danilo Rezende Shakir , Ivo Danihelka, Karol Gregor, Daan Wierstra ICML2016 Google DeepMind, Analysis-by-synthesisの原則。連続的生成モデル(DRAWや複合VAE, AIRなど)。 画像生成と分析。重要なので再度読む。 Learning to Generate with Memory Chongxuan Li Tsinghua University, Jun Zhu Tsinghua, Bo Zhang Tsinghua University ICML2016 メモリとアテンションを使って深層生成モデルを作ることで、局所的な詳細情報も捉える。自己符号化変分ベイズを使って、変分限界の最適化を行うことで、end-to-endで学習する。 Deep Speech2: End-to-End Speech Recognition in English and Mandarin Dario Amodei , Rishita Anubhai , Eric Battenberg , Carl Case , Jared Casper , Bryan Catanzaro , JingDong Chen , Mike Chrzanowski Baidu USA, Inc., Adam Coates , Greg Diamos Baidu USA, Inc., Erich Elsen Baidu USA, Inc., Jesse Engel , Linxi Fan , Christopher Fougner , Awni Hannun Baidu USA, Inc., Billy Jun , Tony Han , Patrick LeGresley , Xiangang Li Baidu, Libby Lin , Sharan Narang , Andrew Ng , Sherjil Ozair , Ryan Prenger , Sheng Qian Baidu, Jonathan Raiman , Sanjeev Satheesh Baidu SVAIL, David Seetapun , Shubho Sengupta , Chong Wang , Yi Wang , Zhiqian Wang , Bo Xiao , Yan Xie Baidu, Dani Yogatama , Jun Zhan , zhenyao Zhu ICML2016 Baidu Research end-to-endのDLで、英語と中国語の音声認識をする。HPCの技術で従来より7倍早くなった。実験を繰り返せるようになったので、標準的なデータセットで人間のやってきたものなみによくなった。また、バッチディスパッチとよぶGPUに関する技術で、オンラインにもデプロイできるようになった。 Persistent RNNs: Stashing Recurrent Weights On-Chip Greg Diamos Baidu USA, Inc., Shubho Sengupta Baidu USA, Inc., Bryan Catanzaro Baidu USA, Inc., Mike Chrzanowski Baidu USA, Inc., Adam Coates , Erich Elsen Baidu USA, Inc., Jesse Engel Baidu USA, Inc., Awni Hannun Baidu USA, Inc., Sanjeev Satheesh Baidu USA, Inc. ICML2016 Baidu Sillicon Valley AI Lab RNNをうまくGPUに載せる方法。RNNを行列の掛け算として実装するのではなく、小さなミニバッチサイズでかなり高いスループットを達成することを示す。永続計算カーネル(persistent computational kernel)により、GPUの逆記憶階層を複数回使う。 Sequence to Sequence Training of CTC-RNNs with Partial Windowing Kyuyeon Hwang Seoul National University, Wonyong Sung Seoul National University ICML2016 ソウル大学 コネクショニスト時間的分類(Connectionist temporal classification; CTC)に基づくRNNの学習は多くの領域で成功している。EMに基づくオンラインのCTCアルゴリズムを提案し、方向なしのRNNで長い系列の学習を可能にする。 Analysis of Deep Neural Networks with Extended Data Jacobian Matrix Shengjie Wang University of Washington, Abdel-rahman Mohamed , Rich Caruana Microsoft, Jeff Bilmes U. of Washington, Matthai Plilipose , Matthew Richardson , Krzysztof Geras , Gregor Urban UC Irvine, Ozlem Aslan ICML2016 ワシントン大学、Microsoft 拡張データヤコビアン行列(EDJM)を導入する。興味のある多様体を調べるアーキテクチャから独立なツールである。 Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units Wenling Shang , Kihyuk Sohn NEC Laboratories America, Diogo Almeida Enlitic, Honglak Lee University of Michigan ICML2016 Oculus, NECラボ、Enlitic, ミシガン大 連結ReLU(CReLU)を提案し、CNNにおけるリコンストラクションの性質を調べる。CReLUを既存のCNNの枠組みにいれ、CIFAR-10/100やImageNetでパフォーマンスがよくなることを示す。 Why Most Decisions Are Easy in Tetris --And Perhaps in Other Sequential Decision Problems, As Well Ozgur Simsek , Simon Algorta , Amit Kothiyal ICML2016 Max Planck テトリスのゲームでの一連の意思決定問題を調べ、ほとんどの問題は次の意味で簡単であることを示す。可能なアクションのなかから、評価関数を知らずにうまく選ぶことができる。これは、単純な支配、蓄積的な支配、補償なしという3つの条件からきている。 Opponent Modeling in Deep Reinforcement Learning He He , Jordan , Kevin Kwok Massachusetts Institute of Technology, Hal Daume Maryland ICML2016 メリーランド大、コロラド大、MIT 敵のモデル化はマルチエージェントの環境では重要である。深層強化学習で、方策と敵の動きの両方を学習するモデルを提案する。敵の観測をDQNにエンコードする。 KW: RL Graying the black box: Understanding DQNs Tom Zahavy Technion, Nir Ben-Zrihem , Shie Mannor Technion ICML2016 Israel Institute of Technology(イスラエル) DQNを分析するツールと方法論を提案する。DQNで学習された素性が階層的に状態空間となる様子を明らかにすることができる。t-SNEで可視化するようだ。割と普通。 KW: RL The Curious Robot: Learning Visual Representations via Physical Interactions L. Pinto et al. 2016 CMU 受動的に見るだけでなく、押す、つかむ、触って感じるなどの動作をし、それに役立つような視覚的特徴を学習する。(つまり方向が逆。)Convnetからgraspとか。バックスターを使って、13万点のデータを取っている。 KW: RL Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding S. Han, H. Mao, and W. J. Dally ICLR 2016 スタンフォード、清華大学、NVIDIA モバイルでも使えるように、ファイルサイズ・エネルギー消費が少なくなるように重みを丸める。3つの段階から成る。枝刈り、丸め、ハフマン符号化。AlexNetだと240MBから6.9MBになる。VGGだと552MBから11.3MB。ICLR2016のベストペーパー。 KW:圧縮系 Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications Yong-Deok Kim, Eunhyeok Park, Sungjoo Yoo, Taelim Choi, Lu Yang, Dongjun Shin ICLR 2016 サムソン電子、ソウル大学 タッカー分解(テンソルの分解)を使って、畳み込みレイヤー(H×W×T)を分解する。AlexNetで61Mから11Mに、VGG-Sで103Mから14Mになっている。 KW:圧縮系 Net2Net: Accelerating Learning via Knowledge Transfer Tianqi Chen, Ian Goodfellow, Jon Shlens ICLR 2016 Google 学習済みのモデルを使って、より広い(隠れ層の数が多い)、あるいはより深いネットワークを学習させる方法。先生のネットワークから、生徒のネットワークへ。広くする場合(Net2WiderNet)は、あるニューロンを複製して2個にし、その2個のニューロンから上位への重みを半分にする。深くする場合(Net2DeeperNet)は、恒等変換の層を入れる。 BinaryConenct: Training Deep Neural Networks with binary weights during propagations Matthieu Courbariaux*, École Polytechnique Montréal; Yoshua Bengio, U. Montreal; Jean-Pierre David, Polytechnique Montréal NIPS2015 Ecole Polytechnique de Montreal (カナダ)、モントリオール大 プロパゲーションのときに、重みを+1か-1に制約する。行列の掛け算が簡単な足し算になる。 wが0以上だと、+1に、そうでないと-1にする。前方へのプロパゲーション、後方へのプロパゲーションのときだけ使い、パラメータの更新のときは実数を使う。3倍くらいスピードが上がる。いくつかのデータセットで結果も良くなっており、regularizerとして機能しているらしい。 Neural Programmer-Interpreters Scott Reed, Nando de Freitas ICLR 2016 DeepMind NPI(神経プログラマー解釈器)を提案する。プログラムを表現し実行することを学習するもの。ICLR2016ベストペーパー。 Multi-Scale Context Aggregation by Dilated Convolutions Fisher Yu, Vladlen Koltun ICLR 2016 プリンストン大学、Intelラボ CNNを使った意味的分割(semantic segmentation)は、画像分類用のCNNを用いている。本論文では、こうした密な予測(dense prediction)に向いたCNNのモジュールを開発する。拡張した畳み込みを使い、解像度を減らさずに文脈情報を集積する。 A note on the evaluation of generative models Lucas Theis, Aäron van den Oord, Matthias Bethge ICLR 2016 U. Tubingen (ドイツ) 生成モデルに対するいろいろな評価尺度(対数尤度に関連したもの)があるが、それらに相互に独立しているので、具体例にあわせて評価尺度を選ぶしかない。 Learning to Diagnose with LSTM Recurrent Neural Networks Zachary Lipton, David Kale, Charles Elkan, Randall Wetzel ICLR 2016 UC San Diego, USC 医療データに対してLSTMを使って診断する。 専門家の素性+MLP(あるいはロジスティック回帰)とあんまり変わらないけど、若干LSTMのほうが良い。 Importance Weighted Autoencoders Yuri Burda, Ruslan Salakhutdinov, Roger Grosse ICLR 2016 U. Toronto VAEは強い仮定を置いており、事後分布はfactorialであるとか、パラメータは非線形の回帰で概算できるとか。Importance Weighted Autoencoder (IWAE)を提案する。VAEと同じアーキテクチャのオートエンコーダーだが、重要度の重み付けによるより厳しい対数尤度の下界を使う。 Variationally Auto-Encoded Deep Gaussian Processes Zhenwen Dai, Andreas Damianou, Javier Gonzalez, Neil Lawrence ICLR 2016 U. Sheffield, UK ガウシアンプロセスを使ったDLのモデル。各レイヤーをガウシアンプロセスとみなして、確率を計算。尤度の下界を計算して、微分して極値を取る。半分欠けたMNISTで実験。 Training Convolutional Neural Networks with Low-rank Filters for Efficient Image Classification Yani Ioannou, Duncan Robertson, Jamie Shotton, roberto Cipolla, Antonio Criminisi, Jamie Shotton ICLR 2016 ケンブリッジ大学、マイクロソフト研究所 畳み込みフィルターの、低いランクの表現を使うことで、計算的に効率的なCNNを作る。小さな基底フィルターの集合を使うのではなく、基底フィルターをゼロから学習する。重みの初期化方法も使われる。モデルのパラメータが減って、計算量が50%近く場合もある。 Neural Networks with Few Multiplications Zhouhan Lin, Matthieu Courbariaux, Roland Memisevic, Yoshua Bengio ICLR 2016 モントリオール大 ニューラルネットワークの学習は、典型的には浮動小数点の掛け算に費やされる。そこで、その大半を取り除く方法を提案する。重みをバイナライズして、掛け算を符号の変化に変える。バックプロップのときに、各層での表現をバイナリーシフトに変える。MNIST, CIFAR10, SVHN等では、パフォーマンスが落ちないだけでなく、精度があがることもあることを示す。 Reducing Overfitting in Deep Networks by Decorrelating Representations Michael Cogswell, Faruk Ahmed, Ross Girshick, Larry Zitnick, Dhruv Batra ICLR 2016 Virginia Tech, U. Montreal, FAIR, MSR ドロップアウトは、隠れ層の共分散が下がる。ということは、共分散下げてやればいいんじゃね?という論文。ドロップアウトと両方使うといいみたい。 KW: 最適化 Pushing the Boundaries of Boundary Detection using Deep Learning Iasonas Kokkinos ICLR 2016 INRIA(フランス) CNNを境界検出に使う。Berkeley Segmentation Datasetに適用して(人間の精度以上に)向上した。 Reasoning about Entailment with Neural Attention Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Phil Blunsom ICLR 2016 UCL, DeepMind スタンフォード自然言語推論(SNLI)コーパスを使って学習。2つの文を読むLSTMを作って推論する。 Convolutional Neural Networks With Low-rank Regularization Cheng Tai, Tong Xiao, Yi Zhang, Xiaogang Wang, Weinan E ICLR 2016 プリンストン大, 香港大, ミシガン大 CNNをモバイルで実行するのは難しい。最近ではテンソル分解が提案されているが、畳み込みカーネルの冗長性をなくすような低いランクのテンソル分解を提案する。例えば、精度はほとんどそのままで、VGG16のフォワード時間は半分になる。 KW:圧縮系 Unifying distillation and privileged information David Lopez-Paz, Leon Bottou, Bernhard Schölkopf, Vladimir Vapnik ICLR 2016 FAIR 蒸留(Hintonの提案)と特権情報(previledged information:教師の効果、Vapnikの提案)は、マシンが他のマシンから学ぶことのできる2つのテクニックである。この論文では、この2つを一般化蒸留とよぶ、複数のマシンと表現から学習するフレームワークを提案する。一般化した蒸留の内部の働きについての理論的・因果的な洞察を得て、それを、教師なし、半教師あり、あるいはマルチタスクの学習のシナリオに拡張し、その有用性を示す。 http://www.slideshare.net/YuusukeIwasawa/dl-hacks-unifying-distillation-and-privileged-information Particular object retrieval with integral max-pooling of CNN activations Giorgos Tolias, Ronan Sicre, Hervé Jégou ICLR 2016 FEE CTU プラハ、FAIR 近年、CNNで作られた画像表現は、画像検索の効果的な記述子を提供しており、CNN以前の短いベクトルによる表現を上回っている。しかし、このようなモデルは、地理的な、リランキングの方法とあまり整合性がなく、特定のオブジェクト検索のベンチマークでは、従来の画像検索に負けていることがある。この論文では、2つの検索の段階、つまり、初期の検索とリランキングを再訪し、CNNから得られた同じ原始的な情報を使う。複数の画像領域を表すコンパクトな素性ベクトルを提案する。さらに、統合された画像を拡張し、max-poolで処理し、マッチするオブジェクトを効果的に見つける。結果的に、CNNベースの認識パイプラインを大きく上回った。Oxford5kとParis6kデータセットを使った。 (画像検索のためにCNNの活性化したところを使う。) All you need is a good init Dmytro Mishkin, Jiri Matas ICLR 2016 チェコ工科大学(プラハ、チェコ) 層系列の単一バリアンス(LSUV)正規化という、シンプルなDLの重みの初期化方法を提案する。2つのステップから成り、最初のステップでは、それぞれの畳込みあるいは内積のレイヤーを直交行列で初期化準備する。次に、最初から最後のレイヤーまで、出力のバリアンスがゼロになるように初期化する。 (直交行列で、かつ、出力が1に正規化するように初期化するといいらしい。うーん、単純。) Bayesian Representation Learning with Oracle Constraints Theofanis Karaletsos, Serge Belongie, Gunnar Rätsch ICLR 2016 Sloan Kettering Institute (USA), Cornell Tech 必ずしもラベルがあるわけではないので、human-in-the-loopが重要である。教師なしの生成的素性学習に、3つ組みのようなオラクル情報の確率的な扱いを入れる。 Towards Universal Paraphrastic Sentence Embeddings John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu ICLR 2016 Toyota Technological Institute at Chicago パラフレーズのデータベースから、汎用的な、パラフレーズ的な文のエンベディングの問題を考える。LSTMとか複雑なモデルが一番よかった。ドメイン外のシナリオでは、単語の平均等の簡単なモデルのほうがよかった。 Regularizing RNNs by Stabilizing Activations David Krueger, Roland Memisevic ICLR 2016 モントリオール大 連続的な隠れ状態のノルム間の距離によってペナルティを与えることで、RNNのアクティベーションを安定化させる。LSTMやIRNNを含むRNNへの効果的な正則化になる。 SparkNet: Training Deep Networks in Spark Philipp Moritz, Robert Nishihara, Ion Stoica, Michael Jordan ICLR 2016 UCB クラスタのリソースを使って、学習を加速するのは重要。MapReduceやSparkなどのバッチプロセスのフレームワークは、DLの非同期で通信が集中しているワークロードには向かない。そこで、SparkでDNNを学習させるためのフレームワークを提案する。Spark RDDからデータを読み、CaffeへのScalaのインタフェース、テンソルライブラリなどからなる。 Unsupervised and Semi-supervised Learning with Categorical Generative Adversarial Networks Jost Tobias Springenberg ICLR 2016 CatGAN。カテゴリの生成敵対ネットワーク。カテゴリなので、教師なしによる多様体学習が効くということか?いまいちよく分からない。 The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations Felix Hill, Antoine Bordes, Sumit Chopra, Jason Weston ICLR 2016 Facebook AI Research ゴルディロックスの原理:3つあると、2つが極端、1つがちょうどよいということになる。 どのように言語モデルが子どもの本の意味を捉えることができるかの新しいテストを導入する。普通の言語モデルのベンチマークと違って、統語機能の語を予測するタスクと、低い頻度の語を予測するタスクを区別する。さまざまな最新の手法を比較した。長期の文脈の明示的な表現を保存するモデルが、意味的な内容語の予測では最新のニューラル言語モデルに勝ったが、統語的な機能の語には当てはまらなかった。 (子どもの本を読む。画像じゃなくて、メモリネットワーク。) KW: memory network MuProp: Unbiased Backpropagation For Stochastic Neural Networks Shixiang Gu, Sergey Levine, Ilya Sutskever, Andriy Mnih ICLR 2016 ケンブリッジ大, Max Planck Institute for Intelligent Systems, Google 確率的ニューラルネットワークは、グラフィカルモデルと、多くのパラメータを融合させたものである。しかし、バックプロップができない。そこで、MuPropとよぶ、確率ネットワークに対する勾配推定の手法を提案する。(メンバーいいので、重要な論文なのだろうか?) Data Representation and Compression Using Linear-Programming Approximations Hristo Paskov, John Mitchell, Trevor Hastie ICLR 2016 スタンフォード大 Dracula(ドラキュラ)と呼ぶ、テキストのような系列データからの教師なしでの素性選択のフレームワークを提案する。nグラムを効率よく学習し、辞書を圧縮する。つまり、圧縮素性学習の深いバージョンとなっている。 Diversity Networks Zelda Mariet, Suvrit Sra ICLR 2016 MIT DIVNETというモデルを提案する。ニューロンの多様性を、DPPと呼ばれるプロセスを重ねることで実現する。黒滝君のに参考になる? Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks Jason Weston, Antoine Bordes, Sumit Chopra, Sasha Rush, Bart van Merrienboer, Armand Joulin, Tomas Mikolov ICLR 2016 FAIR 推論や自然言語処理に適用できる機械学習の手法を作ることは長期的に重要である。QAにより読解を評価するタスクのセットを議論する。事実をつなげたり、演繹したり、帰納したりすることで、システムが質問に答えることができるか。memory networkで評価。20個のタスクを定義している研究。bAbIタスクと呼んでいる。 KW: memory network Evaluating Prerequisite Qualities for Learning End-to-end Dialog Systems [data] Jesse Dodge, Andreea Gane, Xiang Zhang, Antoine Bordes, Sumit Chopra, Alexander Miller, Arthur Szlam, Jason Weston ICLR 2016 FAIR end-to-endの会話の学習では、各モデルの成功や失敗を正確に理解することが難しい。 おもちゃの言語上の推論タスクで能力を測るbAbIタスクがあるが、小さすぎる。そこで、もっと大きいタスクのセットを提案する。映画の土面を選んで、事実に答えられるか(OMDBを使う)、パーソナライゼーションをできるか(MovieLensを使う)、Redditから自然な会話ができるか。7万5000の映画、350万の学習データ。 Better Computer Go Player with Neural Network and Long-term Prediction Yuandong Tian, Yan Zhu ICLR 2016 Facebook FBの囲碁。CNNはモンテカルロ探索くらいうまくいく。この考えを拡張し、暗い森となづけたボットを作り、勝率をかなり上げた。KGSサーバで3段レベル。 Distributional Smoothing with Virtual Adversarial Training Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, Shin Ishii ICLR 2016 京都大学 局所的な分布スムーズネス(LDS)を提案する。モデルの分布のスムーズさを促進するための正規化項として使うことができる。 A Test of Relative Similarity for Model Selection in Generative Models Eugene Belilovsky, Wacha Bounliphone, Matthew Blaschko, Ioannis Antonoglou, Arthur Gretton ICLR 2016 Universite Paris-Saclay(ベルギー), Google DeepMind, UCL(英) 確率的生成モデルは、識別モデルに必要な手動のアノテーションを必要とせず、データを表現することができる。特に尤度が簡単に計算できないようなときに、モデル選択は重要となる。我々は、相対的類似度の統計的テストを導入し、2つのモデルのどちらが実世界のデータセットに近いのかを決定する。最大平均差異(maximum mean discrepancies; MMDS)を用いる。 Session-based recommendations with recurrent neural networks Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, Domonkos Tikk ICLR 2016 Gravity R&D Inc., Telefonica Research, Netflix RNNを推薦に使う。実世界のレコメンデーションは、通常、短いセッションのデータに基づくしかなく、より長い履歴に基づくのは難しい。短いセッションでは、よく使われるmatrix factorizationは正確ではないので、通常は、item-to-itemのレコメンデーションが使われる。本論文では、RNNを使って、セッションに基づくレコメンデーションを行う。 Continuous control with deep reinforcement learning Timothy Lillicrap, Jonathan Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, Daan Wierstra ICLR 2016 Google DeepMind DQLを連続的なアクションのドメインに用いる。決定的方策勾配を使った、Actor-criticによるモデルのない(model-free)アルゴリズムを提案する。20個以上の実世界でのタスクを解くことができる。昔ながらのcartpole swing-up(鉄棒を起き上がらせる)、dexterous manipulation(器用な動作), legged locomotion、車の運転など。 DDPG. KW: 強化学習 Recurrent Gaussian Processes César Lincoln Mattos, Zhenwen Dai, Andreas Damianou, Jeremy Forth, Guilherme Barreto, Neil Lawrence ICLR 2016 フォルタレザ大学(ブラジル)、シェフィールド大学(英) 再帰的なガウシアンプロセス(RGP)を提案する。リカレントなガウシアンプロセスをプライアーとしたベイジアンのノンパラメトリックなモデルで、系列の動的なパターンを学習することができる。 Auxiliary Image Regularization for Deep CNNs with Noisy Labels Samaneh Azadi, Jiashi Feng, Stefanie Jegelka, Trevor Darrell ICLR 2016 UCB, NUS, MIT CNNでたくさんのサンプルは重要だが、実際にはエラーのあるラベルも多い。この論文では、エラーのラベルのあるサンプルでCNNにより画像分類を学習することを考える。乗数の確率的交互方向法(ADMM)とよぶ方法で、学習画像間の相互の文脈情報を利用し、信頼できる画像から学ぶようにする。 Order-Embeddings of Images and Language Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun ICLR 2016 U. Toronto 上位語、テキスト含意、画像キャプショニングは、語や文、画像における視覚的意味階層の特別な場合と考えることができる。この論文では、階層の部分順序構造をモデル化する。半順序の表現を学習する一般的な方法を示し、画像や言語にどのように使えるかを述べる。上位語の予測や画像キャプション検索に使える。 (画像で上位下位関係とか学習する。面白い。ワードネットのエッジに対して学習する。) Policy Distillation Andrei Rusu, Sergio Gomez, Caglar Gulcehre, Guillaume Desjardins, James Kirkpatrick, Razvan Pascanu, Volodymyr Mnih, Koray Kavukcuoglu, Raia Hadsell ICLR 2016 Google DeepMind 複雑な視覚タスクの方策は、DQNと呼ばれる深層強化学習でうまく学習することができる。しかし、比較的大きな(タスク特有の)ネットワークや広範囲の学習が必要となる。この論文では、方策蒸留とよぶ新規な方法を提案し、強化学習エージェントの方策を抽出し、エキスパートレベルだが非常に小さくて効率的なネットワークの学習に使う。さらに、同じ方法は、封k数のタスク特有の方策をひとつの方策に固めるのにも使える。 (教師(DQN)が生徒(Policy Net)にリプレイメモリを通じて教える。複数のタスクの例も行っている。) Distilling the Knowledge in a Neural network Geoffrey Hinton, Oriol Vinyals, and Jeff Dean 2015 Google どんな機械学習のアルゴリズムでも簡単にパフォーマンスをあげられる方法は、同じデータの異なるモデルで何度も学習し、その平均を取るものだ。不幸にして、モデルの全部のアンサンブルを予測に使うのは煩雑で、多くのユーザにデプロイするには計算量がかかりすぎる。Caruanaたちは、アンサンブルの知識をひとつのモデルに圧縮し、デプロイが簡単にする方法を示した。これを我々は、別の圧縮技術として開発する。 (デプロイメントに適した小さいネットワークへ転移させるための蒸留。温度Tのパラメータを作って、それを冷やしていく。) Neural Random-Access Machines Karol Kurach, Marcin Andrychowicz, Ilya Sutskever ICLR 2016 Google ニューラルランダムアクセスマシンとよぶ新しいアーキテクチャを提案する。外部の可変のランダムアクセス記憶へ修飾参照のポインターを操作することができる。たくさんの簡単なタスクでテスト。リンクしたリストとか、バイナリーツリーのような簡単なデータ構造も扱うことができる。LSTMを使っている。 KW: NTM Gated Graph Sequence Neural Networks Yujia Li, Daniel Tarlow, Marc Brockschmidt, Richard Zemel, CIFAR ICLR 2016 トロント大学, MSRC 化学や自然言語、ソーシャルネットワーク、知識ベースなどではグラフ構造がよく現れる。この論文では、グラフ構造の入力に対して素性学習をする技術を提案する。2009年のグラフニューラルネットワークを手がかりに、GRUと最近の最適化法を使う。柔軟で幅広いクラスのニューラルネットワークのモデルとなる。bAbIデータセットと、グラフ学習タスクに適用。 Metric Learning with Adaptive Density Discrimination Oren Rippel, Manohar Paluri, Piotr Dollar, Lubomir Bourdev ICLR 2016 MIT, FAIR, UCB 距離測度学習(DML)は、距離が先に定義された類似度の概念と一致するような表現空間へのマッピングを学習するアプローチである。最近の分類アルゴリズムと精度の点あるいは素性抽出の点で戦うことは難しかった。この研究では、従来のDMLを苦しめてきた重要な問題に対処するアプローチを提案する。 Censoring Representations with an Adversary Harrison Edwards, Amos Storkey ICLR 2016 エジンバラ大学 機械学習のアプリケーションでは、どんな表現や区別が許容可能かという明確な制約がある場合がある。例えば、特定のグループを贔屓しないという法的な要請があるかもしれない。あるいは、表現が同定可能な情報を含んでいないほうがいいかもしれない。この論文では、敵対するクリティックの能力を最小化する柔軟な表現を学習する方法を提案する。この敵は、関連するセンシティブな変数を表現から予測しようとするので、その変数に関するセンシティブな情報が残らなくなる。 Modeling Visual Representations: Defining Properties and Deep Approximations Stefano Soatto, Alessandro Chiuso ICLR 2016 UCLA (USA), Universita di Padova (Italy) よい表現は、小さくてタスクのパフォーマンスを落とさないもの。分析的な表現を作り出し、これが従来からコンピュータビジョンで知られている素性と関連していることを示す。 Variable Rate Image Compression with Recurrent Neural Networks George Toderici, Sean O'Malley, Damien Vincent, Sung Jin Hwang, Michele Covell, Shumeet Baluja, Rahul Sukthankar, David Minnen ICLR 2016 Google インターネットのトラフィックの多くをモバイルが占めるが、グラフィックを重視したウェブサイトは、低解像度の画像のプレビュー(サムネイル)を送るのが規範となっている。サムネイルを既存のcodecを超えて圧縮することは、現在の研究の焦点である。畳み込みと逆畳み込みのLSTMによる、圧縮率が可変の圧縮の枠組みを提案する。(1) 一回学習すればよい、(2)たくさん送っているともっとリコンストラクションが正確になる、(3)標準的な目的依存のオートエンコーダと少なくとも同じくらい効率的である。 Delving Deeper into Convolutional Networks for Learning Video Representations Nicolas Ballas, Li Yao, Pal Chris, Aaron Courville ICLR 2016 モントリオール大 GRUを使って、"percepts"(知覚子?)とよぶ中間的な視覚表現から、動画の時空間的な素性を学習する方法を提案する。ImageNetのデータセットから取り出したさまざまなレベルの知覚子を使う。高いレベルの知覚子は、高い識別情報をもつが、解像度は低い。逆に、低いレベルの知覚子は、高い解像度をもつ。GRUを使って、両方をうまくあわせる。人間の行動認識と、動画キャプションのタスクに適用した。 8-Bit Approximations for Parallelism in Deep Learning Tim Dettmers ICLR 2016 ルガーノ大学(スイスイタリア大学) 大量の画像データに適用するために、DLをプロセッサ、コンピュータで並列化する必要がある。しかし、通信帯域のボトルネックの問題がある。32ビットの勾配と活性値を8ビットにする概算アルゴリズムを示し、テストする。MNIST, CIFAR10, ImageNet等で精度を落とさないで、32ビットの並列化に比べて2倍の速度を達成する。96GPUだと、50倍(32ビットでやると23倍にしかならない)。 Order Matters: Sequence to sequence for sets Oriol Vinyals, Samy Bengio, Manjunath Kudlur ICLR 2016 Google Brain RNNによって系列が再度注目を集めている。系列から、あるいは系列へのマッピングは、seq2seqのフレームワークで、チェインルールにより系列の結合確率を効率的に表すことができる。しかし、可変長の入力や出力は、自然な系列として表すのは難しい。例えば、数字の列をソートする入力をどのようにやればいいのか難しい。任意の入力変数の結合確率をモデル化するというタスクの出力も難しい。この論文では、入力や出力の順序が、学習するときに大きな影響を与えることを示す。そして、seq2seqの拡張したフレームワークを提案し、系列を超えて、入力の集合を原則に基づいたやり方で行う。重要そう。 KW: RNN High-Dimensional Continuous Control Using Generalized Advantage Estimation John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, Pieter Abbeel ICLR 2016 UCB 方策勾配法は、直接、累積報酬を最適化し、ニューラルネットワークなどの非線形な関数をそのまま使えるので、強化学習では魅力的なアプローチである。2つの困難な点は、大量のサンプルを必要とすること、データが非定常にも関わらず、安定的に改善する必要があることである。最初の課題は、方策勾配のバリアンスの推定を減らすことで達成する。TD(λ)と似た有利関数の、指数的な重み付きの推測を使う。2つ目の問題は、トラスト領域最適化手続きを使う。これはニューラルネットワークで表される。3Dの動きのタスクで、よい結果を示す。歩き方を学ぶ2本足、あるいは4本足のシミュレーションロボット。寝た状態から起き上がるものなど。(デモでやっていたもの。) KW: 強化学習 BlackOut: Speeding up Recurrent Neural Network Language Models With Very Large Vocabularies Shihao Ji, Swaminathan Vishwanathan, Nadathur Satish, Michael Anderson, Pradeep Dubey ICLR 2016 Intel, UCサンタクルーズ、 RNNによる言語モデル(RNNLM)で、百万単位の語彙をもつものを効率的に学習するBlackOutを提案する。識別的ロスを使うことで、安定性、サンプルの効率、収束性などをよくしながら、計算を減らすような、重み付きのサンプルの戦略について述べる。BlackOutは、識別的な学習ロスと、重みサンプリングを使った、DropOut戦略を出力層につかう拡張としても見ることができる。 KW:RNN KW: NLM Grid Long Short-Term Memory Nal Kalchbrenner, Alex Graves, Ivo Danihelka ICLR 2016 Google DeepMind グリッド長の長期短期メモリという、複数次元のグリッド(ベクトルや系列、画像などのより高い次元のデータ)に適用できるLSTMセルのネットワークを提案する。LSTMと違うのは、セルが時空間の次元にそってつながれていることである。15桁の数字の足し算や、系列の記憶ができ、従来のLSTMを大幅に上回る。Wikipediaの文字予測や、英中の翻訳でよい性能を示す。 KW: RNN Predicting distributions with Linearizing Belief Networks Yann Dauphin, David Grangier ICLR 2016 FAIR 条件付き信念ネットワークは、NNに確率バイナリー変数を導入する。従来のNNと違って、信念ネットワークは、Xが与えられたときのYの出力の期待値以上のもの(つまり分布)を予測できる。ところが、従来のシグモイドの信念ネットワークは学習が難しく、連続問題に向かなかった。この研究では、直線化した信念ネットワーク(LBN)を提案する。 Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs) Djork-Arné Clevert, Thomas Unterthiner, Sepp Hochreiter ICLR 2016 ヨハネス・ケプラー大学(オーストリア) 指数線形ユニット(ELU)を提案する。学習速度を上げ精度を向上することができる。ReLUやleaky ReLU、パラメータ化ReLUと同じように、ELUは正の値を見つけることで勾配消失問題を軽減する。他の手法とくらべて、以下のような利点がある。ReLUと違って、負の値も取り得るので、バッチノーマライゼーションのように平均ユニット活性をゼロに押し下げることができる(しかも少ない計算複雑度で。)平均シフトをゼロにすることは、バイアスシフトの効果を減らすことで、通常の勾配をユニットの自然勾配に近づけ、速度の向上につながる。LReLUやPReLUは負の値も取るが、ノイズに頑強な不活性の状態を保証しない。ELUは小さな入力のときに負の値に飽和し、前方活性を減らしてしまう。というわけで、これらに比べて良い。 KW: 微分 Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning Emilio Parisotto, Jimmy Ba, Ruslan Salakhutdinov ICLR 2016 トロント大学 複数の環境で知識を転移し、新しい状況に対応することは、知的エージェントにとって大変重要である。エージェントが複数のタスクを同時に学習し、その知識を新しいドメインに対して一般化するようなマルチタスク・転移学習のモデルを提案する。Actor-Mimic(アクター模倣)と名付けられたこの方法は、深層強化学習とモデル圧縮の技術を使い、複数のエキスパートの教師によるガイダンスを使って、別々のタスクでどのように行動するかを学ぶ、ひとつの方策ネットワークを学習する。さらに、この深層方策ネットワークによって得られた表現が、事前のエキスパートのガイダンスなしに新しいタスクに対しても一般化可能であることを示す。ATARIで評価する。 Segmental Recurrent Neural Networks Lingpeng Kong, Chris Dyer, Noah Smith ICLR 2016 CMU、ワシントン大学 セグメンテーションRNN(SRNN)では、入力の系列が与えられると、入力のセグメンテーションとセグメントのラベル付けに関しての結合確率分布が定義される。入力のセグメントの表現は、両方向RNNを使うことで構成するトークンにエンコードされ、セグメントエンべディングが出力ラベルとの整合スコアに使われる。手書き文字認識や中国語のセグメンテーション/POSタギング、バイオタギングなどの例。 Deep Linear Discriminant Analysis Matthias Dorfer, Rainer Kelz, Gerhard Widmer ICLR 2016 ヨハネス・ケプラー大学(オーストリア) 深層線形判別分析(DeepLDA)を提案し、end-to-endで線形分離可能な潜在表現を学習する。従来のLDA(潜在ディクレ配分じゃなくて線形判別分析)は、クラスの分離可能性を保存するような素性を抽出し、多くの分類問題での次元削減に使われていた。この論文では、LDAをDNNの上に載せる。これは従来のLDAの非線形な拡張と見なすことができる。 Large-Scale Approximate Kernel Canonical Correlation Analysis Weiran Wang, Karen Livescu ICLR 2016 カーネル直交相関分析(KCCA)は、多くの応用のある非線形のマルチビューの表現学習の技術である。Nを訓練データ数として、N×Nの固有値システムを解くことに相当し、メモリや計算時間の制約が大きい。そのため、ランダムにMの素性空間を作り、その内積がカーネルの評価の近似になるように選ぶ。ところが、Mをかなり大きくしなければ、よい近似にならない。そこで、確率的な最適化法を使って、この問題を解く。 Learning Representations from EEG with Deep Recurrent-Convolutional Neural Networks Pouya Bashivan, Irina Rish, Mohammed Yeasin, Noel Codella ICLR 2016 メンフィス大、IBMワトソン研 脳電図(EEG)からの認知的なイベントのモデリングで困難な点は、脳電図のデータに付随するノイズとともに、被験者間、被験者内で不変な表現を見つけることである。複数チャネルのEEG時系列からの表現を学習する方法を提案し、心理負荷分類問題で優れていることを示す。珍しく応用的な論文。CNNとlSTMのようだ。 Digging Deep into the layers of CNNs: In Search of How CNNs Achieve View Invariance Amr Bakry, Mohamed Elhoseiny, Tarek El-Gaaly, Ahmed Elgammal ICLR 2016 ラトガー大学(米) 異なる層のCNNで得られた素性空間の視点多様体構造について調べる。CNNで学習された表現は、視点不変なのか?そうだとしたら、どのように達成されているのか?視点の多様体を押しつぶして達成されているのか、視点を保存しながら別々に使われているのか?どの層で視点不変が達成されているのか?どのように計測され得るのか?ファインチューニングは複数視点のデータセットの表現に影響するのか? An Exploration of Softmax Alternatives Belonging to the Spherical Loss Family Alexandre De Brébisson, Pascal Vincent ICLR 2016 モントリオール大 マルチクラスの分類問題では、入力に条件付けられたカテゴリの分布としてニューラルネットワークの出力をモデル化するのが一般的である。出力は正で、足して1になり、したがって、通常はsoftmaxが使われることが多い。この確率的なマッピングは、最大尤度の原理を使うことができ、log-softmaxの損失となる。しかし、softmax関数として何を使うかは任意であって、他にもたくさんの正規化の方法がある。したがって、なぜlog-softmax損失が他のものよりもよいのかは、あまり明確ではない。Vincent(2015)は、球状のファミリーと呼ぶ損失関数のクラスを提案した。出力のサイズにかかわらず、効率的に出力の重みの更新をすることができる。本論文では、このファミリーからいくつかの損失関数を取り上げ、従来のlog-softmaxと比較する。特にlog-Spherical Softmaxというのと、log-Taylor Softmaxというのに焦点を当てる。言語モデリングのタスクではlog-softmaxほど良くないが、MNISTとかCIFAR10ではすごくうまくいくことを示す。 Data-Dependent Path Normalization in Neural Networks Behnam Neyshabur, Ryota Tomioka, Ruslan Salakhutdinov, Nathan Srebro ICLR 2016 Toyota Technological Institute at Chicago, MSRC, トロント大 Path SGDとバッチノーマライゼーションを含んで、それらの間を内挿するような正規化と最適化のフレームワークを提案する。 KW: 微分 Reasoning in Vector Space: An Exploratory Study of Question Answering Moontae Lee, Xiaodong He, Wen-tau Yih, Jianfeng Gao, Li Deng, Paul Smolensky ICLR 2016 コーネル大学、MSR Redmond, ジョン・ホプキンス大 QAは、分散表現によって大きく進展した。この論文では、FacebookのbAbIタスクを調べる。これまでのものは、全てend-to-endのモデルだったため、意味論の理解の不完全さからエラーが起こるのか、推論で起こるのかが分からなかった。そのために、知識のエンコーディングと論理的推論に対応した、テンソル積表現(TPR)を参考にした2つのベクトル空間モデルを提案する。 Neural GPUs Learn Algorithms Lukasz Kaiser, Ilya Sutskever ICLR 2016 Google Brain NTMは、誤差逆伝搬を使ってプログラミングを学習できる微分可能なコンピュータであるが、時系列のために弱みがあり、広げると非常に深くなるため、並列に学習できない。本論文では、ニューラルGPUというのもを提案する。これは、畳み込みゲートのリカレントユニットの一種(つまりNTMのようなもの。というかGRU)に基づくもので、並列化可能である。 任意の長さの系列に対して学習させることが出来、短い長さのインスタンスに学習させた後、徐々に長くできる。(いまいちGPU使って早くなったとかの結果ではないので不思議。) ACDC: A Structured Efficient Linear Layer Marcin Moczulski, Misha Denil, Jeremy Appleyard, Nando de Freitas ICLR 2016 オックスフォード大、NVIDIA, CIFAR 線形層は、DLでよく使われるモジュールであるが、O(N^2)のパラメータとO(N^2)の操作が必要となる。モバイルではこうしたコストは無理だし、多くのドメインでのスケール化を不可能にする。ここでは、パラメータの対角行列AとD、そして離散コサイン変換Cからなる、深層の微分可能な、全結合のNNを提案する。コアのモジュールは、ACDC^-1として表される。O(N)個のパラメータと、O(NlogN)の操作でよくなる。 Density Modeling of Images using a Generalized Normalization Transformation Johannes Ballé, Valero Laparra, Eero Simoncelli ICLR 2016 ニューヨーク大 自然画像のガウス化にむいたパラメトリックな非線形変換を提案する。線形変換のあと、プールされた活動度により正規化され、rectifyされて累乗された要素の重み和によって累乗の計算がされる。 Adversarial Manipulation of Deep Representations Sara Sabour, Yanshuai Cao, Fartash Faghri, David Fleet ICLR 2016 DNNの画像の表現は、小さな変化を加えるだけで、他の自然画像を真似するために操作できることを示す。これまでにGANではクラスラベルを間違えるような画像の変化に注目してきたが、ここでは、DNNの内部層の表現に注目する。そうすると、他とだいぶ違う敵対的な画像のクラスができる。見た目は近くても、内部表現が別のクラスと近い。 Geodesics of learned representations Olivier Hénaff, Eero Simoncelli ICLR 2016 ニューヨーク大学 測地学(geodesics)。学習した表現の不変量を視覚化し、改善する方法を提案する。 特に、不変量の一般的な形、つまり線形化について調べ、変形の操作が、低次元の部分空間のなかにおさまるかどうかを見る。 Sequence Level Training with Recurrent Neural Networks Marc'Aurelio Ranzato, Sumit Chopra, Michael Auli, Wojciech Zaremba ICLR 2016 自然言語処理では、テキストを生成するために言語モデルを使う。通常は、前の語や画像などのコンテキストを与えられると、次の語を予測するものとして学習される。しかし、テストのときは、モデルはすべての文をゼロから出力する設定でテストされる。この乖離によって、生成をもろくて、誤差のたまりやすいものにしている。本論文ではこの問題に対して、BLEUとかROUGEといった、テスト時に使う測度を使って学習をするアルゴリズムを提案する。 Super-resolution with deep convolutional sufficient statistics Joan Bruna, Pablo Sprechmann, Yann Lecun ICLR 2016 UCB, ニューヨーク大 画像や音声(特に高解像度のもの)の逆問題は、高次元の構造予測問題と見なすことができ、低い解像度の観測があったときに、高い解像度の出力の条件付きの分布を特徴づけることである。スケールの比が小さいときは、点推測がよい性能を発揮するが、すぐに平均回帰の問題にぶつかる。高い次元の画像や音声の分布をモデル化することは難しい問題であり、幾何的な構造をモデル化すると同時に、テクスチャーもモデル化しないといけない。ここでは、ギブス分布を条件のモデルとして用い、CNNによってその十分統計量が与えられるようなものを考える。 Variational Gaussian Process Dustin Tran, Rajesh Ranganath, David Blei ICLR 2016 ハーバード大、プリンストン大、コロンビア大 変分推論は、近似推論の強力なツールで、最近では深層生成モデルの表現学習に使われている。ここでは、変分ガウスプロセス(VGP)を提案する。ベイズのノンパラメトリックの変分ファミリーで、複雑な事後分布に適応するものである。VGPは、潜在的入力を生成して、ランダムな非線形のマッピングでゆがめることで、事後サンプルの近似を生成する。深層潜在ガウスモデルとかDRAWなどでよい結果を出す。 Applying Deep Belief Networks to Word Sense Disambiguation P. Wiriyathammabhum, B. Kijsirikul, H. Takamura, and M. Okumura 2012 チュラーロンコーン大学(タイ)、東工大 深層信念ネットワーク(DBN)を語の曖昧性解消(WSD)に用いる。DBNは、RBMをつかって層の事前学習を行う。 Learning Entity Representation for Entity Disambiguation Z. He et al. ACL2013 MSRA DNNに基づくエンティティの曖昧性解消のモデルを提案する。簡単な類似性の尺度を用いるのではなく、この方法では文とエンティティの表現を直接最適化する。SDAを使って、教師なしで文書の表現を得る。次に、ファインチューニングで表現を調整する。(この方向のサーベイも重要) End-to-End Deep Learning for Person Search Tong Xiao, Shuang Li, Bochao Wang, Liang Lin, Xiaogang Wang 2016 香港大学 歩行者検出。既存の人物再同定(re-identification)のベンチマークやアルゴリズムは、切り取られた歩行者の画像を用いている。しかし、実世界では、歩行者のバウンディングボックスをアノテーションすることはできず、対象人物は全画像から探す必要がある。このギャップを埋めるために、候補となるボックスのアノテーションに頼らずに、クエリー人物を局在化しマッチする方法について調査する。歩行者検出と、歩行者re-idに分けるのではなく、end-to-endの学習フレームワークを提案する。18184の画像、8432の人物、99809のバウンディングボックスからなるデータセットを作った。 An Improved Deep Learning Architecture for Person Re-Identification E. Ahmed et al. U. Maryland CVPR 2015 本研究では、素性と、人物の再同定(re-identification)のための対応する類似度を同時に学習する方法を提案する。再同定に特化した層をもつCNNを示す。イメージのペアが入力として与えられると、ネットワークはその2つの画像が同じひとかどうかを示す類似度を出力する。このアーキテクチャの新規な部分は、入力間の近傍の差異を計算するレイヤーであり、中間レベルの素性を使うことで2つの入力画像の関係を捉えることができる。このレイヤーの出力の高次のサマリーは、パッチサマリーの素性のレイヤーで計算される。CUHK03(1360人の歩行者の13164枚の画像)やCUHK01(971人が2枚ずつの画像)、VIPeR(632の歩行者のペア)のデータセットでよい性能を示した。 What's Wrong With Deep Learning? Yann LeCun CVPR2015 keynote NYU, Facebook AI Research CNNに欠けているところ。推論、構造的な予測、メモリ(短期メモリやエピソード記憶)がないこと。あと、教師なしが実際に役に立ってないところ。 http://www.pamitc.org/cvpr15/files/lecun-20150610-cvpr-keynote.pdf Generating Text with Recurrent Neural Networks, Ilya Sutskever, James Martens, and Geoffrey Hinton ICML 2011. U. Toronto RNNでキャラクターレベルの生成を実現する。Multiplicative RNNというのを導入する。(テンソル化してゲートを加えたようなもの。) Bidirectional Recurrent Neural Networks as Generative Models M. Berglund et al. NIPS2015 Aalto U. & Nokia Labs (Finland) 両方向につないだRNNを使って、欠損値にも対応する。全体の確率を求めるときに、生成確率ネットワーク(GSN)か、神経自己回帰分布推定(NADE)を使う。Wikipediaのテキストとか、音楽などで実験。 Artificial intelligence: Learning to see and act Bernhard Scholkopf Nature, 2015 Max Planck ATARIゲームのニュース記事。 Listen, Attend and Walk: Neural Mapping of Navigational Instructions to Action Sequences Hongyuan Mei, Mohit Bansal, Matthew R. Walter NIPS2015 TTI, Chicago 自然言語文からアクションのシーケンスを生成するLSTM-RNN。地図上で移動するナビゲーションのタスク。 Deep Knowledge Tracing Chris Piech*, Stanford; Jonathan Bassen, stanford.edu; Jonathan Huang, google.com; Surya Ganguli, stanford.edu; Mehran Sahami, stanford.edu; Leonidas Guibas, stanford.edu; Jascha Sohl-Dickstein, stanford.edu NIPS2015 Stanford, Khan Academy, Google 知識トレーシングは、学生がコースワークする際に学生の知識をマシンがモデル化するものであるが、コンピュータ支援教育の分野ではよく知られた問題である。学生の知識を効果的にモデリングすることは大きなインパクトを持つが、難しい問題を抱えている。この論文では、RNNを使って学生の学習をモデル化する方法を試みる。RNNファミリーのモデルは、従来の方法に比べて優位性があり、人間の領域知識を明示的にエンコードしなくてよく、学生の知識のより複雑な表現を捉えることができる。ニューラルネットワークを使うことで、さまざまな知識トレーシングのデータセットでよい結果を示した。さらに、学習されたモデルは、知的なカリキュラム設計にも使うことができる。 Deep learning with Elastic Averaging SGD Sixin Zhang*, New York University; Anna Choromanska, Courant Institute, NYU; Yann LeCun, New York University NIPS2015 NYU 通信の制約がある並列計算の環境のなかでの、深層学習の確率的な最適化の問題を扱う。 同時プロセス(局所的なワーカー)のあいだの通信とコーディネーションが、 パラメータサーバ(マスター)に貯蔵される中心変数を使って計算するパラメータをリンクする弾性的な力に基づいている。このアルゴリズムは、局所ワーカーにより探索をさせる。つまり、局所ワーカー間あるいはマスター間の通信を減らすことで、局所変数を中心変数から変動させることができる。 Hessian-Free Optimization For Learning Deep Multidimensional Recurrent Neural Networks Minhyung Cho*, Gracenote; Jaehyung Lee, Gracenote; Chandra Dhir, Gracenote NIPS2015 Applied Research Korea(韓国) 多次元のRNN(MDRNN)は、音声認識や手書き文字認識でよい成果を挙げている。MDRNNの性能は、深さを増すと上がるが、深いネットワークを学習する難しさはヘッセフリーな最適化で乗り越えることができる。 Efficient Exact Gradient Update for training Deep Networks with Very Large Sparse Targets Pascal Vincent*, U. Montreal; Alexandre de Brébisson, Université de Montréal; Xavier Bouthillier, Universit de Montréal NIPS2015 Deep Visual Analogy-Making Scott Reed*, University of Michigan; Yi Zhang, University of Michigan; Yuting Zhang, University of Michigan; Honglak Lee, U. Michigan NIPS2015 U. Michigan ひとつの画像の中身を同定するだけでなく、画像を関連付けたり、関連する画像を生成したりすることは、画像理解で重要なタスクである。この論文では、視覚的な類推をするためにend-to-endで学習するDNNを提案する。このタスクは、クエリーの画像を関連する画像のペアの例にしたがって変換するものである。 (類推をする。形、色など。関係を推測し、それを当てはめる。面白い。) Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation Seunghoon Hong*, POSTECH; Hyeonwoo Noh, POSTECH; Bohyung Han, Postech NIPS2015 POSTECH, Korea 最初に分類をしてから、そのあと、セグメンテーションをする。確かにそのほうが良さそう。 Path-SGD: Path-Normalized Optimization in Deep Neural Networks Behnam Neyshabur*, TTI Chicago; Ruslan Salakhutdinov, University of Toronto; Nati Srebro, Toyota Technological Institute at Chicago NIPS2015 Deep Temporal Sigmoid Belief Networks for Sequence Modeling Zhe Gan*, Duke University; Chunyuan Li, Duke University; Ricardo Henao, Duke University; David Carlson, ; Lawrence Carin, Duke University NIPS2015 Deep Convolutional Inverse Graphics Network Pushmeet Kohli, Microsoft Research; Will Whitney, MIT; Tejas Kulkarni*, MIT; Josh Tenenbaum, MIT NIPS2015 MIT CNNとその逆のDC-IGNにおいて、回転とか光の加減などの解釈可能な変数を取り出す。 Deep Poisson Factor Modeling Ricardo Henao*, Duke University; Zhe Gan, Duke University; James Lu, Duke University; Lawrence Carin, Duke University NIPS2015 Preconditioned Spectral Descent for Deep Learning David Carlson*, ; Edo Collins, ; Ya-Ping Hsieh, EPFL; Lawrence Carin, Duke University; Volkan Cevher, EPFL NIPS2015 Structured Transforms for Small-Footprint Deep Learning Vikas Sindhwani*, Google; Tara Sainath, Google; Sanjiv Kumar, Google NIPS2015 Learning Structured Output Representation using Deep Conditional Generative Models Kihyuk Sohn*, University of Michigan; Honglak Lee, U. Michigan; Xinchen Yan, UMich NIPS2015 Deeply Learned Face Representation Xiaogang Wang NIPS2015 DL symposium Adaptive, Articulate, and Actionable Deep Learning Trevor Darrell NIPS2015 DL symposium Character-aware Neural Language Models Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush NIPS2015 DL symposium Harvard U., NYU キャラクターベースの入力に対して、CNNとハイウェイネットワーク、それをLSTM。 Deep Reinforcement Learning for Robotics Pieter Abbeel NIPS2015 DL symposium The importance of experience replay database composition in deep reinforcement learning Tim de Bruin, Jens Kober, Karl Tuyls, Robert Babuška NIPS2015 DL RL workshop Continuous deep-time neural reinforcement learning Davide Zambrano, Pieter R. Roelfsema and Sander M. Bohte NIPS2015 DL RL workshop How to discount deep reinforcement learning: towards new dynamic strategies Vincent François-Lavet, Raphael Fonteneau, Damien Ernst NIPS2015 DL RL workshop Strategic Dialogue Management via Deep Reinforcement Learning Heriberto Cuayáhuitl, Simon Keizer, Oliver Lemon NIPS2015 DL RL workshop Guided Cost Learning: Inverse Optimal Control with Multilayer Neural Networks Chelsea Finn, Sergey Levine, Pieter Abbeel NIPS2015 DL RL workshop Learning Deep Control Policies for Autonomous Aerial Vehicles with MPC-Guided Policy Search Tianhao Zhang, Gregory Kahn, Sergey Levine, Pieter Abbeel NIPS2015 DL RL workshop Deep Inverse Reinforcement Learning Markus Wulfmeier, Peter Ondruska and Ingmar Posner NIPS2015 DL RL workshop ADAAPT: A Deep Architecture for Adaptive Policy Transfer from Multiple Sources Janarthanan Rajendran, P Prasanna, Balaraman Ravindran, Mitesh Khapra NIPS2015 DL RL workshop Q-Networks for Binary Vector Actions Naoto Yoshida NIPS2015 DL RL workshop The option-critic architecture Pierre-Luc Bacon and Doina Precup NIPS2015 DL RL workshop, 2015 McGill U. いろいろなタスクで使えるオプションを発見する。オプションの考え方自体は、Sutton 1999とかである。 Deep Attention Recurrent Q-Network Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, Anastasiia Ignateva NIPS2015 DL RL workshop Generating Text with Deep Reinforcement Learning Hongyu Guo NIPS2015 DL RL workshop Deep Spatial Autoencoders for Visuomotor Learning Chelsea Finn, Xin Yu Tan, Yan Duan, Trevor Darrell, Sergey Levine, Pieter Abbeel NIPS2015 DL RL workshop UCB オートエンコーダで視覚特徴量を取り出して、強化学習。 Data-Efficient Learning of Feedback Policies from Image Pixels using Deep Dynamical Models John-Alexander M. Assael, Niklas Wahlström, Thomas B. Schön, Marc Peter Deisenroth NIPS2015 DL RL workshop One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priors Justin Fu, Sergey Levine, Pieter Abbeel NIPS2015 DL RL workshop Conditional computation in neural networks for faster models Emmanuel Bengio, Joelle Pineau, Pierre-Luc Bacon, Doina Precup NIPS2015 DL RL workshop Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models Bradly C. Stadie, Sergey Levine, Pieter Abbeel NIPS2015 DL RL workshop Learning Simple Algorithms from Examples Wojciech Zaremba, Tomas Mikolov, Armand Joulin, Rob Fergus NIPS2015 DL RL workshop Learning Deep Neural Network Policies with Continuous Memory States Marvin Zhang, UC Berkeley; Zoe McCarthy, UC Berkeley; Chelsea Finn, UC Berkeley; Sergey Levine, UC Berkeley; Pieter Abbeel, UC Berkeley. NIPS 2015 RAM workshop Neural Models for Simple Algorithmic Games Sainbayar Sukhbaatar, Facebook AI Research; Arthur Szlam, Facebook AI Research; Rob Fergus, Facebook AI Research. NIPS 2015 RAM workshop Towards Neural Network-based Reasoning Baolin Peng, The Chinese University of Hong Kong; Zhengdong Lu, Noah's Ark Lab, Huawei Technologies; Hang Li, Noah's Ark Lab, Huawei Technologies; Kam-Fai Wong, The Chinese University of Hong Kong. NIPS 2015 RAM workshop Structured Memory for Neural Turing Machines Wei Zhang, Yang Yu, Bowen Zhou NIPS 2015 RAM workshop IBM Watson メモリへのアクセスの方法を変えた(複雑にした)NTMのモデル。いまいち? KW: NTM Dynamic Memory Networks for Natural Language Processing Ankit Kumar, MetaMind; Ozan Irsoy, MetaMind; Peter Ondruska, MetaMind; Mohit Iyyer, MetaMind; James Bradbury, MetaMind; Ishaan Gulrajani, MetaMind; Richard Socher, MetaMind; NIPS 2015 RAM workshop KW: memory network Chess Q&A : Question Answering on Chess Games Volkan Cirik, Louis-Philippe Morency, Eduard Hovy NIPS 2015 RAM workshop CMU チェスの盤面と質問応答のセットをデータにしたものを整備したという報告。この動きはリーガルですか?どれがa6のポーンを攻撃していますか?など。 Evolving Neural Turing Machines Rasmus Boll Greve, IT University of Copenhagen; Emil Juul Jacobsen, IT University of Copenhagen; Sebastian Risi, IT University of Copenhagen. NIPS 2015 RAM workshop Considerations for Evaluating Models of Language Understanding and Reasoning Gabriel Recchia, University of Cambridge. NIPS 2015 RAM workshop Learning to learn neural networks Tom Bosc NIPS 2015 RAM workshop INRIA (France) ニューラルネットワークを学習する方法を学習するメタ学習。とは言っているが、パラメータを学習するだけ。 Deep Learning for Detecting Robotic Grasps Ian Lenz, Honglak Lee, and Ashutosh Saxena ICLR2013 workshop, International Journal of Robotics Research (IJRR) 2014 Cornell U., U. Michigan, どこをつかむかを学習する。Cornell把持データセットというのを使っている。把持位置の候補を出すのと選ぶので2回、SAE (Sparseオートエンコーダ)を使っている。 2つのネットワークで、ひとつは素性が少なくて粗いもの。もうひとつは数が多いもので、つかみかたを選ぶ。RGBD ロボティックグラスピングデータセット。 Robo Brain: Large-Scale Knowledge Engine for Robots Ashutosh Saxena, Ashesh Jain, Ozan Sener, Aditya Jammi, Dipendra K. Misra, Hema S. Koppula Cornell U. and Stanford U. 2015 ロボットを使って世界のオントロジーを作ろうという話で、方向性としてはとてもいいのでは。ロボットとセマンティックウェブの統合を目指すようなコンセプトペーパー。 Car that Knows Before You Do: Anticipating Maneuvers via Learning Temporal Driving Models Robobarista: Object Part based Transfer of Manipulation Trajectries from Crowd-sourcing in 3D Pointclouds Jaeyong Sung, Seok Hyun Jin, and Ashutosh Saxena 2015 Cornell U. コーヒーを淹れる。 DFKI GmbH Robotics Innovation Center (RIC) DFKI DFKI DFKI ロボットの応用。宇宙、水中。自動運転、ロジスティクス・精算・消費、災害・防御、介護、農業。 http://robotik.dfki-bremen.de/en/research/fields-of-application.html Obstacles On the path to AI Yann LeCun Facebook パワポのスライド。参考になる。 Generating Mulit-Fingered Robotic Grasps via Deep Learning - Columbia University Robotics Lab ICRA 2015 Workshop on Sensorimotor Learning Robot Learning Manipulation Action Plans by Watching Unconstrained Videos from the World Wide Web Y. Yang, Y. Li, C. Fermuller, and Y. Aloimonos AAAI-15 U. Maryland ものをつかむのを、2つのCNNを使ってYouTubeのビデオから学習。 A Deep Learning Neural Network for Number Cognition: a bi-cultural study with the iCub A. D. Nuovo, V. De La Cruz, A. Cangelosi U. Catania (Italy) International Conference on Development and Learning and on Epigenetic Robotics, 2015 発達ロボットとディープラーニング。指をおって数を数える。 Multimodal Deep Learning for Robust RGB-D Object Recognition Andreas Eitel, Jost Tobias Springenberg, Luciano Spinello, Martin Riedmiller, Wolfram Burgard arxiv, 2015 Multimodal integration learning of robot behavior using deep neural networks Kuniaki Noda, Hiroaki Arie, Yuki Suga and Testuya Ogata IROS 2013 Waseda U. カメラの画像にオートエンコーダをいれて素性を出して、それに関節の角度、時系列を入れて、さらにオートエンコーダにかける。再構成エラーで評価。 Deep Learning for Robust Robot Control 参考 Delft Univ. 参考 The Delft Center for Systems and Control and TU Delft Robotics Instituteの博士学生募集 Robots Can See, Learn and Adapt With Deep Learning Autonomy Max Versace 2015 Neurala 会社の資料。 http://www.atelier.net/en/trends/articles/deep-learning-takes-ai-another-level_436606 Intriguing Properties of Neural Networks C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus ICLR 2014 Google et al. 2つの性質について述べる。1つは、ひとつのハイレベルユニットも、それらの線形の組み合わせも違いがないということである。つまり、ひとつひとつのユニットではなく、空間が意味的な情報を担っている。2つ目は、入力ー出力の関係はかなり非連続であり、画像にある外乱を作ることで誤認識させることができる。これらの例を「敵対する例」と呼ぶ。 Generalized denoising auto-encoders as generative models. Y. Bengio, L. Yao, G. Alain, and P. Vincent NIPS2013 トロント大学 DAEなどを一般化するモデル。サンプルして、それを追加的なデータとして使うことを繰り返す。 On Deep Generative Models with Applications to Recognition. Marc’Aurelio Ranzato, Joshua Susskind, Volodymyr Mnih, and Geoffrey Hinton CVPR, 2011 DBN(Deep Belief Network)の最初のレイヤーを、gated MRF(mPoTとよぶ)にしたもの。(MRF: Markov Random Field) Learning Program Embeddings to Propagate Feedback on Student Code Chris Piech, Jonathan Huang, Andy Nguyen, Mike Phulsuksombati, Mehran Sahami, Leonidas Guibas ICML2015 プログラム埋め込み行列というのを作る。応用だけど手法の位置づけが不明。 BilBOWA: Fast Bilingual Distributed Representations without Word Alignments Stephan Gouws, Yoshua Bengio, Greg Corrado ICML2015 U. Montreal 2つのスキップグラムを独立に訓練する。多言語文書分類で、最新のものより良い精度。 Modeling Order in Neural Word Embeddings at Scale Andrew Trask, David Gilmore, Matthew Russell ICML2015 CBOWやスキップグラムに順序関係をいれたもの。 Gated Feedback Recurrent Neural Networks Junyoung Chung, Caglar Gulcehre, Kyunghyun Cho, Yoshua Bengio ICML2015 ゲート化フィードバックRNN。 On Deep Multi-View Representation Learning Weiran Wang, Raman Arora, Karen Livescu, Jeff Bilmes ICML2015 いろいろなタスクで、CCAやSplitAE、DCCAEなどを比べている。 Scaling up Natural Gradient by Sparsely Factorizing the Inverse Fisher Matrix Roger Grosse, Ruslan Salakhudinov ICML2015 FANG(ファクタライズされた自然勾配)を提案する。フィッシャー行列がガウシアングラフィカルモデルで近似できる時の自然勾配を近似するものである。 Compressing Neural Networks with the Hashing Trick Wenlin Chen, James Wilson, Stephen Tyree, Kilian Weinberger, Yixin Chen ICML2015 NVIDIA, セントルイス・ワシントン大学 クライアントサイドのネットワークを小さくするためという動機だが、重みをハッシュ化し圧縮しグループ化するもので、CNNを汎化するものとしても興味深い。 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Sergey Ioffe, Christian Szegedy ICML2015 Google バッチ正規化論文。 共変量シフトを減らして、学習を早める。下のレイヤーが変わることで、入力の分布が変わる(共変量シフト)が、これはドメイン適応で対応することができる。 DNNの訓練は、各層の入力の分布が訓練中に変わるので難しい。これが、学習率を低く抑えて注意深く初期化せざるを得ず、非線形性が飽和するようなモデルで非常に難しい。この現象を、内部共変量シフトとよび、層の入力を正規化することで解決する。モデルのアーキテクチャから独立に正規化をし、それぞれの訓練のミニバッチごとに行う。高い学習率と、初期値にあまり依存しなくなる効果をもたらす。ドロップアウトが不要になることさえある。14倍少ないステップで学習できた。ImageNetでは、4.9%が出て、人間の精度を上回った。重要論文。基本、正規化だが、その線形変換のパラメータは学習する。 Optimizing Neural Networks with Kronecker-factored Approximate Curvature James Martens, Roger Grosse ICML2015 Deep Learning with Limited Numerical Precision Suyog Gupta, Ankur Agrawal, Kailash Gopalakrishnan, Pritish Narayanan ICML2015 IBM T.J. Watson, IBM, Almaden 確率的な丸めをすれば、倍精度の32ビットから14, 10, 8ビットと下げても訓練エラー、テストエラーともほぼ変わらない。 Variational Generative Stochastic Networks with Collaborative Shaping Philip Bachman, Doina Precup ICML2015 McGill U. (Canada) 協調的シェーピングによる変分生成確率ネットワーク。敵対ではなく協調。 重要そうなので、もっと読み込んだほうがよさそう。 How Can Deep Rectifier Networks Achieve Linear Separability and Preserve Distances? Senjian An, Farid Boussaid, Mohammed Bennamoun ICML2015 The University of Western Austraiia (Australia) Rectified Linear Transformaiton (RLT), つまりmax(0, W^Tx + b)についての論文。2つの直列のRLTがどんなdisjointのパターンの集合も線形分離可能なように変形できることを示す。また、2つの直交する直列のRLTが同様の性質を持つことを示す。 Unsupervised Domain Adaptation by Backpropagation Yaroslav Ganin, Victor Lempitsky ICML2015 Learning Transferable Features with Deep Adaptation Networks Mingsheng Long, Yue Cao, Jianmin Wang, Michael Jordan ICML2015 清華大学、UCB DAN(Deep Adaptive Network)。途中までfrozenにしておいて途中から遷移させる。 KW: 理論 Deep Edge-Aware Filters Li Xu, Jimmy Ren, Qiong Yan, Renjie Liao, Jiaya Jia ICML2015 SenseTime Group, and Chinese University of Hong Kong CNNを使ってエッジを出すようなフィルターを高速につくる。フォトショップのフィルターを学習させて、比較している。 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, Yoshua Bengio ICML2015 U. Montreal 画像のなかを自動的に叙述する、アテンションに基づくモデルを提案する。標準的なバックプロップを使って、変分下界を確率的に最大化しながら、どのように訓練するかを示す。Flickr8k, Flickr30k, MS COCOで最新の性能を示す。(アテンションを動かしながら文章を生成する。) Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network Seunghoon Hong, Tackgeun You, Suha Kwak, Bohyung Han ICML2015 Weight Uncertainty in Neural Network Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, Daan Wierstra ICML2015 MADE: Masked Autoencoder for Distribution Estimation Mathieu Germain, Karol Gregor, Iain Murray, Hugo Larochelle ICML2015 U. de Sherbrooke, Canada, Google DeepMind, U. Edinburgh 特殊なマスクをして、オートエンコーダをオートリグレッションになるようにする。すると分布の推定ができる。 Probabilistic Backpropagation for Scalable Learning of Bayesian Neural Networks Jose Miguel Hernandez-Lobato, Ryan Adams ICML2015 Boosted Categorical Restricted Boltzmann Machine for Computational Prediction of Splice Junctions Taehoon Lee, Sungroh Yoon ICML2015 Training Deep Convolutional Neural Networks to Play Go Christopher Clark, Amos Storkey ICML2015 U. Edinburgh CNNで対称なフィルターが得られている。プロの動きを予測して打つ。ほとんど先読みしてないのに、4-5級の強さ。 Learning with hidden variables Yasser Roudi and Graham Taylor arxiv, 2015 NTNU, Norway Deep Learningの歴史的サーベイ。皮質回路との関係から書いてある。 Massively Parallel Methods for Deep Reinforcement Learning Arun Nair et al. ICML2015 deep learning workshop Google DeepMind Gorilaという名前のフレームワークを使って、DQNアルゴリズムを超分散環境で解く。2600台で49個のゲームに適用し、41個のゲームでひとつのGPUのDQNに勝った。 Exploring Models and Data in Image Question Answering Mengye Ren et al. ICML2015 deep learning workshop U. Toronto MS COCOを使って質問応答を作る。COCO QAとよぶ。質問作りの方法を提案。さらにこれを解くために、CNNとLSTMを使った解法を提案。 Nonlinear Hebbian learning as a universal principle in unsupervised feature learning Carlos Brito et al. ICML2015 deep learning workshop Fundamental limits on adversarial robustness Alhussein Fawzi*, EPFL; Omar Fawzi, ENS Lyon; Pascal Frossard, EPFL poster, ICML2015 deep learning workshop Dropout as a Bayesian Approximation: Insights and Applications Yarin Gal*, University of Cambridge; Zoubin Ghahramani, Cambridge poster, ICML2015 deep learning workshop U. Cambridge 任意の深さと非線形性をもつMLPに対して、ドロップアウトを適用することで、ベイズのモデルと等価になることを示す。この解釈により、過学習に強いなどのドロップアウトの特性が説明できる。 A Neural Conversational Model Oriol Vinyals, Quoc Le poster, ICML2015 deep learning workshop, 2015 Google 映画のスクリプトをいれて、怒りだしたとかいうやつ。RNNで会話を学習させる。Sutskeverらのseq1seqフレームワーク。ITのヘルプデスク、オープンサブタイトルデータセット(6200万の文)。評価は特になくて面白い例のみ。 Artificial Tasks for Artificial Intelligence Antoine Bordes, J. Weston, S. Chopra, T. Mikolov, A. Joulin, and L. Bottou ICLR2015 Facebook AI Research QAのタスクを20個。メモリネットワークで解く。 KW: memory network Word Representations via Gaussian Embedding Luke Vilnis and Andrew McCallum (Brown University) ICLR2015 Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN) Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan Yuille (Baidu and UCLA) ICLR2015 Deep Structured Output Learning for Unconstrained Text Recognition by Text Recognition Max Jaderberg, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman (Oxford University and Google DeepMind) ICLR2015 Fast Convolutional Nets With fbfft: A GPU Performance Evaluation Nicolas Vasilache, Jeff Johnson, Michael Mathieu, Soumith Chintala, Serkan Piantino, Yann LeCun (Facebook AI Research) ICLR2015 Beyond Representation Learning Terrence Sejnowski (Salk Institute) ICLR2015 Reweighted Wake-Sleep J. Bornschen, Y. Bengio ICLR2015 U. Montreal ヘルムホルツマシンは昔からある。隠れユニットが、ボトムアップな認識確率と、トップダウンな生成確率の2つを持つ。直接的な生成モデルだけではなく、条件的な生成モデル(つまり推論)を行うことができる。wake-sleepアルゴリズムの新しい解釈を与え、勾配のより良い推測ができるものを提案する。 The local low-dimensionality of natural images Olivier J. Hénaff, Johannes Ballé, Neil C. Rabinowitz, Eero P. Simoncelli ICLR2015 Learning Latent Programs for Question Answering Percy Liang (Stanford) ICLR2015 Object detectors emerge in Deep Scene CNNs Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba ICLR2015 Qualitatively characterizing neural network optimization problems Ian J. Goodfellow, Oriol Vinyals, Andrew M. Saxe ICLR2015 Algorithms that Learn to Think on their Feet Hal Daumé III (U. Maryland), ICLR2015 The Ebb and Flow of Deep Learning: a Theory of Local Learning Pierre Baldi (UC Irvine) ICLR2015 What is a Knowledge Representation? AI Magazine, 14(1):17-33, 1993. Randall Davis, Howard Shrobe, and Peter Szolovits AI magazine 1993 MIT AI Lab 知識表現はi)代理、ii)オントロジー的コミットメントの集合、iii)知的推論の部分的理論、iv)効率的計算の媒体、v)人間の表現の媒体 Deep Learning in Neural Networks: An Overview Jurgen Schmidhuber arxiv, 2014 U. of Lugano (Switzerland) ニューラルネットワークの歴史を、ディープラーニングの観点から振り返る。勉強になる。 浅い、あるいは深い学習器は、信用割当のパスの深さで区別される。そのパスは、アクションと効果の間の、学習可能な因果的なリンクの鎖である。深層教師あり学習、教師なし学習、強化学習、進化計算、深く大きなネットワークをエンコードする短いプログラムの間接的な探索等を述べる。35ページだが、参考文献いれると88ページ。 Learning Generative Models with Visual Attention Yichuan Tang, Nitish Srivastava, Ruslan Salakhutdinov NIPS2014 U. Toronto アテンションは、大脳皮質での大量のセンサの刺激を効率的に処理するのに重要であると心理学者によって述べられてきた。視覚的な神経科学のアテンションのモデルと、生成モデルのためのオブジェクトを中心としたデータの必要性のために、アテンションを用いた深層学習の生成的なフレームワークを提案する。アテンションのメカニズムは、あるシーンの興味のある領域から、生成的なモデルのための対応する標準的な表現に、信号を伝搬する。DBNにもとづいている。 (視点(gaze)を導入する。2Dの変換を入れる。) A Representation Theory for Ranking Functions Harsh Pareek and Pradeep Ravikumar NIPS2014 U. Texas at Austin リストワイズでランキング関数を作る。ランクkのテンソルで表す。 Deep Networks with Internal Selective Attention through Feedback Connections Marjin Stollenga, Jonathan Masci, Faustino Gomez, and Jurgen Schmidhuber NIPS2014 IDSIA 分類の時に、畳込みのフィルターを動的に変え、注意(アテンション)を選択する。いくつかの畳み込みフィルターに内部のアテンションを当てることを繰り返すことで、分類精度が向上する。注意を動かすpolicyのところがよく分からない。(ブースティングをやっている。) Self-Adaptable Templates for Feature Coding Xavier Boix, Gemma Roig, Salomon Diether, and Luc V. Gool NIPS2014 MIT 2次プーリング。 Using Convolutional Neural Networks to Recognize Rhythm Stimuli from Electroencephalography Recordings Sebastian Stober, Daniel J Cameron, and Jessica A Grahn NIPS2014 Western University (英国) リズム知覚のEEG(脳波検査)レコーディングは、リズムのタイプやジャンル、さらにはリズムそのものまで知ることができる。CNNを用いて、EGGのデータに適用した。12の東アフリカのリズムと12の西はフリカのリズム。24.4%あたる(チャンスレベルは4.17%) An Autoencoder Approach to Learning Bilingual Word Representations Sarath Chandar A P, Stanislas Lauly, Hugo Larochelle, Mitesh Khapra, Balaraman Ravindran, Vikas C Raykar, Amrita Saha NIPS2014 Pre-training of Recurrent Neural Networks via Linear Autoencoders Luca Pasa, Alessandro Sperduti NIPS2014 U. Padova, Italy RNNのプリトレーニング。式展開がほとんど。線形で予測したものと合っているかということのようだ。参考になるかも。 Inferring sparse representations of continuous signals with continuous orthogonal matching pursuit Karin C Knudson, Jacob Yates, Alexander Huk, Jonathan W Pillow NIPS2014 %Learning a Concept Hierarchy from Multi-labeled Documents %Viet-An Nguyen, Jordan L Boyd-Graber, Philip Resnik, Jonathan Chang %NIPS2014 Sparse PCA via Covariance Thresholding Yash Deshpande, Andrea Montanari NIPS2014 A Multiplicative Model for Learning Distributed Text-Based Attribute Representations Ryan Kiros, Richard Zemel, Russ R Salakhutdinov NIPS2014 Do Convnets Learn Correspondence? Jon L Long, Ning Zhang, Trevor Darrell NIPS2014 UC Berkeley アライメントをとるエネルギー関数を定義することで、2つの画像のアライメントをとる。 KW: 理論 On the Number of Linear Regions of Deep Neural Networks Guido F Montufar, Razvan Pascanu, Kyunghyun Cho, Yoshua Bengio NIPS2014 Grouping-Based Low-Rank Trajectory Completion and 3D Reconstruction Katerina Fragkiadaki, Marta Salas, Pablo Arbelaez, Jitendra Malik NIPS2014 Convolutional Kernel Networks Julien Mairal, Piotr Koniusz, Zaid Harchaoui, Cordelia Schmid NIPS2014 Two-Layer Feature Reduction for Sparse-Group Lasso via Decomposition of Convex Sets Jie Wang, Jieping Ye NIPS2014 Two-Stream Convolutional Networks for Action Recognition in Videos Karen Simonyan, Andrew Zisserman NIPS2014 Sparse Space-Time Deconvolution for Calcium Image Analysis Ferran Diego Andilla, Fred A Hamprecht NIPS2014 Deep Learning Face Representation by Joint Identification-Verification Yi Sun, Yuheng Chen, Xiaogang Wang, Xiaoou Tang NIPS2014 Chinese Academy of Schiences, 香港 顔の認識で、顔をIDに分ける教師データと、顔の確認シグナル(同じ人物の顔であることを示す)の2つ。この教師信号をもとに、関数を定義して最適化する。 Quantized Kernel Learning for Feature Matching Danfeng Qin, Xuanli Chen, Matthieu Guillaumin, Luc V Gool NIPS2014 Deep Symmetry Networks Robert Gens, Pedro M Domingos NIPS2014 U. Washington (USA) 対称をうまく扱えるように工夫したモデル。 Conditional Random Field Autoencoders for Unsupervised Structured Prediction Waleed Ammar, Chris Dyer, Noah A Smith NIPS2014 Deep Convolutional Neural Network for Image Deconvolution Li Xu, Jimmy S Ren, Ce Liu, Jiaya Jia NIPS2014 Multi-Class Deep Boosting Vitaly Kuznetsov, Mehryar Mohri, Umar Syed NIPS2014 How transferable are features in deep neural networks? Jason Yosinski, Jeff Clune, Yoshua Bengio, Hod Lipson NIPS2014 Cornell U., U. Wyoming, U. Montreal 層ごとにどのくらい素性が転移できるかの分析。最初の層はタスクと関係ない一般的な素性が得られている。 Distance-Based Network Recovery under Feature Correlation David Adametz, Volker Roth NIPS2014 Convex Deep Learning via Normalized Kernels Özlem Aslan, Xinhua Zhang, Dale Schuurmans NIPS2014 Do Deep Nets Really Need to be Deep? Jimmy Ba, Rich Caruana NIPS2014 U. Toronto シャローなネットワークで複雑な関数が学習でき、深くないモデルでも同程度の精度を出せることを示している。最初に深層のモデルを作り、それを真似する浅いモデルを作る。 Exploiting Linear Structure Within Convolutional Networks for Efficient Evaluation Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, Rob Fergus NIPS2014 Exclusive Feature Learning on Arbitrary Structures via $\ell_{1,2}$-norm Deguang Kong, Ryohei Fujimaki, Ji Liu, Feiping Nie, Chris Ding NIPS2014 Deep Recursive Neural Networks for Compositionality in Language Ozan Irsoy, Claire Cardie NIPS2014 Modeling Deep Temporal Dependencies with Recurrent Grammar Cells Vincent Michalski, Roland Memisevic, Kishore Konda NIPS2014 Deep Joint Task Learning for Generic Object Extraction Xiaolong Wang, Liliang Zhang, Liang Lin, Zhujin Liang, Wangmeng Zuo NIPS2014 Learning to Disentangle Factors of Variation with Manifold Interaction S. Reed, K. Sohn, Y. Zhang, and H. Lee ICML2014 U. Michigan 姿勢、morphologyや表情などは互いにインタラクトし、センサーデータを生成する。本研究では、関連する要因の多様体次元を学習し、それらの相互作用をモデル化する。 A Deep and Tractable Density Estimator B. Uria, I. Murray and H. Larochelle ICML2014 U. Edinburgh and U. de Sherbrooke(カナダ) NADE(Neural Autoregressive Distribution Estimator)のモデルと変数の順序を同時に学習する手続きを提案する。 Marginalized Denoising Auto-encoders for Nonlinear Representations M. Chen, K. Weinberger, F. Sha, and Y. Bengio ICML2014 U. de Montreal Denoisingオートエンコーダ(DAE)は、データを次々につぶす(corrupt)してデータを作るので、多くのエポックが必要になる。この論文では、周辺化されたDAE(mDAE)を提案し、データのつぶし(corruption)を周辺化する。それによって、より小さなエポックで訓練することができる。それによって古典的なオートエンコーダに特別な項が付加されたことに相当する。 Deep Generative Stochastic Networks Trainable by Backprop Y. Bengio, E. Thibodeau-Laufer, G. Alain, and J. Yosinski ICML2014 U. Montreal Generative Stochastic Network (生成的確率ネットワーク)を提案する。生成のブラックボックスをパラメータ化している。 Learning Ordered Representations with Nested Dropout O. Rippel, M. Gelbard, and R. Adams ICML2014 Harvard U. この論文では、異なる次元が異なる重要度をもつデータにおいて、順序づけられた表現の結果を示す。このような表現を学習するために、nested dropout(ネストされたドロップアウト)を提案し、隠れ層の一貫したネスト集合から確率的に取り除く。 Signal recovery from Pooling Representations J. Bruna, A. Szlam, and Y. LeCun ICML2014 NYU l_pプーリングのLipshitz下界を計算する。 Efficient Gradient-Based Inference through Transformations between Bayes Nets and Neural Nets D. Kingma and M. Welling U. Amsterdam ICML2014 階層的なベイジアンネットワークと、確率的な隠れ層をもつニューラルネットワークは、異なる2つのモデルだとされてきたが、相互に変換可能であることを示す。 Structured Recurrent Temporal Restricted Boltzmann Machines R. Mittlman, B. Kuipers, S. Savarese, and H. Lee ICML2014 U. Michigan and Stanford U. RTRBM(Recurrent Temporal Restricted Boltzmann Machine)の新しいクラスを提案し、structured RTRBM(SRTRBM)とよぶ。これは、ビジブルユニットと隠れユニットのペアの間の完全結合を仮定しないものである。 Recurrent Convolutional Neural Networks for Scene Labeling P. Pinheiro and R. Collobert ICML2014 EPFL シーンラベリングにおいて、イメージ中の遠くのラベルの依存関係を捉えることは重要である。大きな入力のコンテキストを考えながら、同時にモデルのキャパシティを制限するような、再帰的コンボリューショナルネットワークを提案する。 Latent Semantic Representation Learning for Scene Classification Xin Li and Yuhong Guo ICML2014 Temple U. 潜在的な文脈表現の学習と分類モデルの学習を統合した、パッチベースの潜在変数モデルを提案する。 このフレームワークでは、変数の潜在レイヤーが、入力と出力をつなぎ、意味的なアウトプットのラベルに対応し、しかも入力の低いレベルの素性で予測可能な、分別可能な説明を提供する。 DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng and T. Darrel ICML2014 UCB 大きな固定の物体認識のタスクについて、完全な教師あり学習で作られたディープコンボリューショナルネットワークにおける素性が、新規の一般のタスクにも使えるかどうかを評価する。 Myths of Representation Learning Rich Sutton ICLR2014 Fastであること、汎化の特長など。BPの効果とか。 Zero-shot learning by convex combination of semantic embeddings M. Norouzi et al. ICLR2014 Google and U. Toronto DeViSeをもとにConSE(Convex combination of semantic embeddings)を提案 ゼロショットラーニングはクラスラベルに意味的なベクトルをつけること。 テストカテゴリに1つの訓練データもない状態での学習。 ワンショットラーニングは非常に少ないサンプルでの学習。 可能性のある複数の解釈の足し合わせとして学習する。 Tedの動画とラベルをあわせたコーパスを公開しているそうだ。 Multilingual Distributed Representations without Word Alignment K. Hermann and P. Blunsom ICLR2014 U. Oxford CVM(conpositisional sentence model)を2つ使ったBICVMモデルで、2言語での距離を最小にするようにする。多言語文書分類(CLDC)のタスクで評価している。なんかいまいち相手が弱い。ワードのマッピングはうまく取れている。 Speech Representations: Knowledge or Data? H. Hermansky ICLR2014 The Johns Hopkins University 東大PhDらしい。音声のシグナルも階層的である。スピーチの音に関する情報は200msを越えて存在しているとか。 Exact solutions to the nonlinear dynamics of learning in deep linear neural networks A Saxe, J. McClelland, S. Granguli ICLR2014 Stanford U. 非線形の動的なディープラーニングのシステムに対する新しい正確な解を見つけることで、いくつかの現象を説明する。不動点、収束の特性。100階層までにしたときに収束がどう変わるか。結構重要そうな論文。 Revisiting Natural Gradient for Deep Networks R. Pascanu and Y. Bengio ICLR2014 U. Montreal 自然勾配降下法と、3つの方法(ヘシアンなし最適化、Krylov部分空間効果法、TONGA)との関係を示す。 Unit Tests for Stochastic Optimization T. Schaul, I. Antonoglou, and D. Silver ICLR2014 DeepMind Technologies 確率的勾配法がどのくらいうまくいくのかを調べるために、関数のユニットテストの集合で評価する。これに合格することがロバスト性を持つことに必要なことになる。★ Symmetry-Based Learning Pedro Domingos ICLR2014 U. Washington 対称性について。ConvNetよりSymNetのほうが、回転させたデータセットに対しては学習が早い。 Group-sparse Embeddings in Collective Matrix Factorization A. Klami et al. ICLR2014 U. Helsinki and Xerox Research 集合的行列分解。エンティティと関係を行列の分解で行う。この手法に、グループ化してスパースになるような工夫をする。拡張複数ビューを使う。 Learning Visual Representations at Scale Vincent Vanhoucke ICLR2014 Google ビッグハンマー。上に上げてから上下させて下ろすことで、並列化するとか?転移学習と大きなモデル。実装は重要。10倍のモデルを作って90%ドロップアウトできるならやる。 Relaxations for inference in restricted Boltzmann machines S. Wang, R. Frostig, P Liang, C. Manning ICLR2014 Stanford バイナリーのマルコフランダムフィールドで、MAPに近い解を緩和法で見つける。リストリクティッド・ボルツマンマシンのMAP解を見つけるタスクで実験を行う。 Learning Semantic Script Knowledge with Event Embeddings A. Modi and I.Titov ICLR2014 Saarland U. (German) シャンクのスクリプト。基本的には、Regneriらのアプローチをベースに、動詞のフレームを表現する構成モデルを用いている。 Unsupervised Feature Learning by Deep Sparse Coding Y. He, K. Kavukcuoglu, Y. Wnag, A. Szlam, and Y. Qi ICLR2014 Georgi Tech, DeepMind Technologies et al. Deep Sparse Coding (DeepSC)を提案する。画像認識のタスクで、スパースコーディングを複数レイヤーに拡張する。疎から密へのモジュールは、局所的なプーリングと低次元の埋め込みプロセスから成る。 End-to-End Text Recognition with Hybrid HMM Maxout Models Q. Alsharif, and J. Pineau ICLR2014 McGill U. (Montreal, Canada) 画像の中のテキスト分析をする。MaxoutとHMMモデルを使う。 Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks Ian J. Goodfellow; Yaroslav Bulatov; Julian Ibarz; Sacha Arnoud; Vinay Shet ICLR2014 Google 局在化、セグメンテーション、認識という3つのステップを統合したアプローチを用いる。DistBelief実装を用いる。11層。 ストリートビューから数字を読み取る。Capchaも99%くらい破れるらしい。基本的には、画像から切り出して、いくつかの数字から成っていると仮定してモデルを作る。最大で11層つくって、上から1つ、もしくは2つで予測する。 Sequentially Generated Instance-Dependent Image Representations for Classification Ludovic Denoyer; Matthieu Cord; Patrick Gallinari; Nicolas Thome; Gabriel Dulac-Arnold ICLR2014 Sorbonne Univ. (France) 適応的に空間の表現を生成する画像分類の新しいフレームワークを提案する。画像のカテゴリを推測するために、画像中の異なる領域を探索することを学ぶ系列的なプロセスに基づく。特に、領域を選ぶことは、以前に選んだ領域の内容から指示される。不完全な画像を扱うこのシステムの能力により、限られた計算機資源的な予算内で、画像の生成された表現を動的に探索する。 (シーケンスとしての画像認識。エッフェル塔の足をみて画像を探して推論する。かなりすごい。★ Learned versus Hand-Designed Feature Representations for 3d Agglomeration John A. Bogovic; Gary B. Huang; Viren Jain ICLR2014 Howard Hughes Medical Institute, USA 脳の3Dの画像からニューロンを取り出すとか。3Dの画像認識。 Spectral Networks and Locally Connected Networks on Graphs Joan Bruna, Wojciech Zaremba, Arthur Szlam, Yann LeCun ICLR2014 NYU CNNの一般化 Distributed Representations of Words and Phrases and their Compositionality Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean NIPS2013 Google ICLR2013のword2vecの続編で、計算を高速化する。 Learning Representations of Text using Neural Networks Tomas Mikolov NIPS2013 Deep Learning Workshop, 2013 Visualizing and Understanding Convolutional Neural Networks Matt Zeiler (New York University) NIPS2013 Deep Learning Workshop, 2013 Natural Language Parsing With Compositional Vector Grammars Chris Manning (Stanford University) NIPS2013 Deep Learning Workshop, 2013 Two architectures for one-shot learning Josh Tenenbaum (Massachusetts Institute of Technology) NIPS2013 Deep Learning Workshop, 2013 A PAC-Bayesian Analysis of Dropouts David McAllester (Toyota Technological Institute) NIPS2013 Deep Learning Workshop, 2013 New insights on parameter estimation Nando de Freitas (University of Oxford) NIPS2013 Deep Learning Workshop, 2013 Deep Fisher Networks for Large-Scale Image Classification Karen Simonyan, Andrea Vedaldi, Andrew Zisserman NIPS2013 Training and Analysing Deep Recurrent Neural Networks Michiel Hermans, Benjamin Schrauwen NIPS2013 Learning a Deep Compact Image Representation for Visual Tracking Naiyan Wang, Dit-Yan Yeung NIPS2013 Wavelets on Graphs via Deep Learning Raif Rustamov, Leonidas Guibas NIPS2013 A Deep Architecture for Matching Short Texts Zhengdong Lu, Hang Li NIPS2013 Adaptive Multi-Column Deep Neural Networks with Application to Robust Image Denoising Forest Agostinelli, Michael R. Anderson, Honglak Lee NIPS2013 Top-Down Regularization of Deep Belief Networks Hanlin Goh, Nicolas Thome, Matthieu Cord, Joo-Hwee Lim NIPS2013 Predicting Parameters in Deep Learning Misha Denil, Babak Shakibi, Laurent Dinh, Marc'Aurelio Ranzato, Nando de Freitas NIPS2013 Deep Neural Networks for Object Detection Christian Szegedy, Alexander Toshev, Dumitru Erhan NIPS2013 Deep content-based music recommendation Aaron van den Oord, Sander Dieleman, Benjamin Schrauwen NIPS2013 Adaptive dropout for training deep neural networks Jimmy Ba, Brendan Frey NIPS2013 Discriminative Transfer Learning with Tree-based Priors Nitish Srivastava and Ruslan Salakhutdinov. ICML2013 Challenges in Representation Learning, 2013 A New Learning Algorithm for Stochastic Feedforward Neural Nets Yichuan Tang and Ruslan Salakhutdinov. ICML2013 Challenges in Representation Learning, 2013 Annealing Between Distributions by Averaging Moments Roger Grosse, Chris Maddison, Ruslan Salakhutdinov. ICML2013 Challenges in Representation Learning, 2013 Deep modeling of gene expression regulation in an Erythropoiesis model Olgert Denas and James Taylor. ICML2013 Challenges in Representation Learning, 2013 Hyperparameter Optimization and Boosting for Classifying Facial Expressions: How good can a “Null” Model be? James Bergstra and David D. Cox. ICML2013 Challenges in Representation Learning, 2013 Stacked Training for Overfitting Avoidance in Deep Networks Alexander Grubb and J. Andrew Bagnell. ICML2013 Challenges in Representation Learning, 2013 DLID: Deep Learning for Domain Adaptation by Interpolating between Domains Sumit Chopra, Suhrid Balakrishnan, and Raghuraman Gopalan. ICML2013 Challenges in Representation Learning, 2013 On autoencoder scoring, Hanna Kamyshanska; Roland Memisevic ICML2013 On the difficulty of training Recurrent Neural Networks, Razvan Pascanu; Tomas Mikolov; Yoshua Bengio ICML2013 U. Montreal 消滅する勾配、爆発する勾配の2つの問題がある。(Bengioらの1994の論文)。ここでは、それを考察して、勾配の大きさをクリップする戦略を提案する。 Maxout Networks, Ian Goodfellow; David Warde-Farley; Mehdi Mirza; Aaron Courville; Yoshua Bengio ICML2013 U. Montreal 活性化関数自体を学習するネットワーク。最大値を取る。ReLUよりも良い結果。その後あまり使われていない。 Collaborative hyperparameter tuning, Rémi Bardenet; Mátyás Brendel; Balazs Kegl; Michele Sebag ICML2013 Learning mid-level representations of objects by harnessing the aperture problem, Roland Memisevic; Georgios Exarchakis ICML2013 Approximation properties of DBNs with binary hidden units and real-valued visible units, Oswin Krause; Asja Fischer; Tobias Glasmachers; Christian Igel ICML2013 Better Mixing via Deep Representations, Yoshua Bengio; Gregoire Mesnil; Yann Dauphin; Salah Rifai ICML2013 Fast dropout training, Sida Wang; Christopher Manning ICML2013 Learning the Structure of Sum-Product Networks, Robert Gens; Domingos Pedro ICML2013 Deep learning with COTS HPC systems, Adam Coates; Brody Huval; Tao Wang; David Wu; Bryan Catanzaro; Ng Andrew ICML2013 Learning and Selecting Features Jointly with Point-wise Gated Boltzmann Machines, Kihyuk Sohn; Guanyu Zhou; Chansoo Lee; Honglak Lee ICML2013 Regularization of Neural Networks using DropConnect, Li Wan; Matthew Zeiler; Sixin Zhang; Yann Le Cun; Rob Fergus ICML2013 NYU ランダムに選んだユニットの活性をゼロにするドロップアウトではなく、ランダムに選んだ重みをゼロにする。ドロップアウトよりも良い場合がある。 Thurstonian Boltzmann Machines: Learning from Multiple Inequalities, Truyen Tran; Dinh Phung; Svetha Venkatesh ICML2013 Iterative Learning and Denoising in Convolutional Neural Associative Memories, Amin Karbasi; Amir Hesam Salavati; Amin Shokrollahi, ICML2013 No more pesky learning rates, Tom Schaul; Sixin Zhang; Yann LeCun ICML2013 Making a Science of Model Search: Hyperparameter Optimization in Hundreds of Dimensions for Vision Architectures, James Bergstra; Daniel Yamins; David Cox ICML2013 KW: メタ学習 On the importance of initialization and momentum in deep learning Ilya Sutskever; James Martens; George Dahl; Geoffrey Hinton ICML2013 Google, U. Toronto DNN, RNNはSGDでは訓練できないくらいパワフルなモデルであるが、初期値とモーメントの両方が重要であることを示す。 A non-IID Framework for Collaborative Filtering with Restricted Boltzmann Machines, Kostadin Georgiev; Preslav Nakov ICML2013 Parsing epileptic events using a Markov switching process model for correlated time series, Drausin Wulsin; Emily Fox; Brian Litt ICML2013 Exploring the Mind: Integrating Questionnaires and fMRI, Esther Salazar; Ryan Bogdan; Adam Gorka; Ahmad Hariri; Lawrence Carin ICML2013 Gated Autoencoders with Tied Input Weights, Alain Droniou; Olivier Sigaud ICML2013 Simple Sparsification Improves Sparse Denoising Autoencoders in Denoising Highly Corrupted Images, Kyunghyun Cho ICML2013 Natural Image Bases to Represent Neuroimaging Data, Ashish Gupta; Murat Ayhan; Anthony Maida ICML2013 Direct Modeling of Complex Invariances for Visual Object Features, Ka Yu Hui ICML2013 Deep Canonical Correlation Analysis, Galen Andrew; Jeff Bilmes; Raman Arora; Karen Livescu ICML2013 Local Deep Kernel Learning for Efficient Non-linear SVM Prediction, Cijo Jose; Prasoon Goyal; Parv Aggrwal; Manik Varma ICML2013 Saturating Auto-Encoder Rostislav Goroshin, Yann LeCun ICLR2013 Discriminative Recurrent Sparse Auto-Encoders Jason Tyler Rolfe, Yann LeCun ICLR2013 Feature Learning in Deep Neural Networks - A Study on Speech Recognition Tasks Dong Yu, Michael L. Seltzer, Jinyu Li, Jui-Ting Huang, Frank Seide ICLR2013 Applying Deep Learning to Enhance Momentum Trading Strategies in Stocks Lawrence Takeuchi and Yu-Ying (Albert) Lee Project report 2013 Stanford ディープラーニングをトレーディングに。 Self-Organizing Incremental Associative Memory-Based Robot Navigation Sirinart Tangruamsub, Aram Kawewong, Manabu Tsuboyama, and Osamu Hasegawa IEICE Trans, 2012 東工大 面白そう。SOINNとちょっと違ったSOIAM(Self-Organizing Incremental Associative Memory)をロボットのナビゲーションに。構造を決めなくてもよい。年齢やつながり具合で勝手に消えていく。 LSTM Neural Networks for Language Modeling Martin Sundermeyer, Ralf Schluter, and Hermann Ney INTERSPEECH 2010 RWTH Aachen Univ. (Germany) ロングショートタームメモリのニューラルネットワークを使って、フランス語と英語の翻訳を行う。 通常のリカレントニューラルネットワークより8%くらいよくなった。 bi倍して、bφ倍した前の回の入力が足し合わされて、bw倍して出力となる。語は、1-of-Kコーディングでエンコードされる。Kは語彙数。出力は正規化された確率の値を出すために、Softmaxが使われる。クロスエントロピー(最大尤度と同じ)が使われる。データセットは、Treebank-3と、Quaeroプロジェクトのフランス語のコーパス。 Action Recognition by Hierarchical Sequence Summarization Yale Song, Louis-Philippe Morency, and Randall Davis IEEE CVPR, 2013 MIT アームジェスチャー、Canal9(ノンバーバルな動画を手掛かりに、政治的討論が合意にいたったかそうでないかを区別するもの)、NATOPS(航空機のハンドリングシグナル)のデータセットを使って,精度を上げている。基本的には、CRFをベースに、要約するようなもの。ノードをまとめるときに類似度を計る関数を定義しているので、auto-encoderではないが、やっていることは参考になる。 Combining Modality Specific Deep Neural Networks for Emotion Recognition in Video Samira Ebrahimi Kahou, Christopher Pal, Xavier Bouthillier, Pierre Froumenty, Çaglar Gülçehre, Roland Memisevic, Pascal Vincent, Aaron Courville, Yoshua Bengio ICMI2013 U. Motreal 2013 Emotion Recognition in the Wild Challenge(感情認識)のモントリオール大のチームの内容。 Large-Scale Learning of Embeddings with Reconstruction Sampling Y. N. Dauphin, X. Glorot and Y. Bengio ICML 2011 U. Montreal 自然言語処理等で用いられる疎なデータに対応するための、Denoising Autoencoderの学習を早くする方法を提案する。再構成誤差をサンプリングによって概算する方法である。 A survey of dimensionality reduction techniques C. O. S. Sorzano, J. Vargas, and A. Pascual-Montano National Centre for Biotechnology (CSIC) 2014 自然言語処理分野におけるディープラーニングの現状 IBIS2013 渡邉先生 東北大 言語解析(構造予測)、言語モデルの構築/単語の分散表現、言語の構成性のモデル化などがある。 http://www.cl.ecei.tohoku.ac.jp/~yotaro-w/slides/2013/20131112_IBIS_final.pdf Deep networks for predicting ad click through rates. Greg Corrado ICML 2012 Online Advertising Workshop Deep Learning of Invariant Spatio-Temporal Features from Video B. Chen, J. TIng, B. Marlin, and N. Freitas Proceedings of the Workshop on Deep Learning and Unsupervised Feature Learning Workshop, 2010 CalTech, UBC Improving Deep Neural Networks for LVCSR Using Rectified Linear Units and Dropout G. Dahl, T. Sainath, G. Hinton ICASSP 2013 U. Toronto ドロップアウトはディノイジングオートエンコーダと違って全レイヤーにかかる。 y=f( (1/(1-r)y * m W+ b) のrがドロップアウト確率。 ReLU(rectified linear unit)にノイズを加えたNReLU:y=max(0,x+e)を使う。 Acoustic Modeling using Deep Belief Networks, 2012. Learning a better Representation of Speech Sound Waves using Restricted Boltzmann Machines, 2011. Deep Belief Networks using Discriminative Features for Phone Recognition, 2011. The Recurrent Temporal Restricted Boltzmann Machine, 2009. Factored Conditional Restricted Boltzmann Machines for Modeling Motion Style a 2009. Recent Developments in Deep Learning Geoffrey Hinton Google Tech Talks University of Toronto, Canada ディープラーニングのとてもよい解説。 http://www.youtube.com/watch?v=VdIURAu1-aU Semi-Supervised Learning for Imbalanced Sentiment Classification S. Li, Z. Wang, G. Zhou, and S. Lee IJCAI2011 Soochow Univ. and Hong Kong Polytechnic Univ. ランダムにサンプリングして半教師あり学習をする。 Large-scale Learning with SVM and Convolutional Nets for Generic Object Categorization F.J. Huang and Y. LeCun New York Univ. CVPR'06 SVMとConvolutional(畳み込み(脳回))ネットを融合する。Convolutionalネットの最終レイヤーのひとつ前のレイヤーの値を素性として、SVMで使う。 Deep Learning for Time Series Modeling Enzo Bussenti, Ian Osband, and Scott Wong CS229の演習のレポート, 2012 Stanford U. エネルギーの需要の予測。周期性が大きい。普通のSVMより悪かったと最後のほうに書いている。 素性の作り方は不明。 Two Distributed-State Models For Generating High-Dimentional Time Series Graham W. Taylor, Geoffrey E. Hinton, and Sam T. Roweis Journal of Machine Learning Research, 2011 NY U. and U. of Toronto 高次元の時系列のための非線形な生成モデルを提案する。RBMに基づく、conditional RBM(CRBM)は、 潜在変数と顕在変数が、過去いくつかの時点の変数につながっているものである。 さらにこれを拡張し、2つの変数の間の重みが3つ目の変数の動的状態で決まるようなインタラクションを可能にする。 素性は、複数の時点のものをそのまま平行にいれているようだ。 Kernel Methods for Deep Learning Youngmin Cho and Lawrence K. Saul NIPS2009 UC San Diego 新しいカーネル関数を提案する。これにより、複数階層のカーネルマシン(MKM)ができる。 Deep Learning via Semi-Supervised Embedding Jason Weston, Frederic Ratle, Ronan Collobert NIPS2009 NEC Labs 教師なし学習のアルゴリズムと、深いアーキテクチャのモデルを選ぶ。教師なし学習は、アーキテクチャのレイヤーのいずれかに「副問題」として接続される。教師なし、教師ありタスクを、同時に訓練する。LapSVMやTSVM、LDSなどと近い。とても面白い。 Unsupervised feature learning for audio classification using convolutional deep belief networks Honglak Lee Yan Largman Peter Pham Andrew Y. Ng NIPS2009 Stanford Univ. 低いレイヤーで簡単な素性を学習し、さらに複雑な素性を高いレイヤーで学習する「深い学習」のアプローチが研究されている。ここではそれを音声データに当てはめる。素性として、音素が得られる。そして、これがベースラインの素性よりも、音声分類のタスクにおいて良いことを示す。 Purified Sentiment Indicator for the Stock Market David R. Aronson, and John R. Wolberg Journal of Technical Analysis 2009 ? PSIという市場のセンチメントを計る指標を定義した。5つの既存の指標をもとに、それを純粋化(purified)したものであり、従来のものよりプロフィットファクターが高い。 http://www.mta.org/eweb/docs/journal/mta-journal_vol66_2009.pdf Learning Script Knowledge with Web Experiments Michaela Regneri, Alexander Koller, and Manfred Pinkal ACL2010 Saaland Univ., Germany アマゾンメカニカルタークを使って、スクリプトを得る。 Grounded Compositional Semantics for Finding and Describing Images with Sentences Richard Socher, Andrej Karpathy, Quoc V. Le, Christopher Manning, Andrew Ng ACL2013 Stanford U. 文章のベクトルとそれが表す画像を結びつけるようなRNNを提案。文中のアクションとエージェントに対応する。 Seven Rules of Thumb for Web Site Experimenters R. Kohavi, A. Deng, R. Longbotham and Y. Xu KDD 2014 Microsoft Controlled experiments on the web: survey and practical guide R. Kohavi, R. Longbotham, D. Sommerfield, and R. Henne Data Mining and Knowledge Discovery 2009 Microsoft Optimization Strategies for A/B Testing on HADOOP A. Cherniak, H. Zaidi, V. Zadorozhny VLDB 2013 Optimal Groupon Allocations Weihao Kong, Jian Li, Tao Qin, Tie-Yan Liu Web and Internet Economics (WINE) 2013 Dynamical Products of Experts for Modeling Financial Time Series Yutian Chen and Max Welling ICML2010 UC Irvine Value at Riskを予測するために、エキスパートの動的な積というモデルを提案する。 Forecasting the belief of the population: Prediction Markets, Social Media & Swine Flu Daniel Kristopher Harvey Mater thesis, 2009 U. Edinburgh EigenTransfer: A Unified Framework for Transfer Learning Wenyuan Dai, Ou Jin, Gui-Rong Xue, Qiang Yang and Yong Yu ICML2009 Shanghai Jiao Tong Univ., and Hong Kong Univ. of Sci. and Tech. インスタンス群の間の類似性を示したグラフを書く。ノードは、インスタンス群や素性やクラスラベルであり、エッジはそれらの間の関係である。(例えば、対象問題と補助問題での共起の数). このグラフ上で固有値を求めて、問題を解く。 A Convex Formulation for Learning Shared Structures from Multiple Tasks Jianhui Chen, Lei Tang, Jun Liu and Jieping Ye ICML2009 Arizona State Univ. Andoらの研究を進めている。改良型代替構造最適化(iASO)を、非凸の関数として定義する。 Unsupervised Search-based Structured Prediction Hal Daume III ICML2009 U. Utah ツリーやラベルシーケンスなどの構造化された出力を出すのが、構造化予測。これの教師なしバージョン。 Nonparametric Latent Feature Models for Link Prediction Kurt Miller, Thomas Griffiths, Michael Jordan NIPS2009 UC Berkeley エンティティを、素性からなるベクトルと考える。この素性のインタラクションでリンクができる。素性は与えられるものではなく、潜在的なものとして推定する。すばらしい。 Network resource combinations in the international venturing of small biotech firms D. Tolstoy and H. Agndal Technovation, 2010 Stockholm School of Economics 企業の資源として、ネットワーク的側面を分析する。小さなバイオ技術のベンチャーを対象に、6つのケーススタディを行う。国際的な製品のベンチャー(NIPV)は、製品を再定義したり、市場を再定義したりするような、幅広いネットワーク資源を探索することが分かり、国際的な市場のベンチャー(NIMV)は、より狭い範囲のネットワークに依存することが分かった。 Two-Stage Learning Kernel Algorithms C. Cortes, M. Mohri, and A. Rostamizadeh ICML2010 Google and Courant Inst. of Math. Sci. 2段階のカーネルアルゴリズム。最初の段階で、p個のカーネルの組み合わせのカーネルを学習する。次に、そのカーネルを使って、SVM等の通常のカーネル学習アルゴリズムで仮説を選択する。 Unsupervised Transfer Learning: Application to Text Categorization T. Yang, R. Jin and A. Jain KDD2010 Michigan State Univ. (i)求めたいクラスではない、補助クラスのラベルつき例がある、 (ii)補助クラスと求めたいクラスの相関が分かっている このとき、転移学習によって、求めたいクラスの分類を行う。 一般化最大エントロピーモデルを使う。 The community-search problem and how to plan a successful cocktail party M. Sozio and A. Gionis KDD'10 Max-Planck-Inst., Yahoo! Research グラフGと、複数のクエリーノードが与えられたとき、クエリーノードを含む密に結合したサブグラフを見つける問題。 Suggesting Friends Using the Implicit Social Graph N. Leiser, Y. Matias, R. Merom KDD'10 Google Semi-supervised Feature Selection based on Manifold Regularization Z. Xu, I. King, M. Lyu, and R. Jin Neural Networks, 2010 Michigan State Univ. ほぼ同じ論文がIJCAI09に。ノード間にエッジがあるような多様体を仮定して、SVMで素性選択をする。USPSのデータで実験。コサイン類似度、バイナリーの重みでグラフを作る。フィッシャー、L1, L0などよりよい結果。 Semi-supervised Feature Selection for Graph Classification X. Kong and P. Yu KDD2010 U. Illinois at Chicago グラフ分類で、例えばノードAとノードBがつながっているなどの部分グラフの構造を使った素性選択を、半教師学習で行う。 Predicting personality from twitter J. Golbeck, C. Roble, M. Edmondson, and K. Turner IEEE Conf. on Social Computing, 2011 It’s Simply Integral to What I do: Enquiries into how the Web is Weaved into Everyday Life Sian Lindley, Sam Meek, Abigail Sellen, and Richard Harper WWW2012 Microsoft Research A Habit Mining Approach for Discovering Similar Mobile Users あ WWW2012 Actions speak as loud as words: Predicting relationships from social behavior data Sibel Adali WWW2012 Rensselaer Polytechnic Institute ATTNとかの素性 Unsupervised Sentiment Analysis with Emotional Signals あ WWW2013 Rethinking the Web as a Personal Archive あ WWW2013 Microsoft これも重要だが14人。被験者実験で、その人に重要なページやCVのページなどを示してもらう。 Crowd Behavior Strategy Comes To Managed Accounts A Balanced Survey on Election Prediction using Twitter Data Daniel Gayo-Avello A Survey of Prediction Using Social Media Sheng Yu and Subhash Kak arxiv, 2012 オクラホマ州立大学 ソーシャルメディアを使った予測の事例。マーケティング、映画、情報拡散、選挙、マクロ経済。 So Did Social Media 'Predict' the Election? あ Mashable ? あ http://mashable.com/2012/11/07/social-media-election/ Can Social Media Predict the US Election? あ The Telegraph ? あ http://www.telegraph.co.uk/news/worldnews/us-election/9657081/Can-social-media-predict-the-US-election.html Facebook 'likes' can reveal your secrets, study finds Facebook experiment boosts US voter turnout Zoe Corbyn Redefining youth activism through digital technology in Singapore A meta-analysis of state-of-the-art electoral prediction from Twitter data Daniel Gayo-Avello Social Media and the Elections P. T. Metaxas and E. Mustafaraj Science, 2012 たくさんサーベイあり。 Triumph of the Nerds: Nate Silver Wins in 50 States Mashableの記事。 Obamaの選挙での予測。Nate Silber。 http://mashable.com/2012/11/07/nate-silver-wins/ Predicting the Future With Social Media S. Asur and B. Huberman HP Labs. Journal関係 a a a Journal of Stock & Forex Trading The Journal of Trading Journal of Investing Journal of Portfolio Management Journal of Derivatives Journal of Fixed Income Institutional Investor Journals The value of stop loss strategies Adam Y.C. Lei, and Huihua Li Financial Services Review, 2009 Midwestern State U., USA ストップロスは、投資家の損失を増やしも減らしもしない。ひとつのストップロスの 方法は、投資家のリスクを減らす。 ストップロスは、心的な会計、プライドを守る、後悔を回避する、自己統制の欠如などから好まれるとされている。2つの伝統的な方法:固定価格、トレイリングストップオーダー(上がる方向にのみ追随する方法)。 リターンは変わらない。(Table 2とか6) When Do Stop-Loss Rules Stop Losses? Kathryn M. Kaminski and Andrew W. Lo Ljubljana Meetings Paper, 2007 MIT, USA 累積的な損失でアウト、一時の利益でインというストップロス戦略について調べる。 ランダムウォークのモデルではストップロスのプレミアムは負だが、 AR、レジームが変わるモデルでは、正になる。 Comparing Portfolio Selection using CVaR and Mean-Variance Approach S. Benbachir, B. Gaboune, and M. El Alaoui International Research Journal of Finance and Economics, 2012 U. Mohamed (Morocco) 線形計画法を使ってCVaR(Conditional Value-at-Risk)を最小化する。CVaRはVaRを改良したもの。 Sports Sentiment and Stock Returns A. Edmans, D. Garcia, and Ø. Norli Journal of Finance 2007 Selective Publicity and Stock Prices D. Solomon Journal of Finance 2012 A Simple Way to Estimate Bid-Ask Spreads from Daily High and Low Prices S. Corwin and P. Schultz Journal of Finance 2012 Stock Trend Prediction Using Regression Analysis – A Data Mining Approach S. Olaniyi, Adewole, Jimoh APRN Journal of Systems and Software, 2010 Kwara State University, Nigeria ナイジェリア。線形な回帰。参考にならない。 Fundamental Analysis Strategy and the Prediction of Stock Returns J. Elleuch International Research Journal of Finance and Economics, 2009 University of Sfax, Tunisia Twitter mood predicts the stock market J. Bollen, H. Mao, and X. Zeng Journal of Computational Semantics, 2011 Indiana Univ.(US) and U. of Manchester (UK) Predicting stock price using fuzzy grey prediction system Y.-F Wang Expert Systems with Applications, 2002 Chang Gung Institute of Nursing Predicting Stock Returns in an Efficient Market R. Balver, T. Cosimano, and B. McDonald J. of Finance, 1990 U. of Notre Dame The Risk and Predictability of International Equity Returns W. Ferson and C. Harvey Review of Financial Studies, 1993 The Robustness and Economic Significance of Predictability of Stock Returns M. Pesaran and A. Timmermann Journal of Finance, 1995 A Recursive Modelling Approach to Predicting UK Stock Returns M. Pesaran and A. Timmermann The Economic Journal, 2000 Predictable Variations in Stock Index Returns Breen, W., L.R. Glosten, and R. Jagannathan Journal of Finance, 1990 A Comparison of PNN and SVM for Stock Market Trend Prediction using Economic and Technical Information S. Lahmiri International Journal of Computer Applications, 2011 Predicting direction of stock price index movement using artificial neural networks and support vector machines: The sample of the Istanbul Stock Exchange Y. Kara, M. Boyacioglu, and O. Baykan Expert Systems with Applications, 2011 Selcuk U. (Turkey) The “CAPS” Prediction System and Stock Market Returns C. Avery, J. Chevalier, and R. Zeckhauser Harvard Kennedy School Working Paper Series, 2011 Harvard, USA Predicting the Equity Premium with Dividend Ratios Goyal, A., and I. Welch Management Science, 2003 Emory U. and Yale U. USA A Comprehensive Look at the Empirical Performance of Equity Premium Prediction Goyal, A., and I. Welch The Review of Financial Studies, 2006 Brown U. and Emory U. In-Sample or Out-of-Sample Tests of Predictability: Which One Should We Use? Inoue, A., and L. Kilian Econometric Reviews, 2004, North Carolina State U. (USA) Predicting excess stock returns out of sample: Can anything beat the historical average? Campbell, John Y. and Samuel B. Thompson. The Review of Financial Studies, 2008 Harvard U. (USA) Giving Content to Investor Sentiment: The Role of Media in the Stock Market P. Tetlock J. of Finance 2007 U. Texas at Austin (USA) 面白い。WSJのAbreast of the Marketを分析。悲観的なときは下がり圧力になり、 ファンダメンタルに戻る。悲観的な見方が多い時/少ないときは、マーケットの売買高が多くなる。 Forecasting Stock Indices: a Comparison of Classification and Level Estimation Models M. Leung, H. Daouk and A. Chen International Journal of Forecasting, 2000 The Sensitivity of Latent Dirichlet Allocation for Information Retrieval ECML09 Dynamics of Bidding in a P2P Lending Service: Effects of Herding and Predicting Loan Success S. Ceyhan, X. Shi, and J. Leskovec WWW2011 Stanford Univ. Prosperの分析。借りられる額の予測。ロジスティック回帰。 Towards a Theory Model for Product Search B. Li, A. Ghose, and P. Ipeirotis WWW2011 New York Univ. 商品の素性をベクトルにして、効用の関数を作る。ロジットモデルを使う。 ランダムに選んだ、米国の2117のホテル。TripAdvisor, Travelocityなどいろいろ調べている。 Skin in the Game: Incentives in Crowdfunding Thomas Hildebrand, Manju Puri, and Jorg Rocholl 2011 European School of Management and Technology, Duke Univ. Prosper.comの分析 En Ante Crowdfunding and the Recording Industry: A Model for the US? Tim Kappel 2009 ?? Crowd Funding (Young Foundation) a a Young Fundation あああ http://www.socialinnovationexchange.org/files/201%20Crowdfunding.pdf Friends, Family, and the Flat World: The Geography of Crowdfunding A. Agrawl, C. Catalini, and A. Goldfarb 2011 U. of Toronto Sella bandの分析。2006年8月のローンチから、2009年9月までのデータ。 4712のアーティストが、少なくとも10ドル集めていて、34人が5万ドル以上集めている。 オフラインのネットワークの影響を除くと、地理的な距離は関係ない。ウェブ上の支援は、従来の定説に反する。 Finding Structure in Time Jeffrey L. Elman Congnitive Science 1990 UC San Diego エルマンネットワーク。 A Word at a Time: Computing Word Relatedness using Temporal Semantic Analysis Kira Radinsky, Eugene Agichtein, Evgeniy Gabrilovich and Shaul Markovitch WWW2011 Israel Institute of Technology, and Yahoo! Research 「戦争」と「平和」、「株価」と「石油」などの語の関係性を、時系列に計算する方法。 Web scale NLP: A case study on URL word breaking Kuansan Wang, Chris Thrasher and Bo-june Hsu WWW2011 Towards Semantic Knowledge Propagation from Text to Web Images Guo-Jun Qi, Charu Aggarwal and Thomas Huang WWW2011 Mark my words! Linguistic style accommodation in social media Cristian Danescu-Niculescu-Mizil, Michael Gamon and Susan Dumais WWW2011 Cornell Univ. and MSR コミュニケーションをしていると似てくる、という現象を、twitter上で検証。冠詞(an, the), 必然性(always, never)などの次元ごとにどのくらい出現するかを比較。 Layered LPA: A MultiResolution Coordinate-Free Ordering for Compressing Social Networks Sebastiano Vigna, Paolo Boldi, Massimo Santini and Marco Rosa WWW2011 Adaptive Policies for Selecting Groupon Style Chunked Reward Ads in a Stochastic Knapsack Framework Michael Grabchak, Narayan Bhamidipati, Rushi Bhatt and Dinesh Garg WWW2011 Cornell Univ., Yahoo! India 広告を選ぶ問題を、ナップサック問題として解く。理論、シミュレーション、実験。計算量とか。 Modeling the Temporal Dynamics of Social Rating Networks using Bidirectional Effects of Social Relations and Rating Patterns Mohsen Jamali, Gholamreza Haffari and Martin Ester WWW2011 Milgram-Routing in Social Networks Silvio Lattanzi, Alessandro Panconesi and D. Sivakumar WWW2011 Information Spreading in Context Dashun Wang, Zhen Wen, Hanghang Tong, Ching-Yung Lin, Chaoming Song and Albert-László Barabási WWW2011 IBM T.J. Watson, Harvard Univ. etc Linさんの研究。(おそらく) IBMの8900人のメールの送受信のデータ。それと、組織図の正式なデータの比較。 Supporting Synchronous Social Q&A Throughout the Question Lifecycle Matthew Richardson and Ryen White WWW2011 Microsoft Research インスタントメッセージに基づく同期型ソーシャルQAシステムで、質問が答えられるか、何人の答える候補者に質問が送られるか、質問者が答えに満足するかを予測する。 The Design and Usage of Tentative Events for Time-based Social Coordination in the Enterprise Mikhil Masli, Werner Geyer, Casey Dugan and Beth Brownholtz WWW2011 Differences in the Mechanics of Information Diffusion Across Topics: Idioms, Political Hashtags, and Complex Contagion on Twitter Daniel Romero, Brendan Meeder and Jon Kleinberg WWW2011 We Know Who You Followed Last Summer: Inferring Social Link Creation Times In Twitter Brendan Meeder, Brian Karrer, Amin Sayedi, R Ravi, Christian Borgs and Jennifer Chayes WWW2011 Like like alike -- Joint friendship and interest propagation in social networks Shuang-hong Yang, Bo Long, Alex Smola, Narayanan Sadagopan, Zhaohui Zheng and Hongyuan Zha WWW2011 Georgia Tech Univ. ユーザ同士のネットワークと、ユーザとサービスの興味ネットワークについて分析している。提案する友人-興味伝搬は、ファクターに基づくランダムウォークモデルとなる。Yahoo!パルスのデータ。 Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures Wei Dong, Moses Charikar and Kai Li WWW2011 Emergence of hierarchy in directed social networks Mangesh Gupte, Pravin Shankar, Jing Li, Muthukrishnan and Liviu Iftode WWW2011 Who Says What to Whom on Twitter Shaomei Wu, Jake M. Hofman, Winter Mason and Duncan J. Watts WWW2011 Limiting the Spread of Misinformation in Social Networks Ceren Budak, Divyakant Agrawal and Amr El Abbadi WWW2011 Estimating Sizes of Social Networks via Biased Sampling Liran Katzir, Edo Liberty and Oren Somekh WWW2011 Network resorce combinations in the international venturing of small biotech firms D. Tolstoy and H. Agndal Technovation 2010 Stockholm School of Economics 上野山さん関連の論文 An Introduction to Variable and Feature Selection I. Guyon and A. Elisseeff Journal of Machine Learning Research Max Planck 基本的な話。ラッパー、フィルターによる素性選択。クラスタリングや行列の分解による素性構築。 Scalable Influence Maximization for Prevalent Viral Marketing in Large-Scale Social Networks Mining Advisor-Advisee Relationships from Research Publication Networks C. Wang, J. Han, Y. Jia, J. Tang, D. Zhang, Y. Yu, and J. Guo KDD'10 U. Illinois Urbana-Champaign, and Tsinghua Univ. 指導者、指導を受ける者の関係性を、取り出す。共著の時系列データを使う。ちゃんと確率モデルでモデル化している。 Text Mining for Product Attribute Extraction R. Ghani, K. Probst, Y. Liu, M. Krema, and A. Fano Accenture and CMU SIGKDD Explorations, 2006 製品の明示的/暗黙的属性を取り出す。EMで解く。 Interfaces for Collaborative Exploratory Web Search: Motivations and Directions for Multi-User Designs M. R. Morris CHI 2007 Workshop on Exploratory Search and HCI Microsoft Research 2人から4人の学生がひとつのコンピュータを囲む"joint search"と、別々だが隣り合ったワークステーションに座って話し合う"coordicated search"の2つがある。後者は検索結果を比べたり、何かを見つけるのを競ったり、スクリーンを覗き込んだりする。 とても分かりやすいサーベイ。204人のマイクロソフト社員による調査。 Dialog-Based User Models W. Wahlster, A. Kobsa IEEE Special Issue on Natural Language Processing 1986 Generating Discourse Structures for Written Texts H. LeThanh, G. Abeysinghe, and C. Huyck COLING 2004 Middlesex Univ., London 3.1の最後のほうに textual adjacency constraint という表現。4つの主要な制約のひとつ。 文レベルとテキストレベルの2つのレベルで対話文を分析。 Incremental Parsing Models for Dialog Task Structure S. Bangalore and A. Stent ACL 2009 AT&T Labs 対話分析(discourse parsing)には、統計的ボトムアップな方法、階層的クラスタリング、語彙ツリーの結合分布による方法、ルールベースな方法や会話手がかりによる方法がある。 Mashing Up Search Services D. Braga, S. Ceri, F. Daniel, and D. Martinenghi IEEE Internet Comp., 2008 Speech and sound for in-car infotainment systems I. Tashev, M. Seltzer and Y. Ju First International Conference on Automotive User Interfaces and Interactive Vehicular Applications (AutomotiveUI 2009) (ポスター) Microsoft Research 決まった文法ではなく、言語モデルにもとづいて音声認識をする。音楽を探す、テキストメッセージに返信する、車のマニュアルを読むという応用例。 Searching the Web by Voice A. Franz and B. Milch COLING 2002 Google Inc. and UC Berkeley Class-Driven Attribute Extraction B. Van Durme, T. Qian, and L. Schubert Coling 2008 U. Rochester 代表的インスタンスがある場合、ない場合の、大規模なクラスの属性獲得を行う。KNEXTというのに基づいている。 Support Exploratory Search R. White CACM 2006 探索的検索の概要。 A comparison of information seeking using search engines and social networks. Co-located Collaborative Web Search: Understanding Status Quo Practices S. Amershi and M. Morris CHI2009, poster, 2009 Microsoft Research 同場所共同ウェブ検索についての調査。家や職場でとか、1時間以上続くのはほぼ情報探索だとか。 参考になるのでもう一度読んだ方がいいかも。 WeSearch: Collaborative web search for tabletop displays. a CSCW 2010 a CoSearch: a system for co-located collaborative web search using a shared computer augmented by multiple mice or mobile phones S. Amershi and M. Morris CHI 2008 U. Washington and Microsoft Research 204人のマイクロソフトの従業員へのアンケートでは87.7%が「後部座席運転手」検索、つまりほかの人にクエリーやリンクを指示しながら検索したことがある。検索すると結果が結果ペインに出る。それを誰でもクリックすることができるが、クリックするとその人用のタブができる。 TeamSearch: a system for co-located collaborative search using a tabletop display Tabletop 2006 マイクロソフト研究所のCollaborative Searchのリンク集 a a a http://research.microsoft.com/en-us/um/people/merrie/collaborative_search.html Exploratory Search: From Finding to Understanding Gary Marchionini CACM 2006 a 探索的検索のコンセプトについて。学ぶことと調査するの反復。知識獲得や概念/スキルの理解、アイディアの解釈やデータ/概念の比較、集積など。またコミュニティや新しい友人の検索も。Open Video Digital Libraryというのの紹介。 Latent Dirichlet Allocation D. Blei, A. Ng, and M. Jordan Journal of Machine Learning Research, 2003 U. Cal Berkeley and Stanford U. LDAの提案。トピックの混合θが決まって、トピックzが決まり、単語wが決まる。θとwのパラメータがαとβ。推論の方法、パラメータの推定法やスムージングなどが5章にある。 A User Browsing Model to Predict Search Engine Click Data from Past Observations Georges Dupret and Benjamin Piwowarsk SIGIR'08 Yahoo! Research Latin America User-centric, Adaptive and Collaborative Information Filtering Information Retrieval Using Collaborating Multi-User Agents An approach to customized end-user views in multi-user information retrieval systems Personalized Web Exploration with Task Models Jae-wook Ahn, Peter Brusilovsky, Daqing He, Jonathan Grady, Qi Li WWW2008 University of Pittsburgh Unsupervised Query Categorization using Automatically-Built Concept Graphs Eustache Diemert, Gilles Vandelle WWW2009 Yahoo! Understanding User's Query Intent with Wikipedia Jian Hu, Gang Wang, Fred Lochovsky, Jian-tao Sun, Zheng Chen WWW2009 MSRA Incorporating Site-Level Knowledge to Extract Structured Data from Web Forums Jiang-Ming Yang, Rui Cai, Yida Wang, Jun Zhu, Lei Zhang, Wei-Ying Ma WWW2009 MSRA Towards Context-Aware Search by Learning a Very Large Variable Length Hidden Markov Model from Search Logs Huanhuan Cao, Daxin Jiang, Jian Pei, Enhong Chen, Hang Li WWW2009 MSRA and University of Science and Technology of China Ranking Specialization for Web Search: A Divide-and-Conquer Approach by Using Topical RankSVM Jiang Bian, Xin Li, Fan Li, Zhaohui Zheng, Hongyuan Zha WWW2010 クエリーによって適切なランキングが変わるのを学習する。 Collaborative Location and Activity Recommendations with GPS History Data Vincent W. Zheng, Yu Zheng, Xing Xie, Qiang Yang WWW2010 Hong Kong Univ. of Science and Technology GPSの履歴とウェブのデータを使って、旅行等の活動のおすすめをする。 Equip Tourists with Knowledge Mined from Travelogues Qiang Hao, Rui Cai, Changhu Wang, Lei Zhang Highlighting Disputed Claims on the Web Rob Ennals, Beth Trushkowsky and John Mark Agosta Actively Predicting Diverse Search Intent from User Browsing Behaviors Zhicong Cheng, Bin Gao, Tie-Yan Liu Exploiting Query Reformulations for Web Search Result Diversification Rodrygo Santos, Craig Macdonald, Iadh Ounis A Contextual Bandit Approach to Personalized News Article Recommendation Lihong Li, Wei Chu, John Langford, Robert Schapire A Characterization of Online Search Behavior Ravi Kumar, Andrew Tomkins Liquid Query: Multi-domain Exploratory Search on the Web ** Alessandro Bozzon, Marco Brambilla, Stefano Ceri, Piero Fraternali WWW2010 Politecnico Di Milano 関連するニュース、場所の近くのレストラン、組み合わせられるイベントなどを見つける。複数の検索結果を集積する。汎用の検索と、特定の検索をつないでいる。 Atomate It! End-user context-sensitive automation using heterogeneous information sources on the Web Max Van Kleek, Brennan Moore, Paul André, David Karger, mc schraefel A Plan Recognition Model for Clarification Subdialogues D. Litman and J. Allen Cognitive Science 1987 U. of Rochester プランに基づくタスクと会話の構造を利用した自然言語システム Towards Natural Question Guided Search * Alexander Kotov, ChengXiang Zhai WWW2010 U. Illinois at Urbana-Champaign システムが面白い質問をすることで検索を進める 自然言語文による入力、インタラクションが必要というIntroductionのところは参考になる。 Clustering Query Refinements by User Intent * Eldar Sadikov, Jayant Madhavan, Lu Wang, Alon Halev WWW2010 Stanford, Google クリックの共起から作ったユーザの興味にもとづいて、クエリーのクラスタを洗練するアルゴリズム。 Classifying Ellipsis in Dialogue: A Machine Learning Approach R. Fernandez, J. Ginzburg, and S. Lappin Coling 2004 King's College London 単文をwhen, whoなどに分ける Using Machine Learning for Non-Sentential Utterance Classification R. Fernandez, J. Ginzburg, and S. Lappin SIGDial 2005 King's College London Collaboration, Cooperation and Dialogue Classification C. Reed and D. Long IJCAI 1997 U. College London 対話のタイプを、説得、交渉、質問、熟考、情報探索、Eristic(?)に分類している。 議論だけの論文。 Learning the Structure of Task-Driven Human–Human Dialogs S. Bangalore, G. Di Fabbrizio, A. Stent IEEE Transactions on Audio, Speech and Language Processing, 2008 AT&T Labs Collaborative Web Search B. Smyth et al. a a 複数ユーザのコンテクストを使って検索するという話。 Mining Clickthrough Data for Collaborative Web Search J. Sun, X. Wang, D. Shen, H. Zheng, and Z. Chen WWW2006 MSRA Browsing is a Collaborative Process M. Twidale, D. Nichols, and C. Paice Information Processing & Management, 1997 Lancaster Univ. 3.1節に、図書館で観察された例として「Joint Search」「 Cordinated Search」などを挙げている。 SearchTogether: An Interface for Collaborative Web Search M. Morris and E. Horvitz UIST 2007 MSR 遠隔で一緒に検索するインタフェース Identifying Subjective Adjectives through Web-based Mutual Information Marco Baroni, and Stefano Vegnaduzzo Proc. KONVENS2004 (Verarbeitung naturlicher Sprache: Germanyの学会), 2004 Retrieving Japanese specialized terms and corpora from the World Wide Web. M. Baroni and M. Ueyama. Proceedings of KONVENS 2004 Learning invariant features using the Transformed Indian Buffet Process J. Austerweil and T. Griffiths NIPS 2010 UC Berkely 2つの素性が異なるものか、同じものを変換したものかを、tIBPというモデルを使って説明する。40人の被験者による2つの実験で、直観と合うかを比較している。 Predicting the Importance of Newsfeed Posts and Social Network Friends Tim Paek, Michael Gamon, Scott Counts, David Maxwell Chickering, Aman Dhesi AAAI2010 facebookのフィードごとの重要性を判別するモデルを学習する。 % 身体知解明へのアプローチ 古川康一、尾崎知伸、植野研 JSAI2005 身体知の解明の難しさは、不良設定問題(文脈依存性)、スキル自身が発展を続けていること。「低速上下弓返し弓元テヌート」は、体伸び∧肩柔軟∧・・・∨体伸び∧肩やや柔軟∧・・・」と表される。 Visualizing multiplex relations あ http://www.faculty.ucr.edu/~hanneman/nettext/C16_Multi_Plex.html#visual Visual Mining of Multi-Modal Social Networks at Different Abstraction Levels George Town Univ. Lisa Singh, Mitchell Beard, Lise Getoor, M. Brian Blake IV2007 Generating Abstract Networks Using Multi-relational Biological Data Paul Caravelli, Mitch Beard, Brian Gopolan, Lisa Singh, Zhang-Zhi Hu IV2009 Networks of Spiking Neurons: The Third Generation of Neural Network Models Wolfgang Maass 1996 Technische Univ. Graz, Austria 第一世代、パーセプトロン等。第二世代 重み付き(発火頻度)。第三世代 タイミング。 Predicting Every Spike: A model for the Responses of visual neurons Justin Keat, Pamela Reinagel, R Clay Reid, Markus Meister Neuron 2001 Harvard Univ. 初期視覚システムにおける神経細胞の反応はとても正確である。網膜や視床の細胞の発火は、ミリ秒の精度での再現性がある。ここでは、視覚的入力を与えられると、それぞれのスパイクを適切に予測する数学的記述について述べる。 Making Ontologies Talk: Knowledge Interoperability in the Semantic Web Natural Language Processing and the Web あ IEEE Intelligent Systems, Vol. 23, No. 5, pp. 16-17 , September/October 2008 Interlinking the Social Web with Semantics Games with a Purpose for the Semantic Web Near-Term Prospects for Semantic Technologies Informed Recommender: Basing Recommendations on Consumer Product Reviews Structure Paves the Way to the Semantic Web When Will It Be Done? Machine Learner Answers to the 300-Billion-Dollar Question MatSeek: An Ontology-Based Federated Search Interface for Materials Scientists K. Cheung, J. Hunter, and J. Drennan IEEE Intelligent systems 2009 U. of Queensland 材料科学分野での複数データベースの検索システム。中でオントロジーを規定している。材料、性質(機械的、電気的、温度的、科学的、磁気的、生化学的、音響的、光学的、放射線的)、構造(クリスタル、アモルファス)、測定データ(材料性質、パフォーマンス、モデリング・シミュレーション)など。STBSの参考になる。 KW: 濱崎さん Informed Recommender: Basing Recommendations on Consumer Product Reviews S. Aciar, D. Zhang, S. Simoff, and J. Debenham IEEE Intelligent systems, 2007 U. of Girona and U. of Technology Sydney ユーザの評判を用いたレコメンデーション。キャノンのデジカメを例にしている。レビューサイトからとってきた195の文を、goodとかbad、qualityのカテゴリに分ける。オントロジーといっているが、ちゃんと使っている感じではない。セマンティックレコメンデーションの参考になる。 KW: 濱崎さん ハイタワーさんのリンク集 Jeffrey Hightower 位置推定関係。 http://en.scientificcommons.org/jeffrey_hightower An upper ontology for event classification and relations K. Iwazume, M. Iwazume, and K. Fukuda AI 2007 (Australian Joint Conference on Artificial Intelligence 2007) NICT, AIST (Japan) いい論文だけど学会が…。 Research on Twitter and Microblogging danah ダナさんのリンク集。 http://www.danah.org/TwitterResearch.html Microblogging: A Semantic and Distributed Approach Particle Filters for Location Estimation in Ubiquitous Computing: A Case Study J. Hightower, and G. Borriello Ubicomp2004 Intel and U. Washington 粒子フィルターを使っての位置推定。 On assigning place names to geography related web pages. W. Zong, D. Wu, A. Sun, E.-P. Lim, and D. H.-L. Goh. In JCDL ’05 Identifying regional sensitive queries in web search. S. Vadrevu, Y. Zhang, B. Tseng, G. Sun, and X. Li. Proceedings of WWW'08, 2008. Yahoo! 地名との共起で、クエリーの地域性を測る。ポスター。 Towards automatic extraction of event and place semantics from flickr tags. T. Rattenbury, N. Good, and M. Naaman. In SIGIR '07, 2007. Yahoo! Research Berkeley Flickrのデータを、時間間隔、もしくは空間ごとにブロックに分けて、特定のところでどのくらい数が多いかで関連性を検出する。場所(place)と出来事(event):場所はspatialで、出来事がtemporal。サンフランシスコ付近にサンフランシスコのタグが多い。 Applications of location-based services: A selected review. J. Raper, G. Gartner, H. Karimi, and C. Rizos. Journal of Location Based Services, 1(2), 2007. Context data in geo-referenced digital photo collections. M. Naaman, S. Harada, Q. Wang, H. Garcia-Molina, and A. Paepcke. In MULTIMEDIA ’04 Generating diverse and representative image search results for landmarks. L. Kennedy and M. Naaman. In WWW'08, 2008. Columbia Univ. and Yahoo! Inc. ランドマーク(例えばゴールデンゲートブリッジ)に対して代表的な画像を見つける。画像の特徴量でクラスタリングし、代表的なクラスタを選ぶ。 Computing geographical scopes of web resources. J. Ding, L. Gravano, and N. Shivakumar. In VLDB ’00, Mapping the world's photos. D. Crandall, L. Backstrom, D. Huttenlocher, and J. Kleinberg. WWW 2009, 2009 Web-a-where: geotagging web content. E. Amitay, N. Har’El, R. Sivan, and A. Soffer. SIGIR ’04, Explorer: Visualizing aggregate data from unstructured text in geo-referenced collections. S. Ahern, M. Naaman, R. Nair, and J. Yang. World JCDL '07, 2007. A probabilistic approach to spatiotemporal theme pattern mining on weblogs. Q. Mei, C. Liu, H. Su, and C. Zhai. WWW'06, 2006. ブログの著者の場所の同定とトピックの時間的遷移を組み合わせて分析している。トピックと場所から語が生成される確率モデル。ちゃんとした論文。 Mining geographic knowledge using location aware topic model. C. Wang, J. Wang, X. Xie, and W.-Y. Ma. In GIR ’07, 2007. Mapping geographic coverage of the web Robert Pasley , Paul Clough , Ross S. Purves , Florian A. Twaroch, Proceedings of the 16th ACM SIGSPATIAL international conference on Advances in geographic information systems, 2008 6374のtoponymリスト(約8000のロケーション)を使って、ウェブのヒット件数を調べ、それを地図上にマッピングしている。 Placing flickr photos on a map, Pavel Serdyukov , Vanessa Murdock , Roelof van Zwol, Proceedings of the 32nd international ACM SIGIR, 2009 Yahoo! Research Flickrの写真に位置を割り当てる。言語モデルを使う。かなりしっかりした論文。 A probabilistic topic-based ranking framework for location-sensitive domain information retrieval, Huajing Li , Zhisheng Li , Wang-Chien Lee , Dik Lun Lee, Proceedings of the 32nd international ACM SIGIR 2009 Comparing the performance of us college football teams in the web and on the field, Martin Klein , Olena Hunsicker , Michael L. Nelson, Proceedings of the 20th ACM conference on Hypertext and hypermedia, 2009 Old Dominion Univ. (USA) 大学フットボール25チームのコーチによる投票(専門家の判断)と、検索エンジンのランキングの相関を調べている。少し相関あるがシーズンが進むに従って下がっていく。 Spatial Variation in Search Engine Queries L. Backstrom, J. Kleinberg, R. Kumar, and J. Novak WWW2008 Cornell Univ. and Yahoo! Research クエリーのIPから中心を見つける。野球のチーム、州知事、台風など。C d^(-alpha)という単純なモデル。いくつかの簡単な手法と比較している。(位置の重み和、緯度・軽度の中間地、密度の最も高いところ)。面白いけど、モデルは単純。 Optimal Marketing Strategies over Social Networks J. Hartline, V. Mirrokni, and M. Sundararajan WWW2008 Microsoft Research, and Stanford 買う人やその価格をモデル化し、最適な戦略を求める。定式化と簡単なシミュレーションだけで、実データはない。 Learning Transportation Mode from Raw GPS Data for Geographic Applications on the Web Yu Zheng, Like Liu, Longhao Wang, Xing Xie Microsoft Research Asia WWW2008 GPSのデータから移動モード(散歩とか電車とか)を判別する。SVMとかCRFを使う。45ユーザの6ヶ月のデータを利用。 Bayesian Filtering for Location Estimation Dieter Fox, Jeffrey Hightower, Lin Liao and Dirk Schulz IEEE Pervasive computing Univ. of Washington カルマンフィルターでの位置推定から始まり、複数仮説トラッキング、グリッドベース、トポロジカルベース、粒子フィルター等、分かりやすく紹介されている。 http://seattle.intel-research.net/pubs/fox2003bayesian.pdf Inferring High-Level Behavior from Low-Level Sensors D. Patterson, L. Liao, D. Fox, and H. Kautz UbiComp 2003 U. of Washington How People are using Twitter during Conferences W. Reinhardt, M. Ebner, G. Beham, and C. Costa Proc. EduMedia conf, 2009 U. of Paderborn, Graz Univ. of Tech. (Germany and Austria) オンラインの質問システムで、5つの会議の41人にアンケート。どのくらいtwitterを使っているか、何のために使っているかなど。 Social networks that matter: Twitter under the microscope. Huberman, B.A., Romero, D.M., & Wu, F. First Monday 14, (1.5). (2009). HP Lab 30万9740ユーザ、平均255ポストで85フォロワーのデータを使っている。@を使って書く「友達(friedn)」の数と、つぶやきの数が比例している。(当たり前。)要するに友達が大事ということ。よくある分析のみ。 Brave new world of digital intimacy. Thompson, C. (2008, 5 September). http://www.nytimes.com/2008/09/07/magazine/07awareness-t.html?_r=1 Seven rules for establishing a corporate presence on Twitter. Postman, J. (2008). 企業のtwitterアカウントをすればよいかの話。7つのルール。会社とのつながりを明示せよとか、誰に話してるか分かるようにせよ、など。 http://www.socialmediatoday.com/SMC/44452 Fiftyways to useTwitter for business. Brogan, C. (2008). http://socialcomputingmagazine.com/viewcolumn.cfm?colid=592 Can we use Twitter for educational activities? Grosseck, G., & Holotesch, C. Fourth International Scientific Conference eLearning and Software for Education, 2008 In Microblogging.more than fun? Ebner, M., & Schiefner, M. Proceedings of the IADIS Mobile Learning Conference (2008). Graz Univ. of Tech., U. of Zurich Jaikuで23人のユーザに対して、e-learningに関するユーザ調査。質問の回答を分析してるだけ。 Twitter and the micro-messaging revolution: Communication,connections, and immediacy.140 characters at a time. Milstein, S., Chowdhury, A., Hochmuth, G., Lorica, B., & Magoulas, R. O’Reilly Media, 2008 Technically speaking: All a-Twitter P. McFedries IEEE Spectrum, 2007 Twitterの紹介。 Why we Twitter: Understanding microblogging usage and communities A. Java, X. Song, T. Finin, B. Tseng SNA-KDD2007 Twitter: CS4803: Design of Online Communities P. Stamatiou, J. McCree, T. Marshall, and M. Robertson 授業のレポート George Tech 授業でやったリサーチっぽい。11名の学生に電話インタビュー。 Twitter Power:Tweets as ElectronicWord of Mouth Bernard J. Jansen, Mimi Zhang, Kate Sobel, and Abdur Chowdury Journal of the American Society for Information Science and Technology, 2009 Penn. State Univ., and Twitter Inc. Twitterでのブランドへの言及、それがpositiveかnegativeかを調べている。単語の解析等。サーベイは参考になる。Summarizeという既存のシステムを使って分析。1万4200のtweetをAPIでダウンロードして使っている。 Mining the Web for relations N. Sundaresan and J. Yi Computer Networks, VOl.33, 2000 IBM Almaden, and UCLA パターンと関係の双対性。Acronymを見つける。WWW9に掲載。 Unsupervised Query Categorization using Automatically-Built Concept Graphs Large Scale Integration of Senses for the Semantic Web J. Gracia, M. d'aquin, and E. Mena WWW2009 U. of Zaragoza (Spain) and The Open Univ. (UK) appleとかの意味の冗長性に対処するために、オントロジーをクラスタリングする。 A Search-based Method for Forecasting Ad Impression in Contextual Advertising X. Wang, A. Broder, M. Fontoura, and V. Josifovski WWW2009 U. Mass Amherst, and Yahoo! Research コンテンツ連動広告で、インプレッションを予測する方法を提案する。1)アドの選択プロセス、2)パブリッシャーのトラフィックの経時変化、3)大規模スケールを考えないといけない。 Why is the Web Loosely Coupled? A Multi-Faceted Metric for Service Design Automated Construction of Web Accessibility Models from Transaction Click-streams J. Mahmud, Y. Borodin, I.V. Ramakrishnan, and C. R. Ramakrishnan WWW2009 Stony Brook Univ. ユーザの操作から、意味的なセグメントを抽出する。例えば、add_to_cartとかcheck_outとか。 Rapid Development of Spreadsheet-based Web Mashups W. Benatallah, J. Vayssiere, R. Saint-Paul, and F. Casati WWW2009 U. of New South Wales (Australia), SAP (Australia), Create-net (Italy), and U. of Trento (Italy) マッシュアップするときにプログラムを書けない人も多いので、表計算の形でマッシュアップを実現する。 Constructing Folksonomies from User-Specified Relations on Flickr Ranking and Classifying Attractiveness of Photos in Folksonomies The Slashdot Zoo: Mining a Social Network with Negative Edges Network Analysis of Collaboration Structure in Wikipedia A Measurement-driven Analysis of Information Propagation in the Flickr Social Network M. Cha, A. Mislove, K. Gummadi WWW2009 Campus E1 4 (Germany) Flickrのデータを分析。どのくらい写真が広まるか。 Social Search in "Small-World" Experiments Triplify ? Light-Weight Linked Data Publication from Relational Databases SOFIE: A Self-Organizing Framework for Information Extraction Evaluating Similarity Measures for Emergent Semantics of Social Tagging Tagommenders: Connecting Users to Items through Tags Personalized Recommendation on Dynamic Content Using Predictive Bilinear Models Learning Consensus Opinion: Mining Data from a Labeling Game P. Bennet, D. Maxwell, and A. Mityagin WWW2009 Microsoft Live Labs ランキングされたリストの中から最もよいものを2人が選んで、 それが一致したときにだけ報酬が出るシステム。 34日間の1800万のデータを分析。 Learning to Recognize Reliable Users and Content in Social Media with Coupled Mutual Reinforcement J. Bian, Y. Liu, D. Zhou, E. Agichtein, and H. Zha WWW2009 Georgia Tech, Emory Univ., and Facebook Inc. QAサイトで過去の質問・回答は重要な情報源だが、それを再利用するためには 教師つき学習が必要になる。これを、半教師つき学習にする。 質問の質と、答えの質を計算し、これでユーザの評判を計算する。 Spatio-Temporal Models for Estimating Click-through Rate Deepak Agarwal, Bee-Chung Chen, and Pradheep Elango WWW2009 Yahoo! Labs CTRを推測するための時空間モデル。動的ガンマ-ポアソンモデル。 Yahoo! Front PageのToday Moduleでのデータを使う。 KW: 山本くん Click Chain Model in Web Search F. Guo, C. Liu, A. Kannan, T. Minka, M. Taylor, Y. Wang, and C. Faloutsos WWW2009 CMU, Microsoft Research ベイジアンに基づくクリック鎖モデル。1ヶ月間の商用検索エンジンのクエリーセッションの情報を使い、従来よりも10%近い予測精度の向上が見られた。 KW: 山本くん How much can Behavioral Targeting Help Online Advertising? J. Yan, N. Liu, G. Wang, W. Zhang, Y. Jiang, and Z. Chen WWW2009 Microsoft Research Asia 行動ターゲティングの実データの分析。 ある商用検索エンジンからのログを得ている。7日間で、 600万ユニークユーザ、33万の広告。ユーザを表す4つの方法。1)長期(7日)のページ閲覧、2)長期の検索語、3)短期(1日)のページ閲覧、4)短期の検索語。これにクラスタリングの方法を組み合わせて評価している。 KW: 山本くん A Class-Feature-Centroid Classifier for Text Categorization H. Guan, J. Zhou, and M. Guo WWW2009 Shanghai Jiao Tong Univ. 単なるテキスト分類。ロイター新聞記事とニュースグループで評価。なぜ採択されているか不思議。 Latent Space Domain Transfer between High Dimensional Overlapping Distributions S. Xie, W. Fan, J. Peng, O. Verscheure, J. Ren WWW2009 Sun Yat-Sen Univ., IBM T.J. Watson 転移学習。2つのデータから欠損値を埋めた後、潜在空間の構造を見つける。SRAA(Simulated Real Auto Aviation)、20ニュースグループ、ロイターのデータ。(ウェブじゃない!) Using Transactional Information to Predict Link Strength in Online Social Networks IndikaKahanda and Jennifer Neville ICWSM 2008 Purdue Univ., Indiana, USA SNS上で、実際には弱いつながりも多い。コミュニケーションやファイル転送などの処理データを用いることで、 本当のリンクの強さを予測する。これをFacebookのネットワークにも適用して、強い関係(top friends)を推測する。 Towards Context-Aware Search by Learning A Very Large Variable Length Hidden Markov Model from Search Logs H. Cao, D. Jian, J. Pei, E. Chen, and H. Li WWW2009 U. of Science and Technology of China, and Microsoft Research Asia サーチのログから、可変HMMで文脈依存の検索を実現する。18億クエリー、26億クリック、8億4000万セッション。リランキング、クエリー提示、URL推薦のタスクで評価。 KW: 山本くん Smart Miner: A New Framework for Mining Large Scale Web Usage Data M. A. Bayir, I. H. Toroslu, A. Cosar, and G. Fidan WWW2009 U. at Buffalo (US), METU NCC(Turkey) ユーザのログからセッションを出し、Apriori-All法で頻度の高いパスを見つける。 KW: 山本くん Exploiting Web Search to Generate Synonyms for Entities Surajit Chaudhuri, Venkatesh Ganti, and Dong Xin WWW2009 Microsoft Research エンティティとその文字列の対応を学習する。検索エンジンで相関を測る。 Efficient Overlap and Content Reuse Detection in Blogs and Online News Articles J. W. Kim, K. S. Candan, and J. Tatemura WWW2009 Arizona State U., and NEC Labs America ブログのエントリがどこの情報に由来しているかを検知する。qSignというアルゴリズムで、10倍から100倍高速化しても、再利用判定の精度が90%にしか落ちない。 インデキシングを工夫する。 StatSnowball: A Statistical Approach to Extracting Entity Relationships J. Zhu, Z. Nie, X. Liu, B. Zhang, and J. Wen WWW2009 Tsinghua Univ., Microsoft Research Asia マルコフ論理ネットワークを使ってブートストラップ的に関係抽出の問題を解く。人立方でも使われている。 KW: Liさん Enhancing Diversity, Coverage and Balance for Summarization through Structure Learning L. Li, K. Zhou, G. Xue, H. Zha, and Y. Yu WWW2009 Shanghai Jiao-Tong Univ. 要約の問題をstructure SVMを使って解く。多様性、網羅性、バランスという3点を考慮。 Fast Dynamic Reranking in Large Graphs Purnamrita Sarkar and Andrew W. Moore WWW2009 CMU and Google 検索の結果を、ユーザのフィードバックを使ってリランキングする。DBLPから作ったE-Rグラフを使う。半教師つき学習。 Extracting Key Terms From Noisy and Multi-theme Documents Maria Grineva, Maxim Grinev, and Dmitry Lizorkin WWW2009 Programming of the Russian Academy of Sciences キーワードを抽出するために、Wikipediaから作った関連性でグラフを作る。Newman法で中心のコミュニティの語をキーワードとして取り出す。 Time Series Prediction by Using a Connectionist Network with Internal Delay Lines Eric A Wan Time Series Prediction. Forecasting the Future and Understanding the Past, 1994 Stanford How Opinions are Received by Online Communities: A Case Study on Amazon.com Helpfulness Votes Cristian Danescu-Niculescu-Mizil, Gueorgi Kossinets, Jon Kleinberg, and Lillian Lee WWW2009 Cornell Univ. and Google Amazonの「役に立ちましたか」をいろいろ調べてる。 Rated Aspect Summarization of Short Comments Yue Lu, ChengXiang Zhai, and Neel Sundaresan WWW2009 U. of Illinois and eBay 商品に対する評価をいくつかの側面に分解する。構造化PLSAを用いる。eBayのデータを使う。 Requirement of an Allosteric Kinetics of NMDA Receptors for Spike Timing-Dependent Plasticity Hidetoshi Urakubo,Minoru Honda,Robert C. Froemke,and Shinya Kuroda Journal of Neuroscience 2008 From many tweets, one loud voice on the internet J. Pontin The New York Times, April 22, 2007 Exploiting Feature Hierarchy for Transfer Learning in Named Entity Recognition Andrew Arnold, Ramesh Nallapati andWilliam W. Cohen ACL-08 CMU 属性を階層的に作る。論文、ニュース、e-mailなどから transferする。 Text Categorization with Knowledge Transfer from Heterogeneous Data Sources Rakesh Gupta, and Lev Ratinov Honda Research Institute USA Inc. AAAI08 WIkipedia, Openディレクトリー、Yahoo! Answersなど、 複数の情報源を用いて、短い文の分類の精度を上げる。 Transferring Naive Bayes Classifiers for Text Classification Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu AAAI07 Shanghai Jiao Tong U., Hon Kong U. of Science and Technology ニュースグループで学習してブログに適用するときなどに分布が違うので分類器の精度が落ちる。Kullbuck-Leiblerダイバージェンスを使って、訓練データと学習データの差を測る。 Identifying Potentially Important Concepts and Relations in an Ontology あ ISWC2008 人が理解するために、重要な概念と関係を取り出す。重みを計算する。 Using Semantic Distances for Reasoning with Inconsistent Ontologies あ ISWC2009 Google距離を使って、矛盾のあるオントロジーの矛盾部分を探す。 idMesh: Graph-Based Disambiguation of Linked Data あ www2009 Exploring Semantic Social Networks Using Virtual Reality あ ISWC2008 特許のネットワークを見る。 Semantic Relatedness Measure Using Object Properties in an Ontology a ISWC2008 Term Dependence on the Semantic Web あ ISWC2008 Extracting Semantic Networks from Text via Relational Clustering Stanley Kok, Pedro Domingos A Fast Algorithm to Find Overlapping Communities in Networks Steve Gregory Hierarchical, Parameter-Free Community Discovery S. Papadimitriou, J. Sun, C. Faloutsos, and P. S. Yu PKDD2008 IBM T.J. Watson Research Center, CMU, and U. Illinois, Chicago コミュニティのなかのコミュニティを見つける。 Improving Maximum Margin Matrix Factorization M. Weimer, A. Karatzoglou, and A. Smola PKDD 2008 Technische Universitat Darmstadt, Germany 推薦システム等の協調フィルタリングなどで用いられる行列Fに対して、 UとMのフロベニウスノルムが最小になるようなF=UMを求める。 この基本的なアルゴリズムに対して、オフセット(ユーザごとの傾向を加える)、 適応的正則化(過学習を避ける)、グラフカーネルなどの拡張をして、 この拡張が有効であることを、EachMovie, MovieLens等のデータで示している。 The BellKor 2008 Solution to the Netflix Prize R. Bell, Y. Koren, and C. Volinsky レポート AT&T and Yahoo! Research Netflixのコンテストで1位をとったシステムのレポート。 SVD基本で、いろんな要素をつなぎあわせている。 On the Gravity Recommendation System G. Takacs, I. Pilaszy, B. Nemeth, and D. Tikk KDD-cup 2007 Budapest U. of Technology and Economics ユーザと商品の評価マトリックスXを、分解する。(ここではSVD)。 時間の要素をいれたり、パーセプトロンで解いたりしている。 Netflixのコンテストで、一時的に1位になったシステム。 A Survey on Transfer Learning Sinno Jialin Pan and Qiang Yang November 2008 Hong Kong Univ. Ontology Summarization Based on RDF Sentence Graph X. Zhang, G. Cheng, and Y. Qu WWW2007 Southeast Univ. RDFグラフの要約を作るのに、RDF文の中心性を(さまざまな指標で)求める。 Summarization and Information Loss in Network Analysis Jamie F. Olsony Kathleen M. Carley 不明 ノードを削除し、ネットワークの情報量を計算する。出典、出版年不明。 An Algorithm to Find Overlapping Community Structure in Networks Steve Gregory Proc. PKDD2007 U. of Bristol ノードを分割することで、重なったコミュニティを見つける。 SCAN: A Structural Clustering Algorithm for Networks X. Xu, N. Yuruk, Z. Feng, and T. Schweiger KDD07 U. of Arkansas at Little Rock, Acxiom Corporation ネットワーククラスタリング。 Probabilistic Latent Semantic Visualization: Topic Model for Visualizing Documents T. Iwata, T. Yamada, and N. Ueda KDD2008 Weighted graphs and disconnected components: Patterns and a generator M. McClohon, L. Akoglu, and C. Faloutsos KDD2008 Family of Dissimilarity Measures between Nodes Generalizing both the Shortest-Path and the Commute-time Distances L. Yen, A. Mantrach, M. Shimbo, and M. Saerens KDD2008 Universite catholique de Louvain (Belgium) and NAIST (Japan) RSP(ランダム最短パス)非類似度を定義する。パラメータθを調整することで、 標準的な最短距離、もしうは通勤時間距離になる。 Microscopic Evolution of Social Networks J. Leskovec, L. Backstrom, R. Kumar, and A. Tomkins KDD2008 Flickr, Delicious, Yahoo! Answers, LinkedInのデータ分析。 時系列の発展の分析。次数分布や優先選択が起こっているか、など。 Structured Learning for Non-Smooth Ranking Losses R. Khanna, U. Sawant, S. Chakrabarti, and C. Bhattacharyya KDD2008 IIT Bombay Learning to Rankの話。 Combinational Collaborative Filtering for Personalized Community Recommendation W. Chen, D. Zhang, and E. Chang KDD2008 Hypergraph Spectral Learning for Multi-label Classification L. Sun, S. Ji, and J. Ye KDD2008 Influence and Correlation in Social Networks A. Anagnostopoulos, R. Kumar, and M. Mahdian KDD2008 Reconstructing Chemical Reaction Networks: Data Mining meets System Identification あ KDD2008 Community Evolution in Dynamic Multi-Mode Networks あ KDD2008 Information Extraction from Wikipedia: Moving Down the Long Tail F. Wu, R. Hoffmann, and D. Weld KDD2008 U. of Washington Can Complex Network Metrics Predict the Behavior of NBA Teams? P. Vaz de Melo, V. Almeida, and A. Loureiro KDD2008 Federal Univ. of Minas Gerais SAIL: Summation-based Incremental Learning for Information-Theoretic Clustering J. Wu, H. Xiong, and J. Chen KDD2008 Beihan Univ., State Univ. of New Jersey, and Tsinghua Univ. 情報理論的なK-Meansクラスタリング。 The Structure of Information Pathways in a Social Communication Network G. Kossinets, J. Kleinberg, and D. Watts KDD2008 Cornell Univ. and Yahoo! Research ソーシャルネットワークで、情報が流れる時間を考慮して距離を定義。 さすがに読みやすくて面白い。SNS分析に使えそう。 Mobile Call Graphs: Beyond Power-Law and Lognormal Distributions M. Seshadri, S. Machiraju, A. Sridharan, J. Bolot, C. Faloutsos, and J. Leskovec KDD2008 Sprint and CMU 携帯電話のコールのネットワーク分析。次数の分布の分析。 Using Ghost Edges for Classification in Sparsely Labeled Networks B. Gallagher, H. Tong, T. Eliassi-Rad, and C. Faloutsos KDD2008 Lawrence Livermore National Laboratory and CMU ネットワーク内の分類に、「ゴーストエッジ」をつけることで ラベルありのノードの情報が流れるようにする。 Bridging Centrality Graph Mining from Element Level to Group Level あ KDD2008 Colibri: Fast Mining of Large Static and Dynamic Graphs H. Tong, S. Papadimitriou, J. Sun, P. Yu, and C. Faloutsos KDD2008 CMU Colibri法というグラフマイニングの方法。 Weighted Graphs and Disconnected Components -- Patterns and a Generator -- M. McGlohon, L. Akoglu, and C. Faloutsos KDD2008 CMU Feedback Effects between Similarity and Social Influence in Online Communities D. Crandall, D. Cosley, D. Huttenlocher, J. Kleinberg, and S. Suri KDD2008 Cornell Univ. 松尾の論文と似てる。 Multi-Task Feature Learning A. Argyriou, T. Evgeniou, and M. Pontil NIPS 2007 U. College London Multi-task feature selection Guilaume Obozinski and Ben Taskar In the workshop of structural Knowledge Transfer for Machine Learning (ICML 06) Semi-Supervised Learning Literature Survey Xaojin Zhu 2008 U. of Wisconsin とてもよいサーベイ。 BOOSTING LINEAR DISCRIMINANT ANALYSIS FOR FACE RECOGNITION Juwei Lu, K.N. Plataniotis, A.N. Venetsanopoulos Proc. Image Processing, 2003 U. of Toronto, Canada Searching for Interacting Features Zheng Zhao and Huan Liu IJCAI-07 Arizona State Univ. 相互作用する素性は、単独では関連性が低いが、組み合わせると関連性が高くなることもある。例えば、(A1=A2) or (A5=1)というコンセプトでは、A1とA2が相互作用している。フルセットの素性から探索的に削っていく。 Feature Selection and Kernel Design via Linear Programming Change of Representation for Statistical Relational Learning Guang Dai & Dit-Yan Yeung IJCAI-07 Hong Kong Univ. of Sci. and Tech Efficient and Robust Independence-Based Markov Network Structure Discovery Facundo Bromberg, Dimitris Margaritis IJCAI-07 マルコフネットワークの構造を学習する。 Supervised and Unsupervised Discretization of Continuous Features James Dougherty, Ron Kohavi, and Mehran Sahami ICML-95 Stanford Univ. 素性を離散化したほうが精度があがることについて。 Open Information Extraction from the Web Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni IJCAI07 U. of Washington KnowItAllとかのプロジェクトの全体像的な論文。 Learning by Analogy : a Classification Rule for Binary and Nominal Data Sabri Bayoudh, Laurent Miclet and Arnaud Delhay IJCAI07 Universit de Rennes 1, France a対bは、c対dのアナロジーを見つける。 Soft Clustering on Graphs K. Yu, S. Yu, and V. Tresp U. of Munich, Germany ネットワークのグラフ分割(graph-factorization clustering)によるソフトクラスタリング。行列の式展開が参考になる。 Yes, There is a Correlation - From Social Networks to Personal Behavior on the Web Parag Singla and Matthew Richardson WWW2008 U. Washington, Microsoft Research マイクロソフトのインスタントメッセンジャーのログと、MSNの検索エンジン(Windows Live Search)のログを用いている。ユーザのプロファイル(郵便番号、性別、年)なども分かる。1億6千万人の250億セッションのIMデータ。行数だけは分かる。3000万人の5億のクエリー。ユーザのidが分かってるものだけjoinすると、1300万ユーザになる。あとはよく話すペアでの類似度を測っているだけ。まあ、分析はいいとして、とにかくデータがすごい。 Knowledge Sharing and Yahoo Answers: Everyone Knows Something L. Adamic, J. Zhang, E. Bakshy, and M. Ackerman WWW2008 U. Michigan Yahoo! Answerを分析して、どの答えがベストアンサーに選ばれるかを予測。 他にカテゴリーのエントロピーを分析している。 Statistical analysis of the social network and discussion threads in Slashdot Vincenc Gomez, Andreas Kaltenbrunner, and Vincente Lopez WWW2008 Barcelona Media Centre d'Innovacio, and Universitat Pompeu Fabra, Spain スラッシュドットのネットワーク分析。本当に社会ネットワーク分析っぽい論文で、正確で上品な分析だけど、特に新規の手法とかはない。 FacetNet: A Framework for Analyzing Communities and Their Evolutions in Dynamic Networks Y. Lin, Y. Chi, S. Zhu, H. Sundaram, and B. Tseng WWW2008 Arizona State Univ., NEC lab America, Yahoo! Inc. FacetNetというので、コミュニティとその時間発展を分析している。各時間で切るとノイズが多いので、時系列を統合的に扱う必要がある。ソフトコミュニティ(複数のコミュニティに所属してもよい)のアプローチを取る。 Statistical Properties of Community Structure in Large Social and Information Networks Jure Leskovec, Kevin Lang, Anirban Dasgupta, and Michael Mahoney CMU and Yahoo! Research コンダクタンスとコミュニティの分析 Why Web 2.0 is Good for Learning and for Research: Principles and Prototypes Lock-Free Consistency Control for Web 2.0 Applications Birds of a Feather: Homophily in Social Networks McPherson, Miller; Lynn Smith-Lovin; James Cook. Annual Review of Sociology 27: 415-444, 2001 U. of Arizona, Duke Univ. ホモフィリーのサーベイ。 アリストテレスやプラトンから始まって、1920年代のBottやAlmackらの研究、1900年代中期の人種や民族性の研究、正の影響、負の影響の研究、70年代、80年代のより大きなスケールでの研究、職場環境での成果に関する最近の研究など。 Lazarfeldらは、ホモフィリーを2つに分けた。Status homophily(状態による)、Value homophily(価値や態度、信念による)。ホモフィリーは、次のような次元がある。人種・民族性、性、年齢、宗教、教育・職業・社会クラス、ネットワーク上の位置、行動(behavior)、態度・能力・信念・あこがれ、など。 また、その原因について、地理的要因、家族、組織的な焦点、同一の情報源、認知プロセスなど。 将来の研究に必要なものとして、動的なデータ、焦点とネットワークのco-evolutionの研究が必要だと述べられている。(重要) Homophily of Network Ties and Bonding and Bridging Social Capital in Computer-Mediated Distributed Teams Y. Connie Yuan and Geri Gay Journal of Computer-Mediated Communication, 2006 Cornell Univ. 32人の学生に対して社会ネットワークデータを集め、 MQAP回帰分析をしたところ、姓や人種のホモフィリーは、有益で表現的な紐帯の発展と関係ないことが分かった。グループの割り当てや位置におけるホモフィリーが、紐帯の形成に重要である。 Controversial Users Demand Local Trust Metrics: an Experimental Study on Epinions.com Community Paolo Massa and Paolo Avesani AAAI-05 ITC-iRST, Italy 論議的割合(controversiality percentage)というのを定義している。 Trust metrics on controversial users: balancing between tyranny of the majority and echo chambers Paolo Massa and Paolo Avesani ITC-iRST, Italy Trust management for the semantic web. M. Richardson, R. Agrawal, and P. Domingos. ISWC2003 U. Washington, and IBM Almaden BibServの文献データとEpinionsのデータを使って実験。 信念(人のある主張に対する値)と、人への信頼の値を使って、 ある信念の信頼度を出す。基本的に、経路上の信念の値(0から1)をかけあわせて、 複数経路についてたし合わせるモデル。0-1にランダムにつけた信念の値と、Epinionsの信頼のデータ(を実数値化したもの)を使っている。 The eigentrust algorithm for reputation management in P2P networks S. D. Kamvar, M. T. Schlosser, and H. Garcia-Molina. WWW2003 Stanford Univ. P2Pのネットワークでの信頼性の評価。信頼値を伝播させていく方法。 Propagation of Trust and Distrust R. Guha, R. Kumar, P. Raghavan, and A. Tomkins WWW2004 IBM トラストの予測をする。トラストネットワークと、ディストラストネットワークを作って、 その組み合わせ方や伝播のさせかたを検討している。Epinionsのデータを使っている。 参考文献は参考になる。 Mining, Indexing, and Searching for Textual Chemical Molecule Information on the Web B. Sun, P. Mitra, and C. Giles WWW2008 Penn State Univ. 化学の式を検索する方法。HCRF(階層CRF)を使っている。タギングの分類精度と、検索の平均適合率で評価している。 Optimal Marketing Strategies over Social Networks J. Hartline, V. Mirrokni, and M. Sundararajan WWW2008 Northwestern Univ., Microsoft, and Stanford ソーシャルネットワーク上で、収入を最大化する戦略を見つける。 Extracting Social Networks and Biographical Facts From Conversational Speech Transcripts H. Jing, N. Kambhatla, and S. Roukos ACL2007 IBM Watson What to be? - Electronic Career Guidance Based on Semantic Relatedness Benefits of the Massively Parallel Rosetta Stone: Cross-Language Information Retrieval with over 30 Languages A Multi-resolution Framework for Information Extraction from Free Text Using Corpus Statistics on Entities to Improve Semi-supervised Relation Extraction from the Web Learning to Extract Relations from the Web using Minimal Supervision R. Bunescu and R. Mooney ACL2007 U. of Texas at Austin, USA MII(Multiple Instance Learning)とSVMを、関係抽出に適用。 Semantic Transliteration of Personal Names ? ACL2007 中国語の人名の翻訳 Fully Unsupervised Discovery of Concept-Specific Relationships by Web Mining ? ACL 2007 Visualization of Knowledge Structures IV'07 Lin and Zhang Drexel Univ., John Hopkins Univ. Tracking Multiple Topics for Finding Interesting Articles ? KDD2007 Show me the Money! Deriving the Pricing Power of Product Features by Mining Consumer Reviews N. Archak, A. Ghose, and P. Ipeirotis KDD2007 New York Univ. ある製品評価が実際のセールスにどのくらいの影響を与えるか(+5%増加とか)を素性の重みとしたモデル。Amazonの製品レビューを使っている。 SCAN: A Structural Clustering Algorithm for Networks X. Xu, N. Yuruk, Z. Feng, and T. Schweiger KDD2007 U. of Arkansas at Little Rock クラスターとハブ、アウトライアーを同時にみつける。 Dynamic hybrid clustering of bioinformatics by incorporating text mining and citation analysis F. Janssens, W. Glnzel and B. De Moor KDD2007 tfidf等のキーワードとcitationの両方を使うクラスタリング Detecting Research Topics via the Correlation between Graphs and Texts Y. Jo, C. Lagoze, and C. Lee Giles KDD2007 Cornell U. トピックとcitationのグラフ。 Cost-effective Outbreak Detection in Networks Jure Leskovec, Andreas Krause, Carlos Guestrin, Christos Faloutsos, Jeanne VanBriesen, and Natalie Glance KDD2007 超面白い論文。ネットワークの伝播の爆発を、初期に少ないセンサーで検出する。 Association Analysis-based Transformations for Protein Interaction Networks: A Function Prediction Case Study G. Pandey, M. Steinbach, R. Gupta, T. Garg, and V. Kumar KDD2007 U. Minnesota たんぱく質のインタラクションネットワーク。たんぱく質の機能を予測する。 A Framework For Community Identification in Dynamic Social Networks C. Tantipathananandh, T. Berger-Wolf, D. Kempe KDD2007 U. Illinois 動的なソーシャルネットワークからコミュニティを抽出する。NP困難。 Combining Labeled and Unlabeled Data with Co-Training A. Blum and T. Mitchell ICML98 CMU On the Existence of LinearWeak Learners and Applications to Boosting S. Mannor and R. Meir Machine Learning, 48, 219-251, 2002 Israel ブースティングは、弱い学習器(エラーが1/2-γで抑えられる)を集めて実現できるが、線形分類器が実際に弱い学習器であることを示す。 Feature extraction based on ICA for binary classification problems Nojun Kwak; Chong-Ho Choi Transactions on Knowledge and Data Engineering (TKDE), 2003 Unlabeled Data Can Degrade Classification Performance of Generative Classifiers F. Cozman and I. Cohen Tech Report 2001 HP lab テクニカルレポートなので適当だが、結構読みやすくてよい。 Towards Large Scale Argumentation Support on the Semantic Web Iyad Rahwan, Fouad Zablith, and Chris Reed AAAI2007 World Wide Argument Web (WWAW)を作ろうというもの。例えば、イラク戦争に誰がどういっているか。面白そう。マイニングするというよりは、記述できる枠組みとシステム。 A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data Rie Kubota Ando and Tong Zhang Journal of Machine Learning Research, 2005 IBM 非常に面白い。unlabeledデータから副問題を作り、解くことで仮説空間を小さくし、labeled問題に対するパフォーマンスを上げる。 Two-view Feature Generation Model for Semi-supervised Learning Rie Kubota Ando, and Tong Zhang ICML2007 unlabeledなデータから、少ない数のfeatureを作って、それらの組み合わせとしてlabeled dataにとって有用な属性とする。重要そうだが、難しい。 Semi-supervised learning using gaussian fields and harmonic functions. Zhu, X., Ghahramani, Z., & Lafferty, J. (2003). ICML 2003. CMU ランダムフィールド(データがノードで類似度を表すネットワーク)上でのセミスーパーバイズドのアルゴリズム。 Dynamic Feature Generation for Relational Learning Alexandrin Popescul.. and Lyle H. Ungar MRDM2004 U. of Pennsylvania リンク予測を、動的な属性生成を用いておこなう。アグリゲーションして属性生成するが、詳細はよくわからない。 Collaborative Prediction Using Ensembles of Maximum Margin Matrix Factorizations Arik Azran, and Zoubin Ghahramani ICML 2006 University College London, Univ. of Cambridge クラスタリングをグラフの分割と考えて、マルコフランダムウォークの遷移行列で定義する。KL-divergenceを最小化しながらくっつけていく。 A New Approach to Data Driven Clustering あ ICML2006 Graph Model Selection using Maximum Likelihood あ ICML2006 Uncovering Shared Structures in Multiclass Classification Y. Amit, M. Fink, N. Srebro, and S. Ullman ICML2007 Hebrew Univ. (Israel) Predictive Linear-Gaussian Models of Controlled Stochastic Dynamical Systems Matthew Rudary and Satinder Singh ICML2006 Univ. of Michigan 未来の状態の予測も含めてアクションを決める。 How Boosting the Margin Can Also Boost Classifier Complexity Lev Reyzin, and Robert Schapire ICML2006 Yale Univ., Princeton Univ. ブースティングがなぜoverfitしにくいかをマージンから説明した従来研究をさらに詳細に調べたもの。 Spectral Clustering for Multi-type Relational Data B. Long, Z. Zhang, X. Wu, P. Yu ICML2006 SUNY Binghampton, Yahoo, IBM Watson 複数の関係を使ったスペクトラルクラスタリング。 Semi-Supervised Learning on Riemannian Manifolds Mikhail Belkin, and Partha Niyogi Machine Learning, 2004 U. of Chicago グラフを作って、グラフラプラシアンの固有ベクトルとかを属性にする。 多様体(manifold)を使って属性化する手法。 手書き文字の認識、ニュースグループの文書分類、音素の分類に適用。 Structural Link Analysis from User Profiles and Friends Networks: A Feature Construction Approach William Hsu, Joseph Lancaster, Martin Paradesi and Tim Weninger ICWSM 2007 Kansas State Univ. LiveJournalで、link prediction。 Scatter Networks: A New Approach for Analyzing Information Scatter L. Adamic, S. Bhavnani, and X. Shi 2007 事実とWebページから成るbipartite graphの分析。 Diversity of graphs with highly variable connectivity. D. Anderson and L. Li 2007 Exploring the assortativity-clustering space of a networks degree sequence. P. Holme and J. Zhao Physical Review E, 2007 AT&T Cycle free effective conductance (CFEC)というノードの近さのメジャーを定義。 Measuring and Extracting Proximity in Networks Yehuda Koren, Stephen North, Chris Volinsky KDD2006 AT&T cycle-free effective conductance (CFEC)によってproximityを求める方法。同じ内容。 Capital and benefit in social networks L. Licamele, M. Bilgic, L. Getoor, and N. Roussopoulos Proc. 3rd International Workshop on Link Discovery, 2005 U. Maryland 友人関係とイベントのネットワークを作る。FE(friendship-event)ネットワーク。で、キャピタルというのは、イベントをオーガナイズしてそこでどのくらい周りにベネフィットを与えたかで定義する。学術コミュニティの比喩で書かれていて、イベントがカンファレンス、ベネフィットがそこで発表された論文の数、となっている。設定は面白い。 Probabilistic models for discovering e-communities D. Zhou, E. Manavoglu, J. Li, C. Giles, and H. Zha WWW2006 Penn State Univ. (US) コミュニティ内でのやりとりや類似性を分析する。 Community-User-Topicモデルというのを作る。 Identifying early buyers from purchase data P. Rusmevichientong, S. Zhu, and D. Selinger Poster session, SIGKDD 2004 Network data mining: methods and techniques for discovering deep linkage between attributes J. Galloway, S. Simoff Asia-Pacific conference on Conceptual Modelling, 2006 Is seeing believing?: how recommender system interfaces affect users' opinions D. Cosley, S. Lam, I. Albert, J. Konstan, and J. Riedl SIGCHI 2003 Why collective inference improves relational classification D. Jensen, J. Neville, and B. Gallagher Poster Session, KDD2004 U. of Mass Amherst PRM(確率関係モデル)をいくつかに分類。Intrinsic(属性だけ使ってクラスの予測)、R1(1ホップのクラス情報も使う)、R2(2ホップのクラス情報も使う)、CI(Collective Inference: クラスの相互依存)、RCI(クラスの相互依存と、1ホップのクラス情報を使う)。 これはポスターだが、他にも重要な論文がたくさん。 Graph clustering with network structure indices. Matthew J. Rattigan, Marc Maier, David Jensen ICML2007 U. Mass Amherst Girvan-Newmanクラスタリングとか、k-メドイド法とか、計算が大変。そこで、最短パスを高速に求められるネットワーク構造索引(NSI)というのを用いて、効率化する。 Finding tribes: identifying close-knit individuals from employment patterns. Lisa Friedland, David Jensen KDD 2007 Using structure indices for efficient approximation of network properties. Matthew J. Rattigan, Marc Maier, David Jensen KDD 2006: 357-366 Relational data pre-processing techniques for improved securities fraud detection. Andrew Fast, Lisa Friedland, Marc Maier, Brian Taylor, David Jensen, Henry G. Goldberg, John Komoroske KDD 2007 Mining hidden community in heterogeneous social networks D. Cai, Z. Shao, X. He, X. Yan, and J. Han Proc. 3rd International Workshop on Link Discovery, 2005 Summarizing Email Conversations with Clue Words Demographic Prediction based on User's Browsing Behavior The Complex Dynamics of Collaborative Tagging Internet-Scale Collection of Human-Reviewed Data Q. Su, D. Pavlov, J. Chow, and W. Baker WWW2007 Yahoo! Inc 人間がレビューしたデータの収集、活用等。Yahoo! Answersとか。 A Content-Driven Reputation System for the Wikipedia Google News Personalization: Scalable Online Collaborative Filtering Exploring in the Weblog Space by Detecting Informative and Affective Articles Efficient Search Engine Measurements The Discoverability of the Web Extraction and Classification of Dense Communities in the Web Y. Dourisboure, F. Geraci, and M. Pellegrini WWW2007 Instituto di Informatica e Telematica, Pisa, Italy ウェブグラフのコミュニティを見つける。公開されたWebのクロールデータ(1億2000万ノード、1兆リンク)を使ってスケーラブルに見つける。濃い部分=コミュニティという、よくある定義。 Optimizing Web Search Using Social Annotations Answering Relationship Queries on the Web G. Luo, C. Tang, and Y. Tian WWW2007 IBM TJ Watson Research Center 固有名詞間のつながりを見つける。両方が出てくるページでトップにランクされるものを見つけ、関係を表す単語を出す。 Dynamic Personalized Pagerank in Entity-Relation Graphs Soumen Chakrabarti WWW2007 IIT Bombay ノードがエンティティ(email, paper, person, 会議、会社)、エッジが関係(書いた、引用した、働いている)というEntyti-Relationグラフを対象に、Pagerankの計算を行って、ノードの近くにあるエンティティを探す。この計算は計算量が高く、これを早くやる。 A Large-Scale Study of Web Password Habits Hierarchical, Perceptron-like Learning for Ontology-Based Information Extraction Yago: A Core of Semantic Knowledge - Unifying WordNet and Wikipedia Ontology Summarization Based on RDF Sentence Graph The Two Cultures: Mashing Up Web 2.0 and the Semantic Web A. Ankolekar, M. Krotzsch, T. Tran, and D. Vrandecic WWW2007 AIFB, U. of Karlsruhe (German) Semantic Weblogのビジョン。ポジションペーパー。 P-TAG: Large Scale Automatic Generation of Personalized Annotation TAGs for the Web P. Chirita, S. Costache, S. Handschuh, and W. Nejdl WWW2007 L3S / University of Hannover (Germany) キーワードを抽出してタグをつける。 Towards Effective Browsing of Large Scale Social Annotations Rui Li, Shenghua Bao, Ben Fei, Zhong Su, and Yong Yu WWW2007 IBM China Research Lab and Shanghai Jiao Tong Univ. 現在は、キーワード検索、タグクラウド。だけど意味的じゃないし、カテゴライズされていない。 ELSABer (Effective Large Scale Annotation Browser)を提案。意味的な類似度を使う。階層的なブラウジングができる。量が増えても効率的。 Effort Estimation: How Valuable is it for a Web company to Use a Cross-company Data Set, Compared to Using Its Own Single-company Data Set? E. Mendes, S. Di Martino, F. Ferruci, and C. Gravino WWW2007 U. of Salemo (Italy) 単一の企業のプロジェクトのデータと、複数の企業にまたがるプロジェクトのデータのどちらを使うのがよいか。前者のほうが予測精度が高い。 Improved annotation of the blogosphere via autotagging and hierarchical clustering C. H. Brooks and N. Montanez WWW2006 UCSF ブログにタグをどう使うか。同じタグがつけられたブログエントリーがどのくらい近いか。タグやキーワードを類似度に使ってクラスタリングする。タグは広いカテゴリには向いているが、内容を特定するには向いていない。Technoratiを使っている。 タグの関係性のことなどもFuture directionで言及されている。 Using Annotations in Enterprise Search P. A. Dmitriev, N. Eiron, M. Fontoura, and E. Shekita. WWW2006 Automated Tag Clustering Improved search and exploration in the tag space G. Begelman, P. Keller and F.Smadja Proc. of Collaborative Web Tagging Workshop at WWW2006. Expertise Networks in Online Communities: Structure and Algorithms Jun Zhang, Mark S. Ackerman, and Lada Adamic WWW2007 U. of Michigan CEN(community expertise network)。Javaフォーラムで、質問-返信の関係をネットワーク化したもの。まず前分析として、蝶ネクタイの構造分析, 次数分布, degreeの相関。 次に、専門性のランキングの手法。回数、Zスコア、専門性ランクアルゴリズム(PageRankっぽい)、HITS。135ユーザを5段階に分けたデータを作って評価。結果は、Zスコア、専門性ランク、HITSであまり変わらない。で、シミュレーション。 内容はどこもすごいところはないけど、総合的に良く書けてるという感じ。 Analysis of Topological Characteristics of Huge Online Social Networking Services Yong-Yeol Ahn, Seungyeop Han, Haewoon Kwak, Sue Moon, and Hawoong Jeong WWW2007 KAIST CyworldとMySpace、Orkutを比較している。特に次数分布の分析。 Recommender Systems Alexander Felfernig, Gerhard Friedrich, and Lars Schmidt-Thieme IEEE Inteligent Systems, May/June 2007 U. of Klagenfurt, U. of Hildesheim Natural Language Generation for dialogue: system survey Mariet Theune 2003 U. of Tente 大きく分けて、逆パーシング、文法に基づく言語生成、テンプレートに基づく言語生成、(分布もしくはテンプレートによる)「完全」な言語生成がある。完全な言語生成とは、例えば入力(言語でもそうでなくても)を受け取って、文書プランニング(何を伝えるか、どういう順序で伝えるか)、マイクロプランニング(どういう語彙を使うか、一文にどう入れるか、参照表現をどう使うか)、表層生成(文法的に正しい文をどう作るか、最終的な表現(テキストでよいかhtmlかなど)。文書プランニングは言語非依存だがドメイン依存、表層生成は言語依存でドメイン非依存である。マイクロプランニングは両方必要。 NOMOS: A Semantic Web Software Framework for Annotation of Multimodal Corpora John Niekrasz, and Alexander Gruenstein Proc. LREC 2006 CSLI, Stanford 多くのグループでマルチモーダルなコーパスを共有するためのアノテーションツール。OWLを使っている。トピックの分離や意思決定の時点、アクションアイテムなどを付与できる。 Resolving “You” in Multi-Party Dialog Surabhi Gupta, John Niekrasz, Matthew Purver, Dan Jurafsky SIGDIAL07 Stanford Youという表現を解消する。まず一般的なyouなのか、referentialなyouなのかを分け、次に誰を指しているのかを当てる。後半部分は、AとBの発話数やAとBの間の発話者の数(構造的属性)、AとBの発話間隔(継続時間属性)、発話に含まれる語のの共通性(語彙的属性)などの属性を使って、47%の精度。 Social Network and Content Analysis of Interactions in a Video-Mediated Virtual Community Poon, N. Daniel, B.K. International Conference on Advanced Learning Technologies, 2006 University of Saskatchewan Saskatoon, Canada Politeness Richard James Watts book, 2003 面白そう。6章:A social model of politeness。言語学的な話もたくさんある。 Combining Topic Models and Social Networks for Chat Data Mining Ville H. Tuulos and Henry Tirri Proc. WI 2004 Helsinki Institute for Information Technology, Finland Symbol Grounding for the Semantic Web Anne Cregan. ESWC2007 U. of New South Wales(オーストラリア) シンボルグラウンディング、意味に関するさまざまな話題とセマンティックウェブ。あんまり有用じゃないが読んでて楽しい。外延と内包、entailmentなど。 Integrating Folksonomies with the Semantic Web Lucia Specia and Enrico Motta. ESWC2007 Open University, UK タグの間の関係を、検索エンジンやWikipediaを使って求める。Fig. 1が全体図だけど、結構統合的なシステム。has-mention-ofとか、in-eventとか。 Acquisition of OWL DL Axioms from Lexical Resources Johanna Voelker, Pascal Hitzler and Philipp Cimiano. ESWC2007 AIFB, U. Karlsruhe (Germany) Wikipediaの自然言語文からDescription logicの公理を作る。へぇ。 Data = (Fact ∩ ∃result_from.(Measurement ∪ Observation))とか。 A Generic Methodology for Deriving OWL and RDF-S Ontologies from Hierarchical Classifications, Thesauri, and Inconsistent Taxonomies Martin Hepp and Jos de Bruijn. GenTax ESWC2007 SPARQLeR: Extended Sparql for Semantic Association Discovery Krys Kochut and Maciej Janik ESWC2007 Simple Algorithms for Predicate Suggestions using Similarity and Co-Occurrence Eyal Oren, Sebastian Gerke and Stefan Decker ESWC2007 Learning Disjointness Johanna Voelker, Denny Vrandecic, York Sure and Andreas Hotho. ESWC2007 Minimal Deductive Systems for RDF Sergio Munoz, Jorge Perez and Claudio Gutierrez. ESWC2007 best paper Ontology-Driven Semantic Ranking for Natural Language Disambiguation in the OntoNL Framework Anastasia Karanastasi and Stavros Christodoulakis. ESWC2007 Web-Annotations for Humans and Machines Norbert Fuchs and Rolf Schwitter. ESWC2007 Mining the web through verbs: a case study Peyman Sazedj and Helena Sofia Pinto. ESWC2007 What have Innsbruck and Leipzig in common? Extracting Semantics from Wiki Content Soren Auer and Jens Lehmann. ESWC2007 SALT - Semantically Annotated LaTeX for scientific publications Tudor Groza, Siegfried Handschuh, Knud Hinnerk Moller and Stefan Decker. ESWC2007 Emerging Sciences of the Internet: Some New Opportunities Ron Brachman ESWC2007 Distributed Knowledge Representation on the Social Semantic Desktop: Named Graphs, Views and Roles in NRL Michael Sintek, Ludger van Elst, Simon Scerri and Siegfried Handschuh. ESWC2007 DFKI and DERI NEPOMUKプロジェクト。NEPOMUK Representation Language (NRL)。 RDFグラフに関する表現のオントロジー。 IdentityRank: Named Entity Disambiguation in the Context of the NEWS Project Norberto Fernandez Garcia, Jose Maria Blazquez del Toro, Luis Sanchez Fernandez and Ansgar Bernardi. ESWC2007 U. of Madrid, DFKI セマンティックアノテーションの際、固有名詞の曖昧性解消のために、特定のエンティティに関連したインスタンスのランキングを返す。Alonso(F1ドライバー、大臣など)やGeorgia(アメリカの州、国(グルジア))を用いた例。 Feature Selection Using Linear Support Vector Machines Janez Brank, Marko Grobelnik, Nata.a Mili.-Frayling, Dunja Mladeni. Tech report, Microsoft, 2002 Microsoft 2/1, 4/1, 8/1などのデータを使って重みを計算し、feature selectionする方法。 従来のlog oddsやinformation gainと比較し、良いことを示している。 A Multi-relational Network to Support the Scholarly Communication Process Marko A. Rodriguez International Journal of Public Information Systems, 2007 Los Alamos National Laboratory 面白そう。イベント空間のコンセプトに近い。paper, author, journalのレイヤー。 Discovering Knowledge from Relational Data Extracted from Business News A. Bernstein, S. Clearwater, S. Hill, C. Perlich, and F. Provost MRDM2002 New York Univ. 共起で会社の関係を認識。ネットワークの表示、中心性の分析。金さんの研究のpreliminary versionな感じ。 Multi-relational data mining: an introduction Saso Dzeroski SIGKDD Explorations Newsletter, 2003 複数の関係があるネットワークの紹介記事。 Multi-Relational Data Mining 2005: workshop report Hendrik Blockeel, Saso Dzeroski SIGKDD Explorations Newsletter 2005 ワークショップを継続的に開催している。 Community Mining from Multi-relational Networks. Deng Cai, Zheng Shao, Xiaofei He, Xifeng Yan, and Jiawei Han PKDD2005 U. of Illinois at Urbana Champaign コミュニティ内でのリンクを多く、コミュニティ間のリンクを少なくするように、 複数のリンクを重みつき線形和で足し合わせる方法。 TD(λ) Networks: Temporal-Difference Networks with Eligibility Traces Brian Tanner, Richard S. Sutton ICML2005 U. of Alberta, Canada Temporal-difference(TD)ネットワーク。ひとつのノードがひとつの値の予測を表す。他のノードや観測へリンクを持つ。予測のためにλステップさかのぼっての学習? 簡単な実験。 Variable selection by rank-one updates for least squares support vector machines Fabian Ojeda, Johan A.K. Suykens and Bart De Moor Statistical Models for Social Networks with Application to HIV Epidemiology Mark Handcock NIPS2007 Statistics, University of Washington The Google Similarity Distance Rudi Cilibrasi and Paul Vitanyi IEEE Transactions on Knowledge and Data Engineering, 2007 正規化グーグル距離(NGD)や正規化情報距離(NID)などを詳細に検討している。Jaccardなどの類似尺度との比較は分からないが、ちゃんと把握しておくほうが良さそう。 Neural Network Realization of Support Vector Methods for Pattern Classification Ying Tan, Youshen Xia, and Jun Wang Int. Joint Conf Neural Networks (IJCNN 2000), 2000 U. of Science and Technology of China (China) SVMをニューラルネットワークで実装する方法。双対問題を解く。 The Interplay of Optimization and Machine Learning Research K. Bennett, E. Parrado-Hernandez Journal of Machine Learning Research 2006 Rensselaer Polytechnic Institute (NY, USA), U. Carlos III de Madrid (Spain) Support-vector networks C. Cortes and V. Vapnik Machine Learning 1995 A Feature Selection Newton Method for Support Vector Machine Classification G. Fung and O. L. Mangasarian Computational Optimization and Applications, 2004 Learning Structured Prediction Models: A Large Margin Approach B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin ICML2005 Structured Prediction, Dual Extragradient and Bregman Projection B. Taskar, S. Lacoste-Julien, and M. Jordan Journal of Machine Learning Research (JMLR), 2005? TaskarはUC Berkeley Max-margin markov networks B. Taskar, C. Guestrin, V. Chatalbashev, and D. Koller Journal of Machine Learning, 2006 B. Taskar, S. Lacoste-Julien, and M. Jordan Structured prediction, dual extragradient and Bregman projections Journal of Machine Learning Research A Tutorial on o-Support Vector Machines ユーザの評価と音響的特徴との確率的統合に基づくハイブリッド型楽曲推薦システム 吉井, 後藤, 駒谷, 尾形, 奥乃 情報処理学会 研究報告, 2006 京都大学、産業技術総合研究所 Probabilistic models for unified collaborative and content-based recommendation in sparse-data environment A. Popescul, L. Ungar, D. Pennock and S. Lawrence UAI2001 Web-collaborative filtering: Recommending music by crawling the Web W. Cohen and W. Fan Computer Networks, 2000 Foafing the music: A music recommendation system based on RSS feeds and user preferences O. Celma, M. Ramirez, and P. Herrera ISMIR 2005 Iterative Classification in Relational Data Jennifer Neville and David Jensen AAAI Workshop on Learning Statistical Models from Relational Data, 2000 U. Massachusetts ベイジアン分類器を反復的に使って、関連するオブジェクトの分類をする。クラスを反復ごとにだんだん絞っていく。US securities exchange commisionの会社間の取引データ。ボードメンバーやストックホルダー、支店など。会社を銀行業か化学業に分けるタスク。反復ごとに精度が上がっていくことを示している。 Machine Learning Techniques for Annotating Semantic Web Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval David Lewis Proc. ECML-98 AT&T ナイーブベイズの独立性の仮定にする議論、研究の紹介が分かりやすくまとめられている。 Considering Multiple Options when Interpreting Spoken Utterances Sarah George, Ingrid Zukerman, Michael Niemann and Yuval Marom IJCAI2007 Workshop Monash University Scusi?というシステム。SowaのCG(Conceptual Graph)を使っている。 First Steps towards Dialogue Modelling from an Un-annotated Human-Human Corpus Sudeep Gandhe and David Traum IJCAI2007 Workshop University of Southern California TFIDFっぽいのを使っている。 AAAI, HLT/NAACL, ACL, SEMDIAL, MLMI, ACL, INTERSPEECH, EMNLP, LAW(ACL), IEEE HumanCOmputing, SIGDial, SRSL7, ASRU SIGDialのページにはコーパスあり。 Not so naive Bayes: Aggregating one-dependence estimators Geoffrey I. Webb, Janice R. Boughton, Zhihai Wang Machine Learning, 2005 Monash University Viewpoints on Emergent Semantics P. Cudre-Mauroux, K. Aberer, A. Abdelmoty, T. Catarci, E. Damiani, A. Illaramendi, M. Jarrar, R. Meersman, E. Neuhold, C. Parent, K. Sattler, M. Scannapieco, S. Spaccapietra, P. Spyns, and G. Tre Journal on Data Semantics, 2006 EPFL, Cardiff Univ. (UK), U. Milan(Italy), Vrije Univ. Brussel (Belgium), Tech. U. Ilmenau (German) 創発的意味が、分散した情報システム間でどのように創られるか。かなり抽象的な話。 Tree-structured Conditional Random Fields for Semantic Annotation J. Tang, M. Hong, and J. Li ISWC2006 Using Ontologies for Extracting Product Features from Web Pages W. Holzinger, B. Krupl, and M. Herzog ISWC2006 Vienna Univ. 製品に関する情報をテーブルから抜き出す。 How Co-occurrence can Complement Semantics? Atanas Kiryakov and Borislav Popov ISWC2007 industry track talk Ontotext 共起の重要性を言う上ではよい材料。videolectures.netにある。co-occurrenceから関係をとったり属性値をとったりする?Ontotextの製品っぽい。 SemKey: A Semantic Collaborative Tagging System A. Marchetti, M. Tesconi, F. Ronzano, M. ROsella, and S. Minutoli WWW2007 workshop IIT, Pisa, Italy 要するにdouble tagging. hasAsTopic, hasAsKind, myOpinionIsなどの関係をつけてタグをつける。statementと考えることができる。 wordnet、Wikipediaなどを使う。 SPARQ2L: Towards Support For Subgraph Extraction Queries in RDF Databases Kemafor Anyawu, Angela Maduko, Amit Sheth WWW2007 Investigating Behavioral Variability in Web Search Ryen White, and Steven Drucker WWW2007 GeoTracker: Geospatial and Temporal RSS Navigation Y. Chen et al. WWW2007 Web Object Retrieval Z. Nie, Y. Ma, S. Shi, J. Wen, and W. Ma WWW2007 Microsoft Research Asia 人や製品、論文、組織などがオブジェクト。Windows Live Product SearchとかLibra Academic Search。画像、名前、特徴を取る。オブジェクトの情報抽出, オブジェクトの同定/統合、オブジェクトの検索。 Dynamic Personalized Pagerank in Entity-Relation Graphs Soumen Chakrabarti WWW2007 IIT Bombay とても面白そう。 Organizing and Searching the World Wide Web of Facts - Step Two: Harnessing the Wisdom of the Crowds M. Pasca WWW2007 Google クエリーログを使って属性を取り出す。車の属性、ワインの属性、大学の属性など。 Towards DomainIndependent Information Extraction from Web Tables Wolfgang Gatterbauer, Paul Bohunsky, Marcus Herzog, Bernhard Krupl and Bernhard Pollak WWW2007 Vienna University of Technology (オーストリア) 視覚的な処理をして表から情報を取り出す。 Optimizing Web Search Using Social Annotation Shenghua Bao, Xiaoyuan Wu, Ben Fei, Gui-Rong Xue, Zhong Su, and Yong Yu WWW2007 Shanghai Jiao Tong University, IBM China Research Lab Optimizing Scoring Functions and Indexes for Proximity Search in Typeannotated Corpora S. Chakrabarti, K. Puniyani, S. Das WWW2006 IIT Bombay type=distance NEAR Hamburg Munichというタイプのクエリーを処理する。 Efficient discriminative learning of Bayesian network classifier via Boosted Augmented Naive Bayes Y. Jing, V. Pavlovic, J. Rehg ICML2005 Georgia Tech (USA) Stochastic Relational Models for Discriminative Link Prediction Kai Yu, Wei Chu, Shipeng Yu, Volker Tresp, and Zhao Xu NIPS2006 NEC lab America, Columbia U. (USA), Siemens (Germany) Inferring network structure from co-occurrences Michael G. Rabbat, Mario A.T. Figueiredo, and Robert D. Nowak NIPS2006 U. of Wisconsin 共起を背後にあるネットワークのランダムウォークによるサンプリング(のpemutation)だと考える。要するに、シャッフルされたマルコフモデル。そうすると、共起からもとのネットワークのパラメータ(初期状態の分布と遷移行列)を考える問題ととらえることができる。 Supplement to inferring network structure from co-occurrences a たぶん、ネットワークを外部指標で評価するという話。 Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, D. Heckerman, D. Geiger, and D. Chickering Machine Learning, 1995 Being Bayesian about Bayesian network structure: A Bayesian approach to structure discovery in Bayesian networks. N. Friedman and D. Koller. Machine Learning, 50(1.2):95.125, 2003. When are links useful? experiments in text classification. M. Fisher and R. M. Everson. Proc. European Conference on IR Research, 2003 Learning structured prediction models: A large margin approach B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin ICML2005 Why collective inference improves relational classification. D. Jensen, J. Neville, and B. Gallagher KDD2004 Inferring Network Structure from Co-Occurrences Michael G. Rabbat, Mario A.T. Figueiredo, and Robert D. Nowak NIPS2006 U. Wisconsin 遺伝子から信号伝達の経路のネットワークを出している。難しい定式化。 Information Bottleneck for Non Co-Occurrence Data Y. Seldin, N. Slonim and N. Tishby NIPS2006 Efficient Structure Learning of Markov Networks using L1-Regularization Su-In Lee, Varun Ganapathi, and Daphne Koller NIPS2006 Stanford U. マルコフネットワークを学習する。 4章 Incremental Feature Introduction Tempering for Bayesian C&RT Nicos Angelopoulos and James Cussen ICML2005 U. York, UK Link-based classification using Laveled and Unlabeled Data Q. Lu and L. Getoor ICML2003 Workshop on The Continuum from Labeled to Unlabeled Data, 2003 U. Maryland Naive Bayesモデルではなく、ロジスティック回帰によるlink-based classificationの手法。同名の論文(using以降がない)が同年の本会議にある。mode-link(最頻のカテゴリにする), count-link, binary-linkという属性を定義していて、唐門くんオペレータで実現できる。 Coraデータセット、Citeseerのデータセット。 ベースライン(Content-Only)とリンク(Mode-link, Binary-link, Count-link)を組み合せた方法で比較している。トレーニングセットとテストセットの間のリンクを全部削除するTest Links Only、それを保持したままにするComplete Link(当然こちらの方が精度が高い)。Count-Linkがやや精度が高い。 Link-based classification Tech report, 2007 Learning the Structure of Markov Logic Networks Stanley Kok and Pedro Domingos ICML2005 U. of Washington Online Learning over Graphs Mark Herbster, Massimiliano Pontil, and Lisa Wainer University College London (UK) ICML2005 Feature Subset Selection Bias for Classification Learning Surendra K. Singhi, Huan Liu ICML 2007 Arizona State Univ. 属性選択に、分類の学習と同じ学習データを使うのはバイアスがかかる。それを解決する。 Full Bayesian Network Classifiers Jing Su and Harry Zhang ICML 2007 U. of New Brunswick Bayesian Learning of Measurement and Structural Models Ricardo Silva, Richard Scheines ICML 2007 Catsby Computational Neuroscience Unit, UK Hierarchical Classification: Combining Bayes with SVM Nicolo Cesa-Bianchi, Claudio Gentile, Luca Zaniboni ICML2006 U. Milano Ranking on Graph Data Shivani Agarwal ICML2006 MIT エンティティのランキング。 Graph Model Selection using Maximum Likelihood Ivona Bezakova, Adam Kalai, Rahul Santhanam ICML2006 U. Chicago Monte Carlo Markov Chain (MCMC) Power lowランダム、優先選択、スモールワールド、一様ランダム等に適用している。 Higher Order Learning with Graphs Sameer Agarwal, Kristin Branson, and Serge Belongie ICML2006 UCSD Fisher Kernels for Relational Data Uwe Dick, Kristian Kersting ECML2006 U. Freiburg (Germany) リレーショナルフィッシャーカーネルは、(生成モデルの)確率P(x|λ*, M)の勾配を使ったカーネル関数である。フィッシャーカーネルとSVMを使うと、精度が大幅にあがることを示す。Webページ分類タスク(KDD Cup 2001)で62.34%が75.28%に。 syntax-drivenカーネルとmodel-drivenカーネルがある。 Improving Bayesian Network Structure Search with Random Variable Aggregation Hierarchies John Burge, Terran Lane ECML2006 Bayesian Learning of Markov Network Structure Aleks Jakulin, Irina Rish ECML2006 Columbia Univ., IBM T.J. Watson Research Center 方向なし確率的分類モデル(マルコフネットワーク)を効率的に構築するアプローチを示す。 Bayesian Active Learning for Sensitivity Analysis Tobias Pfingsten ECML2006 Exploring Multiple Communities with Kernel-Based Link Analysis Takahiko Ito, Masashi Shimbo, Daichi Mochihashi, Yuji Matsumoto PKDD2006 Tractable Models for Information Diffusion in Social Networks Masahiro Kimura, Kazumi Saito PKDD2006 Improving Functional Modularity in Protein-Protein Interactions Graphs Using Hub-induced Subgraphs Duygu Ucar, Sitaram Asur, Umit Catalyurek, Srinivasan Parthasarathy PKDD2006 Ohio state univ. タンパク質間の相互作用ネットワーク(PPIグラフ)で、ハブを複製することでクラスタリングのモジュラリティを高める。 Bayesian Inference for Transductive Learning of Kernel Matrix Using the Tanner-Wong Data Augmentation Algorithm Z. Zhang, D. Yeung, J. Kwok ICML 2004 Hon Kong U. of Science and Technology 適切なカーネルを選ぶ方法。カーネル行列を学習する。 Network Flow for Collaborative Ranking Ziming Zhuang, Silviu Cucerzan, C. Lee Giles PKDD2006 Graph Based Semi-Supervised Learning with Sharper Edges HyunJung (Helen) Shin, College of Medicine, Nicholas Jeremy Hill, Gunnar Ratsch ECML2006 Max Planck Institute (Germany) エッジに方向性を考えるグラフのsemi-supervised learning Distributional Features for Text Categorization Xiao-Bing Xue, Zhi-Hua Zhou ECML2006 Web Communities Identification from Random Walks Jiayuan Huang, Tingshao Zhu, Dale Schuurmans PKDD2006 スペクトラルクラスタリングについて分かりやすく書かれている。スペクトラルクラスタリングは、滞留確率を対角成分とした行列をΠとするとΘ=(Π^0.5 P Π^-0.5 + Π^-0.5 P^T Π^0.5)/2で、このΘの第2固有値の固有ベクトルの正負を見る。このときの遷移確率行列Pを、one-stepにしたりtwo-stepにしたりして、オーソリティやハブだけをクラスタリングしたりする。 Finding patterns in blog shapes and blog evolution Mary McGlohon, Jure Leskovec, Christos Faloutsos, Matthew Hurst and Natalie Glance ICWSM 2007 blogの引用のカスケード。カスケードのタイプをたくさん列挙して、PCAをする。 カスケードモデルをいろいろ調べている。時系列のフラクタル性。 Large-Scale Sentiment Analysis for News and Blogs Namrata Godbole, Manja Srinivasaiah and Steven Skiena ICWSM 2007 UMBC blogのリンク(エントリ間)のpositive/negativeを判定。 bag-of-wordsでプラス/マイナスをつける。さらにトラストと考えて、トラストを伝播するモデルを比較。 隣接行列をMとすると、M, M^T, M^T*M, M*M^Tなどを足し合わせる。 結構面白い。 Looking at the Blogosphere Topology through Different Lenses Xiaolin Shi, Belle Tseng and Lada Adamic ICWSM 2007 U. Michigan いろんなデータセットのネットワークがconsistentかどうか。異なるデータ、異なる収集方法、異なる時間などを比較。次数分布、C, WCC/SCCなどの値で比較。 MySpace is *my* space danah boyd, ICWSM 2007 UC Berkeley 面白い。Frendsterの話、バンドをはじめユーザがmyspaceに移行した。 teens、breakup, メールは大人との会話、8人のbest friendsの機能 symbiotic behavior QA with Attitude: Exploiting Opinion Type Analysis for Improving Question Answering in On-line Discussions and the News Swapna Somasundaran, Theresa Wilson, Janyce Wiebe and Veselin Stoyanov ICWSM 2007 U. Pittsburg, U. Edinburgh, Cornell Univ. positive/negativeのpolarityや**などを、単純なbag of words + SVMよりもきちんと取る。 Sentiment Analysis: Adjectives and Adverbs are Better than Adjectives Alone Farah Benamara, Carmine Cesarano, Antonio Picariello, Diego Reforgiato and VS Subrahmanian ICWSM 2007 形容詞の前にある副詞で、形容詞のスコアを調整して、positive/negativeのスコアを修正。単純。deadなどはどうするのか。 Building Trust with Corporate Blogs Paul Dwyer ICWSM 2007 Texas A&M Univ. 結構面白いかも。tribalism。コメントを良く返すという性質。flocking。 Impact Facotors: Use and Abuse M. Amin & M. Mabe Elsevier Science How to build a webfountain: An architecture for very large-scale text analytics. D. Gruhl, L. Chavet, D. Gibson, J. Meyer, P. Pattanayak, A. Tomkins, and J. Zien. IBM Systems Journal, 2004 IBM Semtag and seeker: Bootstrapping the semantic web via automated semantic annotation S. Dill, N. Eiron, D. Gibson, D. Gruhl, R. Guha, A. Jhingran, T. Kanungo, S. Rajagopalan, A. Tomkins, J. Tomlin, and J. Y. Zien. WWW2003 IBM Maximum entropy discrimination Structure and Evolution of Online Social Networks R. Kumar, J. Novak, A. Tomkins poster KDD2006 Yahoo! Research 良いメンバーの論文だが、内容はポスターだけあって、完成度が低い。 How to upgrade propositional learners to first order logic: A case study. W. V. Laer and L. D. Raedt. In S. Dzeroski and N. Lavrac, editors, Relational Data Mining. Springer-Verlag, 2001. Statistical Relational Learning for Document Mining Alexandrin Popescul, Lyle H. Ungar, Steve Lawrence, and David M. Pennock U. Pennsylvania, Google, Overture ICDM-2003 Structural Logistic Regression (SLR)というタスク。2つのプロセスから成る。属性の生成、統計的モデル選択基準による選択。ILPとほぼ同様。赤池情報量基準(AIC)やBICなど。CiteSeerのデータで検証。 Propositionalization-based relational subgroup discovery with RSD Filip Zelezy, and Nada Lavra Machine Learning, 2006 Institute Jozef Stefan, Slovenia Relational Subgroup Discovery (RSD). East-West Train問題では、西行き、東行きの電車というかたまりを見つける。WRA_cc search heuristicで重み付ける。 Distribution-based aggregation for relational learning with identifier attributes Claudia Perlich, and Foster Provost Machine Learning 2006 PRL: A probabilistic relational language Lise Getoor, and John Grant Machine Learning, 2006 U. of Maryland PRMを論理プログラミングの枠組みで解釈している。PRLはpearlと読むらしい。対応付けるための定義がずーっと並んでいる。内容はPRMのほかの論文と同じ。entity uncertaintyとかreference uncertaintyなど。 Introduction to the Special Issue on Link Mining Lise Getoor, and Christopher Diehl SIGKDD Explorations, 2005 Introduction to the Special Issue on Multi-Relational Data Mining and Statistical Relational Learning Hendrik Blockeel, David Jensen, Stefan Kramer Machine Learning, Volume 62, Numbers 1-2, 2006 Jozef Stefan Institute (Slovenia) 複数のテーブルからのデータマイニング(Multi-Relational Data Mining)。例えば、ユーザテーブルと購買テーブルなど。 ILPの概説とそれとの関係が述べられている。わりといい解説。 Relational association rules, Relational decision tree, Relational distance-based approach。 Probabilistic Frame-based Systems D. Koller and A. Pfeffer AAAI98 Stanford PRMの最初の構想のような論文。Bayesian Networkとframe表現を結びつける。slot chain、reference uncertaintyなどの話。 ObjectRank: Authority-based Keyword Search in Databases A. Balmin, V. Hristidis, and Y. Papakonstantinou VLDB 2004 IBM Almaden, Florida Univ, UC San Diego DBのスキーマから、authority transfer schema graphを作る。キーワードを入れてObjectを得るみたいだが。 Learning Parameters in Entity Relationship Graphs from Ranking Preferences Soumen Chakrabarti and Alekh Agarwal PKDD 2006 IIT, Bombay ER(Entity-Relation)グラフのランキング。 PageRank (もしくはUnweighted Conductance)の詳細な計算が4ページにあり。 SynthDBLP(21000ノード), SynthIMDB(21000ノード)。隠れ変数βを設定する。unweightedのPageRankと隠れ変数を用いたもので、結果が異なるペアを1:1で混ぜて、テストセットを作る。グラフと訓練データの選好(<)を与え、βを推定する。 Cluster-based concept invention for statistical relational learning Alexandrin Popescul , Lyle H. Ungar KDD 2004 U. Pennsilvania CiteSeerのデータで、venue(会議等)を予測する、citationがあるかどうかを予測するという2つのタスク。k-meansでクラスタリング。新しい属性を作る。 ClustDocsByAuthorsとかClustDocsByCitingDocs、ClustDOcsByWordsなど。(wordはTFIDFを用いる。)手法は非常にシンプル。評価もそんなに大したことない。 Gene classification: issues and challenges for relational learning, Claudia Perlich , Srujana Merugu the 4th international workshop on Multi-relational mining, 2005 IBM T.J. Watson Research Center, and U. Texas at Austin Yeast genome Sachharomyces Cerevisiaeという分類問題にSRLを適用する。ACORAというシステム(既存のもの)を使う。ドメインにあわせた説明と結果が中心。 Mining product reputations on the Web Satoshi Morinaga, Kenji Yamanishi, Kenji Tateishi, Toshikazu Fukushima KDD 2002 NEC 特徴語、共起、典型的な文、コレポン等の分析を統合したもの。PDA、携帯などのcase studyが評価代わりになっている。 Aggregation Based Feature Invention and Relational Concept Classes Claudia Perlich, and Foster Provost New York Univ KDD 2003 非常に重要な論文。関係を使った属性生成。IPOのデータに対して、提案手法をgeneralizationのパフォーマンスで比べている。ILPのシステム:FOIL, Tidle, Lime, Progolと比較。most common categorical, vector distance, negative gategoriesなどをどんどん追加してパフォーマンスがあがることを示している。唐門くん論文と非常に似た構成。 Dynamic Social Network Analysis using Latent Space Models Purnamrita Sarkar and Andrew Moore SIGKDD Explorations: Special Edition on Link Mining, 2005 CMU, Autonlab Dynamicモデル。2次元(多次元)平面状に点があるとして、点が動いていく。近い点にはリンクが張られやすいというモデル。アイディアとしては面白い。式は複雑。 Fast Discovery of Connection Subgraphs Christos Faloutsos, Kevin S. McCurley, and Andrew Tomkins (IBM) Proc. 10th ACM SIGKDD Conference, 2004 大規模なネットワークを簡単に表示する方法。 Webから得られた人名のネットワーク(1500万人)が使われている。 10語以内に出てくるものはエッジとする。抽出自体は主眼ではない。 Maximizing the Spread of Influence through a Social Network David Kempe, Jon Kleinerg, Eva Tardos SIGKDD 2003 最適化問題はNP困難。近似解法を提案する。 Enhanced Word Clustering for Hierarchical Text Classification. Inderjit Dhillon, Subramanyam Mallela, and Rahul Kumar In Proceedings of the 8th ACM SIGKDD, 2002 U. of Texas, Austin 文書をクラスに分けるときの相互情報量の損失がもっとも少なくなるように、語をクラスタリングしていく。Jensen-Shannonを使ったdivisive clustering。2章の関連研究は非常に参考になる。20 Newsgroups dataと、Open Directoryの5000ページ(3階層)のデータ % Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations J. Leskovec, J. Kleinberg, and C. Faloutsos Proc. KDD 2005 CMU, Cornell Univ. いろいろなネットワークを調べると、ネットワークの成長とともに(i)degreeが増える(つまりエッジの数がノードの数の線形以上に増える)、 (ii)直径が小さくなるという傾向がある。 これを説明するCommunity Guided Attachment(コミュニティ内ではリンクしやすい)、Forest Fire Model(どこかに向かって火が燃え移っていく。前方向と逆方向の確立が定義される)を提案している。詳細なデータ、プロフェッショナルな分析。 Evaluating similarity measures: a large-scale study in the orkut social network E. Spertuxs, M. Sahami, O. Buyukkokten KDD 2005 Millis College and Google すばらしい。Orkutのデータで、コミュニティの推薦。どの類似度のメジャーが優れているか。L1, PMI, Log-oddsなど。結果的にL2がいい。明快な構成、きちんとしたデータ、言うことなし。 % Mining Knowledge-Sharing Sites for Viral Marketing M. Richardson and P. Domingos KDD'02 U. of Washington ユーザのnetwork valueを確率モデルで定義。Epinionのデータで検証している。 % Mining the network value of customers. P. Domingos and M. Richardson. In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, CA, 2001 KDD02のものの前のバージョン。 % Learning to Rank Networked Entities A. Agrawal, S. Chakrabarti, S. Aggarwal KDD2006 IIT Bombay ネットワークでのランキングの学習。面白い。 http://www.cs.berkeley.edu/~soumen/doc/netrank/ % Group Formation in Large Social Networks: Membership, Growth, and Evolution L. Backstrom, D. Huttenlocher, J. Kleinberg, and X. Lan KDD2006 Cornell Univ. MySpaceとLive Journalの分析。知り合いのコミュニティ内でのリンクが強いほうが、そのコミュニティに入りやすい。 The predictive power of online chatter. D. Gruhl, R. Guha, R. Kumar, J. Novak, A. Tomkins SIGKDD 2006 IBM Almaden Research / Google 面白い。amazonでのランキングとblogでの言及を比較している。 Using Structure Indices For Efficient Approximation of Network Properties Matthew Rattigan, Marc Maier, David Jensen KDD2006 U. of Massachusetts Amherst Closeness centralityとBetweenness centralityを高速に出すindexを作る。正確な値ではなくて、approximation。10000ノードの共演グラフ。 Simultaneous Record Detection and Attribute Labeling in Web Data Extraction Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, Wei-Ying Ma KDD2006 Tsinghua Univ., Microsoft Research Asia (Beijing) かなり良さそうな論文。Hierarchical Conditional Random Fieldモデルを用いて、レコードの検出と属性のラベリングを行う。 Acclimatizing Taxonomic Semantics for Hierarchical Content Classification Lei Tang, Jianping Zhang, Huan Liu KDD2006 Hierarchical Topic Segmentation of Websites Ravi Kumar, Kunal Punera, Andrew Tomkins KDD2006 Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends Xuerui Wang, Andrew McCallum KDD2006 Beyond Streams and Graphs: Dynamic Tensor Analysis Jimeng Sun, Dacheng Tao, Christos Faloutsos KDD2006 Extracting Key-Substring-Group Features for Text Classification Dell Zhang, W. S. Lee KDD2006 A Unified Knowledge Based Approach for Sense Disambiguation and Semantic Role Labeling Peter Z. Yeh, Bruce Porter, and Ken Barker AAAI 2006 U. of Texas, Austin (USA) Semantic Role Labelingを利用して、word-sense disambiguationをする。 Bakerらによって作られたCLib (Component Library)というのを用いる。CLibでは、2500以上のドメインスペシフィックな概念から構成される。イベントとエンティティ、エンティティ間、イベント間の関係などが記述される。 Shallow parserでsyntactic relationshipを出して、CLibのコンセプトから可能なものをすべて列挙する。で、invalidなものを省く。 Inexact Matching of Ontology Graphs Using Expectation-Maximization Prashant Doshi and Christopher Thomas AAAI 2006 U. of Georgia, Athens Ontologyのマッピングを見つける方法。アルゴリズムの数学的な説明が中心。 OntoSearch: A Full-Text Search Engine for the Semantic Web Xing Jiang and Ah-Hwee Tan AAAI 2006 Social Network-based Trust in Prioritized Default Logic Yarden Katz and Jennifer Golbeck AAAI 2006 Trust Representation and Aggregation in a Distributed Agent System Yonghong Wang and Munindar P. Singh AAAI 2006 Bookmark Hierarchies and Collaborative Recommendation Ben Markines, Lubomira Stoilova, and Filippo Menczer AAAI 2006 Indiana Univ. Bloomington (USA) GiveALinkというシステム。ブックマークを入れると、それに近いURLを返してくれる。リンクの類似度を用いる。 Mixed Collaborative and Content-Based Filtering with User-Contributed Semantic Features Matthew Garden and Gregory Dudek AAAI 2006 Overcoming the Brittleness Bottleneck using Wikipedia: Enhancing Text Categorization with Encyclopedic Knowledge Evgeniy Gabrilovich and Shaul Markovitch AAAI 2006 Israel Institute of Technology, Haifa (Israel) Wikipediaの知識を用いてテキスト分類の精度を上げる。feature generationのひとつだと説明されている。 WikiRelate! Computing Semantic Relatedness Using Wikipedia Michael Strube and Simone Paolo Ponzetto AAAI 2006 Semantic Relatednessを測る。Google countsやWordnetよりもWikipediaを使ったほうが良いことを示す。データセットは、例のMiller & Charles, Rubenstein & Goodenough, あと、353 Test Collectionというもの。WordNetは小さいデータセットには良いが、大きなデータセットにはWikipediaがいいそうだ。GoogleCountの関連度はJaccardを用いている。でも他のがいろいろ設定してるのに、GoogleCountはひとつの設定だけで、平等な比較ではない。ダヌ論文と比較するべき。 Organizing and Searching the World Wide Web of Facts Step One: The One-Million Fact Extraction Challenge Marius Pasca, Dekang Lin, Jeffrey Bigham, Andrei Lifchits, and Alpa Jain AAAI 2006 Mining Comparative Sentences and Relations Nitin Jindal and Bing Liu AAAI 2006 U. of Illinois at Chicago 「キャノンの光学はソニーやニコンのより良い」というような比較文をWebから探す。(,,,)という用言。 Table Extraction Using Spatial Reasoning on the CSS2 Visual Box Model Wolfgang Gatterbauer and Paul Bohunsky AAAI 2006 Using Semantics to Identify Web Objects Nathanael Chambers, James Allen, Lucian Galescu, Hyuckchul Jung, and William Taysom AAAI 2006 Florida Institute for Human and Machine Cognition, FL, USA Webオブジェクトというのは、テキストフィールドとか、リンク、ボタンなど。なので、関係ない。 Cross-Domain Knowledge Transfer Using Structured Representations Samarth Swarup and Sylvian R. Ray AAAI 2006 Identification and Evaluation of Weak Community Structures in Networks Jianhua Ruan and Weixiong Zhang AAAI 2006 Washington Univ. Newmanらのコミュニティ抽出の方法を改良。weak communityでもstrong communityでも抽出できる。spectral clusteringと組み合せる。重みつきグラフも扱う。良さげ。 From Pigeons to Humans: Grounding Relational Learning in Concrete Examples Marc T. Tomlinson and Bradley C. Love AAAI 2006 Names and Similarities on the Web: Fact Extraction in the Fast Lane M. Pasca, D. Lin, J. Bigham, A. Lifchits, A. Jain ACL 2006 Google, U. Washington, UBCなど Seed factを与えると、candidate factsを返す。Person-BornIn-Yearのデータで評価。パターンの取得とデータの取得を繰り返すのではなくて、よいパターンをrankingする。そのために語の類似度を使う。PMIで他の語との共起を取り、コサイン類似度。 A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features Min Zhang Jie Zhang Jian Su Guodong Zhou ACL 2006 Institute of Infocomm Research Relation extractionとKernel法。難しいけどとても重要そうな論文。 Semantic Role Labeling via FrameNet, VerbNet and PropBank Ana-Maria Giuglea and Alessandro Moschitti ACL 2006 Univ. of Rome A Study on Automatically Extracted Keywords in Text Categorization Anette Hulth and Be´ata B. Megyesi ACL 2006 Uppsala Univ. 自動的に抽出したキーワード(タイトルやフルテキストではなく)がテキスト抽出にどのように役立つか。 A Comparison of Document, Sentence, and Term Event Spaces Catherine Blake ACL 2006 U. of North Carolina IDFではなくISF(Inverse Sentence Frequency)の方が良い。 Selection of Effective Contextual Information for Automatic Synonym Acquisition Masato Hagiwara, Yasuhiro Ogawa, and Katsuhiko Toyama ACL 2006 Nagoya Univ. Expressing Implicit Semantic Relations without Supervision Peter D. Turney ACL 2006 National Research Council Canada X=ostrich, Y=birdとすると、X is the largest Yとか Y such as the Xとかのパターンが上位に来るようにする。どちらかというとダヌシカくんの方法に近い。 Automated Japanese Essay Scoring System based on Articles Written by Experts Tsunenori Ishioka and Masayuki Kameda ACL 2006 Efficient Unsupervised Discovery ofWord Categories Using Symmetric Patterns and High Frequency Words D. Davidov and Ari Rappoport ACL2006 Hebrew Univ. (Jerusalem) High Frequency Word (HFW)とContent Word(CW)の組み合わせでメタパターンを作る。 Novel Association Measures Using Web Search with Double Checking Hsin-Hsi Chen, Ming-Shun Lin and Yu-Chuan Wei ACL2006 National Taipei Univ. コンセプトは悪くないけど。引用してくれてるから感謝。再試すると、この精度は出ない。(f(Y@X)+f(X@Y)) / (f(X) + F(y)) An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources Yuhua Li, Zuhair Bandar, David McLean IEEE TKD, 2003 Methods and techniques of adaptive hypermedia Peter Brusilovsky User Modeling and User Adapted Interaction, 1996 CMU Formal Models for Expert Finding in Enterprise Corpora K. Balog, L. Azzopardi, and M. de Rijke SIGIR 2006 U. Amsterdam (Amsterdam), U. Strathclyde (Glasgow) Expertを見つける方法には、人の知識を登録しておくこと、それから文書をみつけてそれに関連した方法を見つける方法の2つがある。ここでは後者。TRECのEnterpriseコーパスを用いて評価している。人(ca)とquery(q)の結びつきp(ca|q)を文書を介して計算する。候補抽出の方法、smootingの方法など、さまざまな角度から評価している。よい論文。 Unraveling the Taste Fabric of Social Networks Hugo Liu, Pattie Maes, Glorianna Davenport International Journal on Semantic Web and Information Systems, 2006 Media Lab., MIT SNSのプロファイルのテキストをとってきて、taste fablic(嗜好が織り成されたもの?)を出している。 Social Networks and Social Networking Elizabeth F. Churchill, and Christine A. Halverson IEEE Internet Computing, 2005 PARC and IBM 特集記事、3篇。 - Using Egocentric Networks to Understand Communication - Social Networks as Health Feedback Displays - P3 Systems: Putting the Place Back into Social Networks http://dsonline.computer.org/portal/site/dsonline/menuitem.9ed3d9924aeb0dcd82ccc6716bbe36ec/index.jsp?&pName=dso_level1&path=dsonline/0510&file=w5gei.xml&xsl=article.xsl& danahのブログ danah boyd UC Berkeley よいまとめになってる。 http://www.zephoria.org/thoughts/archives/2006/08/19/research_on_soc.html Integrating Open User Modeling and Learning Content Management for the Semantic Web Exploiting Probabilistic Latent Information for the Construction of Community Web Directories Task-Oriented Web User Modeling for Recommendation Non-intrusive User Modeling for a Multimedia Museum Visitors Guide System An Economic Model of User Rating in an Online Recommender System F. Maxwell Harper, Xin Li, Yan Chen, and Joseph A. Konstan Proc. User Modeling 2005 Modeling User’s Opinion Relevance to Recommending Research Papers* Marco Degemmis, Pasquale Lops, Gianni Semeraro, University of Bari Proc. UM2005 GUMO The General User Model Ontology Social Navigation Support Through Annotation-Based Group Modeling あ UM05 Evaluation of a System for Personalized Summarization of Web Contents* From customization to ubiquitous personalization: digital identity and ambient network intelligence Norman Lewis Interactions, 2004 Wanadoo SA (part of the France Telecom Group) なんか漠然とした話。 Accurate is not always good: How Accuracy Metrics have hurt Recommender Systems S. McNee, J. Riedl, and J. Konstan CHI2006 U. of Minnesota Amazon.com Recommendations -- Item-to-Item Collaborative Filtering G. Linden, B. Smith, and J. York IEEE Internet Computing, 2003 Amazon.com ☆ Web Mining for Web Personalization MAGDALINI EIRINAKI and MICHALIS VAZIRGIANNIS ACM Transactions on Internet Technology, 2003 Athens University of Economics and Business Web Usage Miningをパーソナライゼーションに生かす。 3章 User Profiling: Cookieを使う方法、identd, IPアドレスを使う方法。各Webサイトの概要。(Yahoo, Alta-vista, DouleClickなど) 4章 Log analysisとWeb usage mining。Webのログ、相関をとったりクラスタリング、分類をする。 Improving recommendation lists through topic diversification Cai-Nicolas Ziegler , Sean M. McNee , Joseph A. Konstan , Georg Lausen, WWW2005 Taxonomy-driven computation of product recommendations Cai-Nicolas Ziegler , Georg Lausen , Lars Schmidt-Thieme, Proc. ACM international conference on Information and knowledge management, 2004 Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, Gediminas Adomavicius , Alexander Tuzhilin IEEE Transactions on Knowledge and Data Engineering, v.17 n.6, p.734-749, June 2005 Content-based methods, collaborative methods, ハイブリッド。この分け方は定着しているものの、特に新しくない。 一般的な問題として、New User Problem, New Item Problem, Sparcityを指摘している。 最近の話題:Multidimensionality of Recommendation(複数の文脈に関する要素を入れる)、Multicriteria Ratings(レストランの推薦などいくつかの評価項目がある)、Nonintrusiveness(たとえば滞在時間を評価の代わりに用いるなど)、Flexibility(カスタマイズできること)、Recommendationの効果など。 A New Approach of Shannon Entropy in Recommender Systems J. Lopez Herrera Artificial Intelligence and Soft Computing 2006 A Collaborative Filtering Algorithm and Evaluation Metric that Accurately Model the User Experience M. R. McLaughlin and J. L. Herlocker SIGIR 2004 Oregon State Univ. 従来の評価法には2つの欠点がある。ひとつは、良く使われる評価指標Mean Absolute Error (MAE)は、予測したアイテムごとに計算するので、たくさんアイテムを出す手法に有利である。(トップアイテムをうまく出す手法には向いていない。)2つ目は、ほとんどの文献はオフラインのデータセットを用いていて、実ユーザの反応ではない。 この論文では、MAEに加えて、Precision/Recallを用いることが重要であることを述べる。 An Automatic Weighting Scheme for Collaborative Filtering R. Jin, J. Chai, L. Si SIGIR 2004 Michigan State University ユーザをクラスタリングしてから推薦する。Memory-basedでよく使われるのはPearson Correlation Coefficient(PCC)とベクトルスペース類似度(VS)アルゴリズム。 Model-basedでよく使われるのはaspect model(AM)とpersonality diagnosis model(PD)。 AMは、ユーザがクラスに属する確率p(z|y)とそのクラスでのアイテムの評価p(r|z,x)をかけあわせる。ユーザy, アイテムx, 評価r, クラスz。 PDは、評価の違いによって正規分布を仮定して、そのユーザに近いユーザ(=モデル)を見つける。それの重ね合わせでッ評価を決める。(k-NNに近いのでは。) PDが良いのが知られているらしい[5]。 重みをつける方法で知られているのは、IDFと、分散を用いる方法。(3章) Using Bayesian Priors to combine Classifiers for Adaptive Filtering Y. Zhang SIGIR04 CMU Multi-Layered Ontology-Based User Profiles and Semantic Social Networks for Recommender Systems Ivan Cantador, Pablo Castells 2nd International Workshop on Web Personalization, Recommender Systems, and Intelligent User Interfaces, 2006 映画の嗜好が似ている人でもスポーツに嗜好が似ているとは限らない。multi-layeredのソーシャルネットワークを作って、それを使って推薦をする。 A Nonparametric Hierarchical Bayesian Framework for Information Filtering K. Yu, V. Tresp, and S. Yu SIGIR04 U. of Munich, Germany Scalable Collaborative Filtering Using Cluster-based Smoothing G. Xue, C. Lin, Q. Yang, W. Xi, H. Zeng, Y. Yu, and Z. Chen SIGIR05 Microsoft Research Asia and Shanghai Jiao-Tong University ユーザのクラスタを作ってからcollaborative filteringをする。Hamaモデルに近い。MovieLens, EachMovieのデータセットによる評価。 Unifying User-based and Item-based Collaborative Filtering Approaches by Similarity Fusion Jun Wang, Arjen de Vries, Marcel Reinders SIGIR 2006 Delft University of Technology User-basedとitem-basedの協調フィルタリングをマージする方法。 Using Web Graph Distance for Relevance Feedback in Web Search Sergei Vassilvitskii, and Eric Brill Stanford University, Microsoft research Relevance feedbackを使って検索結果を良くする際に、Webグラフ上の距離が効くこと。Avarage-clickを似た内容。 Personalized Recommendation Driven by Information Flow Xiaodan Song, Belle L. Tseng, Ching-Yung Lin, Ming-Ting Sun, SIGIR 2006 University of Washington, NEC Labs America Analysis of a Low-Dimensional Linear Model Under Recommendation Attacks S. Zhang, Y. Ouyang, J. Ford, and F. Makedon SIGIR 2006 Dartmouth College Social networks, incentives, and search J. Kleinberg SIGIR 06 Cornell Univ., Ithaca, NY キーノート。Social netowrkの重要性を書いている。 Consumer Taste Sharing Is Driving the Online Music Business and Democratizing Culture M. McGuire and D. Slater 2005 Using viewing time to infer user preference in recommender systems. Parsons, J., Ralph, P., & Gallagher K. AAAI Workshop in Semantic Web Personalization, 2004 Social Information Filtering: Algorithms for Automating "Word of Mouth". U. Shardanand, P. Maes, P. Proceedings of ACM CHI'95 Empirical Analysis of Predictive Algorithms for Collaborative Filtering J. Breese, D. Heckerman, and C. Kadie Technical Report, Microsoft Research, 1998 よいレビューペーパーらしい。 Collaborative Filtering by Personality Diagnosis: A Hybrid Memory- and Model-Based Approach D. M. Pennock, E. Horvitz, S. Lawrence and C. L. Giles, Proc. the Sixteenth Conference on Uncertainty in Artificial Intelligence (UAI), 2000. memory-basedとmodel-basedのハイブリッドなアプローチ。 Combining Collaborative Filtering With Personal Agents for Better Recommendations N. Good, B. Schafer, J. Konstan, A. Borchers, B. Sarwar, J. Herlocker, and J. Riedl AAAI99, 1999 Application of Dimentionality Reduction in Recommender System -- A case Study B. Sarwar, G. Karypis, J. Konstan, J. Riedl ACM WebKDD 2000 workshop, 2000 LSIを使っているようだ。 Item-based Collaborative Filtering Recommendation Algorithms B. Sarwar, G. Karypis, J. Konstan, and J. Riedl WWW10, 2001 U. of Minnesota 1章はサーベイ。Sparsity problemや次元を圧縮する方法について1.1の最後に書かれている。k-NNでは、SparsityとScalabilityの問題がある。 3.1はItem間の関連を(良い評価をつけたユーザの)コサイン類似度、ピアソン相関等をつかってもとめる。(k-NNでは、ユーザ同士の関連を見つけていることになる。) 3.2はこの関連を使って出力を決める。行列の概念、入力、出力の定義が非常に分かりやすい。 MovieLensデータセットを使って評価。 Evaluation of Item-based Top-N Recommendation Algorithms G. Karypis Technical Report CS-TR-00-46, Univ. of Minnesota, 2000 User profiling for web page filtering Godoy Daniela, and Amandi Analia IEEE Internet Computing, 2005 Recommender Systems: Special issue of Communications of the ACM P. Resnick and H. R. Varian CACM 1997 AT&T, UC Berkeley 一般的な解説。いくつかのシステムが表になっている。だれが評価を作るか、そのコスト。free riderが起こる。また誰でも評価してよいようにすると、コンテンツホルダーが良い評価ばかり作る。プライバシーの問題。(ユーザはあまり習慣を知られたくない。)ビジネスモデル。ユーザの評価と広告は区別しなければいけない。ひとつのシステムが他を排除することなど。 GroupLens: Applying Collaborative Filtering to Usenet News J. Konstan, B. Miller, D. Maltz, J. Herlocker, L. Gordon, and J. Riedl CACM, 1997 Evaluating Collaborative Filtering Recommender Systems J. Herlocker, J. Konstan, L. Tervenn, and J. Riedl ACM Transactions on Information Systems (TOIS), 2004 Recommending and Evaluating Choices in a Virtual Community of Use W. Hill, L. Stead, M. Rosenstein, and G. Furnas CHI 95 Coauthorship networks and patterns of scientific collaboration M. E. J. Newman PNAS (Proceedings of the National Academy of Sciences), 2004 U. Michigan Scientific collaboration networks. I. Network construction and fundamental results, M. E. J. Newman Physical Review E, 2001 Clustering and preferential attachment in growing networks, M. E. J. Newman Physical Review E, 2001 Application of Semantic Technology for Social Network Analysis in the Sciences Peter Mika, Tom Elfring, and Peter Groenewegen Scientometrics, 2006 Free Univ. 2章はContextでSemantic Webについて。3章が手法。 4章が分析。4.1は中心性の分析など。(descriptive analysis) 4.2は、パフォーマンスとの相関を見ている。 仮説1a: tieの数は、パフォーマンスに正の相関がある。 仮説1b: closed networkはパフォーマンスに負の相関がある。 仮説2a: 認知的な多様性へのアクセスは、(特に若い研究者の)パフォーマンスに正の相関がある。 簡単な仮説を立てた検証だけという感じ。 Academic communication and Internet Discussion Groups: transfer of information or creation of social contacts? ? Uwe Matzat Social Networks 2004 The Invasion of the Physicists Phillip Bonacich バラバシのLinkedとWattsのSix Degreeの書評。2モードネットワークを「発見した」など、関連研究を引いていないことなどについて、皮肉たっぷり。 Structure and time evolution of an Internet dating community P. Holme, C. Edling, and F. Lijeros Social networks 2004 Umea Univ., Stockholm Univ. (Sweden) オンラインのデートコミュニティの分析。スウェーデンのpussokram.com (英語ではkiss'n'hugという感じ)のコミュニティ。2002年春夏の時点で3万ユーザ。2001年のはじめから約1年半の期間。比較のために、nioki.com(フランスのコミュニティ)とscientific collaboration(共著関係)のネットワークを使う。(いずれもスナップショット)。時系列のリンク数、平均次数の変化(図2)。Reciprocity(両方向のタイがどのくらいあるか):図3。次数相関、assortative mixing。次数分布。geodesic (shortest path) distanceの平均。short circuitsの密度。で、議論で終わり。 一連の分析は非常に初歩的。特に仮説もない。 Friends and neighbors on the Web L. Adamic and E. Adar Social networks, 2003 HP lab 次数分布。きれいなグラフ。少なくとも1本のリンクのある人の数などの集計。簡単なケーススタディ。 リンクのあるなしの予測。similarityを共通アイテムの数(の対数の逆数)で計る。(Likeness score)。パフォーマンスと実例を少し。で終わり。 やはり、ざっといろいろ分析して解釈して終わりという印象。 Tribal regimes in academia: a comparative analysis of market structure across disciplines Shin-Kap Han Social networks, 2003 Statistical analysis of network data?an application to diffusion of innovation J. Nyblom, S. Borgatti, J. Roslakka, and M. Salo Social networks 2003 VIP-club phenomenon: Emergence of elites and masterminds in social networks Naoki Masuda and Norio Konno Social networks 2006 A Graph-theoretic perspective on centrality S. P. Borgatti and M. G. Everett Social networks 2006 Consumer referral in a small world network T. Jun, J. Kim, B. Kim, and M. Choi Social networks 2006 Actor network utilities and network evolution P. Doreian Social networks 2006 Are social networks technologically embedded?: How networks are changing today with changes in communication technology C. Licoppe and Z. Smoreda Social networks 2005 How to search a social network L. Adamic and E. Adar Social networks, 2005 分かりやすい説明。モデルを立てて、実データで検証。2つのネットワークを使っている。1つはHP labのe-mailのネットワーク(Pajekで描画)。もうひとつはsocial networking site(Club Nexus)から取ったもの。物理的距離でどう変わるかなど。 Toward ethical guidelines for network research in organizations S. P. orgatti and J. Molina Social networks, 2005 Who benefits from network analysis: ethics of social network research C. Kadushin Social networks 2005 Modeling social influence through network autocorrelation: constructing the weight matrix R. Leender Social networks, 2002 Distance and cosine measures of niche overlap M. Sohn Social networks, 2001 Utility and dynamic social networks N. Hummon Social networks, 2000 Dynamical systems to define centrality in social networks R. Poulin, M. Boily and B. Masse Social networks, 2000 Some analyses of Erds collaboration graph V. Batagelj and A. Mrvar Social networks, 2000 簡単なコンポネント等の図示。Core、Lordの分析。Blockmodel。Clustering(7章にJaccard, Dice等の記述あり。)Cluster分析。 Personal network integration: transitivity and homophily in strong-tie relations H. Louch Social networks, 2000 Alex Popescul Alex Popescul U. of Pennsylvania Yahoo! inc. にいるらしい。2004年ごろPhD終了? Feature constructionの論文等。Lyle Ungarという人が教授でデータマイニングの研究。 http://www.cis.upenn.edu/~popescul/home.html Application of Semantic Technology for Social Network Analysis in the Sciences P. Mika, Tom Elfring, and Peter Groenewegen Scientometrics, 2006 Trust and Nuanced Profile Similarity in Online Social Networks Jennifer Golbeck JAIR, 2006 Googlearchy: How a Few Heavily-Linked Sites Dominate Politics on the Web M. Hindman, K. Tsioutsiouliklis, and J. A. Johnson Annual Meeting of the Midwest Political Science Association, 2003 Structure and evolution of blogspace R. Kumar, J. Novak, P. Raghavan, and A. Tomkins CACM 2004 IBM Almaden 100万人以上のLivejounalのbloggerの分析。 主に、年齢や国などの分析。興味のクラスタができること、地理的なクラスタができることなど。後半は、時系列の変化。 The quality of online social relationships, J. Cummings, B. Butler, and R. Kraut CACM 2002 MIT, U. of Pittsburgh, and CMU オンラインの関係は、オフラインの関係を形成・維持するには弱いことが書かれている。1991年の979人の銀行従業員の調査。81%がe-mailを使っている。ピッツバーグの93人の主婦の調査。204のメーリングリストの分析。 Computer networks as social networks B. Wellman Science, Relationship formation on the Internet: What's the big attraction? K. McKenna, A. Green, and M. Gleason, Journal of Social Issues, 2002 Blogging as a social activity, or would you let 900 million people read your diary? B. Nardi, D. Schiano, and M. Gumbrecht CHI 2004 ブロガー23人にサーベイ調査。ブログを書く目的についてなど。 1. 他の人に自分の活動や状況を知らせる。 2. 他人に影響させるように意見を書く。 3. 他の人の意見やフィードバックを求める。 4. 書くことで考える。 5. 感情の高まりを発散する。 Internet paradox revisited R. Kraut, S. Kiesler, B. Boneva, J. Cummings, V. Helgeson, and A. Crawford, Journal of Social Issues, 2002 Expressing Social Relationships on the Blog through Links and Comments Noor Ali-Hasan, and Lada A. Adamic たぶん2006 U. of Michigan 面白い!Kuwaitブログ、Dallas/Fort Worthブログ、United Arab Emiratesブログのコミュニティで、リアルライフの関係とオンラインの関係を調べる。blogrollとコメントを調べた。その結果、オンラインの関係は実世界の関係を反映してないこと、オンラインの関係はbloggingを通じて形成されることがわかった。 分析はそれほどしっかりしてない感じ。 How Blogging Software Reshapes the Online Community. Rebecca Blood CACM 2004 Weblog Handbookという本を書いた人らしい。A-listのblogger。Weblogの歴史など。特に内容なし。 How Do Blog Gardens Grow? Language Community Correlates with Network Diffusion and Adoption of Blogging Systems. Gu, L., P. Johns, T. M. Lento and M. A. Smith. AAAI symposium on computational approaches to analyzing weblogs, 2006 Conversations in the Blogosphere: An Analysis "From the Bottom Up" Susan C. Herring, Inna Kouper, John C. Paolillo, Lois Ann Scheidt, Michael Tyworth, Peter Welsch, Elijah Wright, and Ning Yu Proc. of HICSS-38, 2005 Indiana University Bloomington A-listのblogではなくて、普通のblogをランダムにピックアップして、どのくらいつながっているかなど、ネットワーク分析をしている。A-listは、中心的だが、他のブログは密に固まっている。他のサンプルのblogはほとんど参照してない。つまり、局部的に固まっているが、それぞれはばらばらになっている。 Discovering the iceberg of knowledge work: A weblog case Lilia Efimova OKLC2004 Telematica Instituut, オランダ Finding the life between buildings: An approach for defining a weblog community Lilia Efimova, Stephanie Hendrick, and Anjo Anjewierden 2005 Telematica Instituut (Netherlands) バーチャルな空間でのコミュニティの定住という比喩。研究の方法論自体についていくつか議論したあと、コミュニティのメンバーを同定する研究が少し書かれている。 Regular reading of a weblogについて5ページに少し記述がある。 On the bursty evolution of blogspace R. Kumar, J. Novak, P. Raghavan, and A. Tomkins WWW2003 Experiments on Persian Weblogs Kyumars Sheykh Esmaili, Mohsen Jamali, Mahmood Neshati, Hassan Abolhassani and Yasaman Soltan-Zadeh Sharif Univ of Technology (Teheran, Iran) ペルシャのblog分析。次数分布、ページランク等。 Online personal networks: Size, composition and media use among distance learners. New Media Haythornthwaite, C Society 2(2):19526, 2000 Investment and Attention in the Weblog community Cameron Marlow AAAI symposium on computational approaches to analyzing weblogs, 2006 MIT 面白い。readership relationと実際の関係をサーベイしている。 Information Diffusion through Blogspace D. Gruhl, R. Guha, D. Liben-Nowell, and A. Tomking WWW2004 長大な論文。 Leave a Reply: An Analysis of Weblog Comments Gilad Mishne, Natalie Glance ? U. Amsterdam, Nielsen BuzzMetrics コメントの分析。誰が投稿したかは分からない。68万ポスト、そのうちコメントがあるのが10万ポスト(15%)。3万6千Weblog, そのうちコメントがあるのが1万(28%)。次数分布、キーワードで検索したときの分析、コメントと人気の関係など。 Implicit Structure and the Dynamics of Blogspace E. Adar and L. Zhang and L. Adamic and R. Lukose Workshop on the Weblogging Ecosystem, 2004 HP Information Dyanmics Lab blogrollとurlの言及のネットワーク。iRankを提案。 The Political Blogosphere and the 2004 U.S. Election: Divided They Blog Lada Adamic and Natalie Glance LinkKDD-2005, 2005 HP labs, and Inteliseek Applied Research Center (Pittsburgh) Blogrollのスナップショット。 1494のブログ(759が自由、735が保守)のネットワーク。 特に40のA-listブログ(20ずつ)を選んで、40日間観察。詳細に分析している。 Audience, structure and authority in the weblog community Cameron Marlow CA 2004 MIT media labo Blogdexというプロジェクトでblogを収集してくる。このデータで、 permalink, blogrollのソーシャルネットワークを作る。degreeの中心性のランキング、次数分布、2つのソーシャルネットワークの中心性の相関など。3ページ目に、4つのsocial tie(permalink, blogroll, comment, trackback)があることを述べている。まあ、大したことないが参考になる。 Discovery of Blog Communities Based on Mutual Awareness Yu-Ru Lin, Hari Sundaram, Yun Chi, Jun Tatemura and Belle Tseng WWW2006 Workshop NEC labs 面白い。Mutual awarenessを測る。それによって、コミュニティを同定する。やり方は、コメント、引用、blogrollの変更など。時間も見ている。 The Ties that Blog: Examining the Relationship Between Social Ties and Continued Participation in the Wallop Weblogging System Thomas Lento, Howard T. Welser, Lei Gu, and Marc Smith WWW2006 workshop on weblog, 2006 Cornell Univ., U. of Washington, and Microsoft Wallopというホスティングサービス。中国人が多い。commentネットワーク、invitationネットワーク、その組み合わせの3つのネットワークを調べている。中心性の分析、やめるかどうかの予測など。 Memeta: A Framework for Multi-Relational Analytics on the Blogosphere. Pranam Kolari, Tim Finin: AAAI 2006 Characterizing the Splogosphere P. Kolari, A. Java, and T. Finin WWW2006 U. Maryland splogをSVMを使って検出。blog同定のF1は97%、splog検出は90%。BlogPulseの130万エントリ(2005/7の3週間のデータ) 確率でAuthenticBlog, Splog度を出している。時間帯の分析、次数分布の分析など。 The TREC Blogs06 Collection : Creating and Analysing a Blog Test Collection Craig Macdonald, ladh Ounis Univ. Glasgow Technical Report, 2006 Univ. Glasgow Scotland, UK Blogs06のテストコレクションをどうやって集めたか。Top blogs(7万), Splog(1万8千), その他(1万2千)。2005/12/6-2006/2/21まで。期間ごとの集計、時間ごとの集計(splogとの違い)、offensive wordがどのくらい含まれるか(splogのほうが多い)、次数分布など、簡単な統計分析。 SVMs for the Blogosphere: Blog Identification and Splog Detection Pranam Kolari et al. AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs, 2006 SVMを使ったsplogの同定。 Tracking Information Epidemics in Blogspace Eytan Adar and Lada A. Adamic WI2005 HP Labs, Information Dynamics Lab 1.2のRelated Worksはすばらしい。 Blog BとBlogAが同じ話題(URLを引く)であって、しかもその周りにそれに言及したBlogがないときに、 infectしたとみなしている。direct linkがあるか(双方、片方、ない)、infectしているかなどを分類する。 属性としては、テキストの類似度(共通のURL、TFIDF)やタイミングを用い、SVMやロジスティック回帰を使う。 可視化についても4章で言及されている。 Quantitive and sociological analysis of blog networks W. Bachnik他 ACTA PHYSICA POLONICA B Gdansk University (Poland) ポーランド語のブログの分析。Small worldであるとか。質は低いので引く必要なし。 --------- Exploring Social Annotations for the Semantic Web Xian Wu, Lei Zhang, Yong Yu, Shanghai WWW2006 Shanghai JiaoTong University, IBM China Research Lab, tagging guyの論文。 Emergent Semantics S. Staab eds. (Simone Santini (UC San Diego), Frank Nack (CWI Amsterdam), Luc Steel (U. Brussels), Alexander Maedche (U. of Karlsruhe)) IEEE Intelligent Systems 2002 すばらしい。 前書きと3番目の記事にヴィトゲンシュタイン、 4番目の記事にソシュールが出てくる。 On How to Perform a Gold Standard Based Evaluation of Ontology Learning K. Dellschaft, and Steffen Staab ISWC2006 Univ. Koblenz-Landau オントロジの評価について。(i)アプリケーションでの評価、(ii)エキスパートによる評価、(iii)Gold standardによる評価。3つの基準があって、複数の評価尺度を重ね合わせたものでなければいけない、木の根元のエラーは大きくなければならない、エラーを付け加えると評価尺度が下がらないといけない。4章は木のマッチングの方法。 Ontology-driven Information Extraction with OntoSyphon Luke McDowell and Michael Cafarella ISWC2006 US Naval Academy and U. of Washington 検索エンジンを使ってインスタンスを見つける研究。 A Method for Learning Part-Whole Relations Willem Van Hage, Hap Kolb, and Guus Schreiber ISWC2006 TNO science and industry Delft, and Virije Univ. Amsterdam Mining Information for Instance Unification Niraj Aswani, Kalina Bontcheva, and Hamish Cunningham ISWC2006 U. of Sheffield A Framework for Schema-Driven Relationship Discovery from Unstructured text C. Ramakrishnan, K. Kochut, and A. Sheth ISWC2006 LSDIS, U. of Georgia Bio-medicalのテキストからエンティティ間の関係を見つける。RDFに変換。 Augmenting Navigation for Collaborative Tagging with Emergent Semantics M. Aurnhammer, Peter Hanappe, and Luc Steels ISWC2006 Sony Paris, Vrije Universiteit Brussel タグと画像の特徴を合わせた画像の閲覧ナビゲーション。タグの可視化。輪郭(colour)とテクスチャの特徴を組み合わせた特徴量を用いる。 Ontology-Driven Automatic Entity Disambiguation in Unstructured Text J. Hassel, B. Aleman-Meza, and I. Budak Arpinar ISWC2006 LSDIS, U. of Georgia 前にメリーランド大で聞いたやつかも。 Toward Knowledge Acquisition from Information Extraction Chris Welty and J. William Murdock ISWC2006 IBM KITEというシステム。テキストからOWLやRDFを生成。きちんとした議論、大まかな枠組み。ケーススタディをしている。かなり小さい規模。 Toward Principles for the Design of Ontologies Used for Knowledge Sharing Thomas R. Gruber In Formal Ontology in Conceptual Analysis and Knowledge Representation, 1993 Stanford Kwnoledge Systems Laboratory オントロジの定義。"An ontology is an explicit specification of a conceptualization. "(p.1) オントロジのデザイン基準。1. Clarity, 2. Coherence, 3. Extendibility, 4. Minimal encoding bias, 5. Minimal ontological commitment. 2つのケーススタディ(物理量のモデル、書誌データの共有)について書かれている。 Knowing the User's Every Move - User Activity Tracking for Website Usability Evaluation and Implicit Interaction Richard Atterer, Monika Wnuk, and Albrecht Schmidt WWW2006 proxyをいれて、mouseの動きなんかもとる。それで、implicit interaction(つまリ躊躇しているとか)を把握する。 Inducing Ontology from Flickr Tags Patric Schmitz Workshop at WWW2006 UC Berkeley and Y! Research Berkeley 集合の確率的な重なりだけで、flickrのタグのオントロジを出そうとしている。San Francisco ->ferrybuilding, fishermanswharf, goldengateparkなど。 Automated Tag Clustering: Improving search and exploration in the tag space Grigory Begelman, Philipp Keller, and Frank Smadja Workshop at WWW2006 Technion Israel Institute of Technology (Israel) インスタンスでの共起(つまりOic)に基づいてタグをクラスタリングする。 data sparcityについて、最初に少しだけ言及がある。 Semantic Analysis for Data Sparsity Compensation (SPARSE) あ Workshop, 2003 Johns Hopkins Universityで2003年にやったワークショップの報告書 The power of collective intelligence Ontology of Folksonomy: A Mash-up of Apples and Oranges Tom Gruber 1章、オントロジーが情報共有に必要であること。 3章、トップダウンのオントロジと、 ボトムアップのフォークソノミーを比べるのは、アップルとオレンジを比べるようなものである。Shirkyによるオントロジーの非難は、非常に特殊なオントロジ、つまり中央集権システムでのタキソノミックな分類を対象としている。つまり、オントロジーへの攻撃は、 情報を見つけ組織化するための、トップダウンの分類に対する攻撃である。 4章はタグについての考察。複数のアプリケーションでのコラボレイティブタギングが必要、タギングによるコラボレイティブフィルタリング、タグオントロジー(3部グラフor4部グラフ)、タギングの制約、否定的なタグ、タグのアイデンティティ。 Ontology extraction and conceptual modeling for web information Hyoil Han and Ramez Elmasri Information modeling for internet applications, 2003 U. of Texas at Arlington Folksonomies - Cooperative Classification and Communication Through Shared Metadata Adam Mathes December 2004 CMU 概説。なぜfolksonomyがうまくいくか。今後の重要な研究など。synonymやambiguityにも言及がある。 Ontology is Overrated: Categories, Links, and Tags Clay Shirky Clay Shirky's Writings About the Internet 論文じゃないみたいだけどちゃんとしてる。と思ったら、いろいろなカテゴライゼーションをオントロジーとの関連で紹介している。O'Reilly ETech conferenceでのスピーチと、IMCExpoでのスピーチを混ぜたもの。 Folksonomies Tidying up Tags? Marieke Guy and Emma Tonkin D-Lib magazine, 2006 UKOLN.ac.jp (イギリス) 3節に、personal meaningだけでなくsocial shared meaningをもつタグも確かにあって、それが有益であると述べられている。 folksonomyのシステム的な話、タグの分布などの話、ユーザをトレーニングするなど。概念的な話もあって参考にはなるが、示唆に富んでいるわけではない。 Automatic Organization for Digital Photographs with Geographic Coordinates あ あ あ Google countを一部使っているようだ。 Wiki and Semantic Web Max Volkel WikiSym '05 AIFB, Germany Google hitを使ったサーベイが3.4.1に少しあり。 Web Services: Been There, Done That? S. Staab, W. Aalst, V. Benjamins, A. Sheth, J. Miller. et al. IEEE Intelligent Systems 2003 U. Karlsruhe, U. Georgia他 Google countについての言及があるようだ。(買わないといけない) % Random Sampling from a Search Engine's Index Z. Bar-Yossef, and M. Gurevich WWW2006 Technion (Israel) BharatとBroderの10年前の論文の問題「検索エンジンのインタフェースだけをつかってランダムなページをどのようにサンプリングするか」を再び取り上げる。モンテカルロ法: rejection sampling and Metropolis-Hastings algorithm. 検索エンジンについて確率的に考えるには非常に良さそう。 Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling Jenny Rose Finkel, Trond Grenager, Christopher D. Manning ACL2005 Sampling Search-Engine Results Aris Anagnostopoulos, Andrei Z. Broder, David Carmel WWW2005, ブラウン大、IBM 例えば、ORのヒット件数を知りたいときなど、ヒットした文書群からのsamplingが有効である。その方法について述べている。インデキシングをどう利用するかの話なので、検索エンジンの中に組み込む機能のようだ。 Modeling supply chain formation in multiagent systems. Walsh, William E., and Michael P. Wellman. 1999b. In IJCAI-99 Workshop on Agent-Mediated Electronic Commerce, Stockholm. Agent-organized networks for dynamic team formation M. E. Gaston, M. Desjardins AAMAS05 Social Networks and Multi-agent Organizational Performance Matthew E. Gaston and Marie desJardins Traffic dynamics based on local routing protocol on a scale-free network W. Wang, B. Wang, C. Yin, Y. Xie, and T. Zhou Physical Review E, 2006 Modeling Traffic of Information Packets on Graphs with Complex Topology Bosiljka Tradic 2003 Urban Traffic Dynamics: A Scale-Free Network Perspective M. Hu, W. Wang et al. 2006 U. of Science and Technology of China roadネットワーク。 Game Theory for Networks あ Workshop on Game Theory for Networks (GameNets), 2006 関係してるワークショップ。 http://www.gamenets.org/program.htm Growing network with local rules: Preferential attachment, clustering hierarchy, and degree correlations Alexei Vazquez U. of Notre Dame Connecting Nearest Neighborのモデル。次数相関。 Consensus formation on a triad scale-free network Authors: Sousa, A. O. 良さそう。 Prisoners’ dilemma in real-world acquaintance networks: Spikes and quasi-equilibbria induced by the interplay between structure and dynamics. Holme, P.; Trusina, A.; Kim, B. J.; and Minnhagen, P. Phys. Rev. E 68, 2003 Adapting network structure for efficient team formation. Gaston, M., and desJardins, M. 2004. In Proceedings of the AAAI 2004 Fall Symposium on Artificial Multi-agent Learning. Effects of interaction topology and activation regime in several multi-agent systems. R. Axtel Multi-agent based simulation (LNAI), 2000 Brookings Institution, Washington D.C. 周りの人がやめたら自分もやめるimitatorがいるエージェントモデル。ソーシャルネットワークを、レギュラー、ランダム、スモールワールドと変えて、大部分がやめるまでの期間がどう変わるかなど。もうひとつは、会社のネットワークと賃金。 Social games in a social network G. Abramson, M. Kuperman Phys. Rev. E 63, 2001 Social network structures and their impact on multi-agent system dynamics. M. Gaston and M. desJardins. In Proc. 18th International Florida Artificial Intelligence Research Society Conference (FLAIRS), 2005. UMBC エージェント間にネットワークを仮定し、スケールフリー、ランダム、ラティスなどを比べる。タスクは、ディフュージョン、意見形成、チーム形成など。このとき、仮定したネットワークのトポロジの違いによって、結果が変わることをいっている。当たり前。 E-mail reveals real leaders Ball, P. Nature, 2003 Learning Trust Strategies in Reputation Exchange Networks Karen Fullam, K. Suzanne Barber AAMAS2006 University of Texas, Austin ART(Agent Reputation and Trust) Testbed。trustを、reputationや経験からどう計算するのかを学習するエージェントの方が、そうでないものより良かったとのこと。Q-learning。reputationの値は、reputation providerからもらえて、q値に相当するそうだ。 Multi-Agent System that Facilitates Scientific Publications Search Aliaksandr Birukou, Enrico Blanzieri, Paolo Giorgini AAMAS2006 U. of Treno (Italy) パブリケーションの情報を共有するマルチエージェントモデル。Expert AgentとかDirectory FacilitatorとかAgent Resource Brokerとかを使ったアーキテクチャ。10個のエキスパートを使った評価実験。ちょっとしょうもない。 Trust-based Agent Community for Collaborative Recommendation J. Weng, C. Miao, and A. Goh AAMAS2006 (short paper), 2006 Nanyang Technological Univ., Singapore たぶん、今までの評価が似てる人を集めて(コミュニティ)、それを推薦(予測)に用いる。itemの推薦の計算方法など。MovieLensのデータセットでの評価実験。 The Emergence of Global Properties from Local Interactions --Static Properties and One Dimensional Patterns-- Daniel Yamins AAMAS2006 (short paper), 2006 1次元のラティス。引用は弱い。SOMっぽい。定理ばかりで意義が良く分からん。 Towards a theory of local to global in distributed multi-agent systems Daniel Yamins AAMAS2005 Yaminsさんはこのネタらしい。 Formation of cooperation structure by interaction network in directed multi-agent. Kosuke Sekiyama, Yukihisa Okade AAMAS2005 Optimal design in collaborative design network Y. Xiang, J. Chen, William S. Havens AAMAS2005 AAMAS2005 あ AAMAS2005 あ AAMAS2005にはVotingのセッションあり。3件論文。Reputationの論文は5件。 Foundations of organizational structures in multiagent systems. Davide Grossi, Frank Dignum, Mehdi Dastani, Lamber M. M. Royakkers AAMAS2005 Utrecht Univ. power, coordination, controlという3つの次元から社会構造を捉えるべきだとの議論。組織の論理(logic of organization)という論理体系も出てきて、難しい。 Trust evaluation through relationship analysis. Ronald Ashri, Sarvapali D. Ramchurn, Jordi Sabater, Michael Luck, Nicholas R. Jennings: AAMAS2005 U. of Southampton ちょっとSemantic Webっぽくて面白い。多様な関係の表現とトラストの計算。 Searching social networks Bin Yu, Munindar P. Singh: AAMAS2003 North Carolina State University マルチエージェント(ピアツーピアっぽい)でreferralのパスを探す。Referral Webを引いている。 KW: 武田先生 Agent network topology and complexity. Xiaolong Jin, Jiming Liu AAMAS2003(poster), 2003 Hong Kong Baptist Univ. SAT問題をマルチエージェント的に考えたときのトポロジ。WalshのSearch in the small worldを引いている。 Extracting reputation in multi agent systems by means of social network topology Josep M. Pujol, Ramon Sanguesa, Jordi Delgado AAMAS2002 ソーシャルネットワークからのランキング。中心性みたいな感じで、引くべき論文だが、ちょっと質は低い。 Reputation and social network analysis in multi-agent systems Jordi Sabater, Carles Sierra AAMAS2002 Emergence of agent-based referral networks. Bin Yu, Munindar P. Singh AAMAS2002 (poster) 翌年にsearching social networksの論文。 Study of Social Consciousness in Stochastic Agent-Based Simulations: Application to Supply Chains T. Moyaux, B. Chaib-draa, S. D'Amours AAMAS2006 (short paper) Certified reputation: how an agent can trust a stranger T. D. Huynh, N. R. Jennings, N. Shadbolt AAMAS2006 U. Southampton CR(Certified Reputation)。reputation networkなど。でも、ネットワークが直接でてくるわけではない。 Junta Distributions and the Average-case Complexity of Manipulating Elections A. D. Procaccia, and J. S. Rosenschein AAMAS2006 Hebrew Univ. of Jerusalem, Israel 選挙のプロトコルの話。Borda方式やコンデルセ条件についても少し言及あり。 Information Retrieval on the Semantic Web. Timothy W. Finin, James Mayfield, Anupam Joshi, R. Scott Cost, Clay Fink HICSS 2005 UMBC Using the Semantic Web to Integrate Ecoinformatics Resources. Cynthia Sims Parr, Andriy Parafiynyk, Joel Sachs, Rong Pan, Lushan Han, Li Ding, Tim Finin, David Wang AAAI 2006 UMBC 2ページのポスター。生態系、食物連鎖などのオントロジをOWLで連結してSPARQLクエリーエンジンでクエリーを投げられるようにしたシステム。よい試みだと思うが、まだ実装しただけのイメージ。 The structure of scientific collaboration networks. M. E. J. Newman. Proceedings of the National Academy of Sciences USA, 98:404{409, 2001. The structure and function of complex networks. M. E. J. Newman. SIAM Review, 2003 ネットワーク構造解析 鹿島 久嗣 Getoorさんの研究も紹介されている。よい。 http://www.geocities.co.jp/Technopolis/5893/publication/FPAI63slide.pdf http://www.geocities.co.jp/Technopolis/5893/publication/NLP2006.pdf The Link Prediction Problem for Social Networks, Liben-Nowelly & Kleinberg CIKM 2004 とても面白い。いろいろな属性を定義して、どれが一番予測に効くか。Katzという指標(パスの数)が良い。 予測の精度はあまり高くないみたいだが、いろいろな分野の共著関係について分析している。 Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead Cameron Marlow, Mor Naaman, danah boyd, Marc Davis Hypertext 2006 UC Berkeley, and Yahoo! Research Berkeley Flickrのデータ。タグのオーバーラップ、時系列変化等。分析自体はたいしたことなさそうだが、前書き等の流れは良い。いろいろなソーシャルブックマークの紹介が参考になる。 SemRank: Ranking complex semantic relationship search results on the semantic Web. K. Anywanwu, A. Maduko, and A. Sheth. WWW 2005 Learning Structured Prediction Models: A Large Margin Approach B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin ICML 2005 UC Berkeley, Stanford Univ. and CMU Ph.D論文。Kollerさんのところ。associativeマルコフネットワーク(AMN)、relationalマルコフネットワーク(RMN) % Playing multiple roles: discovering overlapping roles in social networks A. Wolfe, D. Jensen SRL workshop 2004 U. Massachusetts Learning Probabilistic Models of Link Structure Lise Getoor, N. Friedman, D. Koller, B. Taskar 2002 教科書的なもの。PRM, Reference uncertainty, Existence uncertainty。 % Learning Probabilistic Relational Models Lise Getoor U. Maryland パワポ。 HPにあるもの。すごい。。。 http://www.cs.umd.edu/~getoor/Talks/lprm-tutorial.ppt % Statistical Relational Learning for Link Prediction A. Popescul and L. H. Ungar IJCAI03 workshop on learning statistical modeling from relational data, 2003 Univ of Pennsylvania 最初の導入が分かりやすい。feature generationやnoisy dataについて。citeseerのデータで、新しいオブジェクトのリンクが一部分かっているとき、残りを予測する。関係の属性を組み合わせて設計している。citation recommendationに使えると述べている。 Social Network Caught in the Web Lada A. Adamic, Orkut Buyukkokten, and Eytan Adar, A First Monday, 8(6), 2003. StanfordのNexus Net。2470人のNexusユーザと10100本のリンクのデータ。 Association by similarityの節に同属性関係について述べられている。 Empirical analysis of an evolving social network G. Kossinets, D. Watts. Science, 311:88 ィC 90, 2006. % Geographic routing in social network D. Liben-Nowell, J. Novak, R. Kumar, P. Raghavan, and A. Tomkins Acad. Sci USA 2005 % % Learning Systems of Concepts with an Infinite Relational Model C. Kemp, J. Tenenbaum, T. Griffiths, Takeshi Yamada, Naonori Ueda AAAI-06, MIT, NTT cslab ブロックモデルを確率的に解釈して、グラフ上のクラスタリングを行なう話。難しい。 % kFOIL: Learning Simple Relational Kernels N. Landwehr, A. Passerini, L. Raedt, P. Fransconi AAAI-06 Albert-Ludwigs Universitat, Germany 機能学習のシステムFOILのカーネルバージョン。前年にNaive BaysバージョンをAAAIに出している。 % A Survey of Kernels for Structured Data % A Hybrid Discriminative/Generative Approach for Modeling Human Activities J. Lester, T. Choudhury, N. Kern, G. Borriello, and B. Hannaford IJCAI-05 U. of Seattle, Intel 肩にかつぐセンサーでSitting, Standing, Walkingなどを判定する。BoostingとHMM。 % Credible and Inexpensive Rating of Routine Human Activity D. H. Wilson and M. Philipose IJCAI05 CMU and Intel RFIDを使っているが、その話はほとんど出てこない。HMMとTrace repairを用いるHSMM(Hidden Semi-Markov Models), 時相論理。 % Location-Based Activity Recognition using Relational Markov Networks L. Liao, D. Fox and H. Kautz IJCAI-05 U. of Washington GPSとマルコフモデル(Relational Activity Model) % On Clusterings: Good, Bad and Spectral % The Structure of Collaborative Tagging Systems Golder, S, and Huberman, B.A. 2005 HP Lab. (USA) folksonomyについて書かれている。その意義、分けることと必要性、なぜカテゴリでなくタグなのかについても言及されている。polysemy, synonymy, basic levelの問題(人がどのレベルのタグを最も自然だと思うか。) Deliciousの分析。2005年6月23日から27日まで。特定のユーザや特定のタグについての頻度の分析。タグをつける意図の分類(3.3)。タグの安定化。 質問:いまも分析しているのか、データ量を増やすのか? Peterの論文との関係、何が言えると面白いのか。 KW: タグ, 武田先生 % Evolving semantic web with social navigation % Collaborative tagging as a tripartite network R. Lamibiotte and M. Ausloos 2005 Universite de Liege (Belgium) Peterのとはまた違った表現(projection)でのtripartiteモデル。 Structure analysisで方向つきの相関のグラフを出している。www.audioscrobbler.com、www.citeulike.orgのデータ。 % Semantic social network portal for collaborative online communities Sebastian R. Kruk and Stefan Decker J. of European Industrial Training, Vol.29, No. 6 (2005) DERI セマンティックソーシャル協調フィルタリング。FOAFのknowsを使う。分散でユーザプロファイルの管理。FOAFRealmという参考文献の共有システム。P2P(D-FOAFと呼ばれる)上に実装されている。濱崎さんの研究に近い感じ。アルゴリズムなどはしっかり書かれている。 % Recommendation as Classification: Using Social and Content-Based Information in Recommendation C. Busu, H. Hirsh, and W. Cohen AAAI/IAAA 1998 % Where are the semantics in the semantic web? Michael Uschold AI magazine, 2003 ちょっと古い。 % Dogerar: Social bookmarking in the enterprise D. Millen, J. Feinberg, B. Kerr SIGCHI conference on Human Factors in computing systems, 2006 IBM Research, Cambridge % Collaborative Tagging and Semiotic Dynamics C. Cattuto, V. Loreto, and L. Pietronero 2006 Universita di Roma 1章の後半に言語との関連の記述。rich-get-richerの簡単なモデルを使って、それがdeliciousとconnoteaのデータによくあてはまることを示している。 % Why do tagging systems work? G. Furnas(U. of Michigan), C. Fake(Yahoo!), L. Ahn(CMU), J. Schachter(delicious), S. Golder(HP lab), K. Fox(Google), M. Davis(Yahoo! Research Berkeley), C. Marlow(Y! Research Berlkeley), M. Naaman(Y! Research Berkeley) ACM CHI'06 Yahoo!が多い。 パネル。 % Technically Speaking: Folk Wisdom Paul McFedries IEEE Spectrum, 2006 読者に読みやすい1ページの記事。Web2.0やfolksonomyの解説など。基本的な用語は参考になるので引くときにはよさそぅ。collective intelligence, wisdom of crowdsなど言及されている。 % Collaborative thesaurus tagging the Wikipedia way Jakob Voss 2006 Wikimedia Deutshland, ドイツ Wikipediaとtaggingの分類の比較のような感じだけど、よく分からない。変な論文。 % Finding Scientific Gems with Google P. Chen, H. Xie, S. Maslov, and S. Render 2006 Boston Univ., CUNY, and Brookhaven National Laboratory(NY) Physical Reviewについて、Googleのヒット件数、PageRankと、引用の回数を調べている。 % Folksologies: de-idealizing ontologies % Semantic Wikipedia Max Volkel, Markus Krotzsch, Denny Vrandecic, Heiko Haller, Rudi Studer WWW2006 U. Karlsruhe, Germany Semanticな情報を埋め込めるようにWikipediaを設計する話。自動での認識ではない。概念論文。 % Wikipedia and the Semantic Web The Missing Links Markus Krotzsch, Denny Vrandecic, Max Volkel Proceedings of Wikimania 2005 U. Karlsruhe, Germany % Automatic Evaluation of Ontologies (AEON) % Bloug: Folksonomies? How about Metadata Ecologies? % Folksonomies: Tidying up Tags? % Experiments in academic social book marking with Unalog % Integrating Communication and Information Through ContactMap. B. Nardi, S. Whittaker, E. Isaacs, M. Creech, J. Johnson, J. Hainsworth Communications of the CACM, 2002 % Recommending Collaboration with Social Networks David W. McDonald Proc. ACM CHI'03 U. of Washington なんか大量に参考文献はあるが、単なるケーススタディのような感じ。うーむ。 % On the Recommending of Citations for Research Papers S. M. McNee, I. Albert, D. Cosley, P. Gopalkrishnan, S. K. Lam, A. M. Rashid, J. A. Konstan, and J. Riedl. CSCW '02 Group Lens Research Project, U. of Minnesota, USA % Small-World Link Structures across an Academic Web Space: A Library and Information Science Approach L. Bjorneborn PhD thesis. 2004 Royal School of Library and Information Science, Denmark % Analysis of Recommendation Algorithms for E-Commerce. B. Sarwar, G. Karypis, J. Konstan, J. Riedl ACM Conference on E-Commerce, 2000 U. Minnesota % Modeling Interdependent Consumer Preferences Sha Yang and Greg M. Allenby Journal of Marketing Research, 2003 % SNACK: Incorporating Social Network Information in Automated Collaborative Filtering C. P. Lam EC'04 Stanford Univ. ポスター。人の近さをあわせて推薦。 % Fab: Content-based, collaborative recommendation Marko Balabanovic and Yoav Shoham Communications of the ACM, 1997 Stanford Univ. Contentと協調フィルタリングをあわせた推薦。Hama論文に重要。 % Internet Recommendation Systems Ansari, Asim, Essegaier, Skander and Kohli, Rajeev Journal of Marketing Research.37, 363-375, 2000 山本さんのパワポでよく引いていたもの。 % Learning by Collaborative and Individual-Based Recommendation Agents D. Ariely, J. Lynch, Jr., M. Aparicio Journal of Consumer Psychology, 2004 MIT, Duke Univ. and Saffron Inc. 協調フィルタリングと個々のエージェントによる推薦について、学習曲線をシミュレーションで比較。いろいろ実験していて良さそう。 The Happy Searcher: Challenges in Web Information Retrieval M. Sahami, V. Mittal, S. Baluja, H. Rowley PRICAI04 Google 薄く広い紹介。検索エンジン(Web IR)、短いテキストの類似度、UseNetの検索、イメージ検索、クエリーの利用(スペルチェックやOpen Directoryへの利用)など。 Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping. Mikhail Bilenko, Sugato Basu, Mehran Sahami ICDM 2005 % Folksonomyマイニングに基づくWebページ推薦システム 丹羽 智史、土肥 拓生、本位田 真一 情報処理学会誌 東大、NII はてなから5800人分のデータを取って、タグ間の親和度を出しクラスタリング。ユーザとタグの親和度をもとに、タグクラスタとの親和度を出す。 ページとタグの親和度は、ページにおけるタグのtfidfで定義。ユーザとタグの親和度は、ブックマークしている全てのページについてのタグの親和度(tfidf)の合計。タグ同士の親和度は、タグがついてるページの親和度(tfidf)の掛け算の和。クラスタリングはよく分からんヒューリスティック。 ユーザにページを推薦する。再現率は5%くらい、適合率は最大でも14%だが、ブックマーク数が増えるとともに適合率がちゃんと上がってるのは読み取れる。10人のユーザによる評価実験もあり。関連研究も比較的しっかりしている。 対象モデリングの視点から見た知識表現 溝口 理一郎、池田 満、来村 徳信 人工知能学会誌 VOl.18, No.2, (解説), 2003 すばらしい。すばらしい。 工学ドメインオントロジー 来村 徳信 人工知能学会誌 2004 阪大 オントロジーの必要性、構築上の問題点、オントロジー自体の説明、使われ方など。関連文献が詳しい。機能のis-a関係とpart-of関係(方式)。 オントロジー理論に基づく情報教育目標の体系的記述 笠井 俊信、山口 晴久、永野 和男、溝口 理一郎 電子情報通信学会 岡山大、聖心女子大、阪大 情報教育目標に対する体系的記述をするためのオントロジーを構築する。オントロジ中の各概念の説明。is-a階層、part-of階層がある。これを利用した展望を述べた後、オントロジの有効性の評価を21人に対するアンケートで行っている。(自身がつきましたか、役立つと思いますかなどの当たり前の項目。アンケートの有効性は疑問。) Evaluating Ontological Decisions with OntoClean Nicola Guarino and Christopher Welty CACM, Vol 45, No. 2, 2002 本質的な属性、identity(どんなときに同一であるとみなすのか)とunify(どんなときにpartとwholeであると分かるのか)。subsume (is-a)が誤用されていること、part/wholeも誤用されがちであることなど。 デバイスオントロジーに基づくシグナル伝達パスウェイの統一的記述枠組みの開発 高井 貴子、溝口 理一郎 人工知能学会誌 VOl. 20, No. 6, 2005 東大、阪大 生物における分子間の化学反応の因果連鎖(パスウェイ)を表すために、 シグナル伝達の知識を対象としたオントロジー(CSNO)を開発した。 パスウェイデータベースの現状と問題点、表現モデルに関する考察、定義する概念、 デバイスオントロジーの導入と、デバイスオントロジによるシグナル伝達の表現、基盤的機能の定義、組織的機能の定義、Is-a階層、 オントロジに基づくシグナル伝達表現の統一(これが一応、応用)、 関連研究。 基本的には、空間の意味表現もこのような構成になるはずなので、参考になる。 コンテキスト依存性に基づくロール概念組織化の枠組み 砂川 英一、古崎 晃司、来村 徳信、溝口 理一郎 人工知能学会誌, Vol. 20, No. 6, 2005 阪大 新人教員ロールは、新人ロールや教員ロールなどプリミティブなロール概念から構成される複合ロール概念である。これを扱うために、ロールを、コンテキスト、ホルダー、ロールパートという3つのスロットを持つ概念として定義する。ロール概念の組織化の方法、指針などを議論した後、4章では組織化例を示している。さらにロール概念のインスタンスについて議論し、ロール概念組織化の意義を述べている。詳細な関連研究がある。 An exponential family of probability distributions for directed graphs HOLLAND, P., and LEINHARDT, S. Journal of the American Statistical Association, 76, 33 -- 50, 1981 P1モデル Learning to construct knowledge bases from the world wide web. M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, and S. Slattery. Artificial Intelligence, 118(1{2):69{114, 2000. CMU, Just Research Web→KBシステム。CMUドメインで、instructors_ofやmembers_of_projectなどの関係を見つけ出す。問題設定としては、オントロジと訓練例が与えられたきに、新たなインスタンスをWebから見つけ出す。かなりいろいろやっている。ページ内の語とリンクを使っている。 Statistical Relational Learning ? WISC コースのシラバス。関係を表すモデルとしては、 plateモデル PRMモデル(Probabilistic relational models: GetoorやKoller, Pfefferなど) PERモデル(Probabilistic entity-relationship) などがある。 http://www.biostat.wisc.edu/~page/838.html Link prediction in relational data. B. Taskar, M.-F.Wong, P. Abbeel, and D. Koller. Neural Information Processing Systems Conference, 2003 Link mining: a survey Lise Getoor, and Christopher P. Diel SIGKDD U. of Maryland and Johns Hopkins Univ. すばらしいサーベイ。Link-based object ranking, Link-based object classification, Group detection, Entity resolution, Link prediction, Subgraph discovery, Graph classification, Generative models for graphsについて解説。 http://www.acm.org/sigs/sigkdd/explorations/issues/7-2-2005-12/1-Getoor.pdf http://www.acm.org/sigs/sigkdd/explorations/issue.php?volume=7&issue=2&year=2005&month=12 重要人物集 あ Lee-Feng Chien (WWWにLiveClassifier、ACLにmultilingual translation lexiconsなど。) Lapata (bigramの頻度をWebで測る) Culotta, Bekkerman, McCallum(マサチューセッツ大) Turney(カナダ) Automatic Thesaurus Generation through Multiple Filtering Kyo Kageura, Keita Tsuji, and Akiko Aizawa Coling 2000 NII パラレルコーパスの共起(日・英)でグラフを作る。英単語、日本語の単語、英単語という順でつながるグラフ(つまり2mode)。その後、minimum edge cutで、クラスタリングする。 Utilizing the World WideWeb as an encyclopedia: Extracting term descriptions from semi-structured texts. A. Fujii and T. Ishikawa. ACL 2000 Retrieving Japanese specialized terms and corpora from the World Wide Web Marco Baroni and Motoko Ueyama KONVENS 2004 Univ. of Bologna Seed termから始めて、その組み合わせを検索エンジンにかけて、得られた文書から語を得る。これを繰り返すからbootstrap Automatic Acquisition of Concept Relations from Web Documents with Sense Clustering Kenji Miura, Yoshimasa Tsuruoka, and Jun'ichiro Tsujii IJCNLP04 Hearstのパターンを使って、Webからhypernym, hyponymを取り出す。英語。Self annotated...と同じかな。 A corpus-based approach for building semantic lexicons Ellen Riloff and Jessica Shepherd. 1997. EMNLP-97, 1997 Univ. of Utah 名詞に注目したlexiconの構築。カテゴリごとのseed wordsとテキスト(カテゴリ情報あり)を与える。すると、カテゴリごとに、ランク付けされた語のリストが得られる。これを人が見ることで、カテゴリに日も付けられたlexiconを作ることができる。human judgeによる評価。 Word sense disambiguation using statistical models of Roget's categories trained on large corpora. Yarowsky, D. In Proceedings of the Fourteenth International Conference on Computational Linguistics (COLING-92), 1992 Word sense disambiguationでは重要な論文のようだ。 Noun-phrase co-occurence statistics for semiautomatic semantic lexicon construction. Brian Roark and Eugene Charniak. COLING-ACL, 1998. 名詞に注目したlexicon。 http://portal.acm.org/citation.cfm?id=980751 Frequency estimates for statistical word similarity measures. Egidio L. Terra and Charles L.A. Clarke. HLT/NAACL 2003, 2003. すごい論文。TurneyのPMIを拡張させて、MI, Likelihood ratio、χ2乗、L1, contexutualのcosine, MI, L1, Jensen-Shannonなどひととおりやっている。contextは、PMIがもっとも大きい語を取っており、Turneyもこの語を増やすとよくないと言っているが同様の結果が得られている。 Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora Pu-Jen Cheng, Yi-Cheng Pan, et al. ACL2004 Institute of Information Science, Taiwan 検索エンジンのsnippetを使って多言語の翻訳レキシコンを作ること。方言など地域的な要素も考慮できる。Chi-squareやcontext-vectorを使っており、書き方が参考になる。 Using the Web to Overcome Data Sparseness Frank Keller and Maria Lapata, Olga Ourioupina Proc. EMNLP 2002, (Computer Linguistics, Vol. 29, Issue 3, 2003) U. of Edinburgh (UK), Saarland Univ. (Germany) コーパスで見たことのないunseen bigramの頻度をWebで得る。コーパスの頻度とWebの頻度の相関が高いことを示す。 Creating and using Web corpora. Thelwall, M. International Journal of Corpus Linguistics 10(4), 517-541, 2005 U. of Wolverhampton Web as Corpusの話を整理した感じ。コーパスとしてのWeb, Search engineの欠点、従来のコーパス(BNC)との頻出語の比較。 Word clustering and disambiguation based on co-occurrence data Li, H. and Abe, N. In Proceedings of the 17th international conference on Computational linguistics (Coling-ACL), 1998 NEC MDLを使ったクラスタリングで、パラメータの推定を動詞と名詞の共起で行っている。 Measuring Semantic Similarity by Latent Relational Analysis Peter D. Turney IJCAI-05, 2005 National Research Council Canada, Canada 面白い。 1. AとBのペアに対し、thsaurusでalternatesであるA'やB'を見つける。 2. A:B(alternate含む)に対し、検索エンジンにクエリーを出す。Aで始まりBで終わるフレーズを見つける。最も頻出するのを見つけ、残りを捨てる。 3. 各ペアに対して、そのペアを含むフレーズのリストをコーパスから作る。検索エンジンにかける。 4. パターンを見つける。各フレーズごとに各部分をワイルドカードで置き換えたパターンを作る。 5-7. wordのペアから行への変換を作る。パターンから列への変換を作る。行列を作る。 8-10. エントロピーを計算する。特異値分解を行う。射影を行う。 12. 関係の類似度を計算する。A:BとC:Dの類似度。 cause(flu:virus), location(home:town), part(printer:tray), topic(weather:report), 他にも(student:protest), (oak:tree)などを出す。 KW: 辻下くん Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews. Peter D. Turney. In Proceedings of ACL-02, 2002 PMI-IRを使って、語がexcellentやpoorと共起が高いかを調べ、reviewが肯定的か否定的かを判定する。 Word Sense Disambiguation by Web Mining for Word Co-Occurrence Probabilities Turney, P Prc. 3rd International Workshop on the Evaluation of Systems for the Semantics of Text (SENSEVAL-3) 2004 (PMI, TOFELの人) Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. P. D. Turney. In Proceedings of the Twelfth European Conference on Machine Learning, 2001. PMIはPointwise Mutual Information。つまり、検索エンジンを使って共起を相互情報量で計る。これでTOEFLのsynonymのタスクで73.75%の正答率になった。(non-English speakingの人は平均で64.5%)問題problemと選択肢choiceがあったとき
・一番シンプルなスコア score1(choice_i) = hits(problem AND choice_i) / hits(choice_i)
・複雑なスコア(4番目)
score4(choice_i) =hits((problem NEAR choice_i) AND context AND NOT ((problem OR choice_i) NEAR "not"))
----------------
hits(choice_i AND context AND NOT (choice_i NEAR "not")) ※ダヌシカくんが紹介してた気がする。 A Search Engine for Natural Language Applications, M. Cafarella, and O. Etzioni WWW2005, 2005 (ワシントン大学) 現在のNLPはWeb文書を扱ったり、Webをコーパスとして統計を取るときに、検索エンジンを使っている。ところが、検索エンジンは人間のクエリーを得るために最適化されているため、この目的に適していない場合もあるため、何百万回もクエリーを出す必要があったりする。この論文では、Binding Engine(BE)を提案する。タイプ変数とstring処理関数を持ったもので、例えば、"powerful "とやると、powerfulに続く名詞を頻度順に並べてくれる。また、"Cities such as ProperNoun(Head())"とやると、cityの名前が返ってくる。BEのneighborhood indexは、kをクエリー中の語とするとO(k)のランダムディスクシークと、O(k)のシリアルディスクシークで処理される。 Lexical Affinities and Language Applications Egidio Terra COLING 2004 University of Waterloo, Canada カナダの学生の博士論文。長い記述だが、co-occurrenceについていろいろな文献が引かれている。 Ensemble Methods for Automatic Thesaurus Extraction Curran, J. In Proceedings of the 2002 Conference on Empirical Methods in NLP, 2002 3億語までのシソーラスの構築ができる。 Improvements in Automatic Thesaurus Extraction James R. Curran and Marc Moens   In Proc. the Workshop of the ACL SIGLEX, 2002 University of Edinburgh (Lapataらと近いグループ) 1章は分かりやすいoverview。コンテキストの類似性、Hearstのパターン。 この論文では、BNCコーパスを用い、コンテキストを表すのに(w, r, w')というtupleを用いる。例えば、(dog, direct-obj, walk)など。 その上で、コンテキストを「文内で共起する語と文法関係のセットのベクトル」で表現する。例えば、ideaは、{(adj, good) 2005, (adj, faintest) 89, (dir-obj, have) 1836, ...}と表現される。 その際、属性の重みを決めるのがweighting function, similarityを計算するのがmeasuring functionである。9種類のmeasuring function, χ2乗も含めて9種類のweght functionの比較をしている。JaccardとT-testがよい。 Scaling Web-based Acquisition of Entailment Relations. Szpektor, I., Tanev, H., Dagan, I., and Coppola, B In Proceedings of EMNLP 2004 Italy (U. of Trentoなど) and Israel 重要な論文のひとつ。paraphrase recognition。"Yahoo acquired Overture"と"Yahoo bought Overture"が同じリンク先であることから、"X buy Y"と"X acquire Y"が同じであると見つける。 A Graph Model for Unsupervised Lexical Acquisition. Widdows, D. and Dorow, B. (2002). COLING 2002 BNCのコーパスを使う。99454ノード、58万リンク。Noun-Verb, Verb-Noun, Adjective-Noun, Noun-Noun, Noun and/or Noun。この論文が基本になりそう。automatic lexical acquisionと言っている。 Introduction to the Special Issue on the Web as Corpus Adam Kilgarriff Computer Linguistics, Vol. 29, Issue 3, 2003 前半はWebの言語の基本的な統計について書かれており、British National Corpusより語の頻度が格段に多く、統計が安定することが書かれている。 Webが何を代表してるかについては、それ自身しか代表していないが、そもそもコーパスは何を代表しているのか、話し言葉と書き言葉はどっちが重要か、読むことはイベントか、ラジオに流れてくる声を聞く(聞いていない)のはイベントか、など本質的な疑問を逆に提示している。 Distributional clustering of English words. F. Pereira, N. Tishby, and L. Lee. In 31st Annual Meeting of the ACL, 1993 Distributional clusteringの文献 Distributional Clustering of Words for Text Classification Baker, D. and McCallum, A. In Proceedings of SIGIR-98, 1998 CMU, and Justsystem Pittsburgh Research Center 文書分類のために、語のクラスタリングをする。teamとteammateなどは同じグループにしても文書分類上問題ない。よい論文。Newsgroupデータ、Reutersデータ、Yahoo!Scienceのデータを使って評価を行っている。 The Web as a Baseline: Evaluating the Performance of Unsupervised Web-based Models for a Range of NLP Tasks. Mirella Lapata, Frank Keller HLT-NAACL 2004: 121-128, 2004 Web countを使って、いろいろなタスクに適用している。その結果、2つのタスクでよい結果がでた。翻訳先の言語選択、スペルチェック、形容詞並び替え、複合語ブラケッティング、複合語解釈、可算名詞検出。Web-based modelは、代替物ではなくベースラインだという結論。 ----- Word clusteringの説明 あ あ http://www.ilc.cnr.it/EAGLES96/rep2/node37.html Document Clustering Using Word Clusters via the Information Bottleneck Method. Noam Slonim and Naftali Tishby. In Proceedings of the 23d Annual International ACM Conference on Research and Development in Information Retrieval, (SIGIR), pages 208--215, Athens, Greece, 2428 July 2000. Automatic Thesaurus Construction Using Word Clustering, Minoru Sasaki, Hiroyuki Shinnou: Pacific Association for Computational Linguistics(PACLING03), pp.55-62 (2003) Mining the web to create minority language corpora. Ghani, R. Jones, and D. Mladenic. CIKM 2001, 2001 スロベニア語、クロアチア語、チェコ語、Tタガログ語など、マイナーな言語のWeb文書を収集するために、クエリーを工夫する。初期文書から始めて、その対象言語のページに含まれてそうでない語に含まれない語を使う。その際、tf, prf, rtfidf, odds-ratio, probabilistic odds ratioなどを比べている。 (rtfidfというのは、関連した文書におけるtfとidfをかけたもので、カテゴリの特徴語に近い。) Automatic Word Clustering for Text Categorization Using Global Information Chang Xinghi, Wang Huizhen, Zhu Jingbo, and Yao Tianshun First Asia Information Retrieval Symposium (AIRS2004) Webではなく、一般のコーパス。特によい論文ではなさそう。 Knowledge discovery for automatic query expansion on the world wide web M.Hatem, Haddad Mathias.G. WWWCM'99 Web as Huge Information Source for Noun Phrases Integration in the Information Retrieval Process Mathias Gery, M. Hatem Haddad, and Dominique Vaufreydaz France たいしたことなさそう。 Scaling to very very large corpora for natural language disambiguation Banko, M., and Brill, E. Proceedings of ACL-01. (2001) Microsoft Research オンラインのテキストは数兆語にもぼるのに、ほとんどの自然言語のタスクでは、100万語以下のものしかあつかっていない。この論文では、(confusion set) disambiguationのタスクに対して、いくつかの学習法での評価を示している。訓練データの量が増えれば、学習のパフォーマンスはかなりよくなることを示した。(そんなに関係ない。) Web-based models for natural language processing. Mirella Lapata, Frank Keller TSLP 2(1): 1-31 (2005) baseline論文のジャーナル版。図や結果が詳しい。 Mining the Web for relations Neel Sundaresan, and Jeonghee Yi Proc. 9th WWW conf., 2000 IBM Almaden, UCLA 関係とパターンのdualityについて書かれている。例えば、(著者、タイトル)のペアをあたえ、これを検索することでパターンを学習し、新たな(著者、タイトル)ペアを見つける。これを繰り返す。ネットワークの視点はないが、参考になる。 Thesauruses for Natural Language Processing. Kilgarriff, Adam. Proceedings of NLP-KE 03 Clustering Co-occurrence Graph based on Transitivity Kumiko Ishii-Tanaka, Hideya Iwasaki Proc. 5th Workshop on Very Large Corpora (WVLC'97), Building general- and special-purpose corpora by Web crawling M. Baroni and M. Ueyama. Proc. NIJL International Workshop on Language Corpora Univ. of Bologna Webを使った言語処理のよい点、悪い点、どのような処理が可能か(ヒット件数、ヒットした文書を使う、自分で検索エンジンを作る)が述べられている。後半は、イタリア語と日本語のコーパスを作る説明。 Reliable measures for aligning Japanese-English news articles and sentences. Utiyama, M., and Isahara, H. Proceedings of ACL 2003 読売新聞の日本語と英語の記事を対応付けるために、AVSIMという尺度を提案している。Webは関係ない。 Distributional Thesaurus vs. WordNet: A Comparison of Backoff Techniques for Unsupervised PP Attachment. Hiram Calvo, Alexander Gelbukh, and Adam Kilgarriff Proc. CICLING, 2005 Prepositional Phraseを取り出す。"see with telescope"など。大規模なコーパスが必要になる。自動で作ったコーパスは、WordNetよりカバーが広いが精度が低い。WordNetからbackoffで確率を求める。 Using cooccurrence statistics and the web to discover synonyms in a technical language. M. Baroni and S. Bisi. 2004. Proceedings of LREC 2004 TurneyのPMIをもとに、AVMIを提案。 Domain Specific Word Extraction from Hierarchical Web Documents: A First Step Toward Building Lexicon Trees from Web Corpora Chang, J. In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, 2005 National Chi-Nan University ディレクトリ構造をもつWeb文書から語を切り出す。それに特徴的な語(DSW)を出すだけ。IDF(Inter-Domain Entropy)という尺度を提案している。 論旨の立て方は似ているが、内容はしょぼい。Domain specific Word (DSW)という説明のしかたをしている。 Word Association Norms, Mutual Information, and Lexicography Church, K. and P. Hanks, Computational Linguistics, vol. 16, pp. 22-29, Mar. 1990. 1990年の論文。citationは40。相互情報量でword associationが測れるという基本的なことが提案されている。OCRやSpeech recognition、語の曖昧性解消、検索などに応用できるとされている。 Experiments in automatic statistical thesaurus construction Crouch, C. J. and Yang, B. SIGIR '92, 1992 An Association Thesaurus for Information Retrieval U. of Massachusetts Proc. RIAO94, 1994 地味な国際会議だが、51citation Explorations in Automatic Thesaurus Discovery. Kluwer Academic Grefenstette, G. Publishers, 1994 本。古いけど56サイテーション。 Mining Associative Meanings from the Web: from word disambiguation to the global brain Heylighen, F. In Proceedings of the International Colloquium: Trends in Special Language Language Technology, 2001 検索エンジンを使って共起を測ること、活性伝播を行うことも含めて応用と可能性について書かれている Hierarchical word clustering -- automatic thesaurus generation Hodge, V. and Austin, J. Neurocomputing, 2002 テキストはWebにない。あまり重要ではなさそう。 Roget's Thesaurus and Semantic Similarity Jarmasz, M. and Szpakowicz, S. In Proceedings of Conference Recnet Advances in NLP (RANLP), 2003 Univ. of Ottawa 1987年のRogetのシソーラスと、Wordnetをもとにしたいくつかの方法による類似度を比べている。 Automatic retrieval and clustering of similar words Lin, D. In Proc. 17th international conference on Computational linguistics, (COLING-ACL98), 1998 (w, r, w')で語wの周りの語を表現する。情報量で類似度を定義。6400万語のWall Street Journal, San Jose Mercury, AP Newswireを使う。Rogetのシソーラス、WordNetと比較している。 Exploiting the WWW as a corpus to resolve PP attachment ambiguities. Volk, Martin. Proceeding of Corpus Linguistics 2001, Identifying Synonyms among Distributionally Similar Words. Dekang Lin, Shaojun Zhao, Lijuan Qin and Ming Zhou. In Proceedings of IJCAI-03, (poster) 2003. Concept Discovery from Text. Dekang Lin and Patrick Pantel In Proceedings of Conference on Computational Linguistics 2002 Digraph Analysis of Dictionary Preposition definition. Litkowski, C. In Proceedings of the SIGLEX/SENSEVAL Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, (2002) Topology of the conceptual network of language Motter, A., Moura, A., Lai, Y., and Dasgupta, P. Physical Review E, 65, 2002 Arizona State Univ. 同じ概念を表していれば、2つの語をつなげる。こうして得られたネットワークはsmall worldである。英語のシソーラスを使っている。(Gutenberg?) Deriving concept hierarchies from text Sanderson, M. and Croft, B. Proc. In SIGIR '99: 1999 U. of Sheffield, and U. of Massachusetts 出現確率(包摂関係)で概念(語)の簡単な階層関係を作る。ちょっとしたシステムになっている。 Global organization of the Wordnet lexicon. Sigman, M. and Cecchi, G. PNAS, 2002 What's in a thesaurus? Adam Kilgarriff and Colin Yallop Proc. 2nd LREC, 2000 Thesaurusについて。ためになる。 Thesauruses for natural language processing Adam Kilgarriff Computation of word associations based on the co-occurrences of words in large corpora. Wettler, M.; Rapp, R. In Proceedings of the 1st Workshop on Very Large Corpora: Academic and Industrial Perspectives, Columbus, Ohio, 84-93. 1993 2語が共起すると、ちょっとだけ関連度を強めるへんなモデル。Brown corpusやWall Street Journalなど3300万語のコーパスを使った結果をRussel&Jenkinsの実験結果(1970)と比較している。1008人の学生に100この語を与えて連想語を聞いた実験である。 ※Citationは3。 A Domain Adaptive Approach to Automatic Acquisition of Domain Relevant Terms and their Relations with Bootstrapping Xu, F., Kurz, D., Piskorski, J., and Schmeier, S. In Proceedings of the 3rd International Conference on Language Resources an Evaluation (LREC'02) KFIDFという指標をつかっている。カテゴリを1つの文書と見たTFIDF Thesaurus Construction based on Grammatical Relations. Takenobu Tokunaga, Makoto Iwayama, Hozumi Tanaka IJCAI 95 ‘BootCaT: Bootstrapping corpora and terms from the web’ Baroni, M., and Bernardini, S. Proc. Fourth Language Resources and Evaluation Conference, 2004 2nd Web as Corpus Workshop Adam Kilgarriff and Marco Baroni Univ. of Sussex (もとU. of Brighton), Univ. of Bologna(イタリア) http://sslmit.unibo.it/~baroni/web_as_corpus_eacl06.html Web as Corpus workshop あ ワークショップのGOALは、松尾ぐみと非常に似ています。 Googleのヒット数、snippet, downloadを使うことが書かれていて、大変面白い。 http://sslmit.unibo.it/~baroni/web_as_corpus_eacl06.html http://sslmit.unibo.it/~baroni/wac/BhamWaC-intro.pdf Discovering Relations among Named Entities form Large Corpora Takaaki Hasegawa, Satoshi Sekine, Ralph Grishman ACL2004 Classifying Semantic Relations in Bioscience Texts Barbara Rosario, Marti Hearst ACL2004 Building Verb Predicates: A Computational View Fernando Gomez ACL2004 Discovering Relations between Named Entities from a Large Raw Corpus Using Tree Similarity-based Clustering Min ZHANG, Jian Su, Danmei WANG, Guodong ZHOU, Chew Lim TAN IJCNLP 2005 Institute for Infocomm Research, U. of Singapore Mining metalinguistic activity in corpora to create lexical resources using Information Extraction techniques: the MOP system Carlos Rodriguez Penagos ACL2004 An empricial study of Information Synthesis task Enrique Amigo, Julio Gonzalo, Victor Peinado, Anselmo Penas, Felisa Verdejo ACL2004 Automatic Knowledge Retrieval from the Web Yali GE, Rafal RZEPKA, and Kenji ARAKI Proc. International IIS:IIPWM05, 2005 北大 Detecting the Countability of English Compound Nouns Using Web-based Models Jing Peng, and Kenji Araki IJCNLP 2005 北大 Improving Name Tagging by Reference Resolution and Relation Detection Heng Ji, and Ralph Grishman ACL 2005 name tagger -> reference resolver -> relation taggerという流れで、relation taggerの情報をつかって、もう一度name taggingをやり直すとパフォーマンスがあがる。relationで、語をクラスタリングする。 Extracting Relations with Integrated Information Using Kernel Methods Shubin Zhao, and Ralph Grishman ACL 2005 Ner York University NSFがスポンサーをしているACE(Automatic Content Extraction) Relation Detection Task。表層的および統語的な特徴つかったカーネルを使って、それを合わせる。 Combining Various Knowledge in Relation Extraction GuoDong Zhou ACL 2005 Inducing Ontological Co-occurrence Vectors Patrick Pantel ACL 2005 U. of Southern California 共起を使ってWordNetのようなオントロジを作る。web-miningについて言及されているが、直接扱っているわけではない。 Accurate Unsupervised Learning of Field Structure Models for Information Extraction Trond Grenager, Dan Klein, Christopher D. Manning ACL2005 Semantic Role Labeling Using Different Syntactic Views Sameer Pradhan, Wayne Ward, Kadri Hacioglu, James H. Martin, Dan Jurafsky ACL 2005 Joint Learning Improves Semantic Role Labeling Kristina Toutanova, Aria Haghighi, Chris Manning ACL 2005 Ontology Learning and Reasoning -- Dealing with Uncertainty and Inconsistency Peter Haase, Johanna Volker Univ. of Karlsruhe, Germany Learning Taxonomic Relations from Heterogeneous Evidence Philipp Cimiano, Aleksander Pivk, Lars Schmidt-Thieme, Steffen Staab 2004 (Karlsruhe大学) Toward the Self-annotating Webの次回作。Webの情報(Hearstパターン)、corpusの情報(Hearstパターン)、WordNetなどの情報を組み合わせて、is-a関係を得る。 Building a Web Thesaurus from Web Link Structure Zheng Chen, Shengping Liu, Liu Wenyin, Geguang Pu, Wei-Ying Ma SIGIR'03 Microsoft Research Asia, Peking Univ. Zhen chenは、SIGIR, ICDM, WWWなどに出しまくってる。 Text Garden ? J. Stefan Institute, Slovenia わりと大きなプロジェクトみたい。Project Intelligenceも同じ人かな。 http://kt.ijs.si/dunja/TextWebJSI/ Sensing and Modeling Human Networks using the Sociometer Tanzeem Choudhury and Alex Pentland ISWC (Wearable Computer), 2003 MIT Sociometer (人のインタラクションを測るwearable sensor package)音声、HMMを使って、ソーシャルネットワークの図を描いている。 Using egocentric networks to understand communication D. Fisher Internet Computing, IEEE, Vol. 9, No. 5. (2005) emailやUsenet newsgroupsを使って、小規模なego-centric networkで、社会的インタラクションのパターンを調べている。 Social Network Computing Nathan Eagle and Alex (Sandy) Pentland UbiComp 2003 MIT 研究の背景(1章、2章)がとても参考になる。メインの話は、audioでキーワードを切り出すことによるコンテキストの同定。 Dynamic Personal Social Networks: a new perspective for CSCW research and design G. Henri ter Hofte, Ingrid Mulder ACM SIGGROUP Bulletin, 2003 Telematica Instituut, Netherlands Position paper。関連研究はよくかけているが、提案どまり。 2章のRESEARCH: MEASURING AND ANALYSING DYNAMIC PERSONAL SOCIAL NETWORKSは参考になる。Logging physical proximity, logging physical location, and logging communicationという3つの方法に分けている。 この論文は最終的にきちんとしたpaperになってない。 IntelliBadge: Towards Providing Location-Aware Value-Added Services at Academic Conferences Donna Cox, Volodymyr Kindratenko, and David Pointer UbiComp 2003: Ubiquitous Computing, 5th International Conference, 2003 Univ. of Illinois at Urbana-Champaign IEEE SC2002での支援について。サーベイは少ないが、商用の関連製品について詳しい。7000人の会議(テクニカルプログラムの登録者2000人)で800人以上にバッジをくばって、トラッキングする。Kioskでユーザ登録制。どれだけ歩いたかなども分かる。3日間で毎日賞を出したらしい。この辺の運用の部分は面白い。Lesson learnedの8章も喜んで歩き回る人、文句を言う人の話があって、面白い。 Meme tags and community mirrors: Moving from conferences to collaboration. Borovoy, R., Martin, F., Vemuri, S., Resnick, M., Silverman, B., and Hancock, C. Conference on Computer Supported Cooperative Work. 1998 有名な研究らしい。 Social net: Using patterns of physical proximity over time to infer shared interests. Terry, M., Mynatt, E.D., Ryall, K., and Leigh, D.: In Extended Abstracts of the ACM Conference on Human Factors in Computing Systems (2002) George Tech 2ページだけ。この後、やめたようだ。 Augmenting the Social Space of an Academic Conference Joseph F McCarthy, David W McDonald, Suzanne Soroczak, David H Nguyen, Al M Rashid Intel Research, Univ. of Washington, Univ. of Minnesota CSCW2004 proactive displayをつかった学会支援。one-to-oneよりはone-to-many, many-to-many。関連研究は、one-to-one型と、大型ディスプレイをつかったもので分けている。AutoSpeakerIDとTicket2Talkというシステム。 Ontologies are us: A unified model of social networks and semantics Peter Mika ISWC 2005, 2005 Free Univ., Amsterdam ISWCベストペーパー。アクター、クラス、リソースのTripartiteモデル。 Trust network-based filtering of aggregated claims Jennifer Golbeck and Bijan Parsia International Journal of Metadata, Semantics and Ontologies, 2006 U. of Maryland trustを計算するだけでなく、それによって言明を重み付けて取捨選択するところまで試している。 How the Semantic Web is Being Used:An Analysis of FOAF Documents Li Ding, Lina Zhou, Tim Finin, and Anupam Joshi Proc. 38th International Conf. on System Sciences, 2005 U. of Maryland FOAF文書を集めてくる方法(同定の仕方)、どのプロパティがよく使われているか、次数分析、ネットワーク図など。 Social Net: Using Patterns of Physical Proximity Over Time to Infer Shared Interests M. Terry et al. CHI 2002 A survey of socially interactive robots Terrence Fong, Illah Nourbakhsh, and Kerstin Dautenhahn Robotics and Autonomous Systems, 2003 CMU, EPFL, U. of Hertfordshire 1.2にはsocial robot, sociable robot, socially intelligentなどいろんな定義が書かれている。これらをまとめる形でsocially interactive robotという語を使っている。(1.3) Social networkについては言及なし。 Socially Aware Computation and Communication Alex (Sandy) Pentland IEEE Computer, 2005 MIT 主に音声を使って、activity level, engagement, stressなどを測る。 Laibowitz and Paradiso Uberbadge: バッジのようなもので、IR、音声、動きで面白い人やデモをブックマークできる。 GroupMedia system: Zaurus PDAを使う。デートや他のイベントで、どのくらい引き込まれているかのシグナルを測定する。他の会話で面白いのをちょっとだけ聞いたりすることができる。 Serendipity system: Nokiaの携帯を使って、近くにいるほかの人との興味が近いか計算して、適切な紹介を行う。FriendsterやOrkutの言及もある。 5ページのBuilding social captalのあたりにsocial networkに関する記述。 Mapping Human Networks Jonathan Gips, Alex (Sandy) Pentland Int'l Conf. Pervasive Computing and Communications, 2006 Human Dynamics Group, The Media Lab, MIT 学会でバッジを使ってコミュニケーションのサポート。UbER-Badgeというシステム。2004年にMIT Media Labでのsponsor meetingで使った。130人がバッジをつけて約8時間。また2005年には84人が使った。Infraredのbeacon(Squirts)を76プロジェクトのデモンストレーションにつけた。明示的にボタンを押すことで、人や発表をブックマークできる。これで、affiliationの推定を行っている。 Bootstrapping the FOAF-Web: An Experiment in Social Network Mining Peter Mika 1st Workshop on Friend of a Friend, Social Networking and the Semantic Web, 2004 Free University, Amsterdam Semantic Webの有効性を言うには、多くの人が記述する必要があり、鶏と卵である。。SNSやFOAFが広まる中で、一方を簡単にするためにWeb miningを用いる。mindshare(人の名前とコンセプトの共起)もあり。 2章は簡単なアーキテクチャ、3章がネットワーク分析(中心性、クラスタ分析)。 Controversial Users demand Local Trust Metrics: an Experimental Study on Epinions.com Community Paolo Massa and Paolo Avesani AAAI-05, 2005 ITC-iRST 周りからtrustと評価されると同時にdistrustと評価されることがある。これをcontroversial userというが、むしろ、こういったことは普通である。こういったことを考えるには、Global trustとLocal trustを分けて考えないといけない。 ここでは、Local trustとしてMoleTrustというのを考える。その人からのエッジに沿ってTrust値を掛け合わせて行くもの(最初にサイクルができないようにする)。Global trustとして、周りからの良い評価の割合(ebayとよぶ)を使っている(他にもいろいろやったらしいが良くなかったようだ)。Epinions.comは、製品のレビューを書けてそのratingをつけられる。13万ユーザ、84万statement(71万がtrust, 12万がdistrust)のデータを使っている。その結果、distrustを予測するのにMoleTrustを使うほうがebayを使うより良いことを示した。(でも評価はやや苦しそう) Constraint-Based Entity Matching Warren Shen, Xin Li, and AnHai Doan AAAI-05, 2005 AI Meets Web 2.0: Building The Web of Tomorrow Today Jay Martin Tenenbaum AAAI-05, 2005 CommerceNet Travel, Meeting, Supply chainなどの具体例を挙げて、Web2.0の技術がAIと融合することでこういった問題に適用できることを述べている。 4章ではWeb2.0ツアーとして、More participatory(Blog, Syndication Feeds, Wiki), Semantics (Tagging & Folksonomies, Microformats, Vertical Search), Real time Web, Community Enpowermentを挙げている。Case studyとしてzBay(blogとmicroformatを利用した個人取引)、supply chain, insurance, E-science, E-life(知り合い情報やスケジュールを利用してのディナーの手配の例)など。 AIとWeb2.0の結びつきを強調しようとしており、Newellの知性の基準を引き合いに出して議論しているが、ちょっと無理がある。しかしAIの少しの技術がWeb2.0に貢献するというのはその通りだろう。全体に面白いが、どのくらい真面目に引用してよいのかは微妙。 Clustering and Classifying Person Names by Origin Fei Huang, Stephan Vogel, and Alex Waibel AAAI-05, 2005 本文はなし。人の地理的な出身は重要である。名前と地名の複数の言語による候補を与えられれば、91%の確率で当てることができる。 http://www.aaai.org/Library/AAAI/2005/aaai05-167.php Searching for Common Sense: Populating Cyc. from the Web C. Matuszek et al. AAAI-05, 2005 Cyc corp. CycのKBを、Googleを使って増強する。GAFs(Ground Atomic Formulae)を見つける。CycLは、Cycの形式表現言語。まず ・(foundingAgent AlQaida ?WHO) (foudingAgent ?WHAT Terrorist-Salamat)などのようなqueryを作る。(3.1) ・Googleにおくる検索クエリーを作る。(foundingAgent PalestinelslamicJihad ?X)なら、"Palestine Islamic Jihad founder ___"など。これをGoogle APIで検索する。(3.2) ・"___"の部分を探して、CycLのコンセプトで型の制約に合うものを探す。たとえば、foundingAgentであればpersonでなければならないなど。これで候補を作る(3.3) ・Cyc KBの一貫性チェック:既存のCyc KBとあわせて、矛盾や冗長性がないかチェック(3.4) ・"PIJ founder Bashir Nafi"+"Palestine"のようなクエリをGoogleに出して確かめる。1件もヒットがなければ排除。後ろにつける語は、略語のdisambiguationのためで、Google hit countsが最も少ない語をくっつける。(3.5) ・最後に人間が確かめる。(3.6) false positiveは25%, false negativeは7%。 A Live-User Evaluation of Collaborative Web Search Barry Smyth, Evelyn Balfe, Oisin Boydell, Keith Bradley, Peter Briggs, Maurice Coyle, and Jill Freyne IJCAI-05, 2005 University College Dublin, Ireland 検索に他の人のクエリーも利用するcommunity-based Web search。検索結果に、他の関連するクエリーやそのクエリーに対する結果を考慮したページなどが表示される。ちょっと前のUser Modeling的でWeb2.0的ではない。 Beyond TFIDF Weighting for Text Categorization in the Vector Space Model Pascal Soucy and Guy W. Mineau IJCAI-05, 2005 Univ. of Laval, Canada 情報検索の重み付けではTFIDFがよいが、文書分類に使う重み付けでもそれがいいわけではない。ConfWeightという重み付けを提案している。でもNLPの論文ほどちゃんとした感じがしない。 ConfWeight_{t,d} = log (tf_{t,d} +1 ) maxstr(t) maxstr(t) = (max_{c ∈Categories} (str_{t,c}) ) ^2 str_{t,c} = log_2 (2 MinPosRelFreq) MinPosRelFreq = MinPos / (MinPos+MaxNeg) MinPosやMaxNegは、統計的信頼区間に基づいている。x_tが語tを含む数、nが全部の数とすると、 p = ( x_t + 0.5 z^2_α/2 ) / ( n + z^2_α/2 ) pはWilson比例推定という。z^2はt-distributionによる値。これの下限、上限をつかってMinPosやMaxNegを定義する。評価の結果、tfidfやGainRatioより多少よい結果。 教師なし学習による関係抽出に基づくパラフレーズの獲得 長谷川 隆明, 関根 聡, Ralph Grishman 言語処理学会第11回年次大会発表, 2005 NTT, New York University Extraction of Hierarchies Based on Inclusion of Co-occurring Words with Frequency Information Eiko Yamamoto, Kyoko Kanzaki, and Hitoshi Isahara IJCAI-05, 2005 http://www.ijcai.org/papers/1123.pdf The Necessity of Syntactic Parsing for Semantic Role Labeling Vasin Punyakanok, Dan Roth, and Wen-tau Yih IJCAI-05, 2005 %Redundancy-free Island Parsing of Word Graphs %Bernd Kiefer %IJCAI-05, 2005 Shallow Semantics for Relation Extraction Sanda Harabagiu, Cosmin Adrian Bejan, and Paul Morarescu IJCAI-05, 2005 U. of Texas, Dallas 述語とその項、もしくはフレームで文を表すshallow semantic informationは、semantic parserで得られる。Jurafskyが開拓したものであるが、そこから関係の情報を見つける。 KW: ダットさん Feature Generation for Text Categorization Using World Knowledge E. Gabrilovich and S. Markovitch IJCAI-05, 2005 Technion, Israel 2ページにFeature generationに関するサーベイあり。 Word Sense Disambiguation with Distribution Estimation Yee Seng Chan and Hwee Tou Ng IJCAI-05, 2005 National University of Singapore Maps for Verbs: The Relation Between Interaction Dynamics and Verb Use Paul Cohen, Clayton Morrison, and Erin Cannon IJCAI-05, 2005 USC Information Sciences Institute and Univ. of Massachusetts Topic and Role Discovery in Social Networks A. McCallum, A. Corrada-Emmanuel, and Xuerui Wang IJCAI-05, 2005 U. of Massachusetts Amherst 文書の生成モデルとして今まで、LDAモデル、Authorモデル、Author Topicモデルなどがあった。ここでは、Author-Recipient-Topicモデルを提案する。つまり、authorとrecipientとtopicを考慮した語の生成モデルである。EnronのコーパスとMcCallum dataset(McCallumに来た/が送ったメール集合)を用いた分析。さらに、教授や学生などといったRoleも考慮したRole-Author-Recipient-Topicモデルを提案とpreliminary experimentを行っている。 Automatic Labeling of Semantic Roles Daniel Gildea, Daniel Jurafsky Computational Linguistic, 2002 UC Berkeley, Univ. of Colorado (JurafskyはBerkeley->Colorado->Stanford) Semantic Role Labelingの包括的な解説。45ページ。 Building the Semantic Web Tower from RDF Straw Peter F. Patel-Schneider IJCAI-05, Bell labs research なんか良くわからんけど、RDFにいちゃもんをつけてる。すごい口語なのが気になる。 Social Networking on the Semantic Web Tim Finin, Li Ding, and Lina Zou The Learning Organization, December, 2005 U. of Maryland FOAF, Social network onlineの導入、FOAFファイルを見つける、FOAFネットワークの分析。 http://ebiquity.umbc.edu/_file_directory_/papers/160.pdf Semantic Analytics on Social Networks: Experiences in Addressing the Problem of Conflict of Interest Detection B. Aleman-Meza, M. Nagarajan, C. Ramakrishnan, A. Sheth, I. Arpinar, L. Ding, P. Kolari, A. Joshi, and Tim Finin WWW2006 U. of Georgia (Athens)と U. of Maryland COI(Conflict of Interest)に焦点を当てている。研究のコミュニティでもPeer Review Processなどで重要だが、融合領域が増えてそれを把握するのが難しくなっている。FOAFとDBLPのデータを使って、これを自動的に把握する。EntityのDisambiguationのために、foafの各プロパティがどのくらい効いているかを調べる。COIを計算する方法を提案し、潜在的な応用例、実験(例)について示している。 http://ebiquity.umbc.edu/_file_directory_/papers/237.pdf Swoogle: A Semantic Web Search and Metadata Engine Li Ding, Tim Finin, A. Joshi, Y. Peng, R. Cost, J. Sachs, R. Pan, P. Reddivari, V. Doshi AAAI05 (Intelligent systems demo), 2005 U. of Maryland Semantic Web document (SWD)を検索するエンジン。適切なオントロジを見つける、インスタンスのデータを見つける、文書間の関連によりSemantic Webを特徴付ける。Ontology Rankでランキングする。 .rdf, .owl, .daml, .n3などのファイルをGoogleを使ってSWDを見つける。クエリーは多少工夫する。focused crawlerを使って、既存のSWDから新しいのも見つける。SWD間の関係は、TM/IN (term reference), IM (imports), EX (extends), PV (prior version)など。これに基づいてランキングを計算する。評価は特になさそう。 http://www.sigsemis.org/columns/swsearch/Swoogle http://ebiquity.umbc.edu/_file_directory_/papers/115.pdf Tim Finin Tim Finin ここにたくさんある。 http://ebiquity.umbc.edu/person/html/Tim/Finin/ Analyzing Social Networks on the Semantic Web Li Ding, Tim Finin, Anupam Joshi IEEE Intelligent Systems, 2005 U. of Maryland DS(DataSet)-SWOOGLEとDS-FOAFを使っている。FOAFのネットワークを使った簡単な次数分析とネットワークの表示。ConclusionにDBLPを使ったongoing workについて書かれている。 The SOUPA Ontology for Pervasive Computing Harry Chen, Tim Finin, and Anupam Joshi InBook, Ontologies for Agents: Theory and Experiences, 2005 U. of Maryland SOUPA(Standard Ontology for Ubiquitous and Pervasive Applicatinos)。CoBrA(Context Broker Architecture)。SOUPA ontologyは、SOUPA coreとSOUPA extentionからなる。 関連するオントロジにFOAFやDAML-Time, OpenCyc Spatial Ontologies&RCC, BDI ontologyなど。SOUPA coreでは、person, agent-action & BDI, policy, time, space, eventなどを定義している。SOUPA extentionでは、priority, contitional belief, contanct preference, meeting & scheduleなど。 例として、Easy Meeting Systemの説明。 Semantic Web in ubicomp ? http://pervasive.semanticweb.org/percom-so-proposal.html Email as Spectroscopy: Automated Discovery of Community Structure within Organizations Joshua TYler, Dennis Wilkinson, and Bernardo Huberman Proc. International Conference on Communities and Technologies, 2003 HP labs HPのメールのログからネットワークを作り、分割してコミュニティを抽出する。ランダムな要素をいれて、betweennessを計算するときにcenterをランダムに選び、そこまでの距離を測る。小さいコンポネントに対しては、full Girvan-Newmanアルゴリズムを使う。例えば50回反復し、そのうち25回で同じコミュニティになったなどで、中間的な人も検出できる。2002年11月から2003年2月、HP内の485人の間の878,765通のメール。閾値は30メッセージ。係数3.15のpower lawであった。66個のコミュニティが発見された。 Closenessのトップ10とLeaderの関係の議論。評価はよく分からない。16人にインタビューして、コミュニティが適切に抽出できているか聞いている。 Finding communities in linear time: a physics approach Fang Wu and Bernardo A. Huberman The European Physics Journal B, 38:331--338, 2004 HP labs 電気回路の計算をつかって、グラフの分割(コミュニティの抽出)をO(V+E)で計算する。エッジが(同じ抵抗値の)抵抗、2つのコミュニティにバッテリーAとBを置くことにして、電圧が1と0とすると、各ノードの電圧はコミュニティのどちらにどれだけ所属するかを表すことになる。何回かやってvotingをする。複数のコミュニティに適用するときは、そのコミュニティの数だけ(1/0)を生成する。 Webを対象としたプロフィール情報の項目化と統合 吉谷 仁志, 黄瀬 浩一, 松本 啓之亮 情報処理学会 全国大会, 2005 大阪府立大学 人物に関するプロフィール情報を抽出する。Webページの選別では、検索は人物名。木を作って、その人物だけが書かれている場所を特定する。 項目抽出では、TFIDFで各項目をベクトル化し、SVMで選択/選択しないを選ぶ。 項目の統合では、無向グラフを構成し、項目を統合する。 The agents' preferences and the topology of networks D. Cajueiro 2005 Univ. of Brasilia ノードをエージェントと考える。各ノードは効用を最大化する。エッジを張った場合の利益にあたるものw_ijと、コストc_ijが与えられていたときに、最適な状態がどうなるかを考える。Latticeになる場合のwとcの設定、Small worldになる場合のwとcの設定などを考察しているだけ。いまいち。 KW: 篠田くん Layered Complex Networks M. Kurant and P. Thiran 2005 EPFL 2つのレイヤーを考える。物理層(φ)と論理層(λ)。両層でノードとエッジがあるネットワークがある。両層でのノードは同一。このとき、論理層でのエッジに対応する物理層でのパスをマップM(E^λ)とよぶ。ノードiのloadとは、論理層のエッジからのマップのうち、ノードiを通過するもの。物理層が、輸送の物理的なネットワークを、論理層が交通の流れを表す。両層のトポロジが分かっていれば、loadを計算することができる。これを現実のデータと比較したのが図3で、よく類似していることを示している。 KW: 篠田くん Folksonomy as a Complex Network Kaikai Shen, and Lide Wu 2005 Fudan Univ. Shanghai, China Del.icio.usやFurl、Flickrなどのfolksonomyにおけるタグは、small worldもしくはscale-freeを形成する。タグがノードで、コンテンツを共有するタグがリンク。CとL、次数分布を調べただけ。 ビジネス Blog/SNS の活用事例 総務省 2005 総務省 NTTやマイクロソフトなど大手の企業をはじめ各種企業。ドリコム(ブログソリューションサービス)、D4DR(ブログキーワード分析サービス)とか面白い。 http://www.soumu.go.jp/s-news/2005/051222_13.html#b2 Web上の人間関係の多重分類 風間 一洋, 斉藤 和巳, 佐藤 進也, 福田 健介, 木村 昌弘 ネットワークが創発する知能研究会(WEIN2005), 2005 NTT SR(Spectral Relaxation)法というのを用いて、重なりを許すコミュニティ抽出を行う。指定された検索語の上位文書を用い、近くに現れる人名の共起でネットワークを生成する。連結成分内で固有ベクトルを求め、ノードをランキングする。上位k位まで取る。kを増やしていったとき、その中の平均リンク割合がはじめてピークとなるところをk*とし、そのときのノード集合C(k*)を求め、それをクラスタとして抽出し、もとのネットワークからそのリンクを取り除く。これを反復する。 KW: Polyphonet IR and AI: Using Co-occurrence Theory to Generate Lightweight Ontologies Ying Ding DEXA Workshop 2001, 2001 Vrije Universiteit Amsterdam, Co-occurrenceに着目して、IRとAIについて述べた短い論文(あまりきちんとしたものではない。)基本的には、共起を使ってlightweight ontologyを作ろうというもの。2つのケーススタディがあって、ひとつは2012の論文のキーワード、タイトルからのキーワードなどを取り出して、240×240のキーワードの共起行列を作ったもの。例えば、"Expert system"という語からの関連語が示されている。もうひとつは、CIA FactBookを使ったCorporumというツール。詳細不明。4章の関連研究は比較的参考になる。 On-to-Knowledge projectについても言及されてるし、Peterのグループと関係あるのかもしれない。と思ったら、そうでもない。大した論文は出てないようだ。 KW: 榊くん Relescope: An Experiment in Accelerating Relationships Stephen Farrell, Christopher Campbell, and Suvda Myagmar CHI 2005 IBM Almaden and Univ. of Illinois ACM CSCW2004で運用したRelescopeについて述べる。論文や引用の情報に基づいて、個人化したレポート(1〜2枚)を生成する。 第1の部分は、導入と簡単なサマリ:(a)引用の回数、(b)共著した論文数、(c)引用した論文の著者のうち参加者の数。 第2の部分は、People to meetで、(a)common neighborsアルゴリズムにより会うとよい人、(b)同じ論文を多く引用している人、(c)リンクを共有している人 第3の部分は、Sessions to attendで、上のリストに含まれる人がいるセッション。 最後の部分は、最もリンクを共有している人の詳しい情報 433人の事前登録者のうち、266人にレポートを出した。204人が受け取り、15人がWebでもアクセスした。 質問は全部で13問。52%の回答者が、そのリポートによって話す人を決めたり出席する話を決めたりしたと応えている。共著者のより少ない人の方が、このシステムをより利用した。 http://srg.cs.uiuc.edu/~myagmar/farrell-relescope-chi05.pdf KW: イベント空間, 濱崎さん, Referral Web ウェブ文書からの情報抽出に関する研究の概観 芳鐘冬樹, 井田正明, 野澤孝之, 宮崎和光, 喜多一 大学評価・学位研究、第1号、2005 独立行政法人 大学評価・学位授与機構 シラバスの情報をWebから抽出するには、という観点から、さまざまな情報抽出の手法をサーベイしている。海外の文献がほとんどなく、それほど抽象度の高い整理が行われているわけでもない。2章の抽出手法の概観は参考になる。言語表現の特徴を手がかりにする方法と、(構造化)文書中の位置を手がかりにする方法がある。 A generative model for feedback networks Douglas White, Natasa Kejzar, Constantino Tsallis, Doyne Farmer and Scott White 2005 次数に応じてノードを選び(Selection of node i)、距離dを決めて(Assignment of search distance)、ノードをたどっていく。で、たどり着いたノードをつなぐ(Generation of search path)。 KW: ネットワーク,シミュレーション,篠田くん Network Dynamics and Field Evolution: The Growth of Interorganizational Collaboration in the Life Sciences Walter Powell, Douglas White, Kenneth Koput, and Jason Owen-Smith American Journal of Sociology, 2005 Stanford Univ., Santa Fe Instituteほか 1989年から10年ほどのバイオの分野のデータ(BioScan)を題材に、ネットワークの変遷を説明するモデルを作っている。Accumulative Advantage(優先選択のようなもの)、Homophily(性質が近いとくっつきやすい)、Follow-the-trend(トレンドに乗る)、Multiconnectivity(複数の独立したパスがあるほうが接触しやすい)の4つの要因。9ページ目(preprint版)のH1〜H4に書かれている。 KW: ネットワーク, 分析, シミュレーション, 篠田くん Name Discrimination by Clustering Similar Contexts Ted Pedersen, Amruta Purandare, and Anagha Kulkarni Cicling 2005 Univ. of Minnesota, Univ. of Pittsburgh 同姓同名問題の解消。SVD(特異値分解)を使って次元を減らす。Webを対象にしているのではない。GigaWord English Corpusのnewswireのテキストから、pseudo-nameを使ってコーパスを作っている。 KW: 同姓同名, ダヌシカくん ReferralWeb: A Resource Location SYstem Guided by Personal Relations Mehul A. Shah Master thesis at MIT, 1997 MIT Kautzとかと一緒にやってた人の修士論文。今、HPにいる。 Polyphonetのモチベーションと同じで、よく書けている。行列の話も少し出てくる(17ページあたり)。 エキスパートと語の共起についても述べられている。評価は、DBLPとの比較、あとはパスの定性的評価など。 KW: Polyphonet, ReferralWeb Using Sampled Data and Regression to Merge Search Engine Results, Luo Si and Jamie Callan SIGIR 2002 Carnegie Mellon University 複数のデータベースのスコアを合わせるときにどうするか。resource descriptionと、データベース自身のスコアと、データベースによる文書のスコアの3つを用いる。CORIやCVV, gClOSSという重み付けの手法は、IRでは標準的なようだ。TRECのデータを用いて評価している。 KW: Polyphonet Extracting patterns and relations from the world wide web S. Brin, International workshop on the WWW and Database, 1999 Stanford Univ. (当時) Brinさんもこういうことを考えていた。Patternとrelationの双対性(duality). 著者とタイトルのペアを取り出す。3章にDual Iterative Pattern Relation Extraction. 4.1節に書かれているように(order, urlprefix, prefix, middle, suffix)でコンテキストを表現し、パターンを抽出する。prefix, middle, suffixは、authorやtitleの前、中、後ろにある語。5冊の本をもとにパターンを生成している。Pythonで書かれている、何日かかるなど、生々しくて良い。 ※41 citation KW: 森くん, 辻下くん, 金さん A Social Network for Societal-Scale Decision-Making Systems Marko Rodriguez and Daniel Steinbook North American Association for Computational Social and Organizational Science Conference, 2004, Univ. of Califaornia, Santa Cruz ソーシャルネットワークを使った投票のモデル。代表の意見を全体の意見とするよりも、トラストの値を計算して各代表の重みを決めたほうが、直接選挙に比べた誤差が少なくなることをシミュレーションにより示している。 トラストは、A->Bが1で、B->Cが0.5なら、Cには1.0 (Aの半分とBの半分) 面白い。 Advances towards a General-Purpose Societal-Scale Human-Collective Problem-Solving Engine Marko A. Rodriguez European Annual Conference on Human Decision Making and Manual Control Proceedings, 2004. University of California, Santa Cruz 後半は上の論文と同じ内容だが、人の集積的な知が、これからの問題解決に重要であるということをうまく述べている。(博士の学生らしい。) http://www.soe.ucsc.edu/~okram/research.html Disambiguating Web Appearances of People in a Social Network Ron Bekkerman and Andrew McCallum WWW2005, 2005 マサチューセッツ大 Web上の同姓同名を解決する方法を提案している。2章にRelated worksあり。リンクを用いる手法と、A/CDC(Agglomerative/Conglomerative Double Clustering)の手法。12人の人物について1000以上のWebページを使い、F値で80%を超えたとしている。 http://www2005.org/cdrom/docs/p463.pdf Improving the effectiveness of information retrieval with local context analysis. J. Xu and W. B. Croft ACM Transactions on Information Systems (TOIS), 18(1):79-112, 2000 検索エンジンにヒットする上位文書を使った語の拡張。検索ヒット数による精度向上などはやってない様子。TRECのコーパスを用いた評価実験を行っている。 Relevance-based language models V. Lavrenko and W.B. Croft, ACM SIGIR 2001 クエリーをbinary vectorで扱うことについて2.2で言及されている。ユーザの情報欲求に関連があるとき(R)、ある語wが現れる確率 P(w|R)を計算するrelevance modelを提案している。関連語の抽出例がある。 ※ 38 citation http://citeseer.ist.psu.edu/lavrenko01relevancebased.html An association thesaurus for information retrieval Y. Jing and W. B. Croft. RIAO 94 Conference Proceedings, pp 146-160, 1994 PhraseFinderの論文。具体的な式は不明。 http://citeseer.ist.psu.edu/jing94association.html ※(51 citations) Exploiting a Thesaurus-Based Semantic Net for Knowledge-Based Search P. Clark, J. Thompson, H. Holmbeck & L. Duncan Proc Conf on Innovative Applications of AI (IAAI'00), 2000. Boeing Company 飛行機に関するシソーラスがある。bt(広義語), nt(協議語), rt(関連語)の関係によりネットワークとして構成されている。これを用いて、専門家を探すExpert Locatorが実装されている。 http://www.cs.utexas.edu/users/pclark/papers Learning Search Engine Specific Query Transformations for Question Answering. E. Agichtein, S. Lawrence, L. Gravano. Proceedings of WWW10, Hong Kong, 2001. 検索エンジンのクエリーを、例えば、Whoタイプなら、"who was"、Howタイプなら"how do i"に変換する。2章の関連研究で、クエリーをどう構成するかのサーベイがあり、参考になる。 http://citeseer.ist.psu.edu/agichtein01learning.html Mining the web for answers to natural language questions. Dragomir R. Radev, Hong Qi, Zhiping Zheng, Sasha Blair-Goldensohn, Zhu Zhang, Weiguo Fan, and John Prager Proceedings of ACM CIKM, 2001 QAで検索エンジンに投げるクエリーを生成するために、Fitness functionとオペレータを定義して探索する。EMアルゴリズムを用いている。QASMアルゴリズム(Question Answring using Langage Modeling)と呼ぶ。Fitness functionは、検索された文書のTRDR(total reciprocal document rank)、つまり10件中3件が正解の2位、8位、10位なら、1/2+1/8+1/10=.725 http://citeseer.ist.psu.edu/radev01mining.html Web-scale information extraction in KnowItAll. O. Etzioni, M. Cafarella, D. Downey, S. Kok, A.-M. Popescu, T. Shaked, S. Soderland, D. S. Weld, and A. Yates. WWW 2004 ワシントン大 Webから知識を取り出す。5万以上のfactsを取り出している。Webの冗長性とスケールを利用している。Froogleやflipdog、Eliyonと違って、ドメインに非依存である。また、WebKBと似たコンセプトであるが、WebKBがsupervisedであるのに対して、KNOWITALLはunsupervisedである。 http://citeseer.ist.psu.edu/etzioni04webscale.html Text Mining for Causal Relations Roxana Girju and Dan I. Moldovan In Proceedings of the FLAIRS Conference, pp 360-364, 2002. Is Question Answering an Acquired Skill? Ganesh Ramakrishnan Soumen Chakrabarti IIT Bombay and CMU Deepa Paranjpe WWW2004 QAがいろんなパラメータのチューニングで大変なことになってるのを、 シンプルなモジュールで学習により実現しようというもの。 TREC QAのデータを用いている。GATE(POS tagger), Link Parser (shallow parser), WEKA(学習)を用いている。 質問をatypeに変換する部分を、WordNetのsynsetsも用いて学習する。 selectorを学習で求める。最後にrerankingも学習で行う。 ウェブを利用した専門用語集の自動編集 佐々木靖弘、佐藤理史、宇津呂武仁 言語処理学会第11回年次大会発表論文集, 2005 京都大学 専門用語集を作るには、個々の見出し語が専門用語であること、概念・表現のレベルで粒度がそろっていること、適切な数で対象分野をカバーすることの3つが必要である。そこで、関連用語収集システムにより、検索エンジンのAND件数、OR件数を用いて候補を生成し、その後、カバーの低い語、重なっている語を除去していくという処理を行う。「とは」を付加したときのヒット件数なども、サブ分野代表語の選定に用いている。 実世界の関連性を投影した語彙空間の構築 佐藤理史ほか 平成16年度科研費報告書, 2004 京都大学 ウェブから語彙空間を作成する目的、背景等について書かれている。検索エンジンのANDとORを使った研究が紹介されている。また、3ページ目には、従来のコンパラブルコーパスを用いた方法では、情報源となる文書中に一定頻度以上出現するタームについては比較的うまくいくが、出現頻度の少ないタームについては訳語候補の順位付けが難しいこと、そのためにウェブ検索エンジンを用いることが書かれている。 A community-aware search engine. R. B. Almeida and V. A. F. Almeida. In Proceedings of the 13th International Conference on World Wide Web, pages 413--421. ACM Press, 2004. コンテンツベースのランキングとコミュニティベースのランキングをベクトル空間モデルで統合している。 http://citeseer.ist.psu.edu/almeida04communityaware.html Extracting social networks and contact information from email and the Web Aron Culotta, Ron Bekkerman, and Andrew McCallum  Conference on Email and Spam (CEAS) 2004. マサチューセッツ大 ユーザのメールinboxから名前を取り出して、それをWebで見つけ、コンタクトアドレスを埋める。それを繰り返していくことでsocial networkを作る。 An Exploration of Entity Models, Collective Classification and Relation Description Hema Raghavan, James Allan and Andrew McCallum KDD Workshop on Link Analysis and Group Detection, 2004 マサチューセッツ大 あるnamed entityの周りに出現する語の分布によってそのentityを表現するentity language modelというのを提案している。L1 measureで類似度を定義する。それをQAとか関係性を見つけるのに利用している。7.2には、SanprasとGrafなど関係性を見つけるのはoverlap measureが良いと書かれている。 Social Networks Applied Steffen Staabほか IEEE Intelligent Systems, Vol.20, No.1, 2005 University of Koblenz-Landau 最初の記事(Pedro Domingos):ソーシャルネットワークがword-of-mouseマーケティングに重要だという話。ソーシャルネットワークが与えられたとき、利益を最大化する顧客のセットを見つけるという問題について、少しだけ言及されている。(81ページ右) 2番目の記事(Peter Mika):連想語の話(EAT: Ediburgh Associative Thesaurus)、連想後ネットワークとパスの話、Googleを使った(名前と語の)関係性の把握とネットワーク図の話。 3番目の記事(Jennifer Golbeck): FOAFはシンプルな語彙しか提供しないが、信頼を付加することについて述べられている。(関係タイプを宣言するモジュールのプロジェクトもやっているらしい。)中間の人を介してどのように信頼度を計算するか、e-mailフィルターなど、その応用についても述べられている。 The Dynamics of Viral Marketing Jurij Leskovec, Lada A. Adamic, Bernardo A. Huberman 2005 HP Lab (USA) 本やDVDの推薦を調べた。推薦してもらうと10% discountされるし、推薦したほうにも10% creditが戻る。 その結果、今まで信じられていたことを否定することも見つかった。 ・2人の間でインタラクションが多くなると、推薦は効かなくなる。 ・推薦を受け入れる確率は、推薦してくれる人の数が増えると急激に増えるがすぐに飽和する。 ・伝染のモデルでは、次数の高いsupernodeがあるが、次数が多くなっても限界がある。たくさん推薦する人のことは  あまり聞かなくなるからである。 ・推薦の効果は、カテゴリや値段に影響される。 Friends and Neighbors on the Web. Lada A. Adamic, and Adar, Eytan, Social Networks, 25(3): 211-230, 2003. HP Lab Webのホームページ上のテキスト、outlink, inlink、メーリングリストの分析。類似度を定義して、簡単なlinkの予測もしている。 Bibster - A Semantics-Based Bibliographic Peer-to-Peer System Haase, Peterほか。 Journal of Web Semantics, 2005 Free Univ. BibtexのデータをRDFレポジトリに格納する。SWRC(Semantic Web Research Community ontology)と、ACM Topic Hierarchyの2つのオントロジを使う。SeRQLを使ってクエリーを出す。クエリーは、自分のローカル、周りだけ、ネットワーク全体など選べる。どのPeerに出すかは、Peer selectionの方法を使って決める。2004年に1ヶ月間試した状態では、53のpeerが33000以上のbibエントリを共有した。評価はまだなし。 Flink: Semantic Web Technology for the Extraction and Analysis of Social Networks Peter Mika Journal of Web Semantics, 2005 Free University (オランダ) Webマイニング、FOAF profiles, Email, Google Scholarなどのデータから ネットワークを生成していると述べられている。 Google Scholarで共著が出せないと述べている部分は怪しい。 システムデザインの話が比較的多い。Webマイニングの部分は少し。 後半はネットワーク分析で、SWコミュニティで中心性の高い人がリストアップされている。 関連文献で、森くんのWorkshop論文が少しだけ引用されている。 Mining and Knowledge Discovery from the Web Kevin S. McCurley, Andrew Tomkins ISPAN 2004 WebFountainに関係するサーベイ。Webのランキング、Webグラフの話が中心。 Extracting Social Networks and Contact Information from Email and the Web. A. Culotta, R. Bekkerman, and A. McCallum. In Proceedings of CEAS 2004 E-mailから名前を抜き出して、ホームページを見つける。そこから連絡先を抜き出すとともに、 キーワード抽出を行う。キーワード抽出は、ホームページを対象として、information gainの高い語。 (他の人のホームページとして集めたもの全体から確率を計算している。) 社会ネットワークの抽出もホームページ上に出てきた名前を使っている。 The Web and Social Networks. Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins. In IEEE Computer 35(11):32-36 (2002). タイトルと違って、Webグラフ、HITSやPageRankの説明など。 Social Network Fragments: An Interactive Tool for Exploring Digital Social Connections Danah Boyd, Jeffrey Potter SIGGRAPH2003 MIT media labo なんか良く分からないけど、3Dでカラフルで、すてきなソーシャルネットワーク?のブラウザ。 http://www.danah.org/papers/SIGGRAPH2003Sketch.pdf http://smg.media.mit.edu/projects/SNF/ Binding Social and Cultural Networks: A Model Roth C, Bourgine P, 2005 A Dynamic Model of Social Network Formation Social Structure and Opinion Formation Scaling IR-system evaluation using term relevance sets. Einat Amitay, David Carmel, Ronny Lempel, Aya Soffer SIGIR 2004 Gimme' the context: context-driven automatic semantic annotation with C-PANKOW Philipp Cimiano, Gunter Ladwig, and Steffen Staab WWW2005 Univ. of Karlsruhe Towards the Self Annotating Web, Philipp Cimiano, Siegfried Handschuh, and Steffen Staab WWW2004 Staabのとこ 2章のプロセスの説明と図1が分かりやすい。 InstanceとConceptの関係を表すパターンを作って、それをクエリーに投げてヒット件数を利用する。 A Testbed for People Searching Strategies in the WWW J. Artiles, J. Gonzalo, F. Verdejo, 2005. SIGIR 2005 Conference. Special Interest Group on Information Retrieval, 2005 名前のdisambiguationのためのコーパスをつくる。 Searching For Expertise in Social Networks: A Simulation of Potential Strategies Jun Zhang and Mark S. Ackerman Proc. 2005 ACM SIGGROUP conf. エキスパートをどのように探すか。Enronのメールデータをもとにシミュレーションしている。 Disambiguating entities in web search A Garg and R. Guha publishされてない 引いておいた方がよいかも。 Unsupervised Name Disambiguation via Social Network Similarity. Bradley Malin Workshop on Link Analysis, Counterterrorism, and Security, at the 2005, SIAM International Conference on Data Mining, Newport Beach, CA, 2005 Disambiguation of References to Individuals Levon Lloyd, Varun Bhagwan, Daniel Gruhl, and Andrew Tomkins, IBM Research Report 関連文献が参考になる。 やはりFeatureを抽出してクラスタリングする。 Mining Massive Relational Databases Geoff Hulten, Pedro Domingos, and Yeuhi Abe Comparative Study of Name Disambiguation Problem using a Scalable Blocking based Framework Automatic Association of Web Directories to Word Senses Santamaria C.; Gonzalo J.; Verdejo F. Computer Linguistics, Vol. 29, Issue 3, 2003 Web-based Models for Natural Language Processing MIRELLA LAPATA and FRANK KELLER ACM Transactions on Speech and Language Processing 2:1, 1-31, 2005 University of Edinburgh 統語的、意味的、分析的、生成的なさまざまなNLPタスクにWebのhit countが有効であることを示す。 The Web as a Baseline: Evaluating the Performance of Unsupervised Web-based Models for a Range of NLP Tasks M. Lapata and F. Keller これには、既存手法より有効でなく、baselineとして使うべきだと述べられている。 Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Mike Dowman, Valentin Tablan, Hamish Cunningham, Borislav Popov WWW2005 Univ. of Sheffield いま流れているニュースは早いが、Speech recognitionでは正確には取れない。逆に、Webのニュースはそんなに早くないが、精度は高い。その両方を生かすために、speech recognitionでtranscriptを作って、部分にわけ、それに該当する部分をWebからみつけ、そのメタデータやテキストを利用する。 Algorithmic Detection of Semantic Similarity Ana G. Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani WWW2005 Indiana Univ. オントロジー(やツリー構造)が与えられたときに、そのノード間の類似性を計るmeasureはいろいろあるが、新しいmeasureを提案する。これを用いて、人が分けたOpen Directryを使って、ノード間の属性としてどれを使えばよいかが分かる。Webの類似性をtext, linkを用いて計るタスクで検証しており、一般的なテキストの属性があまり役に立たないことを見つけている。グラフ、オントロジーの話が出てきて、面白いが簡単なことを難しく書いているだけ? SemRank: Ranking Complex Relationship Search Results on the Semantic Web Kemafor Anyanwu, Angela Maduko, Amit Sheth WWW2005 Univ. of Gerogia, Athens RDFの知識をグラフと見て、relationship searchのランキングをつける方法が書かれている。 Word association norms, mutual information, and lexicography. K.W. Church and P. Hanks. Computational Linguistics, 16(1):22--29, 1990. こっちは116 citation。上と同じ。 Deriving concept hierarchies from text Mark Sanderson, Bruce Croft In International Conference on Research and Development in Information Retrieval(SIGIR), 1999 University of Sheffield, Western Bank 語の共起を使って、concept hierarchyを得る方法。 ※35 citation Class-Based N-Gram Models of Natural Language Peter F. Brown, Vincent J. Della Pietra, Peter V. deSouza, Jenifer C. Lai, Robert L. Mercer Computational Linguistics (1990) 語の周りの語の類似性から、同じクラスの語を見つける方法。 クラス間の相互情報量を最大にするもので、ヒューリスティックな方法。 さらに、隣接する語の相互情報量によりsticky pairを見つける方法、 周りの5語以外のwindow 100での共起を見て、意味的に関連した語を見つける方法。 TopicSensitive PageRank Taher H. Haveliwala WWW2002 Stanford 代表的なトピックごとのPageRankを出す。これを使えば、singleの(一般的な)PageRankもよくなることを示す。 Can We Derive General World Knowledge from Texts? Hierarchical Skills and Cognitive Architectures P. Langley, K. Cummings, and D. Shapiro Proc. 16th Annual Conference of Cognitive Science Society, 2004 Stanford University ICARUSというシステムについて。スキルとサブスキルを扱うらしい。プロダクションルールが階層化したように見えるが。重要なのだろうか。 Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping A Proposal of Community-based Folksonomy with RDF Metadata Ikki Ohmukai, Masahiro Hamasaki, and Hideaki Takeda ISWC2005 workshop, 2005 国立情報学研究所 Social bookmarkingについて書かれている。Double-loop gratificationも記述あり。ESWCのものと近い。Bookmarking, Tagging, Tag Surfing, Social Networkingを基本機能とする。RNAの拡張のようだ。FOAF knowsでの関係をもとに、tagのマッピングやimportを行う。 Social Bookmarking Tools (II) Ben Lund, Tony Hammond, Martin Flack and Timo Hannay D-Lib Magazine, 2005 Nature Publishing Group Cannoteaの解説。 http://www.dlib.org/dlib/april05/lund/04lund.html Social Network Analysis on the Semantic Web: Techniques and Challenges for Visualizing FOAF John C. Paolillo and Elijah Wright Chapter 14 ?? An Evolutionary Approach to Institutions and Social Construction: Process and Structure Networks, Fields and Organizations: Micro-Dynamics, Scale and Cohesive Embeddings. D. White, J. Owen-Smith, J. Moody, and W. Powell U. of California, Irvine, Stanfordほか Google Doppelegangers Naomi Baron American University Ontology-Based Integration of Information, A Survey of Existing Approaches The Emotion Machine Marvin Minsky 2006 MIT 1.1 `Love'はいろいろな意味を持つスーツケースのような語である。通常の思考と異なるように考えさせる。これについて考えていこう。 1.2 Selfについての導入。小人がいるわけではない。多くのプロセスが静かに進行している。1.3 emotionはsuitcase-likeな語。多くの感情を表す語があるが、正確に定義できるわけではない。(が日常生活では困っていない。) 1.4 赤ん坊の行動、動物の行動をIf-thenルールで書くことはできるかもしれない。しかし大人の考えを記述することはできない。 1.5 脳のなかにはたくさんのリソースがあって、selectorがどのリソースを使うか管理している。例えば、怒りのselectorは速くて強い行動を生む。 1.6 問題のタイプによって解き方を選ぶ、Critic-Selectorがどのように考えるべきかを決めている。こうした解き方を学んでいる。 1.7 Selectorは、リソースを活性化し、その活性化のカスケードが起こって、大きく態度が変わる。話し方や話すことなどが変わる。 1.8 Questions: どのように機械はものの意味を認識するか?(ひとつのやり方で定義しようとすると曖昧になる。複数のやり方をもつことが必要である。⇒意味につながる)なぜ自己の意識があるのか?(なぜそう思うのか。)どのように新しいゴールや考えを得るのか。 ----- 2.1 Carolは泥で遊んでいて、(i)フォークでうまくすくえなくていらいらした。でもスプーンではうまくいって満足した。(ii)知らない人が来て、何をやってるんだと怒られた。不安に感じて、母親を探しに言った。(iii)母親に汚いことをやってと怒られた。恥ずかしくなって泣き出した。学習の過程で感情は非常に大事.。AshamedやPrideといった特別な感情が新しいゴールを作るのにどう働いているのだろうか? 2.2(途中) 試行錯誤はすでにあるゴールの新しいやり方を教える。親近感のある(Attchment-related)非難や賞賛は、どのゴールを捨てたり保持するべきか教える。 Trajectory clustering: A non-parametric method for grouping gene expressiontime courses, with applications to mammary development, T.L. Phang, M.C. Neville, M. Rudolph, L. Hunter Cluster analysis and display of genome-wide expression patterns. Proc. Natl. Acad. Sci. USA 95:14863--14868 あ 200サイテーション以上。マイクロアレイの遺伝子情報のクラスタリング。時系列に並べているが、時系列的な処理はしていない。 A wavelet-based anytime algorithm for k-means clustering of time series A New Approach to Analyzing Gene Expression Time Series Data ? あまり分かりやすくはない。 Qualitative clustering of short time series: a case study of firms reputation data ECML/PKDD 2002 Workshop Multi-Document Person Name Resolution, ACL2004 Unsupervised Personal Name Disambiguation, CoNLL2003 An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists An evolving network model with community structure Web 空間における人間関係を用いた情報探索の一手法 A Statistical Analysis of the Community Structure of a Weighted Collaboration Network Among Rappers Comment on “Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality” Statistical networks emerging from link-node interactions How to make the top ten: Approximating PageRank from in-degree The egalitarian effect of search engines Universal Behavior of a Research Productivity Index Social network from communities of electronic mail The Network of European Research and Development Projects On the genre-fication of Music: a percolation approach Uncovering collective listening habits and music genres in bipartite networks From sand to networks: a study of multi-disciplinarity Consumers don't play dice, influence of social networks and advertisements A Simultaneous Model to measure Academic and Financial Performances of Scientific Activities Scientific and Financial Performance Measure : A Simultaneous Model to Evaluate Scientific Activities SciBlog : A Tool for Scientific Collaboration L. Handoko 2005 Indonesia インドネシアで、Blogを使って研究プロジェクトの知識共有をしましょうというだけ。特になにもなし。 Dynamics of Social Balance on Networks Citation Statistics from 110 Years of Physical Review Statistical properties of sampled networks Community structure identification Characterization of complex networks: A survey of measurements The Community Structure of Econophysicist Collaboration Networks Subgraph Centrality in Complex Networks Prisoner's dilemma on dynamic networks under perfect rationality Change of ownership networks in Japan W. Souma, Y. Fujiwara, and H. Aoyama 2005 ATR 株の持ち合いの関係。1985, 90, 95, 2000, 2002, 2003のデータ。上位20企業で、次数分析など簡単なものに留まる。 Spectral methods cluster words of the same class in a syntactic dependency network R. Cancho, A. Capocci, and G. Caldarelli 2005 Itary 名詞、動詞などの依存関係でネットワークを作って、community抽出の方法で取り出す。 KW: 榊くん On the Google-Fame of Scientists and Other Populations J. Bagrow, D. ben-Avraham 2005 つまらないし、文献引用もお粗末。研究者など名声(fame)を調べるために、Googleのヒット件数を調べて、その分布をみている。研究者、俳優、プログラマー、走者など。ORがだめなことも言及されている。 特定するための語をクエリーに加えている。 Economic networks and social communities in online-auction sites Co-Authorship Networks in the Digital Library Research Community あ あ あ 良さそう。 Information estimations and analysis of structures A. Shaydurov McGill Univ. ノードのエントロピー(式4)が出てくるがよく分からない。 #Evolving Model of Weighted Networks Inspired by Scientific Collaboration #Networks #面白くない #Matrix representation of evolving networks #K. Malarz and K. Kulakowski #ACTA PHYSICA POLONICA B, 2005 #Poland #面白くない 我が国の研究活動のベンチマーキング 科学技術政策研究所ほか 2005 日本のどの分野が世界で競争力があるかなどの分析・報告。かなりマニアック。 Multi-Document Person Name Resolution M. B. Fleischman, and E. Hovy ACL04, Reference Resolution Workshop, 2004 MIT, and USC Two Supervised Learning Approaches for Name Disambiguation in Author Citations H. Han, L. Giles, H. Zha, C. Li, and K. Tsioutsiouliklis JCDL 2004 Pensylvania state univ. % Communities of Practice: Performance and Evolution B. Huberman and T. Hogg 出会ったネットワークに関係あり % Learning Communities: Connectivity and Dynamics of Interacting Agents T. Choudhury, B. Clarkson, S. Basu and A. Pentland International Joint Conference on Neural Networks MIT 出会ったネットワークに関係あり % メモ あ ここにネットワーク関係の論文リンクがたくさんある。 ここもすごい
位置情報版サーベイは、こちら 使い方メモ: あ survey.txtにテキストで書き込む。 txt2rdf.pl survey.txt > tmp.rdf rdf2htm.pl tmp.rdf > tmp.htm タイトル 著者 論文情報 (最後は年で終わること) 所属情報、人に関する情報 内容に関する情報。 ※ ※印のあとに注釈。 ※ とりあえずタイトルを書いておくだけでもOKです。 KW: KW:の後にキーワードを書けます。(カテゴリ相当) http://www.abc/URLをそのまま書いてもよい。