>>4351838Заставил же ты меня почитать и подумать своим ответом, анон, спасибо!
Статистика это не моя область (я в стороне машинного обучения, оно хоть и строится на теории вероятности, но статистических методов там мало (зато есть свои теоретические и практические методы напр. VC-теория и принцип минимальной длины описания), о разнице подходов статистики и машинного обучения см.
http://projecteuclid.org/euclid.ss/1009213726 хотя это может предвзятое мнение).
Обычная статистика которая тестирует простые гипотезы это неотъемлимая часть науки, без которой не было бы множества открытий случившихся после начала 20 века (до этого открывались вещи достаточно физичные и очевидные, и системы исследовались простые - например Максвелл исследовал поведение простейших электрических установок. т.к. эффекты видимые и процессы простые то статистика ещё не была нужна чтобы делать заключение о том что феномен есть). Без статистики не было бы биологии и медицины, double-blind экспериментов которые показывают малейшие эффекты от лекарств и дают интервалы доверия. В биологии без статистики было бы нереально строить науку потому что системы очень сложные и эффекты тонкие.
Так что статистика это важный инструмент науки которому мы обязаны своей жизнью (медицина же нас спасала не раз). Но это не значит что у неё нет ограничений, и это не значит что на ней одной можно формализовать научный процесс (откуда же брать гипотезы для тестирования например? Ниже опишу).
> Ну, то есть, ребята там решают очень узкий (пускай и важный) вопрос по "направлениям", игнорирую при этом все фундаментальные проблемы с causal inference.
Странно звучит с учётом того что вся современная статистика, даже в самых сложных своих проявлениях (вероятностные графовые модели) является частным, неполным случаем задачи индуктивного вывода. Ниже объясню почему и ссылки на статьи с теоремами дам.
> Настолько мутная, что уже давным давно формализирована, причём в форме, вполне доступной смышлёному пятикласснику https://en.wikipedia.org/wiki/Rubin_causal_model.
Да, действительно понятно. Но ты же видишь что там добрый десяток очень сильных предположений о независимости, о невлиянии тестов друг на друга заложен. И обосновываются эти постулаты традицией науки статистики, а про causation постулаты обосновываются (если глубоко копнуть) философией David Hume.
Теория которая строится из теорем на этих постулатах строгая. Но если сами постулаты не выполняются в мире в котором ты применяешь теорию то её применимость под большим вопросом, в лучшем случае она будет выполняться приближённо, что и происходит например при тестировании лекарств. Просто за счёт закона больших чисел эффекты множества нелинейных биохимических процессов позволяют моделировать суммарный результат нормальным распределением (или иногда другими стандартными распределениями), или там, независимость тестов из Rubin
causalmodel выполняется за счёт человеческих физико-химических свойств (метаболизм быстро выводит большинство веществ, хотя это может ломаться если у тебя какой-то тяжёлый металл например, который не выводится и будет влиять на все твои дальнейшие тесты. Вот и всё, твои постулаты сломаны и теория не работает). Но даже это выполняется не всегда.
> Что значит "хорошо работают"? Хорошо что то предсказывают? Ну ок, причём тут наука только?
> а также когда машини прийдут и начнут решать за нас научные задачи, я, увы, так и из приведённых тобой статей и не понял.
Начнём с фундаментального отличия между статистикой и машинным обучением. В статистике подразумевается что есть параметризованная генеративная модель данных, обычно это распределение, марковская модель или случайный процесс. Когда у тебя есть такая модель и данные ты можешь оценивать параметры модели и строить высказвания о них, интервалы доверия и т.д. Фундаментальный недостаток такого подхода в том что сам выбор модели данных, её структуры, процесс обычно неформальный - обосновывают выбор модели отсылкой к физике или биологии, или просто тем что модель хорошо работает. Есть попытки алгоритмизировать выбор модели (
http://www.automaticstatistician.com/index/ ) но они не убирают другого фундаментального недостатка - само пространство моделей в статистике узкое, почти всегда не включает в себя алгоритмически полные модели (а наш физический мир поддерживает вычисления многими разными законами, и эти вычисления формируют распределение которое получается при наблюдении мира. Так что не алгоритмически полная модель просто не может представить множество паттернов которые есть в наблюдаемом распределении. Как следствие статистики предпочитают не работать с данными полученными из реального мира напрямую - слишком сложно - а работают с сильно очищенными предобработанными табличными данными, для которых постулаты положенные в основу статистических моделей приближённо выполняются).
В машинном обучении (ML) есть только данные и модель, причём модель обычно задаёт минимальные ограничения на то что она может моделировать (слабый приор). В современном машинном обучении используются и алгоритмически полные модели (RNN/LSTM/...) которые могут обучаться алгоритмам (то что не может делать никакая из известных мне статистических моделей). Обучение производится с помощью maximum likelihood estimation, сведением задачи к оптимизации параметров модели для достижения максимальной точности на кросс-валидации. Обычно используется одновременно несколько методов регуляризации (L1/L2 penalty, разные формы dropout), без чего тренировка не сходится. С точки зрения статистики выглядит грубовато, но это позволяет обучать очень точные модели и решать целые классы задач которые статистика никогда не могла решить (классификация естественных картинок), и даже подступиться к их решению не могла (описание картинок-массивов пикселей - внятными фразами на естественном языке в свободной форме; ответы в свбодной форме на вопросы заданные про массив пикселей в свободной форме -
http://arxiv.org/abs/1603.01417 и пикрелейтед примеры). Среди недостатков ML можно назвать чёрнокоробочность моделей (впрочем это частично решаемый методами визцализации вопрос, да и человеческие решения тоже по большей части чёрные коробки).
Это я только описал одну из трёх ML задач - supervised learning. Есть ещё unsupervised learning и reinforcement learning (RL), из них RL самая общая задача в которой можно задать любую другую.
Так вот. На самом деле у машинного обучения есть абсолютно строгое основание -
индукция Соломонова http://www.scholarpedia.org/article/Algorithmic_information_theory#Algorithmic_.22Solomonoff.22_Probability_.28AP.29 (из
алгоритмической теории информации которую создали Колмогоров и Соломонов). Индукция Соломонова это универсальный метод предсказания символьных последовательностей (= любых данных, в т.ч. полученных из реального мира) получаемых из любого источника описываемого вычислимым распределением (самый широкий класс распределений, любая статистическая модель - лишь его подмножество, по современному пониманию физики и физический мир тоже задаёт вычислимое распределение) для которого доказана быстрая сходимость (пикрел).
Для индукции Соломонова доказана быстрая сходимость, если интересует здоровенное доказательство ищи "Complexity-Based induction Systems: Comparisons and Convergence Theorems R. J. SOLOMONOFF, MEMBER, IEEE".
Это оптимальное решение задачи индуктивного вывода (в т.ч. задачи моделирования реальности, моделирования эксперимента, моделирования того что будет с данным конкретным человеком если он примет данное конкретное лекарство), все остальные непредвзятые методы в т.ч. статистика хуже. Недостаток в том что этот метод невычислим (перебор по всем алгоритмическим моделям, а многие из них не останавливаются). Если у тебя есть машина которая реализует индукцию по Соломонову то у тебя есть идеальный учёный который быстро построит лучшую теорию из сырой последовательности данных, быстро научится предсказывать результаты любых наблюдаемых действий (можно подавать на вход записи действий и прокручивать вперёд предсказание, потом сбрасывать). Универсальный алгоритмический приор 2^-l можно рассматривать как лучшую возможную непредвзятую регуляризацию.
С точки зрения индукции по Соломонову causation vs correlation это искусственная проблема которая возникает из-за неформального подхода к выбору моделей (ведь статистическая модель в общем случае это вероятностная графовая модель где графом которому задаётся зависимость/независимость латентных переменных, и correlation/causation это просто разные варианты этого графа). Мало того что графовые вероятностные модели невыразительны (не могут представлять вычислимые распределения, по крайней мере обычные вероятностные графы), так и ещё эти сложности с выбором модели возникают. Но регуляризация через 2^-l естественным путём взвешивает каждую модель описывающую данные в соответствии с её длиной, и эта проблема с которой мы начали разговор исчезает.
Индукция по Соломонову невычислима, но можно построить более слабую вычислимую версию (использующая вместо l - сложности по Коломогорову - сложность по Левину), а также можно вывести уже практичный и применяемы Принцип минимальной длины описания (МДО), принципы MLE, ME. Кстати МДО очень практичен, например L2 регуляризацию можно рассматривать как МДО (т.к. L2 регуляризация минимизирует величины параметров => минимизирует длину битового описания параметров).
Так, это я показал что у статистики и машинного обучения есть фундаментальная основа про которую не очень помнят из-за невычислимости и традиций. Да и просто алгоритмическая теория до сих пор чужда большинству исследователей, даже в ML не то что в статистике.
Теперь про то как машинное обучение может решить науку. Ну, в сильной форме мы уже сказали что если есть реализация индукции по Соломонову то вот и есть идеальный учёный. На самом деле Соломонов пытался такую машину построить (последняя версия называлась "Alpha", описана в статье "Progress in Incremental Machine Learning"), но у него не получилось завершить эту работу.
Можно сформулировать научную деятельность как одну из трёх задач машинного обучения - supervised learning (предсказание результатов эксперимента по данным, то же что и индукция по соломонову, это уже используется в биологии и других областях), unsupervised learning (поиск представлений данных, на самом деле тоже поиск моделей), и особенно Reinforcement Learning.
10 лет назад появилась модель AIXI, Маркуса Хуттера (
http://www.hutter1.net/ai/aixigentle.htm ), совмещение теории принятия решений и индуции по Соломонову. Это идеальный RL агент для которого доказана оптимальность и много других теорем. Если у тебя есть такой агент или его аппроксимация ты можешь быстро научить его чему угодно через награды и наказания.
Reinforcement Learning задача описывает агента взаимодействующего со средой которая иногда награждает его. Вполне естественно сделав такого агента научить его сначала простым вещам вроде навигации и интуитивной физики, потом перейти к языку и арифметике, и так пока не научишь его заниматься наукой (если агент алгоритмически полный то он сможет обучиться и математике и статистике, и сам изобретать новые теории).
Теперь понятно как можно поставить ML в той или иной форме на службу науке? RL подход конечной самый общий потому что позволяет обучить агента-учёного который будет принимать на вход направления исследований а дальше делать всё сам.
Многообещающих направлений в RL/ML два: 1) UAI: построение аппроксимаций AIXI 2) Deep Learning. Построение RL агентов на основе разных моделей сетей глубокого обучения, в том числе алгоритмически полных и/или реализующие кратковременную, долговременную память, планирование, и способные обучаться использовать все эти функции. Это то направление которое исследует DeepMind, Facebook AI Research, OpenAI и другие компании. У DeepMind за несколько лет достигнут значительный прогресс в создании универсальных RL агентов (
https://deepmind.com/publications ). На видео они уже показывают агентов способных обучаться простейшему языку и выполнять команды требущие планирования
https://www.youtube.com/watch?v=vQXAsdMa_8A ( 20 минута ). Об этом много можно говорить, вот например туториал по state of art deep RL:
http://icml.cc/2016/tutorials/deep_rl_tutorial.pdfДлинно получилось. Надеюсь я прояснил что имею в виду под применением машинного обучения в науке, о том какие теоретические основания у этого есть и какие практические достижения достигнуты.