>>6638255> Отнюдь. Нейросети ошибаются всегда, все методы направлены лишь на уменьшение шанса ошибки на идеальных данных. Так как данные бывают идеальными примерно никогда, получается искажение на переобучении кривым датасетом погоняет.
> Конечно, пациент, конечно, ведь предикторы из данных GWAS вам нашептывают голоса, и машинлернинг тут совершенно не замешан
Такие посты делают меня задуматься, насколько глист троллит меня и насколько он действительно ебанутый, не способный даже смутно догадаться о глубине своего невежества дегенерат, который убедил себя, что является умным человеком, раз может склеивать будто бы осмысленные предложения из терминов (ну, как субъект, не понимающий азы power analysis и определяющий репрезентативную выборку по принципу "ну хотя бы где-то 1/10000 надоть", может напыщенно рассуждать об уравнении Навье-Стокса) и впечатлять свою мамку, заботящуюся о социальном инвалиде-гуманитарии средних лет. Для мало-мальски сведущих людей понятно, что всё им выданное выше это что-то уровня рассуждений про память воды, аэродинамическую якобы невозможность полёта шмеля и "кисуль мысли материальны, ведь наблюдатель меняет реальность согласно квантовой физике, сейчас я трансерфингом выиграю лотерею вот смотри тут главное поверить", короче, очень уверенная обывательская мешанина из плохо понятых словечек, услышанных в ютюб-проповеди Аси Казанцевой или кого-то подобного.
В данном случае глист что-то услышал про loss/error function и пошёл плясать от этого про "шанс ошибки", не осознавая, что описание алгоритма через "ошибку" или "потерю" изоморфно описанию через "fitness landscape", "градиент полезности", "наказание" или "оптимум", что это не фундаментальная проблема метода и не что-то избегаемое, а просто функция сравнения состояний, и нейросеть может иметь сколь угодно низкий "шанс ошибки" (в обывательском смысле) в любом задании (уже есть много нейросетей с результатами лучше человека-профессионала именно в классификации спорных стимулов, например в радиологии). А GWAS у него с ML связался, я предполагаю, через линейную регрессию, обыденный статистический метод, который применяется как в традиционной обработке данных, так и в машинном обучении
строго говоря, всё машинное обучение это линейная алгебра, математикам пичёт от примитивщины; да вот только использование машинного обучения для нахождения значимых SNP или получения полигенных индексов не становится от этого обязательным или распространённым. Например, в великой статье 2018 года Lee at al. методы описываются следующим образом:
> Polygenic predictors derived from earlier GWAS of EduYears have proven to be a valuable tool for researchers, especially in the social sciences 6,7 .... We measure prediction accuracy by the ‘incremental R 2 ’ statistic: the gain in the coefficient of determination (R 2 ) when the score is added as a covariate to a regression of the phenotype on a set of baseline controls (sex, birth year, their interaction and 10 principal components of the genetic relatedness matrix). Our first four scores were constructed from sets of LD-pruned SNPs associated with EduYears at various P-value thresholds: 5 × 10 −8 , 5 × 10 −5 , 5 × 10 −3 and 1 (that is, all SNPs)... Our fifth score was generated from
HapMap3 SNPs using the software LDpred 26 . Rather than removing SNPs that are in LD with each other, LDpred is a Bayesian method that weights each SNP by (an approximation to) the posterior mean of its conditional effect, given other SNPs. This score was the most predictive in both cohorts, with an incremental R 2 of 12.7% in AddHealth and 10.6% in HRS (and a sample-size weighted mean of 11.4%)
Как видно, никаких обучений машин тут не нужно, это простая статистика.
Или вот: > очередная игрушка с бессмысленными корреляциями: полигенетическая оценка на основе кривого машинлернинга с еще более кривыми датасетами, валидируемая лишь на
особо специально отобранных примерах и зависящая от происхождения. Как уже неоднократно отмечалось, пациент проявляет типические симптомы больного шизофренией, как то: самопротиворечие и игнорирование неудобной для сверхценного бреда реальности. Например, больной может сначала утверждать, что наука про "моделирование и предсказание", а потом нахваливать кривые методы, имеющие сильно различающуюся для разных рас и даже наций предсказательную способность.
Разумеется, придумать мало-мальски правдоподобный сценарий "кривости" датасета глист не может, потому что он не понимает, что такое датасет GWAS, а весь набор слов про валидацию на специальных примерах и вовсе бессмысленный. Но хуже того: обвиняя меня в противоречиях, он не понимает, как подводит себя под монастырь. Убывание предсказательной способности полигенного индекса по мере возрастания генетического расстояния между популяцией, на которой собраны данные GWAS, и тестовой
с высокой точностью предсказывается на основе расстояния, это тривиально следует из нашего понимания linkage disequilibrium (что это и как связано с темой - глист тоже не понимает):
https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1006288 , поэтому и решение, которое предложил анон
>>6638248, гарантированно сработает (и
уже сработало с восточными азиатами, собравшими свои данные).
Соответственно, полученные на белых индексы хорошо работают с латиносами, хуже с азиатами и совсем плохо с неграми, и аналогичная закономерность есть со всеми формами жизни, имеющими эволюционную историю. Но глист, лишённый света разума и ориентирующийся на звон, идущий непонятно откуда, пишет так, будто полигенные индексы применяются к европейцам (группе, на которой они вычислены) по прихоти, чтобы спрятать фейл их необъяснимой неэффективности в других группах.
Более того, вся сила ML-подходов как раз и состоит в их устойчивости к низкокачественным, вводящим в заблуждение и недостаточным данным. Например, в классической уже работе Хсу и компании Accurate Genomic Prediction of Human Height есть такой момент:
https://academic.oup.com/genetics/article/210/2/477/5931053> Association studies (GWAS) focus on reliable (high-confidence) identification of associated SNPs. In a GWAS, SNPs are analyzed one at a time, and statistical tests are applied to determine whether variation in the state of the SNP is associated to a slightly elevated or decreased value of the trait (e.g., individual height). Emphasis is placed on finding true positives—i.e., SNPs that are statistically associated to the trait. False negatives—SNPs that are not found to be associated at sufficiently high confidence, even though a future, better-powered, GWAS might eventually identify them—are not the main concern. In contrast, genomic prediction based on whole genome regression methods (de los Campos et al. 2010) seeks to construct the most accurate predictor of phenotype. The predictor is constructed by optimizing simultaneously over all SNPs, and the optimization tolerates possible inclusion of a small fraction of false-positive SNPs in the predictor set. This is essentially a machine learning approach: we extremize a global objective function (such as the prediction error computed on a validation set) over a large set of model parameters. The ultimate test in this approach is out-of-sample validation: testing the predictor on a group of individuals not used in training/optimization, and (ideally) perhaps even from altogether different environmental or geographical backgrounds.
Тут можно увидеть все те же слова, что у глиста, но поскольку их пишет человек (вдобавок учёный), а не глист, то получается
немного иначе.
Происходящее интересно в клиническом смысле. Когда глист по-свойски поясняет анону "Так как данные бывают идеальными примерно никогда, получается искажение на переобучении кривым датасетом погоняет" - по-видимому, в его голове на самом деле нет никаких репрезентаций концепций "данные", "искажение", "переобучение", "кривой датасет", там нет даже контекста, в которых эти концепции могли бы иметь содержание. Он просто помнит, что такие токены встречаются в текстах, где Большие Дяди Совковые Инженеры набирают много кармы, язвительно пуская пузыри про мойшеника Илона Маска с неучтённым усталым металлом или про пилящих бабки жуликов-машинлёрнеров, у которых корряяяяляции игрушечные и датасеты, видите ли, кривые. И он, хм, минимизирует ошибку: ставит токены друг за другом и оценивает, насколько непохоже получилось. У него внутре что-то вроде GAN, сличающего данные, на которых было произведено обучение, с выдачей.
И в то же время, какая мерзкая выдача.
А вот что может VQGAN.
>>6638251И такие, и другие. Мы мало похожи на собак, потому что у нас огромная эффективная популяция. Да и собаки (отдельные самые знаменитые этим породы) стали биомусором только в последние сотни и десятки лет. Вкратце,
- отчасти мы жертвы своего успеха, популяция быстро расширялась, смертность была невысокой и не произошло достаточного очищающего отбора против массы новых негативных мутаций. В последнее время добавилась нагрузка от решения проблемы детской смертности.
- отчасти это математически неизбежно: негативные мутации это главный компонент не-нейтральной изменчивости, лучше всего об этом ещё чёрти когда сказал сам Олсон
https://www.science.org/doi/10.1126/science.1203236 Поэтому большая часть любой популяции является потешными ДЦПшниками в сравнении с теми избранными, кому повезло насобирать минимум мутаций. А возможны гипотетические гигачады-гении-аполлоны-долгожители, у которых просто весь геном составлен из оптимальных (и, как правило, более ранних эволюционно) аллелей, и они будут так же превосходить современных гигачадов, как те превосходят Антонину Бабкину. Во всяком случае, со всеми изученными на других видах полигенными признаками это работает.
>>6638259Логистическая зависимость от
еврейских компаний, предоставляющих услуги отбора, в первую очередь.