花弁

Доклад «Частотный анализ интернет-диалектов русского языка и их взаимная корреляция» Профессор Добранонов 12 December 2009 (Sat) 11:14 No.5954

File: report.tgz
Tgz, 0.02 KB, 0 files - Click the image to get file

Введение
За прошедшие годы сообществом анонимных лингвистов неоднокрано высказывались различные теории о "упрощении" языка в различных "быдло"-сообществах, а также о их влиянии на культуру АИБ.
В частности в недавней дискуссии доцент Граммарнацевич [1] выдвинул в качестве критения примитивности объем активно используемого лексикона.
Отмечая недостаточный уровень изученности данной проблематики и отсутствие исследований с достаточной материальной базой, наш коллектив решил провести собственное исследование в данной области, поставив перед собой следующие задачи:
1. Построить корпус диалектов, применяемых на чанах и ряде не-анонимных ресурсов.
2. Построить частотный словарь для каждого корпуса, оценить объем активного лексикона.
3. Оценить корреляцию каждого из диалектов ряду эталонных частотных словарей русского языка.
4. Провести сравнительный анализ попарно каждого из диалектов.
5. Исследовать изменения в чановой лексике за последние 3 года.
6. Исследовать частотность отдельных лексем в разных диалектах.

Исследуемые образцы Профессор Добранонов 12 December 2009 (Sat) 11:15 No.5955

В качестве исследуемых экземпляров было принято взять следующие ресурсы:
1. Доброчан.ру
2. Иичан.ру
3. Вакачан.орг/уныл/
4. Автобус
5. Луркмор, страницы обсуждения (так как нас интересует лексикон обитателей в их "естественном" общении)
6. Тиреч
7. Нульчан
В качестве представителей "быдло"-ресурсов:
8. Баш.орг.ру, все аппрувленные цитаты
9. Анимефорум.ру, темы из раздела "общение", и по несколько тем из других разделов.
10. Удафф.ком, тексты и комментарии из "нетленки".
Для сравнительного анализа по времени:
11. Двач образца 2006 года
12. Двач образца 2007 года (представлен в двух версиях, оригинал и с удаленными вайп-постами)
13. Двач образца 2008 года

В качестве эталонов частотных словарей были взяты:
1. Список Сводеша для русского языка [2]
2. Первую тысячу слов из частотного словаря русского языка Штейнфельдт [3]
3. Первые 250 слов из частотного словаря Ру-вики [4]
4. Первые 1000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-1000) [5]
5. Первые 5000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-5000) [5]

Метод проведения исследования Профессор Добранонов 12 December 2009 (Sat) 11:15 No.5956

Для каждого ресурса был сформирован текстовый дамп (raw.txt).
Из текстового дампа были извлечены все кириллические слова (words.txt).
Каждому слову была сопоставлена лексема и записана лемма (lexems.txt).
Была подсчитана частота каждой леммы и составлен словарь частотности (freq.txt). В словаре мы указали как абсолютную частоту, так и относительную, в количестве на сто. Количество на миллион можно получить домножением на 10000.
Было рассчитано минимальное количество лексем для покрытия определенного количества текста (coverage.txt).
Для попарных корреляций брались первые н слов из каждого списка и рассчитывался процент совпадения этих двух множеств.
Особенности:
Для исследования Двача-2006 были использованы все сохранившиеся треды, но общая мощность ставит объективность результатов для этого периода под сомнение.
Для исследования Двача-2007 из-за сильных искажений, вносимых массовыми вайпами того периода, была рассчитана версия без таких вайп-постов.
Для исследования Луркмора из страниц обсуждения были вырезаны слова "Участник" и "января"-"декабря", так как они проставлялись автоматическими подписями.

Результаты Анонимус 12 December 2009 (Sat) 11:16 No.5957

File: tab1.summary.png
Png, 42.92 KB, 1372×256 - Click the image to expand

Объем каждого корпуса указан в таблице 1.
Вопреки теорям многих анонимных лингвистов, и согласно нашей теории о взаимоотношении правил деривации с количеством производных лексем, объем активного лексикона представителей ресурсов второй группы (анимефорум, башорг, удафф) оказался больше, чем соответствующий объем представителей АИБ.
Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Данная тенденция сохраняется и для 75% текста, и для 90% текста, с превышением объема активного лексикона удаффкома над чановым в 2 раза.
Сопоставление частотных словарей эталонным показало достаточно стабильные результаты как для чановых диалектов, так и для диалектов второй группы. В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
При этом наиболее высокую "чистоту" показали доброчан, иичан и, как ни странно, анимефорум.
Наименьший объем лексикона во всех представленных диалектах показали вайперы образца 2007 года. Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха". Лидирование "десу" в этой гонке оказалось для нас достаточно неожиданным.

Попарная корреляция Профессор Добранонов 12 December 2009 (Sat) 11:17 No.5958

File: tab2.correlation_...
Png, 36.93 KB, 1366×273

File: tab3.correlation_...
Png, 39.73 KB, 1341×273

File: tab4.correlation_...
Png, 41.19 KB, 1352×273

Результаты попарной корреляции опять же вполне соответствуют нашей теории. Сами данные можно найти в таблицах 2, 3 и 4.
При этом хотелось бы отметить ряд интересных моментов.
Из всех рассмотренных пар пара доброчан-иичан во всех трех случаях показала наибольший результат. Тем удивительней взаимная неприязнь между аудиториями данных ресурсов.
Как для доброчана, так и для иичана, анимефорум ближе, чем остальные чаны. Возможно Сырно все же не права в своей неприязни к анимефоруму.
Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Двач-2007 показал низкую корреляцию со всеми остальными представленными ресурсами, оказавшись наиболее похожим на Двач-2008, Тиреч и Нульч.
Двач-2006 оказался менее всего похож на Двач-2007/8, и наиболее похож на доброчан и иичан.
Двач-2008 оказался наиболее похож на тиреч, доброчан и иичан, что позволяет нам судить о распределении беженцев с погибшего.
Ресурсы второй группы показали общую попарную корреляцию выше, чем корреляцию с чановыми ресурсами.

Исследование частотности отдельных слов Профессор Добранонов 12 December 2009 (Sat) 11:18 No.5959

File: tab5.words.png
Png, 44.40 KB, 1487×273 - Click the image to expand

Результаты представлены в таблице 5.
Так как на иичане часть слов находится в вордфильтре [6], она не рассматривалась.
Прежде всего хотелось бы отметить, что на дваче 2006 слово "имиджборда" не встречается, зато есть упоминания слова "имажборда", что опровергает теорию о том, что первый вариант написания появился раньше и является основным.
Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.
Слово "двач" встречается на тирече в полтора раза реже, чем на Дваче-2007, Дваче-2008 и нульчане. Частота на последних трех примерно равная.
Больше всего обеспокоены тортовостью на нульче и вакачане.
На анимефоруме нет ньюфагов, но есть 1.5 олдфага на миллион.
"Быдло" есть везде.
На Дваче-2006 не было ни рака, ни школьников, ни ньюфагов, ни олдфагов, и было в 5 раз меньше троллей.
Частота употребления слов "ньюфаг"/"олдфаг" на нульчане зашкаливает и превышает средние показатели в 7 раз.
В 2007м на дваче "ньюфаг" употреблялось в 10 раз реже, а "олдфаг" в 100 раз реже, чем в 2008м.
Частота употребления слова "тролль" на доброчане непростительно высока. Всем срочно рекомендуется подумать над своим поведением.
"Рака" на тирече в два раза больше, чем на нульчане, и в 4 раза больше, чем на дваче-2008, дваче-2007 и доброчане.
Интерес к мемам в целом заметно упал по сравнению с 2008. Больше всего к ним проявляют интереса, как и ожидалось, луркморцы.

Ссылки и архивы с данными Анонимус 12 December 2009 (Sat) 11:19 No.5960

File: 2ch07.tar.bz2
Bz2, 23.70 KB, 0 files

File: 2ch07corr.tar.bz2
Bz2, 23.28 KB, 0 files

File: 2ch08.tar.bz2
Bz2, 12.12 KB, 0 files

File: udaff.tgz
Tgz, 7.92 KB, 0 files

File: animeforum.tgz
Tgz, 7.68 KB, 0 files

File: bashorgru.tgz
Tgz, 7.66 KB, 0 files

File: dashchan.tgz
Tgz, 8.94 KB, 0 files

File: iichan.tgz
Tgz, 7.62 KB, 0 files

File: dobrochan.tgz
Tgz, 8.32 KB, 0 files

File: wakachan.tgz
Tgz, 1.48 KB, 0 files

File: 410chan.tgz
Tgz, 0.81 KB, 0 files

File: 2ch06.tgz
Tgz, 0.17 KB, 0 files

File: lurkmore.tar.bz2
Bz2, 20.32 KB, 0 files

File: 0chan.tar.bz2
Bz2, 2.00 KB, 0 files

1. >>b/250452
2. http://ru.wiktionary.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C:%D0%A1%D0%BF%D0%B8%D1%81%D0%BA%D0%B8_%D0%A1%D0%B2%D0%BE%D0%B4%D0%B5%D1%88%D0%B0_%D0%B4%D0%BB%D1%8F_%D1%81%D0%BB%D0%B0%D0%B2%D1%8F%D0%BD%D1%81%D0%BA%D0%B8%D1%85_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2
3. http://ru.wiktionary.org/wiki/%D0%9F%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%A8%D1%82%D0%B5%D0%B9%D0%BD%D1%84%D0%B5%D0%BB%D1%8C%D0%B4%D1%82
4. http://ru.wiktionary.org/wiki/%D0%9A%D0%BE%D0%BD%D0%BA%D0%BE%D1%80%D0%B4%D0%B0%D0%BD%D1%81:%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%BE%D1%8F%D0%B7%D1%8B%D1%87%D0%BD%D0%B0%D1%8F_%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F
5. http://ru.wiktionary.org/wiki/%D0%9F%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%87%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%BF%D0%BE_%D0%9D%D0%9A%D0%A0%D0%AF:_%D0%A3%D1%81%D1%82%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D1%87%D1%8C
6. http://iichan.ru/d/res/40629.html

>>	Профессор Добранонов 12 December 2009 (Sat) 11:19 No.5961 Будем рады ответить на ваши вопросы, господа.

>>	Анонимус 12 December 2009 (Sat) 11:23 No.5962 >>5961 в каком программе открывать файл из архива в оп-посте?

>>	Анонимус 12 December 2009 (Sat) 11:27 No.5963 >>5962 Это OO.o calc таблица.

>>	Анонимус 12 December 2009 (Sat) 11:42 No.5965 >>5961 > Будем рады ответить на ваши вопросы, господа. > наш коллектив решил провести собственное исследование ... Наш коллектив это кто? Можно подробнее?

>>	Анонимус 12 December 2009 (Sat) 11:49 No.5966 >>5965 Анонимусы Университета.

>>	Анонимус 12 December 2009 (Sat) 12:04 No.5967 File: robert-deniro---taxi-driver-photograph-c101033101246640326.jpg Jpg, 28.02 KB, 385×476 - Click the image to expand молодец, держи Шайкевича

>>	Анонимус 12 December 2009 (Sat) 12:05 No.5968 File: 3.jpg Jpg, 15.41 KB, 240×300 - Click the image to expand >>5967 черт, не то кликнул

>>	Анонимус 12 December 2009 (Sat) 12:41 No.5971 какое-то говно. и что теперь?

Анонимус 12 December 2009 (Sat) 12:45 No.5972

File: 2a995e6159f8666805391b22901c79c9.gif
Gif, 26.17 KB, 500×600 - Click the image to expand

Ух ты, спасибо вам, аноны, такую замечательную работу провели же. Это же просто какой-то гигантский кусок руды для бесконечного извлечения лулзов. Я думал, намного хуже будет это все.

>>	Анонимус 12 December 2009 (Sat) 12:51 No.5973 File: c71f319713415c27e5db5c50d05c4ad0.jpg Jpg, 52.79 KB, 660×710 - Click the image to expand схоронил поглубже тред :3

>>	Вакачанговская юккури 12 December 2009 (Sat) 12:57 No.5974 Молодцы, ребята.

Анонимус 12 December 2009 (Sat) 13:17 No.5975

>>5954
Восхитительно. Нет, серьёзно, это более чем интересно. Я два года хотел такое исследование. Давно уже перестал надеяться, что Анонимус способен на какую-нибудь мало-мальски серьёзную работу. Спасибо.
До архивов пока, конечно, основательно не добрался, но вопросы есть уже сейчас: как я понял, одним из выходных параметров оценки примитивности служило разнообразие лексем в верхушке частотного распределения -

> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.

Вывод о том, что разнообразие характерных лексем чановских диалектов меньше, вполне понятен. Но что будет, если обрезать эту верхушку и оценить разнообразие на неспецифическом словаре "чистых" слов русского языка? Да, я прочитал, что

> В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.

но насколько хорошо совпадают форм-факторы распределений?

>>	Анонимус 12 December 2009 (Sat) 13:31 No.5976 Отличное исследование. Оно проливает свет на многие неясности и разночтения в истории. Большое спасибо, Профессор!

>>	Анонимус 12 December 2009 (Sat) 13:38 No.5977 Мне не хватает сравнения Доброчанов образцов 2008 с 2009.

>>	Анонимус 12 December 2009 (Sat) 13:40 No.5978 >>5977 На доброчане-2008 слишком мало сообщений для полноценного анализа. Впрочем, посмотрим потом, когда будем делать повторный анализ месяцев через 6, дабы отследить динамику.

>>	Анонимус 12 December 2009 (Sat) 13:45 No.5979 File: 1260374235136.jpg Jpg, 70.39 KB, 631×683 - Click the image to expand Молодцы, ребята. Сохранил архивы, пишу вот пару скриптов для изучения. Еще раз спасибо, даже гордо стало за наших анонимусов.

>>	Анонимус 12 December 2009 (Sat) 13:58 No.5980 Статист-куны, нет у кого-нибудь желания посчитать дисперсию и среднеквадратичное отклонение между списками? Простой процент совпадения не очень точный.

>>	Анонимус 12 December 2009 (Sat) 14:04 No.5982 Слушайте, робяты. Во-первых, молодцы. Во-вторых, есть небольшие подозрения насчёт результатов старых дващей(некачественная выборка), а также вопрос по поводу количества элементов выборки - я думаю, с ней надо поработать тщательней.

Анонимус 12 December 2009 (Sat) 14:06 No.5983

>>5982

> насчёт результатов старых дващей(некачественная выборка)

Про 2006й там об этом написано, сколько есть данных, столько и взяли. Больше, к сожалению, не сохранилось.
2007й взят почти целиком, кроме декабря (у нас его нет).
2008й взят равномерно по всему году, из всего, что сохранилось.

Анонимус 12 December 2009 (Sat) 14:34 No.5984

>>5983
Учитывая склонность к словообразованию на новоявленных старых дващах, высокий процент уникальности, боюсь, вызван канувшими в лету фейлофорсенными словами, благо к 2007му стандартный лексикон более-менее стабилизировался. Это, конечно, частное-мнение-очевидца.
Полагаю, следует исключить дващ06 из набора.
Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).
Алсо, в разные разделы одной и той же борды тоже могут различаться.
Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.

>>	Анонимус 12 December 2009 (Sat) 14:57 No.5985 Профессора просто молодцы! анон нульча

Анонимус 12 December 2009 (Sat) 15:07 No.5986

File: 1245015123070.jpg
Jpg, 17.17 KB, 300×300
Your censorship settings forbid this file.

>>5984

> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
> Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).

Угу, как-то нехорошо, что на Двач06 такое маленькое количество слов же. Это моё мнение, как куна который когда-то учился на инженера.

> Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.

Таки да!

Ещё мне лично было бы крайне интересно ознакомиться с частотностью большего количества слов, и то что на ычане вордфильтр стоит это уже проблема ычана, а не наши.

Или например сравнить изменение количества "ло" в слове "ололо" и всё такое. Я бы и сам попробовал но к сожалению я никогда в жизни таким исследованием не занимался и боюсь пропустить что то важное по неопытности же, а товарищи ОПы умницы - я о таком треде не один месяц мечтал! Профессор Добранонов - мой бог :3

>>	Анонимус 12 December 2009 (Sat) 15:18 No.5988 Вопрос - почему был утаен архив двача за 2006 и 2007 годы до это времени? Также /r/ версию с html-разметкой.

>>	Анонимус 12 December 2009 (Sat) 15:36 No.5989 File: tables-with-style-after.png Png, 91.00 KB, 408×400 - Click the image to expand Да, выделяйте в следующий раз строки разными цветами, а то легко потерять ведь нужную строку с таким количеством колонок... Пикрилейтед.

Анонимус 12 December 2009 (Sat) 15:45 No.5991

>>5988
Архив эпичных тредов двача 2007 некоторое время висел онлайн, некоторые кусочки двача 2006 тоже, плюс до сих пор можно посмотреть несколько страниц через web.archive.org

Например:
http://web.archive.org/web/20060430013222/http://2ch.ru/b/
http://web.archive.org/web/20060503155355/2ch.ru/d/
http://web.archive.org/web/20060503155526/2ch.ru/dg/

Там кстати полно лулзов ололол.

Анонимус 12 December 2009 (Sat) 16:48 No.5993

Исследование - говно. Статистические исследования, да будет вам известно, проводятся так: выдвигается некоторая гипотеза, для неё противоречащая ей нулевая гипотеза, она опровергается статистическим тестом с какой-то достоверностью, из чего делается вывод о верности исходной посылки.
Материалы по теме: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing

Резюме: Работу принимать к публикации не рекомендую до устранения указанных выше существенных недостатков.

>>	Анонимус 12 December 2009 (Sat) 21:08 No.5997 File: 2426314_f16052a.jpg Jpg, 47.44 KB, 340×482 - Click the image to expand >>5993 0/10 Статлингвистика рулит, а ты хуй :3 Олсо, твой пост тоже тупой!

>>	Анонимус 12 December 2009 (Sat) 21:10 No.5998 >>5997 В твоём исследовании статистики нет вообще.

>>	Анонимус 12 December 2009 (Sat) 21:11 No.5999 >>5998 > "исследовании" самопочин

>>	Анонимус 12 December 2009 (Sat) 21:23 No.6000 >>5998 1. исследование не моё, я даже не оп 2. Да иди ты нахуй, оп няшечка же!

>>	Анонимус 12 December 2009 (Sat) 21:26 No.6001 А у кого-то сохранились архивы Двача 2006-2007 годов, но с картинками?

Анонимус 12 December 2009 (Sat) 21:40 No.6003

File: 1252065319219.jpg
Jpg, 4.71 KB, 200×150
Your censorship settings forbid this file.

File: 125206531921996.jpg
Jpg, 4.71 KB, 200×150 - Click the image to expand

>>6001

> Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.

Вы говорите так, как будто это что-то хорошее

>>	Анонимус 12 December 2009 (Sat) 21:46 No.6004 >>6001 А у кого они есть хотя бы без картинок? Только полные, а не фрагменты, как на webarchive.

>>	Анонимус 12 December 2009 (Sat) 22:37 No.6005 >>6004 В >>5960 ссылка на файл, содержащий полные (насколько могу судить) архивы, пусть и в малочитаемом виде.

>>	Анонимус 12 December 2009 (Sat) 23:28 No.6007 >>6005 Действительно, только однозначно восстановить треды по такому дампу не представляется возможным => не подходит, увы.

>>	Анонимус 12 December 2009 (Sat) 23:45 No.6008 >>6007 Ну там хоть что-то есть, вспомнил и перечитал один свой тред из 2007 года, когда я был ньюфагом.

Анонимус 13 December 2009 (Sun) 00:12 No.6010

Бессмысленное исследование. Было бы больше толку, если бы оп сделал график изменения скорости и посещаемости аиб, лурки, баша итд во времени с описании таких или иных крупных событий(причем не забывая о популярности некоторых мемов). Алсо форчан бы в графике не помешал.

Анонимус 13 December 2009 (Sun) 02:02 No.6011

>>5984

> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.

По этому вопросу есть разные мнения. В начале делали равные выборки, по 700000, так как на башорге больше нет, но потом решили, что тот-же двач разумней исследовать целиком, все равно ведь сравниваем частоту, а не абсолютные количества.
Для разных по скорости чанов равные объемы будут означать совершенно разные периоды. Возможно объективней таки рассматривать, скажем, по 1 последнему году каждого чана, чем по последним х словам.

> одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками

Угу, правда опять же, вопрос в объеме, на многих тематиках постов слишком мало.
>>5988
Он не утаен, он не доступен в онлайне по техническим причинам.
>>5993
А где ты в теме нашел слова "статистическое исследование"? Там же ясно написаны задачи и методы, это корпусная лингвистика, а не статистика.
>>6001
Картинки у нас тоже есть. Когда-нибудь опубликуем, там 500000 файлов и с ними надо разбираться.

>>	Анонимус 13 December 2009 (Sun) 02:07 No.6012 http://iichan.ru/sci/res/10219.html - ОП, а что ты думаешь об этом?

>>	Анонимус 13 December 2009 (Sun) 02:21 No.6013 >>6012 Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля. Если и пилить издание, то межчановое.

>>	Анонимус 13 December 2009 (Sun) 02:41 No.6014 >>6012 Я не ОП, но я подумал следующее: "О, меня на ычане разбанили!"

>>	Анонимус 13 December 2009 (Sun) 02:42 No.6015 >>6013 Тогда уж хотя бы общерунетовское

>>	Анонимус 13 December 2009 (Sun) 02:44 No.6016 >>6015 Для не-анонимусов и так существует дохрена и больше научных изданий.

>>	Анонимус 13 December 2009 (Sun) 03:29 No.6017 >>6011 Надеюсь, вы опубликуете полные архивы Двача поскорее. Выложите их на отдельном сайте с поиском и анонсируете на всех известных АИБ.

>>	Анонимус 13 December 2009 (Sun) 03:31 No.6018 >>6017 Так уже выкладывали же, с поиском и прочими хренями. У нас просто софт под него сейчас сильно устаревший, переписывать все надо.

>>	Анонимус 13 December 2009 (Sun) 05:23 No.6019 >>6018 оно сохранилось где-то? можно ссылочку?

>>	Анонимус 13 December 2009 (Sun) 09:49 No.6022 >>6018 Куку~ц?

>>	Анонимус 13 December 2009 (Sun) 11:31 No.6023 >>6019 Люто-бешено удваиваю запрос. Большим и жирным архивом голые html-ки тредов(или в каком формате они у вас хранятся?), без какого-либо поиска, можно и без картинок.

>>	Анонимус 13 December 2009 (Sun) 12:05 No.6025 этому треду не хватает звукового сопровождения http://rghost.ru/700725

>>	Анонимус 13 December 2009 (Sun) 13:26 No.6027 А почему про Шитстрим ничего не написали?

>>	Анонимус 13 December 2009 (Sun) 15:16 No.6030 >>6018 А, 2.0ч я хорошо помню. И буду очень вам благодарен, если он заработает опять.

Анонимус 14 December 2009 (Mon) 12:36 No.6069

Тред - луч света на этой доске.
Большинство файлов в архиве имеют неизвестный мне формат, но даже без этого выглядит впечатляюще.
В свою очередь хотел бы попросить простым языком изложить теорию, которая взята на проверку и дать определения специальным терминам таким как Лексема.
Прошу это я с учетом того, что большинство читателей не знакомо с тематикой и специфичными терминами. Дать список определений вначале или в конце текста намного удобнее, чем каждого по отдельности искать определения.

>>	Анонимус 14 December 2009 (Mon) 12:36 No.6070 >>6069 > Большинство файлов в архиве имеют неизвестный мне формат Там текстовые файлы же.

>>	Анонимус 14 December 2009 (Mon) 13:42 No.6071 > определения специальным терминам таким как Лексема Да-да, не мешало бы. Алсо посмотрев исходник старого 2ча хочется задать вопрос: можно ли применять методы исследования текстов к собственно содержимому АИБ т.е. 1. анонимной 2.картинко- 3.доски

Анонимус 14 December 2009 (Mon) 13:44 No.6072

>>6071

> можно ли применять методы исследования текстов к собственно содержимому АИБ

А почему, собственно, нет? Сопоставляются лексические компоненты каждой доски. Да, конечно, какая-то прагматика при этом теряется, но это все равно не семантический анализ, это частотный анализ.

Анонимус 14 December 2009 (Mon) 14:04 No.6073

>>6072
Ну хотя-бы потому, что часть текста написана на картинках

> это все равно не семантический анализ, это частотный анализ.

точность такого анализа вызывает сомнения, тащемта она явно не 0,01 процента
И расскажите больше про методы анализа же, можно с примерами

Анонимус 14 December 2009 (Mon) 16:10 No.6076

Порадовало. Есть пара вопросов:
1.

> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".

Башорг за какой отчетный период рассматривался?
2. Для каждого чана действительно не помешал бы список досок, на которых собиралась статистика.

Анонимус 14 December 2009 (Mon) 22:50 No.6082

>>6076

> Башорг за какой отчетный период рассматривался?

За весь. Все аппрувленные цитаты, от первой до последней. Там и так в результате всего 700000 слов набралось, по периодам будет не показательно (разве что бездну дампать).

> список досок

Со всех только /b/ же.

>>	Анонимус 17 December 2009 (Thu) 12:08 No.6114 >>6013 > Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля. > Если и пилить издание, то межчановое. Конечно же межчановое. Ссылка на Ичан просто потому что там уже все написано, чтобы не копипастить и не плодить треды.

>>	Анонимус 20 December 2009 (Sun) 13:53 No.6198 Бамп эпичнейшему треду

Анонимус 21 December 2009 (Mon) 01:15 No.6231

Мда, занимательная мулька, но я так и не понял четкой цели исследования. Кто умнее, кто тупее? Здесь одной статистической лингвистикой не обойтись. Ну да ладно, у меня баттхерт. Два небольших замечания, которые чистая статистика объяснить не может.

> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком

На удаффе такой завышенный показатель связан с художественностью текстов, особенно нетленки. Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?

> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".

Нифига не опровергло. Я бы не стал делать такие выводы, основываясь на лингвистической статистике. Теория доказана практикой и фактами. (на собственной шкуре, и в тредах о том, кто как попал на двач). А нестыковка заключается в том, что неофиты с баша быстро переключаются на скупую, но емкую терминологию двачей. Более того, проходит инкубационный период, в течении которого личинка двачера окукливается на лурке, впитывая в себя новые знания, а вместе с ними и новый язык. Лурк по своей доставляемости заменяет баш, а его потом заменяют имиджборды. Посещение баша, как поведенческий рудимент, отсыхает сам спустя приблизительно месяц-два.
И по традиции, видимо, сей борды всем добра, вы все классные, проффесор вы мой новый идол и кумир, чмаффки вас всех, лаффки :3333 <33333 Действиельно впечатляющая работа, но "комментарии" разочаровали. Я серьезно. Все пакусики!! цалую всех в щечку, чмафф ^^

Анонимус 21 December 2009 (Mon) 01:20 No.6233

>>6231

> Кто умнее, кто тупее?

Нет, конечно. Я вообще не сторонник мнения, что население АИБ чем-то лучше остального интернета. Закомплексованней, да. Не более.
На чанах постоянно выдвигают теории о том, какой бедный язык у всех этих "башорков". Я попытался проверить эту теорию научными методами. Результаты опубликовал. Ну а в дополнение, раз уж на руках все равно были частотные списки и корпусы, посчитал всякие корреляции.

> Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?

"Ебаться" "Ипаццо" "Ибатся" три разные лексемы. Там, где прослеживается инфлекция, одна лексема.

Анонимус 23 December 2009 (Wed) 07:16 No.6271

> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.

Слово "подонок" на удаффкоме может быть представлено в виде "падонак", "падонок", "падоног" и т.д. Не говоря уже об уравни граматнасти носиления (на любом ресурсе). По сути дела, это статистика вариантов написания слов, а не словарного запаса.

Анонимус 23 December 2009 (Wed) 07:22 No.6272

>>6271
Я же там указал причину, побудившую проводить исследования.
Собственно в том треде я и доказывал, что при более свободных правилах деривации у нас будет больше лексем в основном лексиконе, в том числе за счет синонимов, образованных деривацией в виде искажения.

> а не словарного запаса

А что такое по-твоему "словарный запас"?

>>	Анонимус 23 December 2009 (Wed) 07:29 No.6273 > А что такое по-твоему "словарный запас"? Запас используемых слов. Очевидно, что "подонак" и "падонок" - это одно и то же слово.

Анонимус 23 December 2009 (Wed) 07:34 No.6274

>>6273
Кому очевидно?
"Слово" это вообще форма. "Падонак" "Падонка" и все остальные инфлекции лексемы "падонак" - это разные слова.
"Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации.

>>	Анонимус 23 December 2009 (Wed) 17:39 No.6282 Извиняюсь, если неправильно употребляю термины. А "дабрачан" (неграмотное написание) прибавляет +1 к словарному запасу?

Анонимус 23 December 2009 (Wed) 18:11 No.6284

>>6282
Ну я потому выше и спросил, что такое словарный запас? Если измерять просто объем лексикона, то да. Но, надо учитывать, что я считал только самые частотные слова. Т.е. чтобы твой "дабрачан" имел "вес", ты должен использовать его часто, и при этом использовать также часто и "доброчан".

Плюс, я еще проверял корреляцию с НКРЯ. Т.е. словами, заведомо написанными правильно. И прошу обратить внимание, корреляция у чанов и у ресурсов второй группы достаточно схожи, т.е. количество активно используемых чистых слов русского языка и там и там примерно одинаково.

Анонимус 23 December 2009 (Wed) 21:35 No.6299

> "Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации

Что, правда? А можно объяснить, в чём разница (особенно между 1-м и 3-м, с примерами)?
Вот например между доброчаном, дабурочаном, боброчаном разница понятна (но это не лексемы. или нет?) Между доброчаном и доброчонгом разницы уже меньше.

Анонимус 23 December 2009 (Wed) 21:40 No.6301

>>6299

> но это не лексемы

Лексемы.
Как бы обеснить. Вот есть "слово", его можно "склонять"/"спрягать" (по падежам, числам, временам, родам и т.д.)
Вот весь набор склонений/спряжений образует лексему.
Т.е. лексема, выраженная леммой ДОБРОЧАН это набор следующих инфлекций: "доброчан" "доброчаны" "доброчану" "доброчанам" "доброчане" "доброчанах" и т.д.
С точки зрения формальной лингвистики "дабурочан" "боброчан" и т.д. образуют другие наборы инфлекций и выражены другими леммами, а значит это другие лексемы.

> А можно объяснить, в чём разница

Деривации не имеют негативного оттенка, скорее наоборот.

Анонимус 23 December 2009 (Wed) 22:28 No.6304

>>6301
А в чём разница между деривациями? Мне почему-то кажется что "падонок", "падонок" и "падонаг" - это просто разные варианты написания, в рамках падонковской субкультуры употребляющиеся одинаково (аналогия- написание слов в british english и "американском английском"). Или если есть достаточно частые разные употребления- это уже лексема?

>>	Анонимус 23 December 2009 (Wed) 22:30 No.6305 > "падонок", "падонак" и "падонаг" фикс.

Анонимус 21 January 2010 (Thu) 22:36 No.7175

File: untitled.png
Png, 5.95 KB, 577×180 - Click the image to expand

Добрый вечер!

Я, как правило, АИБ не читаю - муж показал этот тред, посчитав, что мне как лингвисту будет интересно. Cразу показалось, что делал статистику профессионал. Если я не ошиблась и автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой, то я очень хочу познакомиться. Есть одно полуделовое предложение, не имеющее отношения к имиджбордам, но имеющее отношение к сбору данных по словоупотреблению в русском языке. Уважаемый автор/авторы/сочувствующие, пишите на адрес nyrestein-собака-gmail.com.

>>	Анонимус 21 January 2010 (Thu) 23:04 No.7177 >>7175 Мой Доброчан превращается в арену деловых переговоров и сириоуз бизнесса. С одной стороны, я должен испытывать гордость, с другой - грустно всё это.

>>	Анонимус 22 January 2010 (Fri) 00:50 No.7179 File: 0003.JPG Jpg, 11.09 KB, 275×271 - Click the image to expand >>7175 > Если я не ошиблась[,] и автор/авторы доклада Лингвист, говоришь? Хех!

>>	Анонимус 22 January 2010 (Fri) 01:21 No.7182 >>7179 яка страна таки теракты…

>>	Анонимус 14 February 2010 (Sun) 21:25 No.7646 Ненавижу, сука, из-за этой хуйни я и не пошёл в аспирантуру филфака СПбГУ; скучно и нет места для фантазии брат умер, а ты говоришь, что она безвредная!

>>	Анонимус 08 March 2010 (Mon) 13:34 No.8172 >>5954 Реквестирую научную статью по мотивам исследования проф. Доброанонова. Подробности тут: http://groups.google.com/group/stsgrad/browse_thread/thread/26201babe22137fd

>>	Анонимус 08 March 2010 (Mon) 15:31 No.8173 >>7179 Да ладно доебываться то. Доброчан же. Не лингвист.

>>	Анонимус 25 April 2010 (Sun) 18:52 No.9166 File: 15812963.jpg Jpg, 75.23 KB, 400×525 - Click the image to expand

>>	Анонимус 18 August 2011 (Thu) 20:54 No.37266 >>5957 > Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха". Проиграл в голос

>>	Анонимус 18 August 2011 (Thu) 21:08 No.37268 >>37266 Быстрый ты какой.

>>	Анонимус 19 August 2011 (Fri) 02:31 No.37287 >>7179 Нет ошибки же, > я не ошиблась и > автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой - однородные придаточные, относящиеся к "если". мимопроходил

>>	Анонимус 19 August 2011 (Fri) 03:46 No.37291 >>37287 c:лютый неудобно Спасибо тебе, крокодил-некромант! Огромное спасибо. Без тебя я бы не узнал о таком-то виновом тредище.

Анонимус 20 October 2011 (Thu) 16:45 No.41263

File: Danbooru 539977 animal_ears bell cat_ears choker elbow_gloves fate_testarossa feet gloves legs long_hair mahou_shoujo_lyrical_nanoha mahou_shoujo_lyrical_nanoha_strikers tail.jpg
Jpg, 68.98 KB, 480×640 - Click the image to expand

Danbooru 539977 animal_ears bell cat_ears choker elbow_gloves fate_testarossa feet gloves legs long_hair mahou_shoujo_lyrical_nanoha mahou_shoujo_lyrical_nanoha_strikers tail.jpg

Бампаю няшей эпичный тред.

Анонимус 20 October 2011 (Thu) 17:29 No.41264

> Интерес к мемам упал

А как мерили интерес? Учитывали разнообразие мемов или частоту? Что же, сотня разных мемов, использованная единожды не так интересна, как один, повторяющийся сто раз?
Алсо было бы неплохо посмотреть архив Спидометра Имиджборд (Думаю, тамошний админ поделится) и уделить большее внимание отдельным "пиковым" периодам вроде каникул, Нового Года, начала учебного года, выходных дней. Так "славич" употребляется лишь в редкие короткие периоды форса, в то время как "бочка" будет в ходу всегда стабильно.

>>	Анонимус 21 October 2011 (Fri) 00:44 No.41279 >>37266 Пожалуйста, не надо тащить сюда всякие игры с помойки. Пусть говно будет в одном месте.

>>	Анонимус 21 October 2011 (Fri) 00:49 No.41280 >>41279 Что за тупой игрохейтер завёлся в моих интернетах? Уже который раз за два дня наблюдаю, и не на одной борде причём.

>>	Анонимус 21 October 2011 (Fri) 03:04 No.41283 >>41280 Меня больше интересует, откуда взялись тупые никогда не выигрывающие игроки?

>>	Анонимус 21 October 2011 (Fri) 04:15 No.41286 File: 12661615756903.png Png, 166.12 KB, 265×294 - Click the image to expand >>41283 > тупые никогда не выигрывающие игроки И во что они играют?

Анонимус 21 October 2011 (Fri) 07:45 No.41287

>>41283
Это еще ничего. В природе встречаются, вы не поверите, люди, у которых смешные картинки вызывают непроизвольное испражнение, о чём они радостно сообщают об этом окружающим на анонимных форумах. На некоторых форумах комментарий "обосрался" является высшей похвалой и признанием собеседника как оригинального шутника.

>>	Анонимус 21 October 2011 (Fri) 07:52 No.41288 >>41287 Да, но что за игра имеется в виду?

>>	Анонимус 21 October 2011 (Fri) 08:02 No.41290 Лол, надо же, кто-то воскресил мой тред. У меня, кстати, всё это время делались копии тиречей-нульчей (забыл убрать скрипт из крона и он так уже два года пашет), можно посмотреть на изменения за прошедший период.

>>	Анонимус 21 October 2011 (Fri) 09:20 No.41295 >>41290 Ждем с нетерпением новый отчет.

>>	Анонимус 21 October 2011 (Fri) 17:01 No.41307 File: game-schoolgirl-by-raikoh.jpg Jpg, 157.38 KB, 705×952 - Click the image to expand >>41288 "Засмеялся-проиграл", вестимо. Объяснять, думаю, более ничего не надо? А ещё - %%http://en.wikipedia.org/wiki/TheGame(mind_game)%%

>>	Анонимус 21 October 2011 (Fri) 18:18 No.41315 http://www.looo.ch/2011-10/692-text_atlas