[ /tv/ /rf/ /vg/ /a/ /b/ /u/ /bo/ /fur/ /to/ /dt/ /cp/ /oe/ /bg/ /ve/ /r/ /mad/ /d/ /mu/ /cr/ /di/ /sw/ /hr/ /wh/ /lor/ /s/ /hau/ /slow/ /gf/ /vn/ /w/ /ma/ /azu/ /wn/ ] [ Main | Settings | Bookmarks | Music Player ]

No.5954 Reply
File: report.tgz
Tgz, 0.02 KB, 0 files - Click the image to get file
view
report.tgz
Введение
За прошедшие годы сообществом анонимных лингвистов неоднокрано высказывались различные теории о "упрощении" языка в различных "быдло"-сообществах, а также о их влиянии на культуру АИБ.
В частности в недавней дискуссии доцент Граммарнацевич [1] выдвинул в качестве критения примитивности объем активно используемого лексикона.
Отмечая недостаточный уровень изученности данной проблематики и отсутствие исследований с достаточной материальной базой, наш коллектив решил провести собственное исследование в данной области, поставив перед собой следующие задачи:
1. Построить корпус диалектов, применяемых на чанах и ряде не-анонимных ресурсов.
2. Построить частотный словарь для каждого корпуса, оценить объем активного лексикона.
3. Оценить корреляцию каждого из диалектов ряду эталонных частотных словарей русского языка.
4. Провести сравнительный анализ попарно каждого из диалектов.
5. Исследовать изменения в чановой лексике за последние 3 года.
6. Исследовать частотность отдельных лексем в разных диалектах.
>> No.5955 Reply
В качестве исследуемых экземпляров было принято взять следующие ресурсы:
1. Доброчан.ру
2. Иичан.ру
3. Вакачан.орг/уныл/
4. Автобус
5. Луркмор, страницы обсуждения (так как нас интересует лексикон обитателей в их "естественном" общении)
6. Тиреч
7. Нульчан
В качестве представителей "быдло"-ресурсов:
8. Баш.орг.ру, все аппрувленные цитаты
9. Анимефорум.ру, темы из раздела "общение", и по несколько тем из других разделов.
10. Удафф.ком, тексты и комментарии из "нетленки".
Для сравнительного анализа по времени:
11. Двач образца 2006 года
12. Двач образца 2007 года (представлен в двух версиях, оригинал и с удаленными вайп-постами)
13. Двач образца 2008 года

В качестве эталонов частотных словарей были взяты:
1. Список Сводеша для русского языка [2]
2. Первую тысячу слов из частотного словаря русского языка Штейнфельдт [3]
3. Первые 250 слов из частотного словаря Ру-вики [4]
4. Первые 1000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-1000) [5]
5. Первые 5000 слов из частотного словаря на основе Национального Корпуса Русского Языка (НКРЯ-5000) [5]
>> No.5956 Reply
Для каждого ресурса был сформирован текстовый дамп (raw.txt).
Из текстового дампа были извлечены все кириллические слова (words.txt).
Каждому слову была сопоставлена лексема и записана лемма (lexems.txt).
Была подсчитана частота каждой леммы и составлен словарь частотности (freq.txt). В словаре мы указали как абсолютную частоту, так и относительную, в количестве на сто. Количество на миллион можно получить домножением на 10000.
Было рассчитано минимальное количество лексем для покрытия определенного количества текста (coverage.txt).
Для попарных корреляций брались первые н слов из каждого списка и рассчитывался процент совпадения этих двух множеств.
Особенности:
Для исследования Двача-2006 были использованы все сохранившиеся треды, но общая мощность ставит объективность результатов для этого периода под сомнение.
Для исследования Двача-2007 из-за сильных искажений, вносимых массовыми вайпами того периода, была рассчитана версия без таких вайп-постов.
Для исследования Луркмора из страниц обсуждения были вырезаны слова "Участник" и "января"-"декабря", так как они проставлялись автоматическими подписями.
>> No.5957 Reply
File: tab1.summary.png
Png, 42.92 KB, 1372×256 - Click the image to expand
edit Find source with google Find source with iqdb
tab1.summary.png
Объем каждого корпуса указан в таблице 1.
Вопреки теорям многих анонимных лингвистов, и согласно нашей теории о взаимоотношении правил деривации с количеством производных лексем, объем активного лексикона представителей ресурсов второй группы (анимефорум, башорг, удафф) оказался больше, чем соответствующий объем представителей АИБ.
Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Данная тенденция сохраняется и для 75% текста, и для 90% текста, с превышением объема активного лексикона удаффкома над чановым в 2 раза.
Сопоставление частотных словарей эталонным показало достаточно стабильные результаты как для чановых диалектов, так и для диалектов второй группы. В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
При этом наиболее высокую "чистоту" показали доброчан, иичан и, как ни странно, анимефорум.
Наименьший объем лексикона во всех представленных диалектах показали вайперы образца 2007 года. Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха". Лидирование "десу" в этой гонке оказалось для нас достаточно неожиданным.
>> No.5958 Reply
File: tab2.correlation_...
Png, 36.93 KB, 1366×273
edit Find source with google Find source with iqdb
tab2.correlation_150.png
File: tab3.correlation_...
Png, 39.73 KB, 1341×273
edit Find source with google Find source with iqdb
tab3.correlation_1000.png
File: tab4.correlation_...
Png, 41.19 KB, 1352×273
edit Find source with google Find source with iqdb
tab4.correlation_5000.png

Результаты попарной корреляции опять же вполне соответствуют нашей теории. Сами данные можно найти в таблицах 2, 3 и 4.
При этом хотелось бы отметить ряд интересных моментов.
Из всех рассмотренных пар пара доброчан-иичан во всех трех случаях показала наибольший результат. Тем удивительней взаимная неприязнь между аудиториями данных ресурсов.
Как для доброчана, так и для иичана, анимефорум ближе, чем остальные чаны. Возможно Сырно все же не права в своей неприязни к анимефоруму.
Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Двач-2007 показал низкую корреляцию со всеми остальными представленными ресурсами, оказавшись наиболее похожим на Двач-2008, Тиреч и Нульч.
Двач-2006 оказался менее всего похож на Двач-2007/8, и наиболее похож на доброчан и иичан.
Двач-2008 оказался наиболее похож на тиреч, доброчан и иичан, что позволяет нам судить о распределении беженцев с погибшего.
Ресурсы второй группы показали общую попарную корреляцию выше, чем корреляцию с чановыми ресурсами.
>> No.5959 Reply
File: tab5.words.png
Png, 44.40 KB, 1487×273 - Click the image to expand
edit Find source with google Find source with iqdb
tab5.words.png
Результаты представлены в таблице 5.
Так как на иичане часть слов находится в вордфильтре [6], она не рассматривалась.
Прежде всего хотелось бы отметить, что на дваче 2006 слово "имиджборда" не встречается, зато есть упоминания слова "имажборда", что опровергает теорию о том, что первый вариант написания появился раньше и является основным.
Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.
Слово "двач" встречается на тирече в полтора раза реже, чем на Дваче-2007, Дваче-2008 и нульчане. Частота на последних трех примерно равная.
Больше всего обеспокоены тортовостью на нульче и вакачане.
На анимефоруме нет ньюфагов, но есть 1.5 олдфага на миллион.
"Быдло" есть везде.
На Дваче-2006 не было ни рака, ни школьников, ни ньюфагов, ни олдфагов, и было в 5 раз меньше троллей.
Частота употребления слов "ньюфаг"/"олдфаг" на нульчане зашкаливает и превышает средние показатели в 7 раз.
В 2007м на дваче "ньюфаг" употреблялось в 10 раз реже, а "олдфаг" в 100 раз реже, чем в 2008м.
Частота употребления слова "тролль" на доброчане непростительно высока. Всем срочно рекомендуется подумать над своим поведением.
"Рака" на тирече в два раза больше, чем на нульчане, и в 4 раза больше, чем на дваче-2008, дваче-2007 и доброчане.
Интерес к мемам в целом заметно упал по сравнению с 2008. Больше всего к ним проявляют интереса, как и ожидалось, луркморцы.
>> No.5960 Reply
File: 2ch07.tar.bz2
Bz2, 23.70 KB, 0 files
view
2ch07.tar.bz2
File: 2ch07corr.tar.bz2
Bz2, 23.28 KB, 0 files
view
2ch07corr.tar.bz2
File: 2ch08.tar.bz2
Bz2, 12.12 KB, 0 files
view
2ch08.tar.bz2
File: udaff.tgz
Tgz, 7.92 KB, 0 files
view
udaff.tgz
File: animeforum.tgz
Tgz, 7.68 KB, 0 files
view
animeforum.tgz
File: bashorgru.tgz
Tgz, 7.66 KB, 0 files
view
bashorgru.tgz
File: dashchan.tgz
Tgz, 8.94 KB, 0 files
view
dashchan.tgz
File: iichan.tgz
Tgz, 7.62 KB, 0 files
view
iichan.tgz
File: dobrochan.tgz
Tgz, 8.32 KB, 0 files
view
dobrochan.tgz
File: wakachan.tgz
Tgz, 1.48 KB, 0 files
view
wakachan.tgz
File: 410chan.tgz
Tgz, 0.81 KB, 0 files
view
410chan.tgz
File: 2ch06.tgz
Tgz, 0.17 KB, 0 files
view
2ch06.tgz
File: lurkmore.tar.bz2
Bz2, 20.32 KB, 0 files
view
lurkmore.tar.bz2
File: 0chan.tar.bz2
Bz2, 2.00 KB, 0 files
view
0chan.tar.bz2

>> No.5961 Reply
Будем рады ответить на ваши вопросы, господа.
>> No.5962 Reply
>>5961
в каком программе открывать файл из архива в оп-посте?
>> No.5963 Reply
>>5962
Это OO.o calc таблица.
>> No.5965 Reply
>>5961
> Будем рады ответить на ваши вопросы, господа.
> наш коллектив решил провести собственное исследование ...
Наш коллектив это кто? Можно подробнее?
>> No.5966 Reply
>>5965
Анонимусы Университета.
>> No.5967 Reply
File: robert-deniro---taxi-driver-photograph-c101033101246640326.jpg
Jpg, 28.02 KB, 385×476 - Click the image to expand
edit Find source with google Find source with iqdb
robert-deniro---taxi-driver-photograph-c101033101246640326.jpg
молодец, держи Шайкевича
>> No.5968 Reply
File: 3.jpg
Jpg, 15.41 KB, 240×300 - Click the image to expand
edit Find source with google Find source with iqdb
3.jpg
>>5967
черт, не то кликнул
>> No.5971 Reply
какое-то говно. и что теперь?
>> No.5972 Reply
File: 2a995e6159f8666805391b22901c79c9.gif
Gif, 26.17 KB, 500×600 - Click the image to expand
edit Find source with google Find source with iqdb
2a995e6159f8666805391b22901c79c9.gif
Ух ты, спасибо вам, аноны, такую замечательную работу провели же. Это же просто какой-то гигантский кусок руды для бесконечного извлечения лулзов. Я думал, намного хуже будет это все.
>> No.5973 Reply
File: c71f319713415c27e5db5c50d05c4ad0.jpg
Jpg, 52.79 KB, 660×710 - Click the image to expand
edit Find source with google Find source with iqdb
c71f319713415c27e5db5c50d05c4ad0.jpg
схоронил поглубже тред :3
>> No.5974 Reply
Молодцы, ребята.
>> No.5975 Reply
>>5954
Восхитительно. Нет, серьёзно, это более чем интересно. Я два года хотел такое исследование. Давно уже перестал надеяться, что Анонимус способен на какую-нибудь мало-мальски серьёзную работу. Спасибо.
До архивов пока, конечно, основательно не добрался, но вопросы есть уже сейчас: как я понял, одним из выходных параметров оценки примитивности служило разнообразие лексем в верхушке частотного распределения -
> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Вывод о том, что разнообразие характерных лексем чановских диалектов меньше, вполне понятен. Но что будет, если обрезать эту верхушку и оценить разнообразие на неспецифическом словаре "чистых" слов русского языка? Да, я прочитал, что
> В среднем 44% текста на всех ресурсах представлено "чистыми" русскими словами, соотетствующими по своей частоте НКРЯ.
но насколько хорошо совпадают форм-факторы распределений?
>> No.5976 Reply
Отличное исследование. Оно проливает свет на многие неясности и разночтения в истории. Большое спасибо, Профессор!
>> No.5977 Reply
Мне не хватает сравнения Доброчанов образцов 2008 с 2009.
>> No.5978 Reply
>>5977
На доброчане-2008 слишком мало сообщений для полноценного анализа. Впрочем, посмотрим потом, когда будем делать повторный анализ месяцев через 6, дабы отследить динамику.
>> No.5979 Reply
File: 1260374235136.jpg
Jpg, 70.39 KB, 631×683 - Click the image to expand
edit Find source with google Find source with iqdb
1260374235136.jpg
Молодцы, ребята. Сохранил архивы, пишу вот пару скриптов для изучения. Еще раз спасибо, даже гордо стало за наших анонимусов.
>> No.5980 Reply
Статист-куны, нет у кого-нибудь желания посчитать дисперсию и среднеквадратичное отклонение между списками? Простой процент совпадения не очень точный.
>> No.5982 Reply
Слушайте, робяты.
Во-первых, молодцы.
Во-вторых, есть небольшие подозрения насчёт результатов старых дващей(некачественная выборка), а также вопрос по поводу количества элементов выборки - я думаю, с ней надо поработать тщательней.
>> No.5983 Reply
>>5982
> насчёт результатов старых дващей(некачественная выборка)
Про 2006й там об этом написано, сколько есть данных, столько и взяли. Больше, к сожалению, не сохранилось.
2007й взят почти целиком, кроме декабря (у нас его нет).
2008й взят равномерно по всему году, из всего, что сохранилось.
>> No.5984 Reply
>>5983
Учитывая склонность к словообразованию на новоявленных старых дващах, высокий процент уникальности, боюсь, вызван канувшими в лету фейлофорсенными словами, благо к 2007му стандартный лексикон более-менее стабилизировался. Это, конечно, частное-мнение-очевидца.
Полагаю, следует исключить дващ06 из набора.
Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).
Алсо, в разные разделы одной и той же борды тоже могут различаться.
Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.
>> No.5985 Reply
Профессора просто молодцы!
анон нульча
>> No.5986 Reply
File: 1245015123070.jpg
Jpg, 17.17 KB, 300×300
Your censorship settings forbid this file.
unrated
>>5984
> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
> Для медленноборд (унылчан, например) это потребует медленносбора в течении нескольких месяцев (раз в усредненный цикл обновления тредов на доске).
Угу, как-то нехорошо, что на Двач06 такое маленькое количество слов же. Это моё мнение, как куна который когда-то учился на инженера.
> Возможно, будет интересно сделать сравнение между одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками.
Таки да!

Ещё мне лично было бы крайне интересно ознакомиться с частотностью большего количества слов, и то что на ычане вордфильтр стоит это уже проблема ычана, а не наши.

Или например сравнить изменение количества "ло" в слове "ололо" и всё такое. Я бы и сам попробовал но к сожалению я никогда в жизни таким исследованием не занимался и боюсь пропустить что то важное по неопытности же, а товарищи ОПы умницы - я о таком треде не один месяц мечтал! Профессор Добранонов - мой бог :3
>> No.5988 Reply
Вопрос - почему был утаен архив двача за 2006 и 2007 годы до это времени? Также /r/ версию с html-разметкой.
>> No.5989 Reply
File: tables-with-style-after.png
Png, 91.00 KB, 408×400 - Click the image to expand
edit Find source with google Find source with iqdb
tables-with-style-after.png
Да, выделяйте в следующий раз строки разными цветами, а то легко потерять ведь нужную строку с таким количеством колонок...

Пикрилейтед.
>> No.5991 Reply
>>5988
Архив эпичных тредов двача 2007 некоторое время висел онлайн, некоторые кусочки двача 2006 тоже, плюс до сих пор можно посмотреть несколько страниц через web.archive.org

Например:
http://web.archive.org/web/20060430013222/http://2ch.ru/b/
http://web.archive.org/web/20060503155355/2ch.ru/d/
http://web.archive.org/web/20060503155526/2ch.ru/dg/

Там кстати полно лулзов ололол.
>> No.5993 Reply
Исследование - говно. Статистические исследования, да будет вам известно, проводятся так: выдвигается некоторая гипотеза, для неё противоречащая ей нулевая гипотеза, она опровергается статистическим тестом с какой-то достоверностью, из чего делается вывод о верности исходной посылки.
Материалы по теме: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing

Резюме: Работу принимать к публикации не рекомендую до устранения указанных выше существенных недостатков.
>> No.5997 Reply
File: 2426314_f16052a.jpg
Jpg, 47.44 KB, 340×482 - Click the image to expand
edit Find source with google Find source with iqdb
2426314_f16052a.jpg
>>5993
0/10

Статлингвистика рулит, а ты хуй :3

Олсо, твой пост тоже тупой!
>> No.5998 Reply
>>5997
В твоём исследовании статистики нет вообще.
>> No.5999 Reply
>>5998
> "исследовании"
самопочин
>> No.6000 Reply
>>5998
1. исследование не моё, я даже не оп
2. Да иди ты нахуй, оп няшечка же!
>> No.6001 Reply
А у кого-то сохранились архивы Двача 2006-2007 годов, но с картинками?
>> No.6003 Reply
File: 1252065319219.jpg
Jpg, 4.71 KB, 200×150
Your censorship settings forbid this file.
unrated
File: 125206531921996.jpg
Jpg, 4.71 KB, 200×150 - Click the image to expand
edit Find source with google Find source with iqdb
125206531921996.jpg
>>6001
> Слово "тян" встречается на доброчане в два раза реже, чем в среднем по остальным бордам.
Вы говорите так, как будто это что-то хорошее
>> No.6004 Reply
>>6001
А у кого они есть хотя бы без картинок? Только полные, а не фрагменты, как на webarchive.
>> No.6005 Reply
>>6004

В >>5960 ссылка на файл, содержащий полные (насколько могу судить) архивы, пусть и в малочитаемом виде.
>> No.6007 Reply
>>6005
Действительно, только однозначно восстановить треды по такому дампу не представляется возможным => не подходит, увы.
>> No.6008 Reply
>>6007
Ну там хоть что-то есть, вспомнил и перечитал один свой тред из 2007 года, когда я был ньюфагом.
>> No.6010 Reply
Бессмысленное исследование. Было бы больше толку, если бы оп сделал график изменения скорости и посещаемости аиб, лурки, баша итд во времени с описании таких или иных крупных событий(причем не забывая о популярности некоторых мемов). Алсо форчан бы в графике не помешал.
>> No.6011 Reply
>>5984
> Также, по понятным причинам, было бы неплохо сделать объём выборки одинаковым для всех.
По этому вопросу есть разные мнения. В начале делали равные выборки, по 700000, так как на башорге больше нет, но потом решили, что тот-же двач разумней исследовать целиком, все равно ведь сравниваем частоту, а не абсолютные количества.
Для разных по скорости чанов равные объемы будут означать совершенно разные периоды. Возможно объективней таки рассматривать, скажем, по 1 последнему году каждого чана, чем по последним х словам.
> одинаковыми тематическими досками разноборд, равно как и корелляция между внутриоднобордовыми досками
Угу, правда опять же, вопрос в объеме, на многих тематиках постов слишком мало.
>>5988
Он не утаен, он не доступен в онлайне по техническим причинам.
>>5993
А где ты в теме нашел слова "статистическое исследование"? Там же ясно написаны задачи и методы, это корпусная лингвистика, а не статистика.
>>6001
Картинки у нас тоже есть. Когда-нибудь опубликуем, там 500000 файлов и с ними надо разбираться.
>> No.6012 Reply
http://iichan.ru/sci/res/10219.html - ОП, а что ты думаешь об этом?
>> No.6013 Reply
>>6012
Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля.
Если и пилить издание, то межчановое.
>> No.6014 Reply
>>6012
Я не ОП, но я подумал следующее: "О, меня на ычане разбанили!"
>> No.6015 Reply
>>6013
Тогда уж хотя бы общерунетовское
>> No.6016 Reply
>>6015
Для не-анонимусов и так существует дохрена и больше научных изданий.
>> No.6017 Reply
>>6011
Надеюсь, вы опубликуете полные архивы Двача поскорее. Выложите их на отдельном сайте с поиском и анонсируете на всех известных АИБ.
>> No.6018 Reply
>>6017
Так уже выкладывали же, с поиском и прочими хренями. У нас просто софт под него сейчас сильно устаревший, переписывать все надо.
>> No.6019 Reply
>>6018
оно сохранилось где-то? можно ссылочку?
>> No.6022 Reply
>>6018
Куку~ц?
>> No.6023 Reply
>>6019
Люто-бешено удваиваю запрос. Большим и жирным архивом голые html-ки тредов(или в каком формате они у вас хранятся?), без какого-либо поиска, можно и без картинок.
>> No.6025 Reply
этому треду не хватает звукового сопровождения
http://rghost.ru/700725
>> No.6027 Reply
А почему про Шитстрим ничего не написали?
>> No.6030 Reply
>>6018
А, 2.0ч я хорошо помню. И буду очень вам благодарен, если он заработает опять.
>> No.6069 Reply
Тред - луч света на этой доске.
Большинство файлов в архиве имеют неизвестный мне формат, но даже без этого выглядит впечатляюще.
В свою очередь хотел бы попросить простым языком изложить теорию, которая взята на проверку и дать определения специальным терминам таким как Лексема.
Прошу это я с учетом того, что большинство читателей не знакомо с тематикой и специфичными терминами. Дать список определений вначале или в конце текста намного удобнее, чем каждого по отдельности искать определения.
>> No.6070 Reply
>>6069
> Большинство файлов в архиве имеют неизвестный мне формат
Там текстовые файлы же.
>> No.6071 Reply
> определения специальным терминам таким как Лексема
Да-да, не мешало бы. Алсо посмотрев исходник старого 2ча хочется задать вопрос: можно ли применять методы исследования текстов к собственно содержимому АИБ т.е. 1. анонимной 2.картинко- 3.доски
>> No.6072 Reply
>>6071
> можно ли применять методы исследования текстов к собственно содержимому АИБ
А почему, собственно, нет? Сопоставляются лексические компоненты каждой доски. Да, конечно, какая-то прагматика при этом теряется, но это все равно не семантический анализ, это частотный анализ.
>> No.6073 Reply
>>6072
Ну хотя-бы потому, что часть текста написана на картинках
> это все равно не семантический анализ, это частотный анализ.
точность такого анализа вызывает сомнения, тащемта она явно не 0,01 процента
И расскажите больше про методы анализа же, можно с примерами
>> No.6076 Reply
Порадовало. Есть пара вопросов:
1.
> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Башорг за какой отчетный период рассматривался?
2. Для каждого чана действительно не помешал бы список досок, на которых собиралась статистика.
>> No.6082 Reply
>>6076
> Башорг за какой отчетный период рассматривался?
За весь. Все аппрувленные цитаты, от первой до последней. Там и так в результате всего 700000 слов набралось, по периодам будет не показательно (разве что бездну дампать).
> список досок
Со всех только /b/ же.
>> No.6114 Reply
>>6013
> Я думаю, что привязка к какому-то чану - эпичный фейл. Ксенофобия во все поля.
> Если и пилить издание, то межчановое.
Конечно же межчановое. Ссылка на Ичан просто потому что там уже все написано, чтобы не копипастить и не плодить треды.
>> No.6198 Reply
Бамп эпичнейшему треду
>> No.6231 Reply
Мда, занимательная мулька, но я так и не понял четкой цели исследования. Кто умнее, кто тупее? Здесь одной статистической лингвистикой не обойтись. Ну да ладно, у меня баттхерт. Два небольших замечания, которые чистая статистика объяснить не может.
> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком
На удаффе такой завышенный показатель связан с художественностью текстов, особенно нетленки. Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?
> Корреляция башорг-двач2007 оказалась крайне низкой, что явно опровергает популярную в те времена теорию "баннера луркмора".
Нифига не опровергло. Я бы не стал делать такие выводы, основываясь на лингвистической статистике. Теория доказана практикой и фактами. (на собственной шкуре, и в тредах о том, кто как попал на двач). А нестыковка заключается в том, что неофиты с баша быстро переключаются на скупую, но емкую терминологию двачей. Более того, проходит инкубационный период, в течении которого личинка двачера окукливается на лурке, впитывая в себя новые знания, а вместе с ними и новый язык. Лурк по своей доставляемости заменяет баш, а его потом заменяют имиджборды. Посещение баша, как поведенческий рудимент, отсыхает сам спустя приблизительно месяц-два.
И по традиции, видимо, сей борды всем добра, вы все классные, проффесор вы мой новый идол и кумир, чмаффки вас всех, лаффки :3333 <33333 Действиельно впечатляющая работа, но "комментарии" разочаровали. Я серьезно. Все пакусики!! цалую всех в щечку, чмафф ^^
>> No.6233 Reply
>>6231
> Кто умнее, кто тупее?
Нет, конечно. Я вообще не сторонник мнения, что население АИБ чем-то лучше остального интернета. Закомплексованней, да. Не более.
На чанах постоянно выдвигают теории о том, какой бедный язык у всех этих "башорков". Я попытался проверить эту теорию научными методами. Результаты опубликовал. Ну а в дополнение, раз уж на руках все равно были частотные списки и корпусы, посчитал всякие корреляции.
> Кстати, как там решался вопрос со спетсыфичисгай арфаграфией хуяторов?
"Ебаться" "Ипаццо" "Ибатся" три разные лексемы. Там, где прослеживается инфлекция, одна лексема.
>> No.6271 Reply
> Так, 50% текста на чанах было представлено в среднем 140-150 лексемами (110 на тирече, 160 на иичане), против 162 на анимефоруме, 192 на башорге и 268! на удаффком.
Слово "подонок" на удаффкоме может быть представлено в виде "падонак", "падонок", "падоног" и т.д. Не говоря уже об уравни граматнасти носиления (на любом ресурсе). По сути дела, это статистика вариантов написания слов, а не словарного запаса.
>> No.6272 Reply
>>6271
Я же там указал причину, побудившую проводить исследования.
Собственно в том треде я и доказывал, что при более свободных правилах деривации у нас будет больше лексем в основном лексиконе, в том числе за счет синонимов, образованных деривацией в виде искажения.
> а не словарного запаса
А что такое по-твоему "словарный запас"?
>> No.6273 Reply
> А что такое по-твоему "словарный запас"?
Запас используемых слов. Очевидно, что "подонак" и "падонок" - это одно и то же слово.
>> No.6274 Reply
>>6273
Кому очевидно?
"Слово" это вообще форма. "Падонак" "Падонка" и все остальные инфлекции лексемы "падонак" - это разные слова.
"Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации.
>> No.6282 Reply
Извиняюсь, если неправильно употребляю термины. А "дабрачан" (неграмотное написание) прибавляет +1 к словарному запасу?
>> No.6284 Reply
>>6282
Ну я потому выше и спросил, что такое словарный запас? Если измерять просто объем лексикона, то да. Но, надо учитывать, что я считал только самые частотные слова. Т.е. чтобы твой "дабрачан" имел "вес", ты должен использовать его часто, и при этом использовать также часто и "доброчан".

Плюс, я еще проверял корреляцию с НКРЯ. Т.е. словами, заведомо написанными правильно. И прошу обратить внимание, корреляция у чанов и у ресурсов второй группы достаточно схожи, т.е. количество активно используемых чистых слов русского языка и там и там примерно одинаково.
>> No.6299 Reply
> "Падонок" "подонок" и "падонак" с точки зрения языка это разные лексемы, образованные от лексемы "падонок", и при этом имеющие разные коннотации
Что, правда? А можно объяснить, в чём разница (особенно между 1-м и 3-м, с примерами)?
Вот например между доброчаном, дабурочаном, боброчаном разница понятна (но это не лексемы. или нет?) Между доброчаном и доброчонгом разницы уже меньше.
>> No.6301 Reply
>>6299
> но это не лексемы
Лексемы.
Как бы обеснить. Вот есть "слово", его можно "склонять"/"спрягать" (по падежам, числам, временам, родам и т.д.)
Вот весь набор склонений/спряжений образует лексему.
Т.е. лексема, выраженная леммой ДОБРОЧАН это набор следующих инфлекций: "доброчан" "доброчаны" "доброчану" "доброчанам" "доброчане" "доброчанах" и т.д.
С точки зрения формальной лингвистики "дабурочан" "боброчан" и т.д. образуют другие наборы инфлекций и выражены другими леммами, а значит это другие лексемы.
> А можно объяснить, в чём разница
Деривации не имеют негативного оттенка, скорее наоборот.
>> No.6304 Reply
>>6301
А в чём разница между деривациями? Мне почему-то кажется что "падонок", "падонок" и "падонаг" - это просто разные варианты написания, в рамках падонковской субкультуры употребляющиеся одинаково (аналогия- написание слов в british english и "американском английском"). Или если есть достаточно частые разные употребления- это уже лексема?
>> No.6305 Reply
> "падонок", "падонак" и "падонаг"
фикс.
>> No.7175 Reply
File: untitled.png
Png, 5.95 KB, 577×180 - Click the image to expand
edit Find source with google Find source with iqdb
untitled.png
Добрый вечер!

Я, как правило, АИБ не читаю - муж показал этот тред, посчитав, что мне как лингвисту будет интересно. Cразу показалось, что делал статистику профессионал. Если я не ошиблась и автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой, то я очень хочу познакомиться. Есть одно полуделовое предложение, не имеющее отношения к имиджбордам, но имеющее отношение к сбору данных по словоупотреблению в русском языке. Уважаемый автор/авторы/сочувствующие, пишите на адрес nyrestein-собака-gmail.com.
>> No.7177 Reply
>>7175
Мой Доброчан превращается в арену деловых переговоров и сириоуз бизнесса. С одной стороны, я должен испытывать гордость, с другой - грустно всё это.
>> No.7179 Reply
File: 0003.JPG
Jpg, 11.09 KB, 275×271 - Click the image to expand
edit Find source with google Find source with iqdb
0003.JPG
>>7175
> Если я не ошиблась[,] и автор/авторы доклада
Лингвист, говоришь? Хех!
>> No.7182 Reply
>>7179
яка страна таки теракты…
>> No.7646 Reply
Ненавижу, сука, из-за этой хуйни я и не пошёл в аспирантуру филфака СПбГУ; скучно и нет места для фантазии
брат умер, а ты говоришь, что она безвредная!
>> No.8172 Reply
>>5954
Реквестирую научную статью по мотивам исследования проф. Доброанонова.
Подробности тут: http://groups.google.com/group/stsgrad/browse_thread/thread/26201babe22137fd
>> No.8173 Reply
>>7179
Да ладно доебываться то. Доброчан же.

Не лингвист.
>> No.9166 Reply
File: 15812963.jpg
Jpg, 75.23 KB, 400×525 - Click the image to expand
edit Find source with google Find source with iqdb
15812963.jpg
>> No.37266 Reply
>>5957
> Общение на дваче в тот период сводилось к 60 наиболее частым лексемам, таким как "десу", "сосать", "хуй", "нахуй", "быдло" и "шлюха".
Проиграл в голос
>> No.37268 Reply
>>37266
Быстрый ты какой.
>> No.37287 Reply
>>7179
Нет ошибки же,
> я не ошиблась
и
> автор/авторы доклада действительно занимаются компьютерной или прикладной лингвистикой
- однородные придаточные, относящиеся к "если".
мимопроходил
>> No.37291 Reply
>>37287
c:лютый неудобно
Спасибо тебе, крокодил-некромант!
Огромное спасибо. Без тебя я бы не узнал о таком-то виновом тредище.
>> No.41263 Reply
Danbooru 539977 animal_ears bell cat_ears choker elbow_gloves fate_testarossa feet gloves legs long_hair mahou_shoujo_lyrical_nanoha mahou_shoujo_lyrical_nanoha_strikers tail.jpg
Бампаю няшей эпичный тред.
>> No.41264 Reply
> Интерес к мемам упал
А как мерили интерес? Учитывали разнообразие мемов или частоту? Что же, сотня разных мемов, использованная единожды не так интересна, как один, повторяющийся сто раз?
Алсо было бы неплохо посмотреть архив Спидометра Имиджборд (Думаю, тамошний админ поделится) и уделить большее внимание отдельным "пиковым" периодам вроде каникул, Нового Года, начала учебного года, выходных дней. Так "славич" употребляется лишь в редкие короткие периоды форса, в то время как "бочка" будет в ходу всегда стабильно.
>> No.41279 Reply
>>37266
Пожалуйста, не надо тащить сюда всякие игры с помойки. Пусть говно будет в одном месте.
>> No.41280 Reply
>>41279
Что за тупой игрохейтер завёлся в моих интернетах? Уже который раз за два дня наблюдаю, и не на одной борде причём.
>> No.41283 Reply
>>41280
Меня больше интересует, откуда взялись тупые никогда не выигрывающие игроки?
>> No.41286 Reply
File: 12661615756903.png
Png, 166.12 KB, 265×294 - Click the image to expand
edit Find source with google Find source with iqdb
12661615756903.png
>>41283
> тупые никогда не выигрывающие игроки
И во что они играют?
>> No.41287 Reply
>>41283
Это еще ничего. В природе встречаются, вы не поверите, люди, у которых смешные картинки вызывают непроизвольное испражнение, о чём они радостно сообщают об этом окружающим на анонимных форумах. На некоторых форумах комментарий "обосрался" является высшей похвалой и признанием собеседника как оригинального шутника.
>> No.41288 Reply
>>41287
Да, но что за игра имеется в виду?
>> No.41290 Reply
Лол, надо же, кто-то воскресил мой тред.
У меня, кстати, всё это время делались копии тиречей-нульчей (забыл убрать скрипт из крона и он так уже два года пашет), можно посмотреть на изменения за прошедший период.
>> No.41295 Reply
>>41290
Ждем с нетерпением новый отчет.
>> No.41307 Reply
File: game-schoolgirl-by-raikoh.jpg
Jpg, 157.38 KB, 705×952 - Click the image to expand
edit Find source with google Find source with iqdb
game-schoolgirl-by-raikoh.jpg
>>41288
"Засмеялся-проиграл", вестимо.
Объяснять, думаю, более ничего не надо?
А ещё - %%http://en.wikipedia.org/wiki/TheGame(mind_game)%%
>> No.41315 Reply


Password:

[ /tv/ /rf/ /vg/ /a/ /b/ /u/ /bo/ /fur/ /to/ /dt/ /cp/ /oe/ /bg/ /ve/ /r/ /mad/ /d/ /mu/ /cr/ /di/ /sw/ /hr/ /wh/ /lor/ /s/ /hau/ /slow/ /gf/ /vn/ /w/ /ma/ /azu/ /wn/ ] [ Main | Settings | Bookmarks | Music Player ]