kot_kamyshovyj (kot_kam) wrote,
kot_kamyshovyj
kot_kam

Category:

По поводу теста на объем пассивного словарного запаса

Тут многие спрашивали, а почему, собственно, мы "знаем" так много слов? Средний словарный запас носителя английского - 20-35 тысяч слов, а у нас у всех под сотню либо за сотню тысяч. Собственно, все объясняет разница в методике. Точнее - в объеме используемого словаря.

Вот что пишут создатели английского теста (http://testyourvocab.com/details):

"We have a dictionary with over 45,000 entries, with words arranged in order of their frequency in English speech and writing... Even though our dictionary contains around 70,000 headwords (and many more derived forms), we were surprised to find only approximately 45,000 of them present in the 100-million-word BNC. It turns out that the rest of the dictionary is mainly either scientific or archaic terms, or rare but easy put-together words like "unrivaled." And the non-put-together words above 35,000 or so are, let us tell you, hard."

То есть они взяли словарь на 70 000 слов, и выкинули из него кучу слов: те, чей смысл можно угадать, чисто английские или американские, сленг, профессиональный жаргон, значительную часть романских заимствований, чтобы избежать "ложных друзей переводчика", и т.д.

Вот что пишут создатели русского тестаь (http://www.myvocab.info/howitworks):

"Первое — как можно более полный словарь русского языка; был использован словарь Хагена (134149 слов, http://www.speakrus.ru/dict). Второе — корпус русского языка; был использован Национальный Корпус Русского Языка (http://www.ruscorpora.ru). Корпус состоит из большого количества (86 тысяч) текстов разной тематики — художественная литература, публицистика, научные и научно-популярные, религиозные и философские тексты, личная переписка, дневники; общий объем текстов — 230 миллионов слов. За счет большого объема и широкого охвата этот корпус представляет собой слепок современного (54% всех текстов были созданы после 1950-го года) русского языка. Для каждого слова из словаря Хагена с помощью корпуса была найдена его частота — мера того, как часто это слово употребляется в языке (частота обычно измеряется в количестве употреблений слова на миллион слов корпуса). Получившийся частотный словарь был затем отсортирован — от высокочастотных (простых) слов к низкочастотным (сложным)".

И все. То есть они взяли методику английского теста, но применили ее к значительно более объемному словарю, который они не вычищали. Соответственно, сравнивать свои результаты в английском и в русском тесте просто бессмысленно. Если бы создатели английского теста взяли, я не знаю, OED, и добавили к нему Urban Dictionary, результаты, видимо, были бы сопоставимы с русскими.

Жалко, кстати, что французского такого теста нет. Интересно было бы позырить, много ли слов удержалось у меня в голове через пятнадцать лет после того, как я бросил активно читать по-французски...
Tags: Лингвистическое
Subscribe

  • Про гусаков и волов

    Я вот все думаю-думаю про этих гусаков и волов. Ну допустим, я во втором классе знал, что такое "гусак" (потому что в первом прочитал "Путешествие…

  • "Отблески Этерны"

    Штудирую Камшу. Много думал. В целом очень нравится. Понял, отчего фэны постоянно шипперят Рокэ Алву, так, что даже я, никогда прежде не читавши,…

  • Волы

    А вот интересно... Один преподаватель литературы рассказывал, как в процессе обсуждения Гоголя вдруг выяснилось, что никто - в смысле, совсем никто,…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 6 comments