Ivan Vergiliev bio photo

Ivan Vergiliev

Machine Learning and Algorithms enthusiast. Ex-Facebook and Google (x2) intern.

Twitter LinkedIn Github

Когато се говори за литература, понякога се повдига темата за това колко богат е речникът на даден автор. За англоговорящия свят например е много разпространено твърдението, че Шекспир е авторът, използвал най-много различни думи в творчеството си. В България е популярна подобна теза за Иван Вазов. При по-подробен анализ на произведенията на Шекспир и още няколко автора обаче се оказва че, макар и обширен, речникът на английския драматург далеч не е най-обширният. Тук ще разгледаме няколко български творци и ще сравним колко различни думи е използвал всеки един от тях, за да проверим дали българското твърдение е по-вярно от английското.

Съпоставянето е базирано на първите 200 000 думи от анализираните произведения на някои от най-известните български автори (а на графиката са показани данни за първите 200000). Разглеждането на един и същ брой думи дава реалистична база за сравнение, а конкретната граница е избрана така, че да могат да се включат достатъчно много автори, и все пак да се представи реалистично работата на всеки един от тях. Разбира се, редът на произведенията определя какво се включва в анализа и промяната му може да повлияе до някаква степен на уникалните думи. Заинтересованият читател може да експериментира с броя анализирани думи, премествайки слайдера под графиката. Ако общият брой думи в произведенията на даден автор е по-малък от избрания брой думи, съответстващата му колона ще се отличава с по-блед цвят. За уникални думи не се броят само корените или основните форми на дадена дума, а всички, които се срещат в текстовете. Така например маса, масата и масите се броят за три различни думи.

Анализираните данни затвърждават мнението, че Вазов е използвал най-много уникални думи. Със своите 31 500 уникални думи от 200 000 разгледани, той е с около 1 000 думи пред авторите на следващите две места, и с близо 50% повече от последното девето място, заемано от Димитър Талев. Челната тройка се допълва от двете авторки, включени в сравнението - Вера Мутафчиева и Блага Димитрова. И двете са с по около 30 500 думи, което е преднина от близо 3 000 думи спрямо четвъртото място, заето от Емилиян Станев.

Това не е единствената метрика, по която Вазов е на първо място. Следващата графика показва колко думи е използвал даден автор, които не са използвани от нито един от останалите.

От тук се вижда, че Иван Вазов е използвал около 17 500 уникални за него думи - над 6 000 повече от Вера Мутафчиева, заемаща второто място, и близо 4 пъти повече от Емилиян Станев, който е на последно място по този критерий. Това се дължи отчасти на обема на творчеството му - анализираните текстове съдържат около половин милион думи. Макар и важен, този довод не е определящ - Димитър Талев, с разгледано творчество от близо 700 хиляди думи, е използвал само 8 600 думи, които другите автори не са. (За да сме напълно коректни, трябва да се отбележи, че всичките 700 000 думи са от тетралогията за Илинденско-преображенското въстание, което най-вероятно ограничава широтата на използвания речник.)

Ако разгледаме някои от думите, които само Вазов е използвал, бързо ще забележим голямо количество архаични и диалектни думи, както и други необичайни форми. Такива са например пусталите, махтареха, пивопийци, ухищрения и множество други. Лесно бихме могли да игнорираме това, обяснявайки го например с факта, че Вазов е писал преди много време и това е бил актуалният речник, който се е използвал тогава. Оказва се обаче, че за тези необичайни думи, а и за голямата му лексика изобщо, има по-сериозна причина. А именно - че Иван Вазов изрично се е стараел да обогатява книжовния език, вмъквайки множество думи от народния речник - “Винаги се съветвам с Герова — казва той, — особено когато се съмнявам за народното ударение на някоя дума.” (става въпрос за “Речникъ на блъгарскый языкъ” на Найден Геров, в който е записвал думи “из устата на народа”). Ролята на Вазов в оформянето на съвременния ни език е разгледана в повече детайли от Любомир Андрейчин в книгата “Из историята на нашето езиково строителство”, глава Иван Вазов — строител на българския книжовен език.

След като установихме, че Вазов води класацията сред българските автори, би било интересно да проверим каква е ситуацията спрямо чуждестранните - например с Шекспир. Бърза проверка показва, че Шекспир е използвал общо 29 000 уникални думи в цялото си творчество. Но ние вече видяхме, че само в първите 200 000 анализирани думи, Вазов е ползвал над 31 000 уникални! Изглежда, че Вазов е имал много по-богат речник от този на Шекспир. За съжаление обаче такова сравнение е малко по-сложно и не трябва да се прибързва с изводите.

На тази графика са показани някои популярни автори, творили на английски език. Анализирани са едни и същи техни произведения в оригинал и в превод на български. Броят уникални думи в оригиналите на съответния романист е показан в червената колона над името му, а в преводите - в синята. (Т.е. червената колона над Марк Твен показва броя уникални думи в оригиналите на “Приключенията на Том Сойер”, “Приключенията на Хъкълбери Фин” и “Принцът и просякът”, а синята - уникалните думи в преводите на същите произведения.) Ясно се открояват разликите в различно оцветените колони - по-конкретно, в преводите на всички автори има много повече уникални думи, отколкото в оригиналите. Основната причина за това е граматическата разлика в езиците - родният ни език е много по-флексионен от английския - което означава, че от една дума могат да се получат много повече различни словоформи в българския, отколкото в английския. Думите имат най-различни форми според лице и число (ходя - ходи, ходиш, ходим, ходите, ходят), време (ходя - ходих, ходех, ходеше, ходил, ходел и още много) и род (красив - красива, красиво, красиви). В английския вариантите са много по-малко: -ed за минало време, -ing за продължителна форма и още 2-3 основни. Главно затова в българските преводи на разгледаните книги има близо 2 пъти (между 1.75 и 2) повече уникални думи, отколкото в оригиналите.

И така, въпреки че речниковото богатство определено не е най-важното нещо в творчеството на даден автор, установихме, че Вазов е боравил най-умело с българската лексика (макар и с не много голяма преднина). Също така разбрахме, че сравненията между хора, творили на различни езици, не са обективни. Затова и не е коректно да твърдим, че Вазов е използвал повече уникални думи от Шекспир, дори и да ни се иска. :)