Викиречник

Од Википедија, бесплатната енциклопедија
Одете во навигација Одете на пребарување
Викиречник
Англиски Викиречник
Слика на логото
Главна страница на англискиот викиречник.png
УРЛ wiktionary.org
Комерцијални бр
Тип на локација Мрежен речник
регистрација Изборен
Јазици) 170
Локација на серверот Мајами
Сопственик Фондацијата Викимедија
автор Џими Велс
Почеток на работа 12 декември 2002 година
Рангирање на Алекса
549 (9 септември 2017 година) [1]
Лого на Wikimedia Commons Медиумски датотеки на Wikimedia Commons

Викиречник ( инж. Викиречник ) - слободно надополнет мултифункционален повеќејазичен речник и речник базиран на вики-мотор . Еден од проектите на Фондацијата Викимедија . Првично се појави на англиски јазик на 12 декември 2002 година .

Речникот содржи граматички описи, толкувања и преводи на зборови. Покрај тоа, написите може да одразуваат информации за етимологијата , фонетските својства и семантичките врски на зборовите. Така, Викиречник е обид да се комбинираат во еден производ граматички , објаснувачки , етимолошки и повеќејазични речници, како и речник .

Податоците од Викиречник активно се користат во решавањето на различни проблеми поврзани со машинската обработка на текст и говор. [⇨] .

Лексикографски концепт

Преку меѓусебното поврзување помеѓу различните јазични делови на Викиречник, како и помеѓу членовите на речникот и другите проекти на Фондацијата Викимедија , членовите на секој од нив можат да користат концепти, алатки и лексикографски материјал создаден од нивните колеги мајчин јазик. Во текот на работата на различни јазични делови од речникот, беше формиран сложен концепт на универзален лексикографски ресурс, кој стана возможен за прв пат благодарение на електронските технологии. Концептот на крајот претпоставува целосен, сеопфатен опис на сите лексички единици на сите природни (и основни вештачки) јазици кои имаат пишан јазик. Комплетноста на описот значи присуство на информации за фонетиката, морфологијата, синтаксичките и семантичките својства на лексичката единица, нејзината етимологија, компатибилност и фразеологија. Комплетноста и степенот на доследност во спроведувањето на овој концепт може да се разликуваат во различни јазични делови од проектот. [ извор не е наведен 188 дена ]

Во секој јазичен дел, јазикот „наслов“ е централен - сите написи се напишани исклучиво на него, покрај тоа, целта е да се обезбедат преводи на зборови и други единици од овој јазик на максимален можен број на други јазици. Како по правило, зборовите од други јазици се преведуваат само на овој јазик „наслов“. Значи, во рускиот викиречник за руски зборови се дадени толкувања и преводи на странски јазици, за странски зборови, наместо толкувања, се дадени преводи на руски.

Кога се опишува морфологијата, се прави обид да се даде најцелосна слика за флексијата, вклучително и индикација за класата на флексија. Особено, морфолошките информации за руските лексеми се дадени во согласност со класификацијата предложена од A. A. Zaliznyak . [ извор не е наведен 188 дена ]

За да се надополни Викиречник, создаден е обемен список на референци ; Англискиот Викиречник разви правила за вклучување поим во речникот (види Критериуми за вклучување ). За разлика од руската Википедија , каде што приоритет при изборот на материјалот е даден на авторитетни извори [Забелешка 1] , во рускиот викиречник преовладува анализата на употребата на зборови што ја врши уредникот на статијата [Забелешка 2] .

Тезаурус

Викиречник ги содржи следните семантички односи: синоними , антоними , хипероними , хипоними , кохипоними , холоними , мероними , пароними . [ извор не е наведен 188 дена ]

Википедија и Викиречник

Викиречник не вклучува детални описи на факти и енциклопедиски информации. Сепак, Викиречникот обезбедува единствени информации што не се достапни на Википедија: фрази, изреки, кратенки, акроними, описи на правописни грешки, поедноставен / искривен правопис / изговор на зборови, контроверзни случаи на употреба, протологизми , ономатопеја , различни стилови (на пр., colloquial ) и предметни области[2] . Така, Википедија и Викиречник се надополнуваат еден со друг.

Викиречник е сличен на Википедија со тоа што (1) има внатрешни врски до статии за зборови во рамките на Викиречник, (2) има категории, (3) има интервики врски до статии за истиот збор во речник на странски јазик[ 2] .

Секција на руски јазик

Надворешни видео датотеки
Силонов А. Ф. „Викиречник: цели, методи на формирање и структура“ // Семинар „Пресметувачка лингвистика“, 2015 г.

Динамика на развојот на рускиот викиречник

Рускиот дел од Викиречник беше создаден во пролетта 2004 година . Година и пол практично не се развиваше, надополнувајќи се случајно, главно со неквалитетен материјал. Ситуацијата почна да се менува кон крајот на 2005 година - почетокот на 2006 година . [ извор не е наведен 188 дена ]

Во 2006 година беше назначен првиот администратор на Schwallex , обемот на написите речиси се зголеми за четири пати во споредба со претходната година, беше создаден моќен пакет со алатки за опишување на морфологијата и почна да се формира развиен систем на семантички категории.

До есента 2006 година, бројот на статии во рускиот викиречник достигна 10.000; потоа, благодарение на создавањето на бот кој ги користи вокабуларите на другите делови од Викиречник за да генерира празни статии во рускиот дел, за месец и половина беа додадени уште околу 70.000 статии. На 7 ноември 2006 година, Викиречникот ја помина границата од 80.000, а на 10 декември 2006 година беше достигната границата од 100.000. На 17 декември 2018 година бројот на написи надмина 1.000.000. Бројот на активни учесници беше околу 230.

За разлика од ситуацијата со традиционалните речници, комплетноста на Викиречникот не може соодветно да се процени со формалниот показател за бројот на записи. Автоматскиот бројач не прави разлика помеѓу полупразни празнини и вистински информативни написи, згора на тоа, не ја зема предвид внатрејазичната и меѓујазичната хомонимија. На пример, записот во вокабуларот bor е наведен како една статија, во меѓувреме, овој напис опишува неколку хомонимни лексеми на рускиот јазик, како и лексеми со исто име на други јазици (бугарски, татарски) - овој материјал во традиционалните речници би биле составени и земени предвид во форма на неколку членови ... [ извор не е наведен 188 дена ]

Споредба со други Викиречници

Бројот на руски зборови во рускиот викиречник (лево) и во англискиот викиречник (десно)[3] , податоци за 2011 г.

Од август 2008 година, рускиот Викиречник е на врвот во однос на големината на базата на податоци меѓу сите Викиречник [4] . Во исто време, бројот на статии во рускиот викиречник не е најголем [5] . Ова делумно се должи на фактот што за проектите во кои има повеќе статии отколку во рускиот Викиречник, статиите може да бидат, во просек, помали, како што може да се види на веб-страницата за статистика [6] .

Дополнително, рускиот Викиречник, во споредба со другите делови на Викиречник, содржи поголемо количество на помошни информации, вклучувајќи табели за пребарување, списоци со зборови за фреквенција итн. "," Индекси ", итн.). Значителен број написи во рускиот Викиречник сè уште се празни места генерирани од ботови. Иако понекогаш може да наидете на критики од голем број лажни написи, овој предраспоред има многу придобивки. Прво, помага да се креираат статии побрзо со претходно вклучување на некои информации, како што е делот од говорот на зборот што се опишува. Второ, структурата на написите се стандардизира. Поради широката употреба на шаблони (кои обично веднаш ги поставуваат ботови при автоматско креирање написи), станува возможно централно да се промени изгледот на многу статии одеднаш. Присуството на голем број шаблони помага и за понатамошно автоматизирано уредување на веќе креираните статии - на пример, за автоматско додавање превод според претходно подготвени речници (бидејќи им е полесно на ботови да се движат низ структурата на веќе означената статија со специјализирани конструкции, а не на човечки јазик). Посебна карактеристика на рускиот викиречник е добро развиениот концепт на развој (кој може да се најде на главната страница). Поради добро развиениот концепт и широката употреба на шаблони, написите во рускиот викиречник изгледаат повеќе од ист тип отколку во многу други проекти (во основа ист број на делови, нивниот редослед, дизајн на секој дел). [ извор не е наведен 188 дена ]

Авторите го пресметале бројот на записи во речник за руски зборови, бројот на статии со и без толкувања во два речници на Викиречник (на илустрацијата). Потврдена е политиката на уредниците на англискиот Викиречник (да не се создаваат празни статии): само 5,57% од записите во речник за руски зборови се без толкување. Во рускиот викиречник има 60,39% од такви статии. Сепак, рускиот викиречник (од 2011 година) содржи речиси 3,4 пати повеќе записи со толкувања за руски зборови отколку англискиот викиречник: 53,6 илјади наспроти 15,7 илјади[3] .

Примена во задачите на НЛП

За да се користат лексикографските податоци на викиречниците при решавање на проблеми со автоматска обработка на текст и говор , потребно е текстовите на записите во речник ( полуструктурирани податоци[7] ) да се претворат во машински читлив формат [8] [9] [ 10] .

Извлекувањето податоци од викиречници не е лесна задача. Може да се разликуваат следниве тешкотии[11] : (1) редовни и чести промени и во податоците и во структурата на статиите, (2) различните викиречници имаат различна структура и формат на статиите [Забелешка 3] , (3) Вики технологијата првично е фокусирани на употребливоста на човекот, а не на машинската обработка.

Постојат неколку анализирачи за различни викиречници [12] :

  • Викиречник DBpedia е една од наставките на проектот DBpedia , податоците се извлечени од англискиот, францускиот, германскиот и рускиот викиречник. Извлечено: јазик, дел од говорот, толкување, семантички односи, преводи. За да се добијат податоци, се користат: декларативен опис на структурата на запис во речник [13] , правилни изрази [14] и FST- тип на машина за конечни состојби [15] .
  • JWKTL (Јава викиречник библиотека) - API за податоци од англиски и германски викиречник [16] . Извлечено: јазик, дел од говорот, толкување, цитати, семантички односи, етимологија и преводи. Програмата е достапна за некомерцијална употреба.
  • wikokit е анализатор за англиски и руски викиречник [17] . Извлечени се: јазик, дел од говорот, толкување, цитати [18] (само за рускиот викиречник), семантички односи [19] и преводи. Изворниот код на програмата е достапен под условите на отворена мулти-лиценца .

Со помош на речници на викиречник, се решаваат различни задачи поврзани со обработка на текст и говор [20] :

  • машински превод заснован на правилата помеѓу холандски и африканс ; податоците на англискиот и холандскиот Викиречник и две Википедија се користат во рамките на системот Apertium [21] ;
  • создавање на машински читлив речник од NULEX парсерот, кој интегрира отворени лингвистички ресурси: англиски Викиречник, WordNet и VerbNet [22] . За именка од англискиот викиречник се извлечени дел од говорот и множинската форма, за глаголите - време. Техниката за гребење на екранот беше искористена за извлекување податоци од Викиречник;
  • препознавање и синтеза на говор , каде што Викиречник делува како извор на податоци за автоматска конструкција на речник за изговор [23] . Паровите на изговор на зборови (транскрипција во системот ИПА ) се извлечени од чешкиот, англискиот, францускиот, германскиот, полскиот и шпанскиот викиречник [Забелешка 4] . Кога е проверено, најголем број на грешки се најдени во транскрипциите извлечени од англискиот Викиречник [24] ;
  • изградба на онтологии [25] и бази на знаење [26] ;
  • приказ на онтологии [27] ;
  • поедноставување на текстот . Во [28] , сложеноста на зборовите се проценува врз основа на податоците на Викиречник. За збор од англискиот Викиречник се извлечени: големината на записот во речникот, бројот на делови од говорот, бројот на значења и бројот на преводи. Авторите на [28] предложија дека поедноставните, поосновни, употребени зборови ќе имаат повеќе значења (односно, големината на статијата ќе биде поголема), повеќе делови од говорот и повеќе преводи. Понатаму, „сложените“ зборови пронајдени во текстот мора да се преформулираат, да се најдат повеќе „едноставни“ еквиваленти, што ќе доведе до поедноставување (адаптација) на текстот;
  • означување на дел од говорот . Во (Lee et al., 2012) [29], врз основа на податоците од англискиот викиречник, POS-тагери беа конструирани за осум јазици со „сиромашни јазични ресурси“ користејќи скриени Маркови модели . [Забелешка 5]
  • анализа на сентиментот на текстот [30] .

исто така види

Белешки (уреди)

Коментари (1)
  1. Википедија: авторитетни извори

    Статиите на Википедија треба да се засноваат на објавени авторитативни извори .

  2. Викиречник: Лексикографски концепт

    Доколку постои несогласување за какви било опишани својства на која било јазична единица, приоритет (од гледна точка на докази) се дава на изворите на корпус.

  3. Споредете, на пример, структурата и правилата за форматирање на статии во англискиот викиречник и рускиот викиречник .
  4. Ако има неколку транскрипции во записот во речник, тогаш се зема првата.
  5. Изворниот код на програмата и резултатите од обележувањето на дел од говорот се достапни на интернет: https://code.google.com/p/wikily-supervised-pos-tagger
Извори на
  1. wiktionary.org Конкурентна анализа, маркетинг микс и сообраќај - Алекса (инж.) ... Алекса Интернет . - Викиречник за глобално рангирање на сајтови. Датум на лекување: 9 септември 2017 година.
  2. 1 2 Zesch et al, 2008 , стр. 2.
  3. 1 2 Смирнов и сор., 2012 година .
  4. Статистика на Викиречник: Големина на базата на податоци
  5. Викиречник статистика
  6. Викиречник статистика: бајти по статија
  7. Мејер и Гуревич 2012 година , стр. 140.
  8. Zesch et al, 2008 година , Слика 1, стр. 4.
  9. ^ Мејер и Гуревич 2010 година , стр. 40.
  10. Крижановски, Трансформација, 2010 година , стр. 1.
  11. Хелман и Оер, 2013 година , стр. 16 во PDF, стр. 302.
  12. Hellmann et al, 2012 година , Табела 1, стр. 3.
  13. Hellmann et al, 2012 , стр. 8-9.
  14. Hellmann et al, 2012 , стр. десет.
  15. Hellmann et al, 2012 , стр. единаесет.
  16. Zesch et al, 2008 година .
  17. Крижановски, Трансформација, 2010 година .
  18. Крижановски, 2011 година .
  19. Крижановски, Споредба, 2010 година .
  20. Смирнов и сор., 2012 , стр. 233-234.
  21. Оте и Тајерс, 2011 година .
  22. Мекфејт и Форбус, 2011 година .
  23. Schlippe et al., 2012 година .
  24. Schlippe et al., 2012 , стр. 4804.
  25. ^ Мејер и Гуревич 2012 година .
  26. ConceptNet 5 . Преземено на 17 април 2013 година. Архивирана на 19 април 2013 година.
  27. Лин и Крижановски, 2011 година .
  28. 1 2 Медеро и Остендорф, 2009 година .
  29. Ли и други, 2012 година .
  30. Chesley et al, 2006 година .

Литература

Ссылки