Previous Entry Share Next Entry
(no subject)
moon
northern_wind

- Трения нет?
- Трения нет.
Солнце не светит, воздуха тоже нет.
Идеальный мир.

(на уроке школьной физики)



В рамках "писать о том, что "всем известно"", буду писать про язык
Сегодня о том, почему компьютерная лингвистика на самом деле не лингвистика.
В планах - краткая история лингвистики-вообще, универсальная грамматика, что сделал для нас Хомский, если на самом деле нет никакой универсальной грамматики, метафора как основа мышления, немного о креолизации пиджинов, пираха, потому что вы неизбежно спросите меня про пираха (и почему вероятностные алгоритмы куда интереснее каких-то индейцев), почему с зоной Брока все не так просто (и, кстати, что такое зона Брока), энд мач моар.

Итак. Начнем.

Разрыв между теоретической и прикладной лингвистикой больше, чем между теоретической и прикладной математикой.
Прикладная математика actually пользуется инструментарием своей теоретической сестры. Все, что напридумывали бородатые ученые в университетах, быстро идет в дело, просто с поправкой на неидеальные условия. "У нас нет идеального круга, поэтому договоримся в каких пределах отклонений мы все еще считаем это кругом."



(люди с ОКР, простите меня)

Лингвистике повезло меньше. Инструментарий прикладной лингвистики не имеет отношения к теории чуть менее, чем полностью. По сути, это другие науки/занятия, завернутые в обертку "тоже про язык".
Составление словарей, теории "как нам лучше учить иностранный язык", переводоведение и - любимая моя часть! - все попытки взаимодействия лингвистов и айтишников.

Теоретическая ветвь изучает язык как живую систему, в которой все взаимосвязано.
Реконструирует как звучал давно мертвый хеттский, например. Потому что мы знаем более поздние языки и знаем как сменяли друг друга согласные с течением времени.
Обнаруживает, что в русском "мертвец" и "покойник" - одушевленные существительные (и склоняются как одушевленные существительные), а "труп" - неодушевленное.
Исследует как формируется язык у детей. Как это ребенок, не имея ни словаря, ни грамматики, вдруг в совершенстве осваивает речь. Взрослый с иностранным языком так не может.
Спорит о том, что такое смысл слова. И как мы выводим из слов смысл предложения.
Спорит о том, является ли способность к метафоре производной от базового механизма или базовым механизмом.

Для этого придумана масса сложнейших моделей.
В практических задачах эти модели широкого применения не нашли. Исключением можно считать фонетику (она вписалась в распознавание речи).
Они настолько сложны, что у нас нет под них вычислительных мощностей. Мы, конечно, можем разобрать каждое предложение текста как классическое синтаксическое дерево, выяснить зависимости между объектами и "посчитать" смысл предложения.

Ели что, синтаксическое дерево - это вот такая штука (я еще буду о них писать):



Но это долго.
Проще считать, что предложение - это "мешок слов". И не делать операций сложнее "проверить, есть ли это слово в предложении" и "на каком расстоянии эти два слова находятся". Перейти, то есть, от иерархичности и связей нескольких типов к плоской линейности и единственному типу связи.
Текста в мире много, весь его нужно разбирать, интернет тем временем все растет, а такие штуки быстрее всего вычислять.

Так называемая компьютерная лингвистика (машинный перевод, поисковые системы) пользуется на самом деле теорией кодирования.
То есть, наукой о том какой минимальный объем данных нужен чтобы донести информацию. Брать нам кусочки по одному слову или по два? Или обнаглеть и по три? Что именно в этих фрагментах содержится ей нет особого дела.
И еще статистикой. Можем ли мы считать, что этот фрагмент из двух английских слов является переводом этого фрагмента из двух русских слов, если они часто встречаются в похожих разноязычных текстах в похожей позиции?
Никого не интересует даже связаны ли эти слова между собой в предложении. Из предыдущего абзаца может быть выдрано "слов является", например. Никого не интересует что там внутри языка.

Прекрасным примером является недавний deepdrumpf, создающий психоделические тексты по мотивам твиттера Трампа (извините).
Натравившие нейросеть на президентский твиттер люди брали за базовую единицу анализа буквы. Не слова, не морфемы. Статистическую вероятность следования одной буквы за другой.
Грамматика английского отлично воспроизведена, как видите. Как и уникальный авторский стиль.

В этом подходе большее количество данных для обучения работает лучше, чем более сложные алгоритмы, и айтишников это совершенно устраивает.
На конференциях лингвисты неизменно подходят к моим постерам и выражают восторг тем, что кто-то еще использует языковые теории, а не только простую статистику (я олдфаг).
В итоге теоретическая лингвистика пока существует сама в себе и сама для себя.

На самом деле, не все так плохо, и сейчас теория с практикой снова начали друг друга обогащать (по крайней мере, я вижу нынешний процесс именно так). Но об этом позже.
А последние двадцать лет они существовали вот в таком разделенном состоянии.
Поэтому не предлагайте вашему знакомому теоретическому лингвисту идти в Яндекс. Или в ABBYY.
Он не хочет в ABBYY.

***

Если вы дочитали до конца, буду благодарна плюсику в комментариях.
Буду также благодарна запросам о чем еще вы хотите чтобы я написала.

Upd: комментарии тут лучше лайков, потому что так я увижу на какую аудиторию пишу.

Upd2: еще я приветствую вопросы и критику что именно непонятно. учусь сейчас рассказывать о сложных темах на широкую аудиторию.

+ :)

Жду продолжения.)

+

интересно же!

я не просто дочитала до конца, я прочитала на три раза и добавила в избранное, а прямо сейчас пытаюсь вкрутить эту инфу в свои текущие задачи, включая тарологические

ого.
если не секрет, каким образом это можно прикрепить к Таро?

+
Мне интересно)

Спасибо, с некоторой ностальгией вспомнила родной филфак :)

я вспоминаю как бегала на лекции на неродной филфак))
он, определенно, вызывает ностальгию.

спасибо, интересно

+
Информация! Новая! Из той стороны жизни, в которои меня и нет почти!
Спасибо. Жду продолжения!

+
очень интересно!
спасибо!

+
Почитал статью по ссылке. Интересно понаблюдать, сколько лет обучения подобным нейросетям потребуется, чтоб научиться рефлексии. )

Она же не признается.
(как известно, проблемы будут не с той машиной, которая пройдет тест Тьюринга, а с той, которая намеренно его завалит)

+
Ужасно интересно посмотреть на это всё не-айтишными глазами! Потому что нейросети давно стали моей универсальной метафорой всего. А ведь есть что-то кроме!

Прикол в том, что я по образованию сама математик/айтишник. :)
Но лингвистику люблю и умею.

Очень интересно, хотя далеко не всё понятно.
Особенно интересно про теоретическую лингвистику. Буду ждать продолжения.

Если вам не сложно, можете отметить что именно оказалось непонятным?
Я сейчас в процессе калибровки навыка объяснений. :)

Edited at 2017-02-25 02:02 pm (UTC)

+
про умные вещи от умного человека.

+ Пишите, пожалуйста, ещё - интересно же!

+
deepdrumpf отличный (он заинтересовал больше всего, по правде говоря)))

я в вас не сомневалась!))

+
Пиши ещё!

Твоя ситуация мне очень напоминает знакомую по работе, когда разными методами, от молекулярной динамики до квантово-химических, моделируют какой-то процесс. При этом люди чётко делятся на две категории: тех, кто просто модерирует и тех, кто из модели считает какие-то физические параметры и сравнивает их с экспериментально определёнными. Вот вторых очень мало.

Да.
Это особенно больная тема в так называемом когнитивном моделировании.
Люди строят офигенную модель, которая офигенно решает задачи. Но абсолютно ничего о том, как работает сознание, нам эта модель не говорит ("it solves this task because I built it to do so" - говорит один из адептов такого подхода).

И всем нормально!

+
Темный неведомый мир.
Мне, как корректору и редактору, а по образованию инженеру-конструктору ядерных реакторов, очень интересно. В том числе, и о том, "как же думают все эти люди" (гуманитарные) :)

Если честно, я со своей математической колокольни считаю лингвистику не то родственницей математики, не то естественной наукой вроде биологии. :)
В ней есть воспроизводимые эксперименты и не надо делать постоянную поправку на наблюдателя.

А гуманитарность - это, все-таки, психологи, социологи и прочие филологи.
У гуманитарных наук принципиально другая методология.

Заранее радуюсь продолжению!

Спасибо!

(Deleted comment)
Для этого придумана масса сложнейших моделей.
В практических задачах применения эти модели попросту не нашли.


Угу. Мою любовь к заковыристым моделям оказалось проще удовлетворить в гейм-дизайне, чем в оплачиваемой лингвистической работе :)

О да.
Я пока смотрю в сторону западной науки.
(а платят мне вообще за парфюмерию)))

Прочитала.
Спасибо.





+
(отношения к предмету не имею никакого; просто любопытно)

Edited at 2017-02-25 10:52 am (UTC)

+
Это то, чему на переводе не учат. Очень интересно. =)

?

Log in