Почему японский текст обнаруживается с китайскими глифами?

Это, кажется, давняя проблема Ubuntu, я испытал ее с тех пор несколько лет назад, если я помню правильно.

У меня есть поддержка языка и китайского языка и установленного японского языка (и хотят сохранить это тем путем - я действительно знаю, хотя это, проблема может быть "разрешена" путем удаления китайских шрифтов, я экспериментировал с этим). Проблема состоит в том, что японский текст показывает китайскими глифами. Не для каждого японского символа, но по-видимому для, что система думает, имеет соответствующий глиф на китайском языке.

Это происходит во всех приложениях: libreoffice, браузеры, gedit, терминал и т.д.

(Эта проблема не о методах ввода.)

Шрифты установили:

Китайский язык (и японский язык)
fonts-arphic-ukai
font-arphic-uming
ttf-wqy-microhei
ttf-wqy-zenhei

Японский язык
fonts-takao-gothic
fonts-takao-mincho
fonts-takao-pgothic

Другие, которые, кажется, поддерживают японский/Китайца
Droid шрифтов

Шаги для репродуцирования: шрифты/поддержка Установки и для японского языка и для китайского языка, и затем вводят японский символ. Необходимо смочь распознать, что различия между глифами с этих двух языков видят эту проблему.

Примеры: 誤り、直す (Загрузит картинки.)

1
задан 11 April 2013 в 12:28

2 ответа

Если кодировка UTF-8, приложения выберут первый шрифт, способный отображать этот символ. По умолчанию это идет в алфавитном порядке. Так что если у вас установлены как китайские, так и японские шрифты, вы можете получить глифы, которые вам не нужны.

Вы можете выбрать порядок, в котором приложения будут выбирать шрифты, отредактировав файл ~/.fonts.conf. Хотя, если вы передвигаете японцев перед Китаем, вы можете решить эту проблему.

0
ответ дан 11 April 2013 в 12:28

Это не проблема Ubuntu (или проблема с любой операционной системой), но проистекает из того, как устроен Unicode. Unicode использует унифицированную базу данных для символов CJK, которая называется Unihan. Символ (одна кодовая точка Unicode) может быть представлен разными символами в разных традициях письма.

Проблема глифа, используемого экраном / принтером / браузером для данного символа (кодовой точки), является результатом того, как разные шрифты отображают один и тот же символ Unicode на разные глифы.

Решение состоит в том, чтобы в максимально возможной степени использовать определенный шрифт, созданный для каждого языка, имея в виду, что совместно используемые или веб-документы будут отображать глифы в соответствии с локальной конфигурацией. Короче говоря, это кодовая точка Unicode в самом документе, которая не имеет значения на экране.

Если вам действительно нужно убедиться, что используется определенный глиф, у вас должен быть способ заблокировать или встроить нужный шрифт в документ или приложение.

Из FAQ по Unicode:

Стандарт Unicode предназначен для кодирования символов, а не глифов ...

В подавляющем большинстве случаев, когда ханьский символ пишется по-разному в разных локалях, читатели из одной локали распознают форму, используемую в другой; во всех случаях эксперты со всей Восточной Азии признали бы фундаментальное единство характера ...

Бывают случаи, когда встречаются единые символы, типичный китайский глиф и типичный японский глиф достаточно различимы, чтобы китайский глиф был незнаком для типичного читателя, например, U + 76F4. Чтобы избежать проблем с читаемостью для японских читателей, рекомендуется использовать шрифт в японском стиле при представлении текста Unihan японским читателям.

Хань Унификация предназначена для сохранения разборчивости. Документы, как правило, могут быть просто отображены шрифтом, выбранным пользователем. Если необходимо провести различие в стиле (например, глифы в китайском стиле и в японском стиле в том же документе), соответствующие шрифты должны быть применены к конкретному тексту по мере необходимости.

Из-за ограничений в существующих шрифтах может случиться так, что редкий кандзи будет отображаться с использованием глифа в китайском стиле, где предпочтительным является глиф в японском стиле. Это проблема шрифта, а не проблема кодировки символов, и та же проблема может возникнуть с другими стандартами кодировки символов.

0
ответ дан 11 April 2013 в 12:28

Другие вопросы по тегам:

Похожие вопросы: