Скільки у китайській мові ієрогліфів? Цифра варіюється в залежності від ситуації. Цікаві факти про китайську мову Прогалини між китайськими ієрогліфами

У продовженні розмови про складну китайську писемність давайте подивимося, чому англійська така проста. Уявіть завдання, яке постає перед середнім дорослим китайцем, який вирішив вивчити англійську. Що йому потрібно, щоб упоратися з писемністю? Всього 26 букв (звичайно, малі і великі, і рукописний шрифт, і кілька варіантів написань. І ще лапки, апострофи, тире, дужки і т.д. - але це все є і в самих китайців). Як ми пишемо ці літери? Зліва направо. По горизонталі. З пробілами між словами. Якщо поки що залишити осторонь орфографію, то скільки часу потрібно китайцю, щоб освоїти англійську писемність? День чи два.

А тепер зворотна ситуація: американський студент, який вирішив вивчати китайську. Що йому потрібно? Алфавіту немає, хоча, звичайно, є елементи, що повторюються, з яких складаються ієрогліфи. А скільки таких елементів? Краще не питайте. Як і для багатьох інших питань про китайську мову, чіткої втішної відповіді немає. Це залежить від того, як ви визначаєте слово «елемент» (характеристика? Ключ?) та від інших подробиць. Досить сказати, що їх багато, значно більше, ніж 26. А поєднання цих елементів? Ліворуч від інших елементів, праворуч від них, зверху, навколо, всередині – можливо практично все. А під час свого переміщення у просторі елементи змінюються: сплющуються, розтягуються, стискуються, скорочуються, спотворюються – щоб поміститися у виділений простір. Можна сміливо сказати, що з елементів китайської писемності два виміри, тоді як в алфавітної писемності – лише одне.

Навіть якщо ми не згадуватимемо про красу написання, скільки буде потрібно європейцеві або американцеві часу на освоєння китайської писемності, щоб, побачивши новий ієрогліф, вони знали, як його можна хоча б написати, щоб результат їхньої роботи був хоча б схожий на прототип? І знову на це питання важко відповісти. За моїми оцінками – кілька місяців наполегливої ​​роботи потрібно на освоєння основ. Якщо у людини погано з малюванням – то рік чи більше. А в цей час їхні китайські суперники, які вивчають англійську, вже перейшли до рукописних шрифтів. І в них залишився час на те, щоб прочитати «Мобі Дік» чи ще щось.

Звісно, ​​алфавіт спрощує життя. Мої знайомі китайці, які вивчали англійську кілька років, можуть писати рукописним шрифтом так, що їхній почерк не можна відрізнити від почерку середнього американця. І в той же час одиниці американців здатні написати ієрогліф, який не буде схожим на незграбну роботу третьокласника-китайця. Навіть якби в китайському не було більше нічого складного, одна лише необхідність писати ієрогліфи зробила б його однією з найскладніших мов світу.

Багато учасників іспиту вважають, що за розділовими знаками та загальним виглядом тексту можна не стежити, тому що це, мовляв, не впливає на бали. Проте давайте згадаємо, що письмову частину перевіряє людина зі своєю суб'єктивною оцінкою, а чи не комп'ютер. Дослідження показали, що гарний зовнішній вигляд твору і правильне вживання розділових знаків показує екзаменатору ваш високий рівень мови і може додати від 2 до 10 балів.

Гарний зовнішній вигляд - це, в першу чергу, правильний поділ на абзаци та виділення заголовків.
Якщо ви вирішите написати заголовок, він повинен бути посередині першого рядка. Якщо захочете підписатися — підписуємося ми або в кінці тексту, або відразу під заголовком.
Текст обов'язково ділити на абзаци, роблячи відступ у дві клітинки . Кожна нова думка = новий абзац!

Які у нас вимоги до розділових знаків?

Давайте пригадаємо, які розділові знаки в китайському, взагалі, є.

1) Точка, 句号 (.) передає паузу після закінчення фрази.

2) Кома, 逗号 (,) передає паузу всередині фрази, поки все як у нас.

3) Капляста кома , 顿号 (、) ставиться під час перерахування, між однорідними членами пропозиції.
Наприклад,

  • 我喜欢吃西瓜、苹果、香蕉。 - Я люблю кавуни, яблука, банани.

4) Крапка з комою 分号 (;) передає паузу між частинами складносурядного речення.

5) Знак питання 问号 (?) — пауза після закінчення запитання.

6) Знак оклику 感叹号 (!) - Пауза після закінчення фрази, що передає сильні почуття, може використовуватися і просто після слів, що не утворюють речення.

7) Двокрапка 冒号 (:) означає перехід до нижченаведеного тексту (наприклад, у листі після звернення до адресата).

8) Кавички 引号 (“……” чи ‘……’) оточують цитату, особливі найменування чи частини, які необхідно особливо підкреслити.
Також можуть, як і російською, мати переносний зміст і передавати сарказм або заперечення:

  • 你的那个“最好的朋友”刚把你的钱包拿走了!- Цей твій «найкращий друг» щойно потяг у тебе гаманець.

Лапки з одного елемента використовуються, коли всередині цитати треба використовувати лапки ще раз.

9) І ще раз лапки, цього разу 书名号 (《……》).
Як відомо з назви, такими лапками оточуються назви книг, статей, пісень, фільмів тощо, згадані у тексті. Відвикаємо від російського використання будь-якого виду лапок і хвіст і гриву і відокремлюємо 书名号 від 引号.
До речі, у 书名号 також є варіант із однієї дужки. Наприклад, коли ми згадуємо "статтю", в назві якої є назва<книги>.

  • 我刚看完了一篇文章叫《莫言小说〈酒国〉中的后现代特征》。— Я щойно дочитав статтю під назвою «Особливості постмодернізму в «Країні вина» Мо Яня».

10) Багатоточка 略号 (……) Саме так, воно складається з шести точок і займає аж дві клітинкиу тексті!
Висловлює воно, що у тексті опущений якийсь уривок, чи нерішучість, щось неясне і нечітке.

11) Тире 破折号 (--).
Як ми знаємо, дефісу в китайському немає (тобто наше «3-4» писатиметься як 三四个, а «китайсько-російський» — 汉俄). Натомість є слово «один, 1», і щоб не сплутати з ним, тире займає дві клітинки.
Тіре означає, що нижче буде пояснення до того, що написано зверху(У російській ми в такому випадку поставимо двокрапку!).

12) Ну і дужки, власне, (……) означають коментар усередині тексту.

Просто ставити крапку десь у куточку – поганий підхід.
У китайському розділові знаки займають цілу клітину.
Багатокрапка і тире займають дві цілі клітини.
Всі розділові знаки з одного елемента (крапки, коми, двокрапки, до них і закривають лапки і дужки) не можуть стояти першими в рядку, а лапка або дужка, що відкриває, не може стояти останньої в рядку.

Звичайно, є й інші способи вживання розділових знаків, але вони зустрічаються більше в художніх текстах, а значить, у тесті вам не знадобляться!

p.s. Якщо ви здаєте з 3 по 5 рівні, звертайте особливу увагу, що в завданні «складайте зі слів пропозицію» в кінці обов'язково треба поставити розділовий знак (крапку, знак оклику або знак запитання). Інакше вам можуть понизити бал.

16

Я хотів би зробити MySQL повнотекстового пошуку роботи з японським та китайським текстом, а також з будь-якою іншою мовою. Проблема в тому, що ці мови і, можливо, інші зазвичай не мають прогалин між словами. Пошук не корисний, коли ви повинні ввести ту ж пропозицію, що й у тексті.

Я не можу просто поставити прогалину між кожним персонажем, тому що англійська теж повинна працювати. Я хотів би вирішити цю проблему з PHP або MySQL.

Чи можу я налаштувати MySQL для розпізнавання символів, які мають бути власними індексами? Чи є модуль PHP, який може розпізнавати ці символи, щоб я міг просто викинути прогалини навколо індексу?

Часткове рішення:

$string_with_spaces = preg_replace("/[".json_decode(""u4e00")."-".json_decode("uface")."]/", " $0 ", $string_without_spaces);

Це робить клас символів з принаймні деякі з персонажів мені потрібно лікувати спеціально. Я маю, мабуть, згадати, допустимо пропустити індексований текст.

Хто знає всі діапазони символів, які мені потрібно буде вставляти в пробі?

Крім того, повинен бути найкращий, переносимий спосіб представлення цих символів у PHP? Вихідний код Literal Unicode не ідеальний; Я не впізнаю всіх персонажів; вони можуть не відображатися на всіх машинах, які я маю використовувати.

3

Інші сучасні мови, які не використовують прогалини між словами тайська, Лао, кхмерська (камбоджійська), та бірманська (М'янма). В'єтнамською мовою існує пов'язана з цим проблема, що прогалини використовуються між усіма складами, за винятком іноземних слів. - hippietrail 18 груд. 10 2010-12-18 12:48:10

  • 2 відповіді
  • Сортування:

    Активність

15

Слово порушення для мов, згаданих вимагають лінгвістичного підходу наприклад, той, який використовує словникпоряд з розумінням основного правил, що випливають.

Я чув про відносно успішні програми повнотекстового пошуку, які просто поділяють кожен окремий символ як окреме слово китайською мовою, просто застосовуючи ту ж «токенізацію» критеріїв пошуку, що надаються кінцевими користувачами. Потім пошукова система забезпечує найкращий рейтинг для документів, які забезпечують символи-слова в тому ж порядку, що й критерії пошуку. Я не впевнений, що це може бути поширене такими мовами, як японська, оскільки набори символів Хіракана та Катагани роблять текст більш схожим на європейські мови з коротким алфавітом.

EDIT:
Ресурси
Це слово ламати проблеми, а також пов'язані з ними питання, так нетривіальноющо цілі книги написані про це. Див. Наприклад, CJKV Information Processing (CJKV означає китайську, японську, корейську та в'єтнамську мови, ви також можете використовувати ключове слово CJK, оскільки в багатьох текстах в'єтнамська мова не обговорюється). Також Word Breaking in Japanese is hard для одного пейджера на цю тему.
Зрозуміло, що більшість матеріалів, що охоплюють цю тему, написані однією з основних мов рідною мовою і тому обмежені для людей без відносного володіння цими мовами. З цієї причини, а також щоб допомогти вам перевірити систему пошуку, як тільки ви почнете впроваджувати логіку переривання слова, вам слід звернутися за допомогою до носія або двох носіїв.

Різні ідеї
Ваша ідея ідентифікуючих ознак, які систематично мають на увазі слово розірвати(Скажімо, цитати, круглі дужки, дефіс, як символи та такі) добре, і це, ймовірно, один евристичний використовується деякими з професійні розриви слів. Тим не менш, ви повинні шукати авторитетне джерело для такого списку, а не збирати його з нуля, виходячи з анекдотичних висновків.
Споріднена ідея полягає в тому, щоб розбити слова на Kana-до-кандзі переходи(але я припускаю, що не навпаки), і, можливо, у хірагани-до-катаканчи навпаки переходів.
Незв'язаний зі зламаним правильним, індекс може [-або не може- ;-)] отримувати вигоду від систематичного перетворення кожного, скажімо, характеру хірагани, у відповідний характер катакана. Просто неосвічена ідея! Я не знаю достатньо про японську мову, щоб знати, чи це допоможе; інтуїтивно, це було б слабко пов'язане із систематичною конверсією підкреслених літер і, таким чином, у відповідний не акцентований лист, як це практикується кількома європейськими мовами.

Можливо, ідея, про яку я згадував раніше, систематично індексувати індивідуальний характер (і ранжувати результати пошуку на основі їх наближення за критерієм пошуку) може бути трохи змінена, наприклад, зберігаючи послідовні символи кани разом, а потім деякі інші правила... і створити недосконалу, але досить практичну пошукову систему.

Не розчаровуйтеся, якщо це не так... Як зазначено, це далеко не тривіально, і це може заощадити вам час та гроші в довгостроковій перспективі, зробивши паузу та прочитавши книгу чи дві. Ще одна причина, щоб спробувати дізнатися більше про «теорію» та передовий досвід, є те, що в даний момент ви, здається, зосереджені на слова порушення , але найближчим часом, пошукова система також може отримати вигоду з що випливають свідомість ; дійсно, ці два питання принаймні пов'язані з лінгвістикою, і можуть бути корисні при обробці в тандемі.

Успіхів вам у цьому неприємному, але гідному прагненні.

0

@Joe: Ласкаво просимо. У мене, схоже, інтерес до лінгвістики та НЛП, але дуже, дуже мало знань, характерних для мов CJK. Прочитайте моє редагування, додавши кілька ключових слів та онлайн-посилань, які можуть допомогти вашому пошуку. - mjv 22 жовт. 09

Розділові знаки - невід'ємна частина будь-якої мови. Звичайна кома може кардинально змінити значення пропозиції: досить згадати історію з «Скарати не можна помилувати». А робота перекладачів та редакторів передбачає, що вони вільно орієнтуються як мінімум у двох пунктуаційних системах.

Ідея цієї посади народилася, коли ми обговорювали переклад статті. У вихідному матеріалі знак відсотка відокремлювався пробілом від числа, і це кинулося в очі - в російському тексті в такому випадку пробіл не використовується (хоча, все ж таки твердження спірне - фахівці так і не дійшли єдиної думки з цього питання). Тоді ми вирішили, що це треба розповісти. Фахівці відділу багатомовної локалізації опитали наших закордонних колег та підготували матеріал, яким тепер ділимося з вами. Сподіваємось, він виявиться корисним.

На початку та наприкінці
Давайте подивимося, як справи з розстановкою розділових знаків у реченні: крапок, ком, двокрапок, крапок з комою, знаки питання й оклику.

Про російську мову, сподіваємося, всі пам'ятають - розділові знаки, які відокремлюють пропозиції один від одного, ставляться тільки в кінці, і крапка. Якщо потрібно додати експресії (особливо в особистому листуванні), використовуються поєднання знаків - "!!!", "?!" і тому подібне. В англійській, німецькій, італійській, французькій канадській, арабській та португальській бразильській мовах точки, багатокрапки та їхні товариші живуть за такими правилами.

Інші правила у французькому: перед двокрапкою, точкою з комою, знаком оклику і знаками питання ставляться нерозривні прогалини.

Іспанська мова - єдина в нашій добірці, в якій розділові знаки обрамляють речення: на початку фрази дублюються знаки питання і оклику в «злегка» перевернутому вигляді - «¿» і «¡».

Найнезвичайніший з погляду європейця підхід до розділових знаків у китайців. Їх точка виглядає як ., кома - як ,, знак оклику - !, а запитальний -?. У пропозиції вони поводяться подібно до російських побратимів, єдина відмінність - китайці не ставлять прогалини, оскільки всі пунктуаційні символи двобайтові. Набраний на клавіатурі ієрогліф вдвічі ширший за будь-яку букву латинського алфавіту. Тому і розділові знаки зазвичай займають такий же простір, що і ієрогліф. З цією особливістю зіткнулися ті, хто працював у старих IME під управлінням DOS, коли неправильно введений ієрогліф забирався двома натисканнями Backspace. В основному прогалини використовуються при відділенні слів та знаків з інших мов, наприклад, англійської.

Милі риси
У російській використовуються або дефіс, або тире. Дефіс - короткий, необхідний переносу і з'єднання складових слів. Тирі значно довші; воно служить поділу смислових елементів: різних речень, двох частин однієї пропозиції, у діалогах тощо. Згадати всі тонкощі вживання цих знаків можна, зазирнувши до підручника російської.

На схожих умовах дефіси та тире існують в англійській, німецькій, французькій та португальській бразильській мовах. При цьому в американському англійському тирі відокремлюється з двох сторін пробілами, а в британському зазвичай немає:

Література – ​​хто є третім на цій тарілці цього місяця – буде включати фахівців з різних країн. (American English)

Зоо мав великий кіт-ліонів, panthers, tigers, jaguars і geetahs-яких вивчається, як favourite дуже difficult. (British English)


В іспанській, італійській та арабській дефіси та тирі виглядають однаково: «-». Китайці взагалі не використовують дефіси – у них є лише тире. Хоча поруч із літерами з латинського алфавіту можуть стояти і дефіси, і довгі, і середні тире. Дефіс - короткий, необхідний переносу і з'єднання складових слів. Тирі значно довші; воно служить для поділу смислових частин
Мови Дефіс Довге тире (Alt 0151)
Українська
Англійська американська Так, для перенесення та з'єднання складових слів Так, для поділу смислових частин: різних речень, двох частин однієї пропозиції, у діалогах тощо.
Англійська
британський
Так, для перенесення та з'єднання складових слів Так, для поділу смислових частин: різних речень, двох частин однієї пропозиції, у діалогах тощо. Не відокремлюється пробілами із двох сторін.
Німецька Так, для перенесення та з'єднання складових слів Так, для поділу смислових частин: різних речень, двох частин однієї пропозиції, у діалогах тощо.
Французька Так, для перенесення та з'єднання складових слів Так, для поділу смислових частин: різних речень, двох частин однієї пропозиції, у діалогах тощо.
Французька канадська Так, для перенесення та з'єднання складових слів Так, для поділу смислових частин: різних речень, двох частин однієї пропозиції, у діалогах тощо.
Іспанська Так, у всіх випадках -
Португальська
бразильський
Так, для перенесення та з'єднання складових слів Так, для поділу смислових частин: різних речень, двох частин однієї пропозиції, у діалогах тощо.
Італійська Так, у всіх випадках -
Арабська Так, у всіх випадках -
Китайська Лише по сусідству з літерами з латинського алфавіту Так, у всіх випадках
Парний вигляд листа

Лапки існують у всіх мовах, але виглядають, як і національні костюми, по-різному. У російській мові живуть як традиційні "ялинки", що прийшли з французької, так і німецькі "лапки", які використовуються у фразі всередині лапок і при листі від руки. В іспанській, португальській бразильській, італійській та арабській ставляться "подвійні" лапки.

Англійці використовують “одинарні” та “подвійні” лапки: перші – для оформлення заголовків, другі – при цитуванні. Крапки і коми знаходяться всередині лапок. У французькому тексті мешкають «ялинки», з однією відмінністю від російської: між початком цитованого тексту і відкритою лапкою ставиться нерозривна прогалина, як і між кінцем фрази і лапкою, що закриває.

У китайській мові вживаються три види лапок, які служать для різних цілей. Ось у "такі" укладають назви книг, фільмів та інших авторських творів. Для решти випадків китайці використовують "такі". Лапки з європейської традиції (чи то «ялинки», „лапки“, „одиночні” чи „подвійні”) можна зустріти тільки в перекладах або в сусідстві з фразами з європейських мов. У традиційній китайській мові вони не набули популярності.

Лапки існують у всіх мовах, але виглядають, як і національні костюми, по-різному.

Мови «…» „…“ “…” ‘…’ 《…》 「…」
Українська Стандарт, точки та коми зовні Альтернативні у фразі всередині лапок і при листі від руки Альтернативні під час листа від руки - - -
Англійська
американський
- - Стандарт для заголовків - -
Англійська
британський
- - Стандарт при цитуванні, крапки та коми всередині Стандарт для заголовків - -
Німецька - Стандарт - - - -
Французька Стандарт, нерозривний пробіл перед лапками, що відкриває і закриває - - - - -
Іспанська - - Стандарт - - -
Португальська
бразильський
- - Стандарт - - -
Італійська - - Стандарт - - -
Арабська - - Стандарт - - -
Китайська Лише у перекладах чи у сусідстві з фразами з європейських мов Лише у перекладах чи у сусідстві з фразами з європейських мов Лише у перекладах чи у сусідстві з фразами з європейських мов Стандарт для назв книг, фільмів та інших авторських творів Стандарт для решти випадків
Символізм
Відсотки та проміле теж не відрізняються особливою стандартністю. У німецькій, французькій та іспанській мовах потрібно відокремлювати ці знаки нерозривними пробілами. А в російській, англійській, італійській, арабській та португальській бразильській писати відразу після числа. Хоча з російською, як ми пам'ятаємо, ситуація неоднозначна.

Градуси та дюйми зазвичай розташовуються після числа без жодних прогалин.

Цікавий факт: коли французи пишуть великі числа, вони поділяють пробілами блоки з трьох цифр – наприклад: 987654321,12.

У китайців є свої символи для позначення градусів (в) і відсотків (100% і 100%). Однак нарівні з ними використовуються і звичні ° та % без прогалин перед ними.

Встановлюємо діалог
Оформлення діалогів також відрізняється від мови до мови. У російській перед кожною реплікою ми ставимо довге тире. Носії португальської бразильської чинять аналогічно.

В англійській мові використовуються "подвійні" та "одинарні" лапки, наприклад:

'Here is a million pounds,' said Marina, handing Simon a suitcase.

Marina continued: 'I spoke with Ivan and he said, “Simon is asking for ten million, but that is too much.”'


У німецькій мові діалоги також оформляються за допомогою традиційних лапок – „лапок“. Французи ставлять «ялинки», а як і короткі тире у випадках, коли змінюється автор репліки. Частини діалогу відбиваються короткими тире та іспанською мовою.

В італійській та арабській для діалогів використовуються подвійні прямі лапки.

Китайці зазвичай поміщають у свої діалоги лише "лапки" або їхній англійський "аналог".

Велика чи маленька

В англійській, французькій, іспанській, португальській бразильській та італійській мовах все просто і звично для носіїв російської - великі літери використовуються на початку речень, для абревіатур та власних назв.

Німецька мова набагато веселіша. З великої літери пишуться іменники, імена та назви, ввічлива форма звернення (Sie) у всіх відмінкових формах (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren). Велику літеру отримують прикметники, причастя та інфінітиви, які використовуються в реченні як іменники у поєднанні з певним (das Gute) або невизначеним (ein Lächeln) артиклем, прийменником (in Blau), займенником (dein Stottern), чисельним (nichts Aufregendes) прикметником у формі, що схиляється (lautes Sprechen). Всього-навсього:-)

В арабському алфавіті не розрізняються малі і великі, зате більшість літер має по два, три або чотири різні написання: для початку, середини і кінця слова, а іноді і для окремої літери поза словом. Схожа ситуація склалася в китайській мові - навряд чи вдасться виділити малі або великі ієрогліфи. І якщо китайським авторам потрібно виділити якусь частину тексту, то її підкреслюють або використовують напівжирне зображення.

Бонус
Цікаво, що багато опитаних нами носіїв європейських мов відзначили, що вони використовують великі літери за тими самими правилами, які існують в англійській, але не в такій кількості. Одна із опитаних колег сформулювала це так:
WE TRY NOT TO CAPITALIZE TOO MUCH.

Цікаво, що це означало б? ;-)