You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

566 lines
12 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE supplementalData SYSTEM "../../common/dtd/ldmlSupplemental.dtd">
<!--
Copyright © 1991-2013 Unicode, Inc.
CLDR data files are interpreted according to the LDML specification (http://unicode.org/reports/tr35/)
For terms of use, see http://www.unicode.org/copyright.html
-->
<supplementalData>
<version number="$Revision$"/>
<transforms>
<transform source="es_FONIPA" target="zh" direction="forward" alias="zh-t-es-fonipa">
<tRule><![CDATA[
# Tranforms Spanish to Mandarin Chinese. The input Spanish string must be in
# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese.
$word_boundary = [-\ $];
$vowel = [aeijouw]; # Vowels and glides
$not_vowel = [^$vowel];
# First pass: Collapse phonetic distinctions not preserved in Mandarin.
ð → | d;
ɣ → | g;
ŋ → | n;
θ → | s;
ɾ → | r;
ff → f ;
kk → k ;
mm → m ;
nn → n ;
pp → p ;
tt → t ;
tʧ → ʧ ;
aa → a ;
oi̯ → oi ;
oo → o ;
uu → u ;
[^dgktx] { ei̯ → e ;
[^-\ .$] { eu̯ → eu ;
[^-\ .$] { ou̯ → o;
[^j] { ui → wi ;
[^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2
s[θs] → s; # GB/T 17693.5-2009, 5.3.4
[^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7
::Null;
j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8
# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if
# it was <u> plus <ai>. This is not borne out by the observed data, which
# suggests that <ua> plus <i> is the more appropriate choice in some
# situations.
[g.$] { wai̯ → wai ;
wai̯ → uai̯ ;
[g.$] { wau̯ → wau ;
wau̯ → uau̯ ;
jau̯ → iau̯ ;
# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one.
[^jw] { ao } [^n] → au̯ ;
[^jw] { ao } n $vowel → au̯ ;
# Main pass: Phoneme to Hanzi conversion.
# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted.
::Null;
'.' → ;
ai̯ → 艾 ;
an } $not_vowel → 安 ;
au̯ → 奥 ;
a → 阿 ;
bai̯ → 拜 ;
ban } $not_vowel → 班 ;
bau̯ → 包 ;
ba → 巴 ;
ben } $not_vowel → 本 ;
be → 贝 ;
bin } $not_vowel → 宾 ;
bi → 比 ;
bja → 比亚 ;
bjen } $not_vowel → 比恩 ;
bje → 别 ;
bju → 比乌 ;
bon } $not_vowel → 邦 ;
bo → 博 ;
bun } $not_vowel → 本 ;
bu → 布 ;
bwan } $not_vowel → 布安 ;
bwa → 布阿 ;
bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1.
bwe → 布埃 ;
bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data.
bwi → 布伊 ;
bwo → 博 ;
b → 布 ;
βai̯ → 瓦伊 ;
βan } $not_vowel → 万 ;
βau̯ → 沃 ;
βa → 瓦 ;
βen } $not_vowel → 文 ;
βe → 韦 ;
βin } $not_vowel → 温 ;
βi → 维 ;
βja → 维亚 ;
βjen } $not_vowel → 维恩 ;
βje → 维耶 ;
βju → 维乌 ;
βon } $not_vowel → 翁 ;
βo → 沃 ;
βun } $not_vowel → 文 ;
βu → 武 ;
βwan } $not_vowel → 万 ;
βwa → 瓦 ;
βwen } $not_vowel → 文 ;
βwe → 武埃 ;
βwi → 维 ;
βwo → 沃 ;
β → 夫 ;
dai̯ → 代 ;
dan } $not_vowel → 丹 ;
dau̯ → 道 ;
da → 达 ;
dei̯ → 代 ;
den } $not_vowel → 登 ;
de → 德 ;
din } $not_vowel → 丁 ;
di → 迪 ;
dja → 迪亚 ;
djen } $not_vowel → 迪恩 ;
dje → 迭 ;
dju → 迪乌 ;
don } $not_vowel → 东 ;
do → 多 ;
dun } $not_vowel → 敦 ;
du → 杜 ;
dwan } $not_vowel → 端 ;
dwa → 杜阿 ;
dwen } $not_vowel → 敦 ;
dwe → 杜埃 ;
dwi → 杜伊 ;
dwo → 多 ;
d } $word_boundary → ;
d → 德 ;
ei̯ → 埃 ;
en } $not_vowel → 恩 ;
eu̯ → 欧 ;
e → 埃 ;
fai̯ → 法伊 ;
fan } $not_vowel → 凡 ;
fau̯ → 福 ;
fa → 法 ;
fe → 费 ;
fin } $not_vowel → 芬 ;
fi → 菲 ;
fja → 菲亚 ;
fjen } $not_vowel → 菲恩 ;
fje → 菲耶 ;
fju → 菲乌 ;
fon } $not_vowel → 丰 ;
fo → 福 ;
fun } $not_vowel → 丰 ;
fu → 富 ;
fwan } $not_vowel → 富安 ;
fwa → 富阿 ;
fwen } $not_vowel → 丰 ;
fwe → 富埃 ;
fwi → 富伊 ;
fwo → 福 ;
# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the
# data suggest otherwise. Ideally, 弗 should occur at the beginning of a
# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since
# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of
# a word and 弗 everywhere else.
f } $word_boundary → 夫 ;
f → 弗 ;
gai̯ → 盖 ;
gan } $not_vowel → 甘 ;
gau̯ → 高 ;
ga → 加 ;
gei̯ → 盖 ;
gen } $not_vowel → 根 ;
ge → 格 ;
gin } $not_vowel → 金 ;
gi → 吉 ;
gja → 吉亚 ;
gjen } $not_vowel → 吉恩 ;
gje → 吉耶 ;
gju → 吉乌 ;
gon } $not_vowel → 贡 ;
go → 戈 ;
gun } $not_vowel → 贡 ;
gu → 古 ;
gwan } [$] → 古安 ; # Nonstandard, but fits observed data.
gwan } $not_vowel → 关 ;
gwa → 瓜 ;
gwen } $not_vowel → 古恩 ;
gwe → 圭 ;
gwi → 圭 ;
gwo → 果 ;
g → 格 ;
in } $not_vowel → 因 ;
i → 伊 ;
ʝai̯ → 亚伊 ;
ʝan } $not_vowel → 扬 ;
ʝau̯ → 尧 ;
ʝa → 亚 ;
ʝen } $not_vowel → 延 ;
ʝe → 耶 ;
ʝin } $not_vowel → 因 ;
ʝi → 伊 ;
ʝon } $not_vowel → 永 ;
ʝo → 约 ;
ʝun } $not_vowel → 云 ;
ʝu → 尤 ;
ʝwan } $not_vowel → 元 ;
ʝwa → 尤阿 ;
ʝwen } $not_vowel → 云 ;
ʝwe → 尤埃 ;
ʝwi → 尤伊 ;
ʝwo → 约 ;
ʝ → 伊 ;
kai̯ → 凯 ;
kan } $not_vowel → 坎 ;
kau̯ → 考 ;
ka → 卡 ;
kei̯ → 凯 ;
ken } $not_vowel → 肯 ;
ke → 克 ;
kin } $not_vowel → 金 ;
ki → 基 ;
kja → 基亚 ;
kjen } $not_vowel → 基恩 ;
kje → 基耶 ;
kju → 基乌 ;
kon } $not_vowel → 孔 ;
ko → 科 ;
kun } $not_vowel → 昆 ;
ku → 库 ;
kwan } $not_vowel → 宽 ;
kwa → 夸 ;
kwen } $not_vowel → 昆 ;
kwe → 库埃 ;
kwin } $not_vowel → 昆 ;
kwi → 奎 ;
kwo → 阔 ;
k → 克 ;
lae } [^n] → 莱 ;
lai̯ → 莱 ;
lan } $not_vowel → 兰 ;
lau̯ → 劳 ;
la → 拉 ;
len } $not_vowel → 伦 ;
le → 莱 ;
lin } $not_vowel → 林 ;
li → 利 ;
lja → 利亚 ;
ljen } $not_vowel → 连 ;
lje → 列 ;
lju → 柳 ;
lon } $not_vowel → 隆 ;
lo → 洛 ;
lun } $not_vowel → 伦 ;
lu → 卢 ;
lwan } $not_vowel → 卢安 ;
lwa → 卢阿 ;
lwen } $not_vowel → 伦 ;
lwe → 卢埃 ;
lwi → 卢伊 ;
lwo → 洛 ;
l → 尔 ;
ʎan } $not_vowel → 良 ;
ʎau̯ → 廖 ;
ʎa → 利亚 ;
ʎen } $not_vowel → 连 ;
ʎe → 列 ;
ʎin } $not_vowel → 林 ;
ʎi → 利 ;
ʎon } $not_vowel → 利翁 ;
ʎo → 略 ;
ʎu → 柳 ;
ʎwan } $not_vowel → 柳安 ;
ʎwa → 柳阿 ;
ʎwen } $not_vowel → 柳恩 ;
ʎwe → 柳埃 ;
ʎwi → 柳伊 ;
ʎwo → 略 ;
ʎ → 尔 ;
mai̯ → 迈 ;
man } $not_vowel → 曼 ;
martin → 马丁 ;
mau̯ → 毛 ;
ma → 马 ;
men } $not_vowel → 门 ;
me → 梅 ;
min } $not_vowel → 明 ;
mi → 米 ;
mja → 米亚 ;
mjen } $not_vowel → 缅 ;
mje → 米耶 ;
mju → 缪 ;
mon } $not_vowel → 蒙 ;
mo → 莫 ;
mun } $not_vowel → 蒙 ;
mu → 穆 ;
mwan } $not_vowel → 穆安 ;
mwa → 穆阿 ;
mwen } $not_vowel → 门 ;
mwe → 穆埃 ;
mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data.
mwi → 穆伊 ;
mwo → 莫 ;
m → 姆 ;
nai̯ → 奈 ;
nan } $not_vowel → 南 ;
nau̯ → 瑙 ;
na → 纳 ;
nen } $not_vowel → 嫩 ;
ne → 内 ;
nin } $not_vowel → 宁 ;
ni → 尼 ;
nja → 尼亚 ;
njen } $not_vowel → 年 ;
nje → 涅 ;
nju → 纽 ;
non } $not_vowel → 农 ;
no → 诺 ;
nun } $not_vowel → 嫩 ;
nu → 努 ;
nwan } $not_vowel → 努安 ;
nwa → 努阿 ;
nwen } $not_vowel → 农 ;
nwe → 努埃 ;
nwi → 努伊 ;
nwo → 诺 ;
n → 恩 ;
ɲan } $not_vowel → 尼扬 ;
ɲau̯ → 尼奥 ;
ɲa → 尼亚 ;
ɲen } $not_vowel → 年 ;
ɲe → 涅 ;
ɲin } $not_vowel → 宁 ;
ɲi → 尼 ;
ɲon } $not_vowel → 尼翁 ;
ɲo → 尼奥 ;
ɲu → 纽 ;
ɲwan } $not_vowel → 纽安 ;
ɲwa → 纽阿 ;
ɲwen } $not_vowel → 纽恩 ;
ɲwe → 纽埃 ;
ɲwi → 纽伊 ;
ɲwo → 尼奥 ;
on } $not_vowel → 翁 ;
ou̯ → 欧 ;
o → 奥 ;
pai̯ → 派 ;
pan } $not_vowel → 潘 ;
pau̯ → 保 ;
pa → 帕 ;
pen } $not_vowel → 彭 ;
pe → 佩 ;
pin } $not_vowel → 平 ;
pi → 皮 ;
pja → 皮亚 ;
pjen } $not_vowel → 皮恩 ;
pje → 彼 ;
pju → 皮乌 ;
pon } $not_vowel → 蓬 ;
po → 波 ;
pun } $not_vowel → 蓬 ;
pu → 普 ;
pwan } $not_vowel → 普安 ;
pwa → 普阿 ;
pwen } $not_vowel → 蓬 ;
pwe → 普埃 ;
pwi → 普伊 ;
pwo → 波 ;
p → 普 ;
rai̯ → 赖 ;
ran } $not_vowel → 兰 ;
rau̯ → 劳 ;
ra → 拉 ;
ren } $not_vowel → 伦 ;
re → 雷 ;
rin } $not_vowel → 林 ;
ri → 里 ;
rja → 里亚 ;
rjen } $not_vowel → 连 ;
rje → 列 ;
rju → 留 ;
ron } $not_vowel → 龙 ;
ro → 罗 ;
run } $not_vowel → 伦 ;
ru → 鲁 ;
rwan } $not_vowel → 鲁安 ;
rwa → 鲁阿 ;
rwen } $not_vowel → 伦 ;
rwe → 鲁埃 ;
rwi → 鲁伊 ;
rwo → 罗 ;
r → R ;
sai̯ → 赛 ;
san } $not_vowel → 桑 ;
sau̯ → 绍 ;
sa → 萨 ;
sen } $not_vowel → 森 ;
se → 塞 ;
sin } $not_vowel → 辛 ;
si → 西 ;
sja → 西亚 ;
sjen } $not_vowel → 先 ;
sje → 谢 ;
sju → 休 ;
son } $not_vowel → 松 ;
so → 索 ;
sun } $not_vowel → 孙 ;
su → 苏 ;
swan } $not_vowel → 苏安 ;
swa → 苏阿 ;
swen } $not_vowel → 孙 ;
swe → 苏埃 ;
swi → 绥 ;
swo → 索 ;
s → 斯 ;
tai̯ → 泰 ;
tan } $not_vowel → 坦 ;
tau̯ → 陶 ;
ta → 塔 ;
tei̯ → 泰 ;
ten } $not_vowel → 滕 ;
te → 特 ;
tin } $not_vowel → 廷 ;
ti → 蒂 ;
tja → 蒂亚 ;
tjen } $not_vowel → 蒂恩 ;
tje → 铁 ;
tju → 蒂乌 ;
ton } $not_vowel → 通 ;
to → 托 ;
# The rules for /ts/ (tz in the orthography) are nonstandard and derived
# entirely from the observed data. They apply mostly to native toponyms
# in Mexico.
tsa → 察 ;
tsen } $not_vowel → 岑 ;
tse → 采 ;
tsin } $not_vowel → 钦 ;
tsi → 齐 ;
tso → 措 ;
tsun } $not_vowel → 聪 ;
tsu → 楚 ;
ts → 茨 ;
tun } $not_vowel → 通 ;
tu → 图 ;
twan } $not_vowel → 图安 ;
twa → 图阿 ;
twen } $not_vowel → 通 ;
twe → 图埃 ;
twi → 图伊 ;
two → 托 ;
t → 特 ;
ʧai̯ → 柴 ;
ʧan } $not_vowel → 钱 ;
ʧau̯ → 乔 ;
ʧa → 查 ;
ʧen } $not_vowel → 琴 ;
ʧe → 切 ;
ʧin } $not_vowel → 钦 ;
ʧi → 奇 ;
ʧjan } $not_vowel → 钱 ;
ʧja → 恰 ;
ʧjen } $not_vowel → 钱 ;
ʧje → 切 ;
ʧjon } $not_vowel → 琼 ;
ʧju → 丘 ;
ʧon } $not_vowel → 琼 ;
ʧo → 乔 ;
ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1.
ʧu → 丘 ;
ʧwan } $not_vowel → 丘安 ;
ʧwa → 丘阿 ;
ʧwen } $not_vowel → 琼 ;
ʧwe → 丘埃 ;
ʧwi → 崔 ;
ʧwo → 乔 ;
ʧ → 奇 ;
un } $not_vowel → 温 ;
u → 乌 ;
wan } $not_vowel → 万 ;
wa → 瓦 ;
wen } $not_vowel → 温 ;
we → 韦 ;
win } $not_vowel → 温 ;
wi → 维 ;
won } $not_vowel → 翁 ; # Unseen.
wo → 沃 ;
xai̯ → 海 ;
xan } $not_vowel → 汉 ;
xau̯ → 豪 ;
xa → 哈 ;
xei̯ → 黑 ;
xen } $not_vowel → 亨 ;
xe → 赫 ;
xin } $not_vowel → 欣 ;
xi → 希 ;
xja → 希亚 ;
xjen } $not_vowel → 希恩 ;
xje → 希耶 ;
xju → 休 ;
xon } $not_vowel → 洪 ;
xo → 霍 ;
xun } $not_vowel → 洪 ;
xu → 胡 ;
xwan } $not_vowel → 胡安 ;
xwa → 华 ;
xwen } $not_vowel → 洪 ;
xwe → 胡埃 ;
xwi → 惠 ;
xwo → 霍 ;
x → 赫 ;
# 尔 simplification pass. The idea is to drop most occurences of 尔
# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/
# sound nearby. There is a vague pattern like this in the data, but the details
# remain to be determined. At the moment, this does nothing, it just puts 尔 in
# for every <r> in a syllable coda.
::Null;
$r = [R利拉];
#
#
# R } . $r → ;
# R } .. $r → ;
# R } ... $r → ;
# R } .... $r → ;
R → 尔 ;
# Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing
# characters at the beginning and end of a word.
::Null;
$word_boundary { 东 → 栋 ;
$word_boundary { 南 → 楠 ;
$word_boundary { 西 → 锡 ;
海 } $word_boundary → 亥 ;
::NFC;
]]></tRule>
</transform>
</transforms>
</supplementalData>