順番学研究所のご案内

無料ブログはココログ

« 2011年11月 | トップページ | 2012年9月 »

2011年12月

2011年12月25日 (日)

書籍出版社の数理(16)――英語を日本語に翻訳すると分量はどのくらいになるか?

英語から日本語にすると分量が増えるって本当?

 たとえば、ですけれど、オバマ大統領に原稿を依頼するチャンスが回ってきたとしましょう。それを日本語に翻訳して雑誌や書籍に掲載してもよいというような話が急に来た、とします。
 でも、掲載できる紙幅は決まっているとしましょう。日本語にして4000字のスペースしかありません。その場合、オバマ大統領には、原稿を何ワードの分量で書いてもらえばいいでしょうか。
 あるいは、これから翻訳にかかってもらう英語の原稿があるとします。訳し上がりが何文字になるかは不明ですが、台割りや割り付けは先行して決めなければならないとします。大まかにでも翻訳原稿の分量に当たりをつけたいという場合、どうすればいいでしょうか。

 英語から日本語に翻訳した場合、分量がどのくらいになるのかというのは、さまざまな方面で問題になることが多いと思いますが、これについてネット上で検討した記事は見当たりません。たぶん、多くの方がこの問題で苦しんでおられるのではないでしょうか。そこで今回は、これについて考えてみます。問題をはっきりと定義すると、

「一般的に、英語の文章を日本語に訳した場合、英語の1ワードは日本語の何文字に相当するか」

ということになります。

自動翻訳の研究と、「1ワード何文字」問題の関係

 さて、ちょっと話が変わりますが、いまグーグルは、自動翻訳についての研究を進めています。自動翻訳というと、昔は、辞書や文法のルールをプログラムに打ち込む「ルールベース」のものが多かったようですが、グーグルなどの新興勢力がおこなっている自動翻訳へのアプローチはまったく異なったものです。その方法とは、とにかく原文と翻訳文を大量にコンピューターに読み込ませ、それらがどのように訳されているかを比較対照した結果を統計的に処理、その結果から、新たに与えられた文章をどのように訳すのが適切かを予測するというものです。人間が入れ込むルールは最小限にして、コンピュータに大量のデータを読み込ませることで統計上の相関を学ばせ、結果を出力させるというわけです。
 こんなことが可能になったのは、大量のデータを短時間で処理できるまでにコンピュータが進歩したからと、もうひとつは、正確に翻訳されている大量の文章が、ネット上に存在するからです。でも、その「正確に翻訳されている文章」とは、どこにあるのでしょうか?

 グーグルは自動翻訳開発のために、国連の文章を利用しています。国連の文書は、その性質上、数回のチェックを通されて、いくつかの言語に翻訳されます。必ず訳されるのは、英語、フランス語、ロシア語、中国語、スペイン語、アラビア語です。つまり、先の大戦の戦勝国と、言語使用者の人口が多くて無視できない勢力の言語に訳されるわけです。ですから、必然的に、自動翻訳もこれらの言語間ではかなりの進歩を見せていると思われます。しかし、日本語はこの業界ではマイナーな言語なのでしょう、あまり進歩していないのはグーグル先生の翻訳を見ると、よくわかります(それでも以前よりは良くなっているようにも思いますが)。

 それでも、国連では一部の文書は日本語に翻訳され、ウェブで公開されています。そして、この日本語の文章も、その性質上、幾度かのチェックを経て正確に訳されていると期待できます(しかし、日本語版には「暫定版」である旨の注記がなされてます。何か誤解が生じたときの責任は持たない、というエクスキューズでしょう)。
今回はその文章を使って、英語の1ワードが日本語の何文字にあたるのかを調べてみようと思います。

 国連の日本語広報サイトの中に、国連文書の邦訳が載っているページがあります。すべてが邦訳されているわけではありませんが、今回の調査には十分な量の文書があります。

国連文書邦訳(国連広報センター)

 ここから、いくつか文書を選択し、日本語の文字数をWord2010に数えさせました(全選択→コピー→Word2010にペースト→文字カウント。ノンブルやURLも一緒に貼り付けられてしまうが、全体の中の比率は小さいので、影響は無視できる)。同じ文書の英語版をネットから探し当て、そのワード数もおなじくWord2010に数えさせます(Word2010はスペースで分かち書きされている単位を1ワードと数える)。国連の文書には必ずコードナンバーが付いていて、対応する文書の各国語版を検索するのはそうむずかしくありません。そのようにして調べたのが、下記の表です。

                                                                                                                                                                                       
文書番号 英語ワード数 日本語文字数 文字数÷ワード数
安保理決議
PRST/2011/16 346 920 2.66
RES/1977 (2011) 2453 6213 2.53
RES/1980 (2011) 2024 5440 2.69
RES/1983 (2011) 1139 3090 2.71
RES/1990 (2011) 1255 3072 2.45
RES/1996 (2011) 3366 8180 2.43
RES/1998 (2011) 2726 6911 2.54
RES/2002 (2011) 2171 5899 2.72
RES/2003 (2011) 3244 8198 2.53
RES/2009 (2011) 2167 5346 2.47
事務総長報告書
A/63/677 17212 43242 2.51
A/55/305 45065 116213 2.58
A/59/565 46592 129201 2.77
A/59/2005 30517 72962 2.39
A/64/665 16207 41809 2.58
A/63/881 13521 37353 2.76
S/2010/498 21045 52604 2.50
A/65/354 9393 25801 2.75

合計(平均)

220443

572454

2.60

 というわけで、1ワードはだいたい2.6文字に換算できるということがわかりました。日本語総文字数が57万字ですが、だいたい、普通の新書1冊が10万字くらいですので、このくらいの分量があれば妥当な数値が導き出せると考えていいと思います。
 安保理決議とか、事務総長報告のような硬い文章での換算には問題があるのではないか、と思われる方もいらっしゃるかも知れません。でも、私自身のノンフィクション翻訳物書籍での経験からすると、この結果は妥当です。
 いかがでしょうかね。みなさまの、お役に立ちますでしょうか。

« 2011年11月 | トップページ | 2012年9月 »