TadaoYamaokaの日記

山岡忠夫 Home で公開しているプログラムの開発ネタを中心に書いていきます。

英語の論文を翻訳する際のTips

機械学習を勉強している際に必ずぶち当たるのが英語の壁である。
有用な論文のほとんどは英語で書かれているのだ。

無料で読める論文は
arXiv.org e-Print archive
で公開されていることが多い。

例えば、以下の論文などを無料で読むことができる。
<物体検出>

<word2vec、doc2vec>

日本語の情報は、Qiitaなどで個人レベルで解説しているサイトはあるが、解説が中途半端だったりして、結局直接論文を読んだ方が理解できる場合もある。

英語のレベルが低いと読むのに苦労するが、Google翻訳ディープラーニングにより精度が向上したことで、ほぼ読解に困らないレベルで翻訳できるようになった。

新しいGoogle翻訳(GNMT)は、全てのGoogleのサービスで対応しているわけではなく、例えばGoogleドキュメントの翻訳機能では古いエンジンが使用されているようである。

最近Cloud Translation APIがGNMTに対応したしたので、これを使えばある程度翻訳作業が自動化できそうであるが、ここでは手作業で、ブラウザのGoogle翻訳を使用して翻訳する際に、作業効率を上げる方法について紹介する。

翻訳手順

arXiv.orgなど入手できる論文はPDF形式であることが多い。
PDFから英文をコピーして、ブラウザのGoogle翻訳に張り付けると以下の問題が発生する。

  • 行末で改行されてしまう
  • 行末で単語がハイフネーションされていると誤訳される
  • et al.(論文の筆者のその他の意味)がピリオドと解釈される
  • ページをまたがる文の間に注釈やフッターが含まれる

これらは手作業で修正が必要である。
コピーしたテキストをテキストエディタに張り付けて加工してもよいが、GoogleドキュメントでPDFをGoogleドキュメントに変換すると、行末で改行されずに段落が一つにつながる。
また、章節が太字になるので、テキストエディタで一括で変換した場合より構造が把握しやすい。

PDFをGoogleドキュメントに変換するには、GoogleドライブにPDFファイルをドロップして、PDFファイルを右クリックして、アプリで開く→Googleドキュメントで変換できる。

Googleドキュメントで開いた後、置換機能を使って、上記のハイフネーションなどを取り除く加工をしてから、Google翻訳に段落単位でコピー&ペーストし、翻訳文を段落の下に張り付けていくと、後から英文と翻訳文がを対比して見やすい。
ただし、ブラウザのGoogle翻訳で直接見た方が、単語を選択して意味を確認したり、発音を確認できたりするので、併用しながら解釈していくのがおすすめである。

英文中に引用文献を()で記述されていると、誤訳する場合が多いので貼り付ける際に取り除いた方がよい。

また、数式・表は崩れて変換されるので、Acrobatのスナップショット機能で図としてコピーし、貼り付けていくとよい。
図も削除されるので、PDFからコピーして図として貼り付けるとよい。