rsstrans.py

back


これなに?

エキサイト翻訳を利用した RSS 自動翻訳プログラム、あるいは単なる冗談です。ご利用は自己責任で。

翻訳サンプル:

しくみ

エキサイト翻訳は HTML ページを翻訳する機能があり、しかもそのときタグを残します。 rsstrans.py ではこの機能を利用しています。まず、 RSS を HTML に変換し、 <item><title> などのタグをすべて <div id="item"><div id="title"> などに変換してやります。 つぎにこれをエキサイト翻訳へ渡し、返ってきた HTML から <div id="item"><div id="title"> を見て RSS を生成すればよいのです。

ついでに、おかしな訳文を多少ごまかす機能があります。 エキサイト翻訳では本来訳すべきではない固有名詞、たとえば "Python" を「ニシキヘビ」などと訳してしまうので、こうした単語が翻訳されないよう あらかじめ英語版に細工をしておきます。RSS 中に "Python" が現れたときには、HTML で <span id="Python">Python</span> のように変換しておけば、翻訳後もタグは残るため、<span id="Python">ニシキヘビ</span> という HTML が出たら <span> で囲まれている部分は捨て、 かわりに id 属性の文字列を使うようにすればいいのです。

この辞書は変数 DIC で定義されていますが、たんに正規表現を使って 文字列を置換しているだけなので、複数の単語からなる熟語は認識できません。

ダウンロード

つかいかた

  1. 自分のサイトで httpd を起動する。
  2. /htdocs/xxx.html に置いたファイルが、http://yourhost.example.com/xxx.html で取得できるように設定する。
  3. $ ./rsstrans.py http://lwn.net/headlines/newrss /htdocs/lwn.html http://yourhost.example.com/lwn.html > /htdocs/lwn.xml

Last Modified: Fri Apr 1 04:25:10 EST 2005 (04/01, 18:25 JST)

Yusuke Shinyama