「JATSの〈emphasis〉タグと〈semantic〉タグ提案による構造化規定の国際化」中西秀彦(2016年12月 秋季研究発表会)

Eメール 印刷 PDF

JATSの〈emphasis〉タグと〈semantic〉タグ提案による構造化規定の国際化


中西秀彦
(中西印刷株式会社・学術情報XML推進協議会)


XMLとJATS

 XMLは文書の構造化記述のために幅広く使われている規格である。文書は構造化することで,文書の中でタイトル・サブタイトル・本文などの別を明確にされ,読む側の文書の理解や,機械での処理を容易にする。JATSはJournal Article Tag Suiteの略であり,学術雑誌を記述するためのXMLスキーマ言語である。現在,NISO規格(NISO Z39.96-2015.)となっており,世界中の多くのオンラインジャーナルプラットホームが学術論文をJATSで記載することを求めている。

JATSの多言語化と日本からの提案

 JATSは元々米国医学図書館(National Library of Medicine NLM)で策定された英語記述用の規格NLM DTDを汎用化したものである。JATSとして規格化される際,多言語対応がなされ英語以外の言語にも拡張された。その後,日本からの提案を受け,ふりがな記述を可能にした〈ruby〉tagや年号表記を可能にした〈era〉tagが追加されて現在はバージョン1.1となっている。
 ただし,日本語表記に必要として提案していた傍点(圏点)エレメントは採用されなかった。これは明らかなラテン文字を使用する言語を優先した発想といわざるをえない。ラテン文字の強調表現である〈bold〉や〈italic〉がエレメントとして採用されているからである。これらを日本語で使わないわけではないが,それはラテン文字を使用する言語の影響をうけたからであり,本来の日本語表記に太字,あるは斜体というような強調表現はない。
 もちろん,国際化を担保するために,すべての言語・文字体系の表記・表現を認めていたのではエレメントが無限に増殖してしまい,実用的ではないのも事実である。また,元々JATSは構造化のための規定であって,表現そのものは重要視していない。

汎用〈emphasis〉エレメント提案

 学術情報XML推進協議会では,JATS Standing Committeeに対して,汎用の〈emphasis〉エレメントを提案することとし,2016年8月31日に提案書を提出,正式に受理された。〈emphasis〉エレメントは個々の表現を規定する物ではなく「強調」しているという構造を表記しているエレメントである。細かい表現のためにAttributeとしてstyle-typeを設けて,言語ごとの強調表現を指定することもできる。たとえば,italicはこの記法では,
〈emphasis style-type="italic"〉Z. mays〈/emphasis〉
となり,〈emphasis〉エレメントの一属性としてあらわすことができる。たとえば,これが自動翻訳された場合は,〈emphasis〉tagで指定された言葉はそれぞれの言語にふさわしい強調表現スタイル,英語であればbold,日本語であれば傍点に切り替えて表記されることになる。

〈semantic〉エレメント提案

 ただ〈bold〉や〈italic〉を強調という構造としてのみとらえたのでは,特別な意味づけを失うことになる。たとえば〈italic〉とすることで,属名(生物学)をあらわすという例である。しかし,これは本来,〈italic〉という記述上の表現にすぎなかったものに「意味」を持たせているのであって,これは正確には意味をtagで表記すべきである。特に国際化にあたっては,それぞれの「意味」を明確にしておかないと,多言語間の意思疎通や,書誌情報の共通化に支障が出ると考えられる。そこで,〈bold〉や〈italic〉の「意味」タグとしての役割を解体し,〈semantic〉というエレメントの提案を行った。
 〈semantic〉を用いることで,今まで〈bold〉や〈italic〉で曖昧にしか表現されてこなかった,文書中の特殊な意味を持つ単語を明確にすることができ,また多言語環境にあっては,それぞれの言語にふさわしい表現を与えることができる。

結 語

 国際化にあたって,日本のみが特殊であり,表現においてガラパゴス化することはやむを得ないという態度は許されない。それでは全世界の情報網の中から日本のみが取り残されてしまう。いかに世界の中に日本語文献というものを世界の表現形式の中で認めさせるかがこれからの課題といえるだろう。