入力-1


●1冊の本はさまざまな要素から成り立っています。本文だけを見ても、例えば文章にはルビ(ふりがな)や注釈があります。表組にした文章もあります。写真や挿し絵が使われている本も多数あります。
●そのうち、ここで「入力」と呼ぶのは、ルビや注釈・表組を含めたテキスト(文字)の入力です。内容の理解を図っていく上で写真や挿し絵がぜひとも必要という場合には、別途ご連絡ください。その上で、著作権の扱いや入力の処理についてご相談したいと思います。
●さて、入力です。作業にかかる前に1つだけ注意していただきたいことがあります。青空文庫は原則として、「底本のできるだけ忠実な再現」を目標に置き、「勝手な編集はしない」という点です。
●もちろん、印刷物をそのまま再現することはできません。ここで「忠実に」というのは、例えば漢字の使い方や送りがなは「底本どおりに」するということです。旧かなのテキストであれば旧かなのままに、時代によって変化の激しい送りがなについても「底本のままに入力していく」ことを大原則としてください。
●ただし旧漢字、旧かなのテキストが、私たちの多くにとって読みにくいこともまた事実です。現代表記にあらためたものがあれば、それを底本とすることで読みやすくできます。けれど、すべての作品で書き換え版が用意されているわけではありません。
●そこで、旧字、旧かなの書きあらために関しては、作業を進める上での目安を定めた上で、例外的にこれを認めることとします。自分自身で書き換えを行おうと考える人は、「旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針」にそって、対処してください。

■入力方法

●入力には、キーボードをお使いになる方が大半でしょう。その際に利用なさるアプリケーション・ソフトは、テキスト入力に使えるものであれば、どんな種類のものであってもかまいません。シンプルなテキスト・エディターであっても、ワープロ・ソフトであっても、あるいはアウトライン・プロセッサなどの特殊なエディターであっても、ご自分が使い慣れたものをお使いください。
●注意していただきたいのは、ただ1つ、「誰もがファイルを開くことのできる形式で保存する」ことだけです(→WIN版文書の保存、→MAC版文書の保存)。
●入力中は、できるだけこまめに保存してください。パソコンにはエラーがつきものです。また、停電などのトラブルもあります。適度な頻度でファイルを保存し、入力済みのデータが不意の事故で失われないようにすることが大切です。
【OCRの活用】
●書籍のページなどをスキャナーで読み込み、読み込まれた画像データを解析してテキストデータに変換するしくみを、OCR(Optical Character Reader)といいます。最近はOCRソフトの精度が向上し、テキスト入力に活用なさる方が増えてきました。OCRの活用は負担の大きい入力作業の軽減につながります。
●ただし、100%の精度で変換できるOCRソフトはありません。ソフト自体が優秀であっても、スキャニングに用いる書籍やコピーの質の問題もあります。OCRによるテキスト入力は必ずエディターなどによる修正作業をともないます。

■基本となる書式

●入力にあたり、青空文庫では下記のような独自の書式(ルール)を定めています。
1)一番最初の行には「作品名」を入れる。
2)その次の行に「著者名」を入れる。
3)ファイルの最後の部分には、「使用した底本の正式名称・底本の親本の正式名称(底本に記載がなければ省略可)・出版社・発行年月日、入力者名」を「青空文庫収録ファイルへの記載事項」の形式に沿って入れる。
4)現代表記に書き改めた場合の作業履歴、その他の注記事項などがある場合は、「青空文庫収録ファイルへの記載事項」の形式に沿って入れる。
●文庫本などではそれ自体に底本(全集など)が存在する場合があります。その場合には、「親本(底本の底本)の正式名称・出版社・発行年月日」もわかる範囲でつけ加えてください。
●テキスト・ファイル(→WIN版文書の保存、→MAC版文書の保存)では、レイアウトに関する形式まで含めて底本をそのまま再現することはできません。そのために生ずる補足事項については、下記のような「入力者注」を活用します。
【入力者注の形式】
●全体を「[]」(区点コード0146・0147、JISコード214E・214F、シフトJISコード816D・816E。キーボードから直接入力できます)でくくり、[]内の最初には井げた記号#(区点コード0184、JISコード2174、シフトJISコード8194。キーボードから直接入力できます)を入れます。(シャープ記号♯区点コード0284、JISコード2274、シフトJISコード81F2と混同しやすいので注意してください。)
●底本の何ページ、何行目にあるかを示す必要がある場合は、「数(ページ)-数(行)」の形式で示します。「-」は英文のハイフンです。
●本文中に「[]」が使われている作品の場合は、「[]→【】」などのように入力者注を表す記号を変更する必要があります。このときは、ファイルの最初の部分(本文の前)にも
   [#入力者注を表す[]は本文中に使われているので【】に変更]
と入力者注を入れます。

■入力の実際

●入力にあたっては、以下のようなルールを守ってください。
 
(1)レイアウト関連
【行頭の字下げ】
●ほとんどの書籍では、新しい段落の始まりの部分が1文字下げてあります。これはワープロ・ソフトなどでは、ふつう、「インデント設定」を用い、ルーラーや数値で指定します。しかしながら、青空文庫用のファイルではインデント設定は使わずに、段落の最初に全角のスペースを入れてください。
【引用文】
●書籍によっては、引用文が頻繁に出てくることがあります。しかも、引用文の扱いは書籍によってまちまちで、通常の段落との区別の仕方が「1字下げ」のものもあれば、「2字下げ」のものもあります。
●テキスト入力では、それをそのままに再現することはできません。そこで、かわりに引用文のはじめには[#ここから引用文、○字下げ、本文とは○行アキ]、引用文の終わりには[#ここで引用文終わり]という形の入力者注を入れてください。
【行の長さ】
●写真やイラストレーションの入った書籍では、その部分だけ行の長さが変更になっていることがよくあります。上記の引用文と同じく、このようなレイアウトは再現できませんので、無視してください。ただし、写真やイラストレーションの著作権が切れていて、それらを入れた形で登録したいという場合には[#写真入る]などの注記を入れてください。
【改行】
●底本(印刷物)は、それぞれ、固有の行の長さを基準にレイアウトが固定されています。入力の際には、「底本に合わせて、1行1行の行末に改行(リターン)を入れる」ことは絶対に避けてください。「改行は段落から段落への移り目だけに入れる」が原則です。
【表組】
●テキスト・ファイルで表組を正確に再現することはできません。簡単な表組の場合には、項目と項目との間でTABキーを押し、TABで区切って入力してください。また、複雑な表組の場合は、別途ご連絡ください。

(2)外国語
【アルファベット】
●底本中に外国語がそのまま使われている場合は、全角のアルファベットは使わずに、英文モードで入力してください。
●JRやNASAなどのように、縦書き表示されることの多い略語の場合は、和文モード(全角のアルファベット)で入力してください。
【英語以外の外国語】
●アクサン(´)が付いたフランス語のアルファベット、ウムラウト(¨)が付いたドイツ語のアルファベットなどは、異機種間の互換性がありません。通常のアルファベットを入力し、
   ae ao,ae ao,eo,aeo eo![#この行の「e」はすべてアクサン(´)付き]
のように、「底本はアクセント符号付き」であることを入力者注で示してください。(→WIN版異機種間の互換性、→MAC版異機種間の互換性

(3)数字と記号
【数字】
●1文字のアラビア数字(算数字)は全角で、2文字以上の場合は半角で(10キーを使って)入力してください。
●底本の表記が「一九九八年」のような漢数字の場合は、そのまま漢数字で入力してください。
【記号】
●「(」、「)」、「,」、「.」、「・」などは、すべて和文モードで入力してください。これらはすべてキーボードから直接入力できます。
【特殊記号】
●WindowsのMSIMEやATOK、MacintoshのことえりやATOKの文字パレット(→WIN版文字パレットの表示、→MAC版文字パレットの活用)にある「ローマ数字」などの特殊文字は異機種間の互換性がありませんので、使用しないでください。入力時には、普通の数字などへの置き換えが必要になります。(→WIN版異機種間の互換性、→MAC版異機種間の互換性
【単位】
●「cm」や「mg」などの単位は英語の小文字として扱い、英文モードで入力してください。
●WindowsのMSIMEやATOK、MacintoshのことえりやATOKの文字パレットの「単位」の項目には全角1文字の単位記号が用意されています。これらは異機種間の互換性がありませんので、使用しないでください。(→WIN版異機種間の互換性、→MAC版異機種間の互換性
【ハイフンとダッシュ】
●記号類の多くは、英文から和文に移植されたものです。そのうち、英単語の複合語や半角数字の電話番号で使われる「-」は、原則として英文のハイフンを使用してください。
●ハイフンを少し長くした形のダッシュは、ダッシュ記号「—」(区点コード 0129、JISコード 213D、シフトJISコード815C)を使用してください。(キーボードから直接入力できるのは、線が少し短いマイナス記号です。混同しないよう注意してください。)
●印刷物でよく使われる2倍の長さ(全角2文字分)のダッシュは、上記のダッシュ記号を2つ続け、「——」と入力してください。実線についても同様です。
●ダッシュが二重になった形の記号は、等号「=」(区点コード0165、JISコード2161、シフトJISコード8181。キーボードから直接入力できます)を使用してください。
【点線】
●底本が「……」のようになっている場合は、3点リーダー「…」(区点コード0136、JISコード2144、シフトJISコード8163)を使用してください。
●底本が「‥‥」のようになっている場合は、2点リーダー「‥」(区点コード0137、JISコード2145、シフトJISコード8164)を使用してください。
●底本が「・・」のようになっている場合は、中黒「・」(区点コード0106、JISコード2126、シフトJISコード8145。キーボードから直接入力できます)を使用してください。

(4)特殊な表記
【ルビ】
●ルビは該当する熟語のあとに全角の「《》」(区点コード0152・0153、JISコード2154・2155、シフトJISコード8173・8174)でくくって入れます。(学術記号の≪≫区点コード0267・0268、JISコード2263・2264、シフトJISコード81E1・81E2と混同しやすいので注意してください。)
●例えば、底本が

の場合には、
   耳まで火照《ほて》って来る
のように入力します。ルビ自体がカタカナの場合は、カタカナで入力します。
(「半角カタカナ」はコンピュータ上だけで使用される特殊な文字種です。青空文庫のための入力では使用しないでください。)
●印刷物では、ふつう、ルビには拗促音(「っ」などの小さなかな)は使いませんが、これは活版印刷時代のなごりです。青空文庫の入力作業では、ルビにも拗促音を使用してください。ただし、拗促音を使用しない旧かなのテキストは例外とします。
●漢字の熟語が2つ以上連続し、そのあとに「《ルビ文字》」を入れただけでは、熟語とルビとの対応関係が不明確になることがあります。ルビのつかない熟語のあとにルビのつく熟語が続く場合は、
   一応|何時《いつ》もの
のように「|」(区点コード0135、JISコード2143、シフトJISコード8162。キーボードから直接入力できます)の区切りを入れてください。
●また、ルビ付きの熟語が連続する場合には、
   一応《いちおう》何時《いつ》もの
のようにルビを分割します。ただし、複合語として定着している語の場合は、
   一瀉千里《いっしゃせんり》
のように1つにまとめます。
【傍点】
●強調のために語句のわきに打つ点を、傍点といいます。傍点は、入力者注として処理してください。例えば、底本が

の場合には、
   胡麻塩おやじ[#「おやじ」に傍点]
と入力します。(→入力者注の形式
●傍点には「ヽ」の形のものだけでなく「●」の形のものも多く使われています。この場合は、「丸傍点」と記述して区別してください。また、稀には「○」「△」の形のものもあり、これについては「白丸傍点」「白三角傍点」と記述してください。印刷物によっては大きめの丸傍点が使われている場合がありますが、大きさは無視してください。
【ママ】
●作品中に「ママ」というルビがふってある文字がときどきあります。

 これは形はルビであっても意味はルビではなく、「親本(原稿)の誤植(誤字)と思われるがそのまま(ママ)にする」という注釈です。これについては、ルビではなく入力者注を用い、
   吹喋[#「喋」に「ママ」の注記]
のように入力してください。
【踊り字】
●「人々」の「々」のように同じ文字の繰り返しを表す文字を、踊り字といいます。踊り字には、右の例のように2倍の長さ(全角2文字分)のものもあります。2倍の踊り字は、JIS(→WIN版JISと外字、→MAC版JISと外字)には含まれていません。代わりに「/\」(区点コード0131・0132、JISコード213F・2140、シフトJISコード815E・815F)を入力してください。
●2倍の踊り字には濁点付きのものがあります。この場合は、間に「″」(区点コード0177、JISコード216D、シフトJISコード818D)を入れて「/″\」を入力します。
●印刷物は行の長さが固定です。そこで、「々」「ゝ」などの踊り字が行頭にくる場合には本来の漢字に置き換えて、「人々→人人」のようにされていることがよくあります。しかしながら、青空文庫の入力作業ではこの処理は無視し、「々」などに置き換えてください。
【返り点】
●引用文として漢文が用いられている場合があります。漢文につきものの「レ点」などの返り点は、入力者注を使って、
  居無レ[#「レ」は返り点]幾拜二[#「二」は返り点]中納言一[#「一」は返り点]。
のように入力してください。なお、「レ」はカタカナで代用してください。
【上付き文字、下付き文字】
●数式や元素記号などで使われる行の上部や下部に小さく入る文字は、入力者注として処理してください。例えば、「2の2乗」を表す数式は、
   22[#2つめの「2」は上付き小文字]
と入力します。また、水の元素記号は、
   H2[#「2」は下付き小文字]O
と入力します。
【伏せ字】
●第二次大戦前〜戦中など、国家による検閲が盛んに行われた時代に発行された書籍には、伏せ字が使われているものがあります。伏せ字を表す記号は、原則として全角のアスタリスク「*」(区点コード0186、JISコード2176、シフトJISコード8196)を使ってください。
●伏せ字の使用については、たいていの場合、底本にその旨の注釈があります。もしも何もふれられていない場合には、ファイルの最初の部分(本文の前)に、
 [#本文中、伏せ字は「*」で表した。]
と、入力者注を入れてください。

■どう処理すべきか迷ったとき

●世に出ている書籍の数は膨大、しかも内容は多岐にわたります。入力途中でどう処理していいか迷う場面が、きっと出てくるはずです。また、底本の文字がかけていて判読できないなどといったトラブルもありえます。処理に困ったときは、原則として「入力者注」で処理してください。(→入力者注の形式
【誤植・誤記・脱字】
●本にはしばしば誤植があります。著者の誤記と思われる表現にもぶつかります。明らかに誤植、誤記、脱字だと判断できる文字は、入力者注で処理してください。迷う場合には、原文通りに入力してください。
●例えば、「宮沢憲治」のように明らかな誤植・誤記と思われる場合は、
   宮沢賢治[#「賢治」は底本では「憲治」と誤記]
のように、正しい文字に置き換えた上で、入力者注を付けてください。
【判読不能などの場合】
●文字が判読できないなどの場合は、その文字のかわりに「※」(区点コード0208、JISコード2228、シフトJISコード81A6)を入れ、
   ※[#判読不可、30-16]
のように入力者注で処理してください。



「入力_2WIN」へ|◆「入力_2MAC」へ|◆作業マニュアル目次へ