Itemization of textbooks

目的名称：　Generation of "A Bag of True Statements" from scientific texts.(Textbooks and journal articles) 操作名称: Disruption of Discourses, Itemization of explanatory texts/narrative texts/Free text

研究の着想に至った経緯

 * 医学知識に計算機が利用できる形式表現を与える仕事をしています. 現在は約7000の標準解剖学用語（の対象概念）を標準モデル中の立体セグメントとしてポリゴンデータで表現する課題です. その中で標準人体のモデル（カノニカルモデル）の持つべき特徴を複数の教科書や図譜から把握しモデラーに渡して進めていますが複数の教科書や辞書の内容を"まとめる"ステップは難度が高く律速になっています（研究協力者）
 * 対策として教科書記述を手作業で箇条書きに変換し半自動で固有名称同定を行うなどの知識ベース化を初めていました. 　（研究協力者）


 * 分担者が例示した教科書記述の箇条書き化は文内文間照応課題が中心で自由文箇条書き変換に規則性を与えれば将来機械化可能であると考えました. （代表者）
 * 医学の言語表現は専門用語が多いが述語が少なく人間には難解でも取り出すべき意味のモデルが単純である点で今後言語処理技術の貢献が甚大な分野だと感じています. （代表者）

協力者分野の背景
 * 新しい医科学は膨大な自然文記述(文献)データと爆発的増加する分子データを照合する発見研究です
 * 衛星画像の分析官のように研究者は知識を動員してデータを読み解かねばなりません.
 * データ可視化技術の輸入の後文献データの総体を機械援助で利用する研究(知識ベース)が盛んです.
 * 知識ベースやオントロジのような研究は一般分野とかわりません.
 * 知識総体の分節を理解している専門家が宣言的に作り上げる知識の形式表現（ルール、オントロジ、グラフ）に依存します.
 * 宣言の根拠提示や形式表現間の比較や加算などが可能でなければコスト高の宣言産物は常に増大し修正を要す知識総体に追いつけず短命におわります.
 * しかし知識総体分節の表現の間で加算や減算（まとめや更新の知的作業）が困難なのは自然文による表現たる教科書や総説の場合も同じです.
 * そして圧倒的に豊富で関連付けの進んだ自然文による知識総体分節の表現に比較可能性や加算可能性を与えることがむしろ最初に挑むべき課題だと考えました.

代表者分野の背景
 * 文間照応課題は重要ですが糸口が少なくあまり研究は盛んではありません.
 * 人手で作られる照応の正解例を十分量作成することを初期目標に設定した本課題は広く正解例を共有することでほかの研究者も刺激し照応課題一般の進歩に貢献できます.
 * 既存のレールを邁進中の生命情報系よりもむしろ言語処理系分野に協力批判を浴びることが望まれます.

（参考）
 * 生命系では年間100万を超えさらる論文が作られレビューや教科書も増加増項が継続しています. PubMedで実測すべし
 * その内容は多くの専門用語を使った解析的記載が主です.
 * たとえば生物種名10万,ヒト遺伝子名称2万,解剖学用語7700,医学図書館の索引用語MeSHはxx,)　それぞれ実数を
 * 生命系には著作権切れを迎えた古典的名著やオントロジ等の形で自由に再利用可能な知識表現データと比較的豊富な辞書があります

研究期間内に何をどこまで明らかにしようとするか
代名詞を多用したり語の省略を豊富に含む電子化教科書の本文に 改行や挿入などの限られた操作を加えて文脈に依存しない単純文の集まりに変換する作業の手続きを試行錯誤的に決定します.

まず，➊ 計算機での取り扱いを可能にする知識の表現形式（Simplified Sentenceと呼ぶ）を確立する．すなわち，教科書や論文内で著者が展開するストーリー（文脈）に埋め込まれた知識群から，(i)個々の知識を切り出し，さらに (ii)文脈に依存しない形式に変換する手順を確立する．以下に変換の具体例（Henry Gray 著“Anatomy of the Human Body”）を挙げる．

オリジナル記述：

The cornea is the projecting transparent part of the external tunic, and forms the anterior sixth of the surface of the bulb.

Simplified Sentence形式への変換：

（知識1）The cornea is the projecting transparent part of the external tunic.

（知識2）The cornea forms the anterior sixth of the surface of the bulb of the eye.

手順(i)では，オリジナル記述で等位接続詞andにより繋がれている2つの知識を切り離す．次に手順(ii)で，文法的な省略，および，文脈依存による省略（下線部）を復元する．なお，これらをどう行うかについては，研究計画欄（pp.3-4）を参照されたい．

その上で，➋ 幾つかの教科書を人手作業により実際にSimplified Sentence形式に変換する．なお申請者らは既に，著作権が放棄された教科書が多数利用できることを確認済みである．さらに ➌ Simplified Sentence形式に変換された教科書を計算機上で比較するデモシステムを作成し，デモの結果を見て ➊ の変換手順を改良する．

上記に加えて，申請者らが数年前から提案し，改良を続けている自然言語処理の技術（研究業績）等を用いて，➍ 教科書や論文などの文書をSimplified Sentence形式に自動変換する（もしくは人手による変換を支援する）方法を開発する．

研究の独創性・新規性および関連研究との比較
本提案は冊子体由来のテキストを単純な操作でコンテキストに依存しない単純文の集まりにバラしてあげれば、冊子体集合として存在する知識に多くの再利用性を与えることが可能であるというアイデアの実証を行うものです. 高い再利用性には異なる冊子体の内容の比較や加算、不整合の検出などがあり、さらに単純文の表現に人為的な標準化を行うことでオントロジーや規則集などのほかの形式表現を非専門家が作成することを可能にする材料を提供できると考えています.

文書内容に高い流動性を与えるであろうという単純なアイデアを実証します.

序列や係り受けなどのDiscourseを使って"文序列"に濃縮した知識体は全体またはブロックとして対人間伝達性には富むものの、抽出や再編による形式変更や知識体間の比較や加算などの演算は受け付けません.

オントロジーやエキスパートシステムなどで表現された知識も相互の比較や加算や差分の検出などが困難で発展性や更新性が問題視されています.

従って本課題で試作する"Bag of Sentence"は、知識体から要素知識を解放し"無数の電子文書集合" の次の知識の形を提案するものです.

科学知識に機械が利用できる表現を与えようとする時代には

科学技術知識は本来常に付加的に増加しまた部分的に修正や改変をうけます. また用途によって版の更新、シノプシス化、辞書作成、など知識の表現間の変換や更新を受けて読み物の形に圧縮されると文はコンテキストから離れては意味を担えません.

オントロジーやルール集など様々な形式で知識を表現する試みが盛んであるがすべてはエキスパートによる表現（宣言）で作られている. エキスパート依存の宣言産物は首尾一貫性や更新容易性に問題があり、また産物間で比較や結合などの操作ができないなどの問題があり、その未来は約束されていない.

本課題は書き物を一度コンテキストに依存しない文の集まり"Bag of Facts"にすることで、書物の形に閉じ込められた知識の持つ

知識を計算機で取り扱い可能な形式で表現する取り組みとして，（Tim Berners-Lee提唱による）セマンティックウェブがよく知られている．RDFおよびオントロジーを土台とし，知識は概念の3項関係を基本単位として表現される．しかし，セマンティックウェブが実際に使われているのは，既に知識が個別に明確に切り分けられたドメインであり，例えばニュース記事配信の更新情報および見出し管理のためのRSSや，既存データベースの再構築等に，その応用先は限られてきた．本研究課題が目標とする，自然言語テキストからの知識の個別切り出しが可能になれば，これまで見出し等に限定的だった自然言語テキストに対するセマンティックウェブ技術の適用範囲を，記述内容の詳細にまで拡大できると将来的に見込まれる．

本研究課題は，「経験マイニング」（研究業績）とも関連がある．広くウェブテキスト（主にブログ）に散在する商品購入やトラブル解決等にともなう個人の経験をテキストから抽出し，計算機で検索可能なデータベースを作成する．本研究がこのプロジェクトと異なる最大の点は，本研究が対象とするライフサイエンス分野の知識は，客観性が確保されやすいことである．例えば解剖学においては，どの人体の構造も同一であることを前提に，知識は組み立てられる．従って，本研究が行う，知識のSimplified Sentence形式への変換は，それが正当であるか否かを客観的に評価できる．これは研究遂行のために重要なことである．

研究の意義と有用性
これまで“読む”ことしかできなかった教科書の新しい利用法を開発し，教科書内に閉じ込められていた知識の流動性を上げるところに本研究の意義がある．また，本研究が対象とするライフサイエンス分野は，社会的に重要度の高いドメインである．

Related works
NANO-PUBLICATION