本日、X上でChoimiraiのSangminさんからDify上でのJinaAIを用いてのPDFの読み込みの方法をシェアされていたので、私が使いやすいようにやってみた。
このブログのテーマ
1, PDF論文を『全体』で要約する場合と『パラグラフ毎』で要約する場合の2つの場合を作成した。
これは論文を読む際に、全体の意味もわかっておくのはもちろんだが、最近の生物系の論文ではデータ量が多すぎて、一論文に一つの新しい発見というわけではないからである。自分で読む際も『パラグラフ毎』の要約があった方が読みやすいと感じている。
そして、
2, このJinaAIを試している際の課題が見つかったのでその報告
使用する論文は時々このブログでも使用している2022年のNatureからの論文
この論文には
Human–mouse gonadal atlas, TFs modulating germ cell differentiation, Somatic cells during sex determination…とパラグラフが存在している。
しかし、ChatGPTに各パラグラフごとの要約をお願いしてもこのように返ってきていた。
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.35.59-1003x1024.png)
おそらくプロンプトを工夫したらちゃんとした結果が返ってくるのではあるのだろうが、どうしたらいいのかわからなかった。結局全体の要約ではないか、、と
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.24.45-1024x300.png)
このようにHTTP RequestでJinaReaderを使ってflowの中にimportする
![](https://hilablife.blog/wp-content/uploads/2024/07/image.png)
こうするだけで、JinaReader経由でURL上のPDFを読み込むことができます。
Difyは自分である程度、おかしいところを見ることができるので、修正がしやすい。
JinaAI経由で引っ張ってきた論文のtextがどのようになっているのかを確認し、該当のParagraphがどのように構成されるのかを自分でチェックすればいい。
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.40.58-518x1024.png)
tracingでこの赤矢印のところがparagraphのタイトルとして表示されることが理解できれば、ここを起点に『全体で要約させるパターン』と『Paragraph毎に要約させるパターンを作ることができる』
Startでは論文のPDFが見れるURLとsummarizeする方法(全体要約かParagraph要約か)を指定する。
要約の仕方の分岐を置くことで選択が可能になる(Question Classifierで)
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.24.02-538x1024.png)
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.18.56-1024x454.png)
このようなBlockを作成し、要約する文字数もこちらで設定できるので、便利!
確かに全体の要約がなされているのが分かります。
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.24.10-533x1024.png)
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.19.51-1024x519.png)
今回に場合、summarize it between “\n\n##” and “\n\n”がキーワードとなります。
こうすれば、論文の段落ごとの要約ができます。
今回の論文を実際にJinaAIのHTTPでどのように表現されているのかをブラウザのURLに入れてみるとこのような結果が返ってきました。
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.22.47-1024x570.png)
そのため、上記のようなちゃんとした応答が可能でした。
しかし、一方で、他の雑誌(今のところCell系が使えない)だとこのような結果が返ってくる場合もあります。
![](https://hilablife.blog/wp-content/uploads/2024/05/Screenshot-2024-05-31-at-23.23.10-1024x204.png)
さらに、下のような結果をHTTP requestで返された場合、LLMで適当な返答が返されるので、注意が必要です。
JinaAIを用いた方法で、論文を要約するためのworkflowを作成しました。
一部注意するところがありますが、活用できそうで期待です。
参考になれば幸いです。
Difyの記事一覧に戻る場合はこちら
![](https://hilablife.blog/wp-content/uploads/2024/05/IMG_1146-160x160.jpg)