最近ではDeepLを使って翻訳しながら論文を読むことが増えました。
そういう場合、ウェブサイト(HTML版)の論文はそのままコピペすれば翻訳できるので便利です。
かえってPDFファイルは一度テキストを抽出しないといけなくて面倒に感じることが増えてきました。
PDFの場合、テキストを抽出するときに、行ごとに改行が入るので、それも面倒です。
さらに面倒なのは、査読などの際に、行番号付きのPDFというのがあります。

こんなかんじのものです。この左端の番号がやっかいで、テキストを抽出すると、全ての行に数字が入り込みます。
ここからテキスト部分だけを抽出したいときの方法を考えました。
秀丸エディタでは正規表現を使って検索ができますので、
・改行を検索(n\)
・1~2桁の数字を抽出
・それだけだと文章内の数字も抽出してしまうので、【改行+1~2桁の数字+スペース】を検索
・ 行番号が無い行も抽出したいので、改行だけのものとOR検索
という設定を考えました。
結論から言うと、秀丸エディタで置換する際に 正規表現にチェックを入れ、
\n[0-9]{,3} |\n
と入力して置換後をスペースにするといいです。
そういう場合、ウェブサイト(HTML版)の論文はそのままコピペすれば翻訳できるので便利です。
かえってPDFファイルは一度テキストを抽出しないといけなくて面倒に感じることが増えてきました。
PDFの場合、テキストを抽出するときに、行ごとに改行が入るので、それも面倒です。
さらに面倒なのは、査読などの際に、行番号付きのPDFというのがあります。

こんなかんじのものです。この左端の番号がやっかいで、テキストを抽出すると、全ての行に数字が入り込みます。
ここからテキスト部分だけを抽出したいときの方法を考えました。
秀丸エディタでは正規表現を使って検索ができますので、
・改行を検索(n\)
・1~2桁の数字を抽出
・それだけだと文章内の数字も抽出してしまうので、【改行+1~2桁の数字+スペース】を検索
・ 行番号が無い行も抽出したいので、改行だけのものとOR検索
という設定を考えました。
結論から言うと、秀丸エディタで置換する際に 正規表現にチェックを入れ、
\n[0-9]{,3} |\n
と入力して置換後をスペースにするといいです。