philomena/lib/philomena/scrapers/twitter.ex

defmodule Philomena.Scrapers.Twitter do
  @url_regex ~r|\Ahttps?://(?:mobile\.)?twitter.com/([A-Za-z\d_]+)/status/([\d]+)/?|

  @spec can_handle?(URI.t(), String.t()) :: true | false
  def can_handle?(_uri, url) do
    String.match?(url, @url_regex)
  end

  def scrape(_uri, url) do
    [user, status_id] = Regex.run(@url_regex, url, capture: :all_but_first)

    api_url = "https://api.fxtwitter.com/#{user}/status/#{status_id}"
    {:ok, %Tesla.Env{status: 200, body: body}} = Philomena.Http.get(api_url)

    json = Jason.decode!(body)

    images =
      Enum.map(json["tweet"]["media"]["photos"], fn p ->
        %{
          url: large_format(p["url"]),
          camo_url: Camo.Image.image_url(p["url"])
        }
      end)

    %{
      source_url: "https://twitter.com/#{user}/status/#{status_id}",
      author_name: user,
      images: images
    }
  end

  defp large_format(str) do
    String.replace_suffix(str, ".jpg", "?format=jpg&name=large")
  end
end
add scrapers 2019-11-28 18:12:10 +01:00			`defmodule Philomena.Scrapers.Twitter do`
			`@url_regex ~r\|\Ahttps?://(?:mobile\.)?twitter.com/([A-Za-z\d_]+)/status/([\d]+)/?\|`

			`@spec can_handle?(URI.t(), String.t()) :: true \| false`
			`def can_handle?(_uri, url) do`
			`String.match?(url, @url_regex)`
			`end`

			`def scrape(_uri, url) do`
			`[user, status_id] = Regex.run(@url_regex, url, capture: :all_but_first)`

Things have not improved since this scraper was written 2024-03-07 15:09:50 +01:00			`api_url = "https://api.fxtwitter.com/#{user}/status/#{status_id}"`
			`{:ok, %Tesla.Env{status: 200, body: body}} = Philomena.Http.get(api_url)`
add scrapers 2019-11-28 18:12:10 +01:00
Things have not improved since this scraper was written 2024-03-07 15:09:50 +01:00			`json = Jason.decode!(body)`

			`images =`
			`Enum.map(json["tweet"]["media"]["photos"], fn p ->`
			`%{`
			`url: large_format(p["url"]),`
			`camo_url: Camo.Image.image_url(p["url"])`
			`}`
			`end)`
add scrapers 2019-11-28 18:12:10 +01:00
switch to maintained twitter scraper implementation (#187) 2024-03-04 16:57:37 +01:00			`%{`
			`source_url: "https://twitter.com/#{user}/status/#{status_id}",`
			`author_name: user,`
Things have not improved since this scraper was written 2024-03-07 15:09:50 +01:00			`images: images`
switch to maintained twitter scraper implementation (#187) 2024-03-04 16:57:37 +01:00			`}`
add scrapers 2019-11-28 18:12:10 +01:00			`end`
Things have not improved since this scraper was written 2024-03-07 15:09:50 +01:00
			`defp large_format(str) do`
			`String.replace_suffix(str, ".jpg", "?format=jpg&name=large")`
			`end`
various scraper fixes 2019-12-19 00:51:02 +01:00			`end`